如何在Python中找到平均值、中位数和众数？

均值、中位数和众数是统计学的基本主题。您可以使用Python来轻松计算它们，可以选择使用外部库也可以不使用。

这三个是对于数据集的主要测量方法。中心趋势让我们知道数据集的“正常”或“平均”值。如果您刚开始学习统计学，这是适合您的教程。

通过本教程，您将会：

理解均值、中位数和众数的概念
能够在Python中创建自己的均值、中位数和众数函数
利用Python的statistics模块快速开始使用这些测量方法

如果您想要以下练习的可下载版本，请随时查看GitHub repository.

让我们来看看计算均值、中位数和众数的不同方法。

在Python中计算均值

算术平均数是中心趋势的最常用测量方法。

请记住，中心趋势是一组数据的典型值。

数据集是一组数据的集合，因此在Python中，数据集可以是以下任何内置数据结构：

列表、元组和集合：对象的集合
字符串：字符的集合
字典：键值对的集合

注意：虽然Python中还有其他数据结构，比如queues或stacks，但我们只使用内置的数据结构。

我们可以通过将数据集的所有值相加，然后将结果除以值的数量来计算均值。例如，如果我们有以下数字列表：

[1, 2, 3, 4, 5, 6]

均值为3.5，因为列表的总和是21，长度为6。21除以6等于3.5。您可以使用以下计算来执行此计算：

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21

在本教程中，我们将使用一个篮球队的球员作为样本数据。

创建自定义均值函数

让我们首先计算篮球队球员的平均年龄。篮球队的名字将是“Pythonic Machines”。

pythonic_machine_ages = [19, 22, 34, 26, 32, 30, 24, 24]

def mean(dataset):
    return sum(dataset) / len(dataset)

print(mean(pythonic_machine_ages))

对这段代码进行解析：

“pythonic_machine_ages”是一个包含篮球运动员年龄的列表
我们定义了一个mean()函数，它返回给定数据集的总和除以数据集的长度
- sum()函数返回可迭代对象的值的总和，例如列表。尝试将数据集作为参数传递给它，它将返回211
- len()函数返回可迭代对象的长度，如果将数据集传递给它，您将得到8
我们将篮球队的年龄传递给mean()函数，并打印结果。

如果您检查输出，您将得到：

26.375
# 因为 211 / 8 = 26.375

此输出表示篮球队球员的平均年龄。请注意，该数字不在数据集中，但精确描述了大多数球员的年龄。

使用Python统计模块中的mean()函数

计算中心趋势的测量方法是大多数开发者常见的操作。这是因为Python的统计模块提供了多种函数来计算它们，以及其他基本的统计主题。

由于它是Python standard library的一部分，所以您不需要安装任何外部包。PIP。

以下是您使用此模块的方法：

from statistics import mean

pythonic_machine_ages = [19, 22, 34, 26, 32, 30, 24, 24]

print(mean(pythonic_machine_ages))

在上面的代码中，您只需要从statistics 模块中导入mean()函数，并将数据集作为参数传递给它。这将返回与我们在上一节中定义的自定义函数相同的结果：

26.375

现在您已经清楚mean的概念了，让我们继续median的测量。

在Python中找到中位数

median是排序数据集的中间值。它被用于提供一个确定的population的“典型”值。

在编程中，我们可以将中位数定义为将序列分为两部分的值-下半部分和上半部分。

要计算中位数，首先我们需要对数据集进行排序。我们可以使用sorting algorithms或使用内置函数sorted()来完成这一步。第二步是确定数据集的长度是奇数还是偶数。根据这一点，我们将进行以下一些处理：

奇数：中位数是数据集的中间值
偶数：中位数是两个中间值之和除以二

继续使用我们的篮球队数据集，让我们计算球员的中位数身高（以厘米为单位）：

[181, 187, 196, 196, 198,  203, 207, 211, 215]
# 由于数据集是奇数，我们选择中间值
median = 198

如您所见，由于数据集的长度是奇数，因此我们可以将中间值作为中位数。然而，如果有一个球员刚刚退役，会发生什么呢？

我们需要计算将数据集的两个中间值作为中位数

[181, 187, 196, 198, 203, 207, 211, 215] 
# 我们选择两个中间值，并将其除以2
median = (198 + 203) / 2
median = 200.5

创建自定义中位数函数

让我们将上述概念实现为Python函数。

记住我们需要遵循以下三个步骤来获取数据集的中位数：

对数据集进行排序：我们可以使用sorted()函数来完成这个步骤
确定奇数还是偶数：我们可以通过获得数据集的长度并使用模运算符（%）来完成这一步
根据每种情况返回中位数：
- 奇数：返回中间值
- 偶数：返回两个中间值的平均值
这将得到以下函数：
```
pythonic_machines_heights = [181, 187, 196, 196, 198, 203, 207, 211, 215]
after_retirement = [181, 187, 196, 198, 203, 207, 211, 215]

def median(dataset):
    data = sorted(dataset)
    index = len(data) // 2
    
    # 如果数据集是奇数
    if len(dataset) % 2 != 0:
        return data[index]
    
    # 如果数据集是偶数
    return (data[index - 1] + data[index]) / 2
```
打印我们数据集的结果：
```
print(median(pythonic_machines_heights))
print(median(after_retirement))
```
输出：
```
198
200.5
```
请注意，我们在函数开始处创建了一个指向已排序数据库的data变量。虽然上面的列表是排序的，但我们想要创建一个可重复使用的函数，因此每次调用函数时都需要对数据集进行排序。

索引存储数据集的中间值或上中值，使用整数除法运算符。例如，如果我们传递“pythonic_machine_heights”列表，它将具有值4。

请记住，在Python中，序列索引从零开始，这是因为我们能够返回列表的中间索引，使用整数除法。

然后，我们通过将模运算的结果与任何非零值进行比较来检查数据集的长度是否为奇数。如果条件为真，则返回中间元素，例如使用“pythonic_machine_heights”列表：
```
>>> pythonic_machine_heights[4]
# 198
```
另一方面，如果数据集是偶数，则返回中间值之和除以二。注意，data[index -1] 给出了数据集的较低中点，而data[index] 提供了数据集的较高中点。

使用Python统计模块中的median()函数

这种方法更简单，因为我们使用了statistics模块中已经存在的函数。

个人而言，如果有人已经为我定义好了某个东西，我会使用它，因为这符合不重复自己（DRY）的原则（在这种情况下，不重复别人的代码）。

您可以使用以下代码计算前面数据集的中位数：
```
from statistics import median

pythonic_machines_heights = [181, 187, 196, 196, 198, 203, 207, 211, 215]
after_retirement = [181, 187, 196, 198, 203, 207, 211, 215]

print(median(pythonic_machines_heights))
print(median(after_retirement))
```
输出：
```
198
200.5
```
计算Python中的众数

众数是数据集中出现次数最多的值。我们可以将其视为学校的“流行”群体，可能代表所有学生的标准。

众数的一个示例可以是技术商店的日销售额。该数据集的众数将是特定日销售最高的产品。
```
['laptop', 'desktop', 'smartphone', 'laptop', 'laptop', 'headphones']
```
正如您所看到的，上述数据集的众数是“laptop”，因为它是列表中出现频率最高的值。

有关众数的有趣之处在于，数据集不一定是数值型的。例如，我们可以使用字符串进行计算。

让我们分析另一天的销售情况：
```
['mouse', 'camera', 'headphones', 'usb', 'headphones', 'mouse']
```
上述数据集有两个众数：“mouse”和“headphones”，因为两者的频率都为2。这意味着它是一个多模态数据集。

如果在数据集中找不到众数，像下面这样：
```
['usb', 'camera', 'smartphone', 'laptop', 'TV']
```
这被称为无模态数据集，基本上意味着数据集中没有众数。

现在您对众数的概念有了一个简单的理解，让我们在Python中计算它。

创建自定义的众数函数

我们可以将值的频率视为键值对，换句话说，一个频率字典。

回顾一下篮球的类比，我们可以使用两个数据集来进行计算：每场比赛的得分和一些球员的球鞋赞助。

要找到众数，首先我们需要创建一个频率字典，其中包含数据集中出现的每个值，然后获取最大频率，并返回具有该频率的所有元素。

让我们将其转化为代码：

points_per_game = [3, 15, 23, 42, 30, 10, 10, 12] sponsorship = [‘nike', ‘adidas', ‘nike', ‘jordan',
‘jordan', ‘rebook', ‘under-armour', ‘adidas']
def mode(dataset):
frequency = {}

for value in dataset:
frequency[value] = frequency.get(value, 0) + 1

most_frequent = max(frequency.values())

modes = [key for key, value in frequency.items()
if value == most_frequent]
return modes

print(mode(points_per_game))
print(mode(sponsorship))

Output:
[10] [‘nike', ‘adidas', ‘jordan']
As you can see, the first print statement gave us a single mode, while the second returned multiple modes.

Explaining deeper the code above:

We declare a frequency dictionary
We iterate over the dataset to create a “frequency” – the statistical term for a set of counters (or frequencies) –
If the key is found in the dictionary then, it adds one to the value
If it's not found we create a key-value pair with a value of one
The most_frequent variable stores – ironically – the biggest value (not key) of the frequency dictionary
We return the “modes” variable which consists of all the keys in the frequency dictionary with the most frequency.

Note how important is variable naming to write readable code.

Using mode() and multimode() from the Python Statistic Module

Once again the statistics module provides us a quick way to do basic statistics operations.

We can use two functions: mode() and multimode().

from statistics import mode, multimode

points_per_game = [3, 15, 23, 42, 30, 10, 10, 12] sponsorship = [‘nike', ‘adidas', ‘nike', ‘jordan',
‘jordan', ‘rebook', ‘under-armour', ‘adidas']
The code above imports both functions and define the datasets we've been working with.

Here comes the little difference: The mode() function returns the first mode it encounters, while multimode() returns a list with the most frequent values in the dataset.

multimode()

print(mode(points_per_game))
print(mode(sponsorship))

Output:

10
nike

Note: In Python 3.8 or greater the mode() function returns the first mode it found. If you have an older version you'll get a StatisticsError.

Using the multimode() function:

print(multimode(points_per_game))
print(multimode(sponsorship))

Output:
[10] [‘nike', ‘adidas', ‘jordan']
To Sum Up

Congratulations! If you followed so far, you learned how to calculate the mean, median, and mode, the main central tendency measurements.

Although you can define your custom functions to find mean, median, and mode, it's recommended to use the statistics module, since it's part of the standard library and you need to install nothing to start using it.

Next, read a friendly introduction to data visualization.

Related

工具

11个适用于小型和大型组织的最佳付费和免费网络诊断工具

By姚伟斌 December 16, 2023September 12, 2023

你是否曾经遇到过互联网断开、局域网（lan）或广域网（wan）故障？此类事件的主要原因是网络设备故障或网络带宽延迟。网络故障或延迟会导致销售额大量损失或对公司的信任丧失，或者造成很多不满意的用户。为了解决这些中断和故障，组织使用网络诊断工具监控网络设备和基础架构。该工具可以提前发出警报，以便管理员可以采取必要的措施来预防灾难。网络诊断工具旨在扫描、分析和识别网络基础设施中的阻塞，并在错误发生之前发送警告。这些工具往往可以减少诸如网络管理、网络维护、故障排除、性能优化等繁琐任务。本文讨论了一些关于网络诊断的常见问题，并介绍了十个最佳网络诊断工具、其特点、最适合的市场以及其定价结构。网络诊断常见问题 #1. 有哪些命令行网络诊断实用工具？有许多用于网络诊断的命令行实用工具。以下是使用频率最高的五个工具： ping：用于检查网络中的数据包丢失和延迟。 tracert：如果想知道源节点和目标节点之间有多少跳/网络设备可用于网络，则可以使用tracert。它用于查找网络中的路由问题。 ipconfig：如果想要检查主机的ip地址（ip4/ip6）、默认网关、dns名称等信息，则可以使用ipconfig。该命令行工具将显示丢弃的数据包和从网络接口流动的流量大小。 netstat：它有助于查找哪些端口是打开的，哪些端口正在监听。从安全角度来看，这对于找出是否有任何端口受到攻击者的攻击非常有帮助。 scanner：在大型网络中，如果想要查找重复的ip地址或不适当的ip分配给设备，则这个工具在完成此任务中将发挥关键作用。 nmap：用于对网络设备进行ping操作，发送数据包以查找主机详细信息，如端口、操作系统版本等。这些收集到的信息可以集成到其他工具中，以查找连接问题和漏洞。 #2….

如何在Python中找到平均值、中位数和众数？

在Python中计算均值

创建自定义均值函数

使用Python统计模块中的mean()函数

在Python中找到中位数

创建自定义中位数函数

使用Python统计模块中的median()函数

计算Python中的众数

创建自定义的众数函数

Related

11个适用于小型和大型组织的最佳付费和免费网络诊断工具

9个云计算中的挑战和风险以及预防策略。

什么是Ring安全系统，为什么您需要它？

Terraform初学者指南 – Terraform教程

14 最佳Google Stadia控制器购买

9个最佳外联软件以提高收入和参与度

在Python中计算 均值

创建自定义均值函数

使用Python统计模块中的mean()函数

在Python中找到中位数

创建自定义中位数函数

使用Python统计模块中的median()函数

计算Python中的众数

创建自定义的众数函数

Related

Similar Posts

在Python中计算均值