工具

这就是为什么Pandas是最受欢迎的Python数据分析库

By姚伟斌 December 3, 2023September 12, 2023

pandas是python中最受欢迎的数据分析库。它被数据分析师、数据科学家和机器学习工程师广泛使用。

与numpy一起，它是任何与数据和人工智能工作的人必须了解的库和工具之一。

在本文中，我们将探讨pandas以及使其在数据生态系统中如此受欢迎的特性。

pandas是什么？

pandas是一个用于python的数据分析库。这意味着它用于在python代码内部处理和操作数据。使用pandas，您可以高效地读取、操作、可视化、分析和存储数据。

名称“pandas”来自于连接“pan”（面板）和“da”（数据）两个词，这是一个计量经济学术语，指的是通过观察多个个体随时间而获得的数据。pandas最初由wes kinney于2008年1月发布，自那以后已经成为最受欢迎的库之一。

pandas的核心是两个必不可少的数据结构，您应该熟悉，即数据框(dataframes)和序列(series)。当您在pandas中创建或加载数据集时，它表示为这两个数据结构之一。

在下一节中，我们将探讨它们是什么，它们的区别是什么，以及何时使用其中之一是理想的。

关键数据结构

如前所述，pandas中的所有数据都使用两种数据结构之一表示，即数据框(dataframe)或序列(series)。下面详细解释了这两个数据结构。

数据框(dataframe)

pandas中的数据框是一个带有列和行的二维数据结构。它类似于电子表格应用程序中的电子表格或关系数据库中的表。

它由列组成，每一列代表数据集中的一个属性或特征。这些列由个体值组成。此列表或个体值的系列表示为序列(series)对象。我们将在本文稍后详细讨论序列数据结构。

数据框中的列可以有描述性名称，以便区分彼此。这些名称在创建或加载数据框时分配，但可以随时轻松重命名。

列中的值必须是相同的数据类型，尽管列不必保存相同类型的数据。这意味着数据集中的名称列将仅存储字符串。但是同一数据集可以有其他列，如存储整数的年龄列。

数据框还有一个用于引用行的索引。不同列之间但具有相同索引的值形成一行。默认情况下，索引是编号的，但可以重新分配以适应数据集。在上面的示例（上图中，下面的代码），我们将索引列设置为“months”列。

import pandas as pd

sales_df = pd.dataframe({
    'month': ['january', 'february', 'march'],
    'jane doe': [5000, 6000, 5500],
    'john doe': [4500, 6700, 6000]
})

sales_df.set_index(['month'], inplace=true)

print(sales_df)

序列(series)

如前所述，series用于表示pandas中的一列数据。因此，series是一种一维数据结构。这与二维的dataframe形成对比。

尽管series通常用作dataframe中的一列，但它也可以单独表示一个完整的数据集，前提是数据集仅记录一个属性在单列中。或者说，数据集只是一个值的列表。

因为series只是一列，所以不需要具有名称。但是，series中的值是有索引的。与dataframe的索引类似，series的索引可以从默认编号进行修改。

在上面的示例（下面的代码中），使用pandas series对象的set_axis方法将索引设置为不同的月份。

import pandas as pd

total_sales = pd.series([9500, 12700, 11500])
months = ['一月', '二月', '三月']

total_sales = total_sales.set_axis(months)

print(total_sales)

pandas的特点

现在你已经了解了pandas是什么以及它使用的关键数据结构，我们可以开始讨论使pandas成为一个强大的数据分析库的特点，也就是为什么pandas在数据科学和机器学习生态系统中如此受欢迎。

#1. 数据操作

dataframe和series对象是可变的。您可以根据需要添加或删除列。此外，pandas允许您添加行甚至合并数据集。

您可以执行数值计算，例如对数据进行归一化和逐元素进行逻辑比较。pandas还允许您对数据进行分组，并应用诸如均值、平均值、最大值和最小值等聚合函数。这使得在pandas中处理数据变得轻松。

#2. 数据清理

从现实世界中获取的数据通常具有使其难以处理或不适合进行分析或在机器学习模型中使用的值。数据可能是错误的数据类型、错误的格式，或者完全缺失。无论哪种情况，这些数据在使用之前都需要预处理，称为清理。

pandas有一些函数可以帮助您清理数据。例如，在pandas中，您可以删除重复的行，删除具有缺失数据的列或行，并用默认值或列的平均值等其他值替换值。还有更多与pandas一起使用的函数和库，可以让您进行更多的数据清理。

#3. 数据可视化

虽然pandas不是像matplotlib那样的可视化库，但它具有用于创建基本数据可视化的函数。尽管它们是基本的，但在大多数情况下它们仍然可以胜任任务。

使用pandas，您可以轻松绘制条形图、直方图、散点矩阵和其他不同类型的图表。结合一些在python中可以进行的数据操作，您可以创建更复杂的可视化效果，以更好地理解您的数据。

import pandas as pd

sales_df = pd.dataframe({
    'month': ['january', 'february', 'march'],
    'jane doe': [5000, 6000, 5500],
    'john doe': [4500, 6700, 6000]
})

sales_df.set_index(['month'], inplace=true)

sales_df.plot.line()

#4. 时间序列分析

pandas还支持处理带有时间戳的数据。当pandas识别到一列具有日期时间值时，您可以对同一列执行许多在处理时间序列数据时有用的操作。

这些操作包括按时间段对观测进行分组并应用聚合函数，如sum或mean，或者使用min和max获取最早或最晚的观测值。当然，在pandas中可以对时间序列数据进行更多的操作。

#5. pandas中的输入/输出

pandas能够从最常见的数据存储格式中读取数据。其中包括json、sql转储和csvs。您还可以将数据写入许多这些格式的文件中。

这种读取和写入不同数据文件格式的能力使得pandas能够无缝地与其他应用程序互操作，并构建与pandas良好集成的数据流水线。这是pandas被许多开发人员广泛使用的原因之一。

#6. 与其他库的集成

pandas还有一个丰富的工具和库生态系统，建立在其之上以补充其功能。这使它成为一个更强大和有用的库。

pandas生态系统中的工具增强了其在数据清理、可视化、机器学习、输入/输出和并行化等不同领域的功能。pandas在其文档中维护了这些工具的注册表。

pandas中的性能和效率考虑

尽管pandas在大多数操作中表现出色，但它可以非常慢。好消息是，您可以优化代码并提高其速度。要做到这一点，您必须了解pandas的构建方式。

pandas是建立在流行的python库numpy之上的，用于数值和科学计算。因此，像numpy一样，pandas在操作矢量化时更有效，而不是使用循环选择单个单元格或行。

矢量化是一种并行化形式，其中同一操作同时应用于多个数据点。这被称为simd – 单一指令，多个数据。利用矢量化操作将极大地提高pandas的速度和性能。

因为它们在内部使用numpy数组，所以dataframe和series数据结构比它们的替代品字典和列表更快。

默认的pandas实现只能在一个cpu核心上运行。加速代码的另一种方法是使用能够使pandas利用所有可用的cpu核心的库。这些库包括dask、vaex、modin和ipython。

社区和资源

pandas作为最流行的编程语言之一的流行库，拥有庞大的用户和贡献者社区。因此，有很多资源可以学习如何使用它。其中包括官方pandas文档。但也有无数的课程、教程和书籍可以学习。

此外，还有在线社区，如reddit的r/python和r/data science子论坛，可以提问和获取答案。作为一个开源库，您可以在github上报告问题，甚至贡献代码。

最后的话

pandas作为一个数据科学库非常有用和强大。在本文中，我试图通过探索使其成为数据科学家和程序员首选工具的特性来解释其受欢迎程度。

接下来，查看如何创建pandas dataframe。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

9个Node.js日志库，您可以尝试以获得更好的日志记录。

By姚伟斌 November 28, 2023August 30, 2023

你在调试代码时遇到了困难吗？你正在寻找一些能让调试更容易的日志解决方案吗？继续阅读以了解更多信息。

工具

9家最佳价格优化系统供企业使用 [2023]

By姚伟斌 November 19, 2023September 12, 2023

你还在使用电子表格软件来管理你的产品和服务的定价吗？你是否想知道你的竞争对手如何快速调整他们的价格以适应市场需求？答案很简单：立即开始使用定价优化软件应用！什么是定价优化软件？简单来说，定价优化软件是智能的、人工智能驱动的工具，帮助您为产品和服务定价以实现最大利润。这并不意味着这些工具仅仅建议您在市场上与竞争对手相比标价过高。这些工具分析市场趋势、电子商务市场定价表现和许多其他销售情报数据，以提供最佳价格建议。因此，如果在假日季节有折扣销售，您可以动态调整产品的定价以销售最大单位。或者，您可以提高供应链短缺产品的定价以适应额外的采购成本。这些工具包括以下技术：智能算法人工智能和机器学习数据分析定价情报程序以收集竞争对手的定价使用这些技术，定价优化工具实现以下功能：根据个体客户行为建议折扣通过分析市场竞争、需求和成本结构来优化价格也可阅读：最佳人工智能销售工具以大幅提升收入定价优化软件的应用案例…

工具

17个冥想设备和应用程序，帮助更加有意识的2025年。

By姚伟斌 November 20, 2023September 12, 2023

现代社会改变了人们对正常生活的理解方式。抽出一些时间看看你周围的环境。 ‘正常’的画面是什么样的？每个人都忙于自己的小世界，以至于忘了弄清楚自己对于生活的追求。你花了很多时间努力工作，以满足你未来的‘乌托邦世界’，而无意识地忽略了你的现在。你所有的时间都花在了不断担心的循环中。你根本没有时间放松或思考生活，因为你总是像那些忙碌的蚂蚁一样忙碌着。结果，你在本应该出现之前就遭受了许多健康问题。这些充满压力的时代只会加剧你的身心状态恶化。人们在触及中年之前就患有高血压（查看我们的监测高血压的智能设备列表）、糖尿病、抑郁症等等。那么，解决办法是什么呢？当然，你不能坐着不动保持镇静。这个世界已经向前发展了，你也要跟上。唯一的办法就是保持足够的身体和精神上的健康，这样你就能在竞争中跟上，同时不会损害你已经拥有的一切。有什么比把10-20分钟的时间用于冥想更好的解决办法呢？冥想的力量使你保持冷静和专注，这是不可否认的。它不仅能帮助你实现你的目标，还会增强你的自信心，因为你清楚知道应该朝哪个方向前进。让我们找出一些能帮助你在追求幸福的过程中过上稳定、顺利和平静生活的最佳装备和应用。 headspace 我们列表中的下一个是headspace应用。你可以在智能手机上下载这个应用或者在线注册，今天就开始冥想吧。坚持使用这个应用三个星期，看看它如何改变你的生活。通过这个应用可以获得的指导可以立即减轻你的压力。前僧侣安迪·普迪科姆的专业指导可以帮助你解决一些压力和不安。这确实不是任何可以暂时让你振奋的随机演讲。这些简单的技术是基于科学的，训练你的思维过上更健康、更幸福的生活。如果你现在下载它，你还可以以折扣价获得它，作为新年礼物。 mindvalley mindvalley提供了一套完整的课程，帮助你在生活的各个方面激发伟大。…

工具

7个适用于个人和商业使用的最佳Mac和Windows桌面虚拟化软件

By姚伟斌 November 13, 2023September 12, 2023

桌面虚拟化软件是一种新兴技术，旨在通过允许您在计算机上运行各种操作系统（从旧到新）来简化您的生活。虚拟机软件允许您拥有虚拟内存、cpu、网络接口、存储和其他设备。在这个技术驱动的时代，虚拟机在企业中变得更加重要，特别是在处理云计算的企业中。桌面虚拟化不仅被企业使用，还被家庭用户使用。当您正在寻找任何不可用、非常古老或具有不同系统要求的操作系统时，它也会提供帮助。切换到虚拟世界，节省大量资金，减少麻烦。让我们更多地谈谈有关桌面虚拟化技术的内容，为什么您需要它以及一些通过windows和mac更好地访问虚拟世界的软件。什么是桌面虚拟化？桌面虚拟化是一种现代技术，您可以在桌面上创建一个虚拟环境，用于不同的目的。它将使您能够从任何设备远程访问您的桌面。让我们更仔细地理解这个术语。如果您是一家组织的员工，由于covid-19而远程工作，并希望访问公司资源以进行工作。使用台式机、笔记本电脑、平板电脑或移动设备，您可以无论使用哪种操作系统，随时随地访问资源。桌面虚拟化就是这样工作的。它是现代数字工作区的必要组成部分，这项技术也可以用作灾难恢复策略。由于所有组件都保存在您的数据中心中，您可以使用桌面虚拟化从其他设备恢复丢失的数据。桌面虚拟化可以通过两种主要方式来实现，根据操作系统所在的位置。本地桌面虚拟化：使用虚拟硬件在客户端设备上运行操作系统。在这里，所有工作负载和处理都在本地硬件上进行。当用户可以使用本地资源满足计算需求，并且不需要网络上的持续连接时，本地桌面虚拟化就派上用场。远程桌面虚拟化：这是一种常见的虚拟化方式，它在服务器计算环境上运行。它允许企业或个人从位于数据中心的服务器上运行应用程序和操作系统。同时，所有交互都在客户端设备上进行，如智能手机、瘦客户机或笔记本电脑。远程桌面虚拟化可以更集中地控制桌面和应用程序。它可以最大程度地利用虚拟机，以便组织永远不会丢失任何数据，并通过避免使用额外的硬件来节省资金。…

工具

SEO vs. SEM：营销人员应该了解的一切

By姚伟斌 November 2, 2023August 30, 2023

你想成为成功的数字营销专家吗？你是否想要在你的业务中利用在线营销策略？这两者都是非常重要的。

工具

Stellar Data Recovery与EaseUs：哪个软件拥有胜利的配方？

By姚伟斌 November 23, 2023September 12, 2023

随着数字和商业领域在许多方面的发展，对数据的依赖性越来越高，对其构成威胁的努力也越来越大。计算机病毒、勒索软件和恶意软件是导致数据丢失的主要威胁，可能导致您的组织停机或严重影响您的生产力。解决这个问题的方法是数据恢复。什么是数据恢复？数据恢复是一个基于软件的过程，涉及恢复和恢复丢失、删除、损坏、无法访问或损坏的文件。虽然有许多可用的数据恢复工具在线上，但选择最合适的工具是很繁琐的。您可能已经遇到过一些这些工具。但是，它们可能不足以取得良好的效果，从而使它们变得低效。有时候，您会在市场上使用免费工具。缺点是它们可能很慢，延迟很高，甚至不能在所有设备上使用。本文将比较两个重量级选手，stellar和easeus。由于这两家巨头主导了这个领域，选择最好的一家将需要一些策略。但在深入了解方法之前，让我们先了解一下数据恢复软件的需求。为什么需要数据恢复软件？您可能因为几个原因而丢失数据。无论是恶意软件攻击还是错误，如果没有解决方案计划，后果可能会使您的业务陷入瘫痪。在大多数情况下，导致数据丢失的常见原因包括人为错误、软件不兼容（第三方或插件）、过时的软件、未打补丁的软件漏洞、恶意攻击（钓鱼和计算机恶意软件）、不足的访问控制、电力浪涌、硬件故障以及火灾或洪水等灾害。如果考虑到数据丢失的影响，拥有一款帮助恢复数据的软件工具对于风险缓解和保持业务运行至关重要。随着远程工作的当前增加，数据风险会因为许多在线工作者使用个人或共享计算机而复杂化。如果在任何情况下，您陷入了上述情况中，数据恢复软件将证明是最佳解决方案。数据恢复软件利用您的数据将文件和系统恢复到原始未受损版本。无论您是寻找免费、付费、初学者还是专业软件，都有根据您需求的工具。免费工具可以使用，但可能限制您可以恢复的文件类型或无法存储备份。付费软件好处多，但取决于您想要恢复的数据速度和数量。初学者版本易于使用，但可能无法对要恢复的数据类型进行可自定义的控制。最后，有一些具有强大功能的专业工具，适用于复杂的业务需求。在此背景下，让我们看看最好的数据恢复软件。 stellar数据恢复：概述 stellar数据恢复是一家总部位于印度，并在美国和欧洲拥有业务的公司。该组织经过认证，专注于数据恢复、数据抹除、文件修复和邮箱转换等服务。…