工具

Python中数据分析的友好介绍

By姚伟斌 November 15, 2023August 30, 2023

多年来，使用Python进行数据科学的应用量逐日增长。

Data science是一门广泛的研究领域，其下有很多子领域，数据分析无疑是这些领域中最重要的之一，无论数据科学技能水平如何，了解或至少具备基本知识变得越来越重要。

什么是数据分析？

数据分析是对大量非结构化或无组织数据进行清洗和转换的过程，目的是生成关键洞察和信息，以帮助做出明智决策。

有各种各样的工具可以进行数据分析，如Python、Microsoft Excel、Tableau、SaS等，但本文将着重介绍如何使用Python进行数据分析，更具体地说，是使用一个名为Pandas的Python库。

什么是Pandas？

Pandas是一个开源的Python库，用于数据操作和数据整理。它快速高效，具有将各种数据加载到内存中的工具。它可用于重塑、标记切片、索引甚至对多种形式的数据进行分组。

Pandas中的数据结构

Pandas中有3种数据结构，分别是：

Series（序列）
DataFrame（数据帧）
Panel（面板）

区分这三个数据结构的最佳方法是将其中一个视为包含其他几个结构的堆栈。因此，DataFrame是Series的堆栈，Panel是DataFrame的堆栈。

Series是一维数组

多个Series的堆栈形成二维DataFrame

多个DataFrame的堆栈形成三维Panel

我们将主要使用二维DataFrame这种数据结构，它也可以是某些数据集的默认表示方式。

Pandas中的数据分析

本文不需要进行安装。我们将使用一个名为colaboratory的工具，由Google创建。它是一个用于数据分析、机器学习和人工智能的在线Python环境。它是一个云端的Jupyter Notebook，几乎预装了作为数据科学家所需的几乎所有Python包。

现在，前往https://colab.research.google.com/notebooks/intro.ipynb。你应该看到以下内容。

通过左上角的导航，点击文件选项，然后点击“新笔记本”选项。你将在浏览器中加载一个新的Jupyter notebook页面。我们需要做的第一件事是将pandas导入我们的工作环境中。我们可以通过运行以下代码来实现：

import pandas as pd

本文使用一个房价数据集进行数据分析。我们将使用的数据集可以在here找到。我们首先要做的是将这个数据集加载到我们的环境中。

我们可以在一个新的单元格中使用以下代码来实现：

df =  pd.read_csv('https://firebasestorage.googleapis.com/v0/b/ai6-portfolio-abeokuta.appspot.com/o/kc_house_data.csv?alt=media &token=6a5ab32c-3cac-42b3-b534-4dbd0e4bdbc0 ', sep=',')

.read_csv用于读取CSV文件，我们传递了一个sep属性来指示CSV文件是逗号分隔的。

我们还应该注意到我们加载的CSV文件存储在一个名为df的变量中。

在Jupyter Notebook中，我们不需要使用print()函数。我们只需在单元格中简单地键入变量名，Jupyter Notebook就会将其打印出来。

我们可以通过在一个新的单元格中键入df并运行它来进行测试，它会将我们数据集中的所有数据作为DataFrame打印出来。

但是，我们并不总是想要看到所有的数据，有时我们只想看到前几行数据和它们的列名。我们可以使用 df.head() 函数打印前五列，使用 df.tail() 函数打印最后五列。任意一个函数的输出如下所示；

我们想要检查这些几行数据和列之间的关系。 .describe() 函数正好可以为我们做到这一点。

运行 df.describe() 将得到以下输出；

我们可以立即看到， .describe() 给出了 DataFrame 中每列的平均值、标准差、最小值、最大值和分位数。这对我们非常有用。

我们还可以检查我们的二维 DataFrame 的形状，找出它有多少行和列。我们可以使用 df.shape 来做到这一点，它会返回一个形式为 (行数, 列数) 的元组。

我们还可以使用 df.columns 来检查 DataFrame 中所有列的名称。

如果我们只想选择一列并返回其中的所有数据怎么办？这类似于通过字典进行切片操作。在一个新的单元格中输入以下代码并运行：

df['price ']

上面的代码返回 price 列，我们可以进一步将其保存到一个新变量中：

price = df['price']

现在，我们可以对 price 变量执行可以在 DataFrame 上执行的任何其他操作，因为它只是一个实际 DataFrame 的一个子集。我们可以做诸如 df.head()、df.shape 等操作。

我们还可以通过将列名的列表传递给 df 来选择多个列，如下所示：

data = df[['price ', 'bedrooms']]

上面的代码选择了名称为 ‘price' 和 ‘bedrooms' 的列，如果我们在一个新的单元格中键入 data.head()，我们会得到以下结果：

上述的列切片方式返回该列中的所有行元素，如果我们想要返回数据集中的一部分行和一部分列，该怎么办？这可以通过使用 .iloc 来完成，它的索引方式类似于 Python 中的列表。所以我们可以这样做：

df.iloc[50: , 3]

它返回从第50行到最后一行的第3列。这非常方便，与 Python 中切片列表的方式相同。

现在让我们做一些真正有趣的事情，我们的房价数据集有一个列告诉我们一栋房子的价格，另一个列告诉我们该房子有几个卧室。房价是一个连续值，所以我们可能没有两栋房子具有相同的价格。但是卧室数目是离散的，所以我们可以有几栋具有两个、三个、四个卧室等的房子。

如果我们想要获取所有具有相同卧室数的房屋，并找出每个离散卧室数的平均价格怎么办？在 pandas 中，这相对容易实现，可以这样做：

df.groupby('bedrooms ')['price '].mean()

上面首先使用 df.groupby() 函数将 DataFrame 按相同卧室数的数据集进行分组，然后告诉它只给我们卧室列，并使用 .mean() 函数找到数据集中每个房屋的平均值。

如果我们想要可视化上述内容？我们想要检查每个不同卧室数的平均价格如何变化？我们只需要将上述代码链接到 .plot() 函数，如下所示：

df.groupby('bedrooms ')['price '].mean().plot()

我们将得到如下输出：

上面的内容向我们展示了数据中的一些趋势。在水平轴上，我们有不同数量的卧室（注意，多个房屋可以有相同数量的卧室），在垂直轴上，我们有对应于水平轴上卧室数量的价格均值。我们可以立即注意到，有5到10间卧室的房屋的价格要比有3间卧室的房屋要高得多。我们还可以明显看到，有大约7或8间卧室的房屋的价格要比那些有15、20甚至30个房间的房屋要高得多。

像上面这样的信息就是为什么数据分析非常重要的原因，我们可以从数据中提取出有用的见解，而这些见解在没有分析的情况下很难或几乎不可能被注意到。

缺失数据

假设我正在进行一项调查，其中包含一系列问题。我向成千上万的人分享了调查链接，以便他们可以提供反馈。我的最终目标是对这些数据进行数据分析，以便从中获得一些关键见解。

现在可能会出现很多问题，一些调查人员可能会感到不舒服回答我的一些问题，所以留空了。很多人可能对我的调查问题的几个部分都做同样的事情。这可能不被视为一个问题，但是想象一下，如果我在调查中收集的是数值数据，并且分析的一部分需要我获取总和、均值或其他算术操作，那么几个缺失值将导致我的分析结果不准确，因此我必须找出一种方法来找到并替换这些缺失值，使其能够更接近于实际值。

Pandas为我们提供了一个在DataFrame中查找缺失值的函数，名为isnull()。

isnull()函数可以这样使用;

df.isnull()

这将返回一个布尔值的DataFrame，告诉我们原始数据是否真的缺失或假的缺失。输出结果如下;

我们需要一种方法来替换所有这些缺失值，通常情况下，缺失值的选择可以为零。有时也可以选择其他数字，例如所有其他数据的均值或周围数据的均值，这取决于数据科学家和数据分析的用例。

要填充DataFrame中的所有缺失值，我们使用.fillna()函数，使用如下;

df.fillna(0)

在上述示例中，我们将所有空数据填充为零。也可以填充为我们指定的任何其他数字。

数据的重要性不可言喻，它帮助我们从数据本身中得到答案!数据分析是数字经济中的新石油。

本文中的所有示例都可以在here中找到。

要深入了解，请查看Data Analysis with Python and Pandas online course.。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

10个最佳智能闹钟，享受宜人的早晨唤醒

By姚伟斌 December 5, 2023August 31, 2023

如果你不喜欢早起，而且闹钟也让你感到恐惧，那么你需要一个智能闹钟来让你的早晨变得美好。所以，你可能需要

工具

支柱页面：你需要知道的一切

By姚伟斌 November 27, 2023September 12, 2023

您的网站访问者有很多问题，而您有答案。然而，吸引目标受众访问您的网站并保持他们的参与度可能是具有挑战性的。构建支柱页面和主题群集是增加流量和提高参与度的最有效的内容营销策略。它们为您建立了一个根深蒂固的基础，以帮助确立您的入站营销策略。在本文中，您将了解什么是主题群集和支柱页面，创建出色支柱页面的步骤以及它们的好处。什么是seo中的主题群集？主题群集是涵盖广泛主题的一组内容资源。这些内容集群为主题领域内的所有页面提供上下文支持。来源所有主要信息都在一个支柱页面中展示。但是，读者可以通过子主题、战略性链接的内容页面和相关术语进一步探索主题。实质上，它允许网站上的读者获取关于特定子主题的进一步详细信息。此外，它们有助于建立强大的内部链接结构的基础。在为seo创建主题群集时，创建一个包含给定主题全面信息的有效支柱页面非常重要。除此之外，您必须建立相关信息的群集页面。最后，您将通过战略性地放置锚文本，将群集页面链接到支柱页面。注意：谷歌建议将锚文本保持简洁且与主题相关。主题群集的3个组成部分一个主题群集由以下组成部分组成：涵盖核心主题的支柱页面：支柱页面应涵盖广泛的用户意图。这将为读者提供足够的价值，使他们可以在购买旅程的任何阶段点击适当的下一个内容。…

工具

在2025年使用的最佳睡眠和冥想应用程序

By姚伟斌 November 28, 2023September 11, 2023

睡眠与每个人的整体健康成正比。每个人都需要足够的睡眠来保持他们的健康和最佳功能。可以说，良好的睡眠与每天的饮食和锻炼一样重要。无论是从健康还是其他任何角度来看睡眠，您都会发现与之相关的许多好处。如果一个人睡眠不足，你会立刻注意到这个人的行为变化。另一方面，如果你睡眠充足，你会发现自己以最佳方式运作。研究还表明，获得足够的睡眠对日常生活是必要的。现在，让我们来看一下在每个人的整体健康中可见的一些睡眠的关键益处。充足睡眠的好处更好的专注力和生产力：睡眠与各种大脑功能（如生产力、专注力、认知等）直接相关。当你在日常生活中获得足够的睡眠时，你将能够在工作或任何手头任务上有高效的专注力。更强大的免疫系统：当你获得足够的睡眠时，你会发现你的身体恢复、修复和再生的速度是正确的。这将帮助你的身体轻松抵抗感染和疾病。研究仍在进行中，以了解睡眠与身体免疫系统的关联和确切机制。预防抑郁症：睡眠和心理健康直接相关。根据一项在JAMA Psychiatry进行的研究，发现过去十年中，睡眠不足是导致自杀的主要因素之一。有多项研究表明睡眠与抑郁症有关。注意到患有失眠等睡眠障碍的人更有可能在未来患上抑郁症。更好的运动表现：一项研究(link_2)与睡眠与运动表现的关系相关。根据这项研究，发现成年人的充足睡眠时间为7到9个小时。如果你是一名运动员，如果每晚睡眠10个小时，你可以期待更多的好处。这与每天摄取足够的营养和卡路里一样重要。主要原因是身体在睡眠期间恢复得很快。充足睡眠的其他好处包括更多的能量、更好的精神功能、更好的表现强度和更快的速度。对于你的运动表现来说，这将成为一个巨大的好处。这些是在日常生活中获得足够睡眠的一些关键好处。什么是睡眠质量？睡眠质量是用于指示你每次睡眠的好坏的衡量标准。根据你的睡眠质量，你将知道你是否在睡眠中得到了充分的休息。与睡眠时间相比，睡眠质量有点难以衡量。通常会评估四个参数来得出正确答案，以确定睡眠质量。让我们更多了解这些参数。…

工具

12个值得订阅的儿童教育YouTube频道

By姚伟斌 December 4, 2023September 11, 2023

在YouTube上有成千上万个适合儿童观看的频道，提供娱乐和教育内容。然而，并不是所有的频道都是儿童玩乐和学习的安全港。如果你想通过YouTube视频增加你孩子的知识，那么你必须非常小心。你不希望只因为视频上写着“适合儿童”就让你的孩子观看任何视频。你的孩子不会因为观看表演厕所上有爱莎脸上粪便的视频或者孩子们用厨房用具杀死巨大的虫子的视频而获得任何有益的知识。 YouTube对于“适合儿童”的定义非常模糊，所以作为父母，你需要自己小心。一个parental control app可以保护他们免受不适宜的频道的影响。我曾经犯过一个错误，让我的孩子自由浏览儿童友好的频道，但不知何故，他们总是会看到我认为不适合他们学习（甚至只是为了娱乐）的频道。所以，我为他们创建了一个适合他们的专门的YouTube account for my kids and subscribed to many channels。这样可以使他们的推荐视频相似，并且我要少做一些监管。…

工具

什么是绿色科技，为什么它对未来如此重要？为HTML标签之一，为另一个HTML标签。

By姚伟斌 November 15, 2023September 12, 2023

利用绿色技术促进您的业务可持续增长，并为自然环境的长期利益做出积极贡献。传统技术，如开采化石燃料、热电力、温室气体冷却、塑料包装、农田农药等，造成了广泛的环境破坏。类似CO2和其他气体的污染物自工业革命以来迅速提高了地球的平均温度。企业和企业家必须采取行动，通过在各自行业采用绿色技术来终止对自然的破坏。什么是绿色技术？绿色技术是指在生产、储存、供应链、消费和处理方面不对环境造成负面影响的技术过程、方法和产品。绿色技术在行业中有许多不同的名称，包括：可持续技术绿色技术环境技术清洁技术气候技术清洁能源技术此外，任何不会对自然产生大量污染和碳排放，并有助于减轻碳排放风险的技术也被认为是绿色技术的一部分。您将看到气候技术主要利用以下过程来减少地球的CO2和热负担：通过树木种植、园艺研究、藻类种植等增加碳的自然储存。…

工具

12个最佳的安卓VPN，保持在线安全和匿名[2023]

By姚伟斌 November 5, 2023September 12, 2023

使用vpn现在已经成为一种常态，原因有很多，包括保护我们的隐私需求🛡️。鉴于互联网世界的本质，你在网上永远不会“过于安全”。总会有那么一个网站可能对你的数据和个人身份造成严重损害，所以在你的计算机上或者你的手机上都要保持警惕是一个好主意。幸运的是，使用vpn就像是一个保护盾，让你能够在网上畅游，不必担心你的个人信息被操纵。准确地说，vpn帮助你隐藏以下内容：浏览历史 ip地址位置设备信息网络活动它在各种情况下都很有用，特别是当你使用公共wifi登录银行账户网站、社交媒体账号或其他需要凭证的网站时。顺便提一句，它还带来其他好处，比如在你的国家使用受限制的应用程序，以及获得更优惠的机票。事实上，我只是触及了表面。你可以通过vpn做更多的事情，没有理由不使用它。如果你不确定哪个是适用于安卓设备的最佳vpn，那么这篇文章将解答你头脑中的疑虑。让我们来看看你可以挑选的一些最佳选择。🙂 proton vpn proton…

什么是数据分析？

什么是Pandas？

Pandas中的数据结构

Pandas中的数据分析

缺失数据

Related

Similar Posts