如何安装Beautiful Soup并在网络爬虫项目中使用它？

By姚伟斌 November 6, 2023September 11, 2023

在当今数据驱动的世界中，传统的手动数据采集方法已经过时。每台桌子上都有一台连接互联网的计算机，使得网络成为了一个巨大的数据来源。因此，更高效和节省时间的现代数据采集方法是网络爬虫。而当谈到网络爬虫时，Python有一个被称为Beautiful Soup的工具。在本文中，我将为您介绍安装Beautiful Soup的步骤，以便开始进行网络爬虫。

在安装和使用Beautiful Soup之前，让我们先了解一下为什么您应该选择它。

Beautiful Soup是什么？

假设您正在研究“COVID对人们健康的影响”，并找到了一些包含相关数据的网页。但是如果它们没有提供单击下载选项来借用他们的数据怎么办？这时就需要Beautiful Soup登场了。

Beautiful Soup是Python库的索引之一，用于从目标站点中提取数据。它更方便地从HTML或XML页面中提取数据。

Leonard Richardson在2004年提出了Beautiful Soup用于网络爬虫的想法。但是他对该项目的贡献一直持续到今天。他自豪地在Twitter账号上更新每个Beautiful Soup的新版本发布。

尽管Beautiful Soup用于网络爬虫是使用Python 3.8开发的，但它也与Python 3和Python 2.4完美兼容。

通常，网站使用验证码保护来防止其数据被AI工具获取。在这种情况下，通过在Beautiful Soup中对‘user-agent'标头进行一些更改或使用Captcha-solving APIs可以模拟一个可靠的浏览器并欺骗检测工具。

然而，如果您没有时间去了解Beautiful Soup，或者希望以高效和轻松的方式完成爬取工作，那么您不应该错过检查这个web scraping API，在那里您只需提供一个URL，就能获取数据。

如果您已经是一名程序员，使用Beautiful Soup进行爬取将不会令人生畏，因为它具有直观的语法，可以浏览网页并根据条件解析提取所需数据。与此同时，它也非常适合新手。

尽管Beautiful Soup不适用于高级爬取，但它在从标记语言编写的文件中提取数据方面效果最佳。

清晰而详细的文档是Beautiful Soup获得的另一个优点。

让我们找到一种简单的方法将Beautiful Soup引入您的机器。

如何安装Beautiful Soup进行网络爬虫？

Pip – 一个简单的Python包管理器，于2008年开发，现在已成为开发人员安装任何Python库或依赖项的标准工具。

Pip默认随最新版Python的安装一起提供。因此，如果您的系统上已安装了最近版本的Python，您可以开始使用。

打开命令提示符并键入以下pip命令即可立即安装Beautiful Soup。

pip install beautifulsoup4

您将在显示器上看到类似于以下截图的内容。

确保将PIP安装程序更新到最新版本，以避免常见错误。

更新PIP安装程序到最新版本的命令是：

pip install --upgrade pip

我们在本文中已经成功完成了一半的工作。

现在您的机器上已经安装了Beautiful Soup，让我们深入了解如何使用它进行网络爬虫。

如何导入和使用Beautiful Soup进行网络爬虫？

在您的python IDE中键入以下命令，将beautiful Soup导入当前的python脚本中。

from bs4 import BeautifulSoup

现在Beautiful Soup就在您的Python文件中可供爬取使用。

让我们看一个代码示例，了解如何使用beautiful Soup提取所需数据。

我们可以告诉Beautiful Soup在源网站中查找特定的HTML标签，并提取这些标签中的数据。

在本文中，我将使用marketwatch.com，它会更新各个公司的实时股票价格。让我们从这个网站上提取一些数据，以熟悉Beautiful Soup库。

导入“requests”包，这样我们就可以接收和响应HTTP请求，并使用“urllib”从URL加载网页。

from urllib.request import urlopen
import requests

将网页链接保存在一个变量中，以便稍后可以轻松访问。

url = 'https://www.marketwatch.com/investing/stock/amzn'

接下来，使用“urllib”库的“urlopen”方法将HTML页面存储在一个变量中。将URL传递给“urlopen”函数，并将结果保存在一个变量中。

page = urlopen(url)

创建一个Beautiful Soup对象，并使用“html.parser”解析所需的网页。

soup_obj = BeautifulSoup(page, 'html.parser')

现在，目标网页的整个HTML脚本都存储在“soup_obj”变量中。

在继续之前，让我们查看目标页面的源代码，以了解有关HTML脚本和标签的更多信息。

使用鼠标右键单击网页上的任何位置。然后，您会找到一个检查选项，如下图所示。

单击检查以查看源代码。

在上面的源代码中，您可以找到标签、类别和有关网站界面上每个元素的更具体信息。

Beautiful Soup中的“find”方法允许我们搜索所请求的HTML标签并提取数据。为此，我们给出类名和标签给提取特定数据的方法。

例如，网页上显示的“亚马逊公司”具有类名：“company__name”，标签为：“h1”。我们可以将此信息输入到“find”方法中，以将相关的HTML片段提取到一个变量中。

name = soup_obj.find('h1', attrs={'class': 'company__name'})

让我们在屏幕上输出存储在变量“name”中的HTML脚本和所需的文本。

print(name)

print(name.text)

您可以看到提取的数据打印在屏幕上。

网络爬取IMDb网站

在观看电影之前，我们很多人都会在IMBb网站上寻找电影评级。这个演示将给你一个排名前的电影列表，并帮助你熟悉用于网络爬取的Beautiful Soup。

第1步：导入Beautiful Soup和requests库。

from bs4 import BeautifulSoup
import requests

第2步：让我们将要爬取的URL分配给一个名为“url”的变量，以便在代码中轻松访问。

使用“requests”包来从URL获取HTML页面。

url = requests.get('https://www.imdb.com/search/title/?count=100&groups=top_1000&sort=user_rating')

第3步：在下面的代码片段中，我们将解析当前URL的HTML页面，以创建Beautiful Soup的对象。

soup_obj = BeautifulSoup(url.text, 'html.parser')

变量“soup_obj”现在包含所需网页的整个HTML脚本，如下图所示。

让我们检查网页的源代码，找到我们想要抓取的HTML脚本数据。

将光标悬停在您想要提取的网页元素上。然后，右键单击它，选择检查选项以查看该特定元素的源代码。以下视觉效果将更好地指导您。

类别' lister-list ‘在连续的div标签中包含所有排名前的电影相关数据的子分区。

在每个电影卡的HTML脚本中，在类别“lister-item mode-advanced”下，我们有一个存储电影名称，排名和发布年份的“h3”标签，如下图所示。

注意：beautiful Soup中的“find”方法搜索与给定输入名称匹配的第一个标签。与“find”不同，“find_all”方法查找与给定输入匹配的所有标签。

步骤4：您可以使用“find”和“find_all”方法将每部电影的名称，排名和年份的HTML脚本保存在列表变量中。

top_movies = soup_obj.find('div',attrs={'class': 'lister-list'}).find_all('h3')

步骤5：循环遍历存储在变量“top_movies”中的电影列表，并使用以下代码从其HTML脚本中以文本格式提取每部电影的名称，排名和年份。

for movie in top_movies:
    movi_name = movie.a.text
    rank = movie.span.text.rstrip('.')
    year = movie.find('span', attrs={'class': 'lister-item-year text-muted unbold'})
    year = year.text.strip('()')
    print(movi_name + " ", rank+ " ", year+ " ")

在输出截图中，您可以看到电影列表及其名称，排名和发布年份。

您可以轻松将打印的数据移入一个Excel表格中，并使用一些Python代码对其进行分析。

最后

本文指导您安装beautiful Soup进行网络抓取。此外，我展示的抓取示例应该可以帮助您开始使用Beautiful Soup。

由于您对如何安装Beautiful Soup进行网络抓取感兴趣，我强烈建议您查看这份详尽的指南以了解更多信息：web scraping using Python

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

7个最佳的电子邮件递送工具，以充分利用您的电子邮件营销活动

By姚伟斌 December 11, 2023September 12, 2023

在1到10的评分中，将电子邮件投递到您的订阅者收件箱有多难？ -十一！如果您的电子邮件经常被归类为垃圾邮件，且您的营销结果已经降至谷底，那么您来对地方了。在本文中，我们将讨论所有关于电子邮件投递的内容，以及保持投递率的最佳实践和帮助您轻松完成工作的电子邮件投递工具列表。什么是电子邮件投递率？电子邮件投递率衡量的是您的电子邮件安全投递到收件人的收件箱的次数。虽然这可能看起来不是很重要，但有75%的营销人员将“投递率”作为衡量电子邮件营销成功的重要kpi（关键绩效指标）。当然，他们有充分的理由这样做。投递率如何影响电子邮件营销？电子邮件投递率直接影响您的电子邮件营销活动的成功。以下是电子邮件投递率低下的一些后果。开启和点击率的下降由于您的电子邮件尚未投递，所以无法开启和点击。您精心撰写的电子邮件很可能被放在垃圾邮件文件夹中，永远不会被注意到。投递率低下总是妨碍关键参与度指标，即开启率和点击率。因此，预期的数量无法达到。降低转化率转化率直接与开启率、点击率和投递率有关-如果您错过了其中一个，您的转化指标就会下降。投递率低下会减少订阅者对您电子邮件的响应，导致转化率降低，从而为您的业务带来潜在收入损失。…

工具

如何在Tomcat中实现HTTP2？

By姚伟斌 November 22, 2023August 30, 2023

在Apache Tomcat中设置HTTP2的逐步指南完全支持HTTP2已添加到最新版本的Tomcat 9.x中。 HTTP/2速度快，比之前的HTTP/1.1版本要快得多。

工具

8个Solana NFT市场，用于快速和低燃气费交易

By姚伟斌 December 7, 2023September 11, 2023

索拉娜（Solana）NFT市场因其日益增长的速度、消除网络拥堵问题和较低的燃气费用而越来越受欢迎。让我们来探索一些建立在索拉娜区块链上的顶级NFT市场。非同质化代币（NFT）由代表数字或实物资产所有权的代币组成。 “非同质化”一词意味着资产是独一无二的，不能被复制、细分或替代。因此，NFT是使用元数据和唯一标识码构建在区块链上的。根据最新报告，收藏品和拍卖品市场预计到2032年将达到1万亿美元。数字资产可以使用您拥有的任何东西创建，例如收藏品、图像、视频、音乐，甚至是您孩童时代使用的纸牌。一旦您拥有NFT，您的所有权将被列入任何人都可以验证的公共记录中。此外，NFT的应用对于创作者来说是无限的。 NFT使创作者更容易证明他们对资产的所有权。让我们以达·芬奇的杰作《蒙娜丽莎》为例。如果为他的原始画作创建了NFT，没有人能成功声称拥有假的所有权。除此之外，创作者可以根据其资产的稀缺性设定价格。 NFT市场是什么？正如我们讨论的NFT，让我们了解一下NFT市场以及它如何帮助NFT所有者。NFT市场是一个公共交易平台，用于存储、购买和销售NFT。要使用NFT市场提供的功能，您需要将您的钱包与平台连接。这个连接的钱包使您能够存储您的NFT。购买或销售NFT所需的代币根据交易所的不同而不同。 NFT市场的建设旨在简单易用，允许用户像其他在线市场一样购买或销售NFT。NFT的所有者可以设定他们期望的价格，而买家可以按照该价格购买或与所有者协商。此外，所有者还可以在其NFT被出售时获得版税。除了上述所有功能之外，NFT市场还允许用户根据价格、创作者和其他主要类别对各种NFT进行排序。您还可以访问市场了解正在进行的趋势和热门NFT收藏品。这些平台还提供有关NFT交易的所有细节。索拉娜基于链的NFT市场相比以太坊基于链的NFT市场的优势 NFT参与者现在选择索拉娜NFT市场来取代以太坊NFT市场，以太坊是销售额最高的NFT市场。对索拉娜NFT市场的需求导致了超过25亿美元的销售额。数据来源：cryptoslam.io 让我们了解为什么索拉娜的NFT市场比以太坊的NFT市场更具优势：速度…

工具

2025年最佳和高效的无线接入点（WAP）有7个。

By姚伟斌 November 8, 2023September 11, 2023

WAP设备已经成为许多企业、机构或家庭用户的必需品。一些主要问题，如WiFi覆盖范围差、连接速度慢、死角、信号弱等，正在成为越来越令人担忧的问题，而通过实施WAP可以解决这些问题。什么是WAP（无线接入点）？无线接入点（WAP），也称为接入点（AP），是一种紧凑的电子设备，允许其他Wi-Fi设备连接到有线或无线网络。 WAP设备在现有的有线或无线网络中创建一个Wi-Fi网络，以容纳更多的无线设备。它们扩展了Wi-Fi router的范围，提供广泛的无线覆盖，并克服了死角问题，特别是在较大的住宅、室外区域、公寓、办公室和建筑物中。设置WAP并允许任何支持Wi-Fi的计算机或设备成为Wi-Fi网络的一部分而不使用线缆是非常容易的。 WAP、路由器和Wi-Fi设备的物理连接如下所示。WAP或AP通过有线媒介连接到路由器。图片来源：linksys.com 使用无线接入点（WAP）的好处有哪些？由于以下好处，WAP设备已经成为许多企业、机构或家庭用户的必需品。建筑物内外的强信号覆盖轻松扩展Wi-Fi路由器的范围增加潜在用户的数量大范围传输有助于扩展现有网络的无线范围安装灵活…

工具

2025年最佳加密货币投资组合追踪应用程序

By姚伟斌 December 12, 2023September 12, 2023

使用加密货币投资组合追踪器并将所有投资都集中在一起是明智的选择。让我们找到最好的追踪器，使加密货币投资变得简单高效。在成千上万的加密货币中，追踪投资的盈亏可能很困难。往往人们会错过重要的细节，最终导致对他们的投资失控。对于分散投资组合的严肃投资者来说，这一点尤为真实。最佳加密货币投资组合追踪器因此，我们在这里列出了一些便捷的追踪应用程序，以简化您的困扰。这些应用程序可以追踪多个交易所和数百种加密货币。它们提供了准确的重要细节，否则需要几小时的计算才能获得。简而言之，投资组合追踪器可以增强投资能力。但是只有在您尝试并选择合适的追踪器后，您才会感受到其中的差异。话不多说，让我们开始吧。 CoinTracker CoinTracker在我们的crypto tax software文章中也得到了提及。现在，借助投资组合追踪功能，更有理由使用它以提升兼容性。借助CoinTracker支持的300多个交易所和超过10,000种加密货币，您可以放心追踪每一笔投资。根据交易所，可以使用API密钥或CSV上传来导入交易记录。它显示实时市场价值，优化了cost basis…

工具

使用Pipedrive CRM提升您的业务销售

By姚伟斌 November 3, 2023September 12, 2023

你是否正在寻找一个全能的crm来管理销售、电子邮件营销、项目、报价以及人力资源？那么你一定要试试pipedrive。销售和营销生态系统发展迅速且竞争激烈。通过像excel和电子邮件这样的简单业务工具，你可能能处理几百个消费者和用户。但是当你想要扩大规模时，你需要自动化、安全性和便利性。这就是pipedrive的用武之地！我们从内部到外部评估了pipedrive销售crm，并提供了简明扼要的讨论，以帮助你决定这是否是适合你的销售crm。企业为什么需要销售crm？面向客户的公司必须使用销售和营销crm来充分利用其潜在客户、人力资源和预算。通过销售crm，你可以创建一系列销售和营销团队将要执行的任务。你和你的业务领导必须创建一个无懈可击的销售、营销、客户服务、升级销售和潜在客户建立等工作流程，以便团队可以专注于客户互动。像pipedrive这样的销售crm可以自动化每个任务。前线和外勤团队无需浪费时间管理文件、宣传册、电子邮件、报价等。你可以指派一两名员工从后台处理这些事务，而前线员工将直接从销售crm中访问业务资料。销售crm最重要的特点是移动友好性。你和团队成员可以在平板电脑、智能手机、chromebook、macbook、windows笔记本电脑等设备上使用这样的crm。应用程序基于云端，不受设备和网络的限制。 pipedrive crm是什么？ pipedrive是一款面向高级快节奏销售和营销团队的云crm软件。它是一款销售crm或销售平台，作为一个集中的销售中心运作。它的设计目标是让销售人员能够进行沟通、达成交易、合作、优化销售流程并预测销售数据。这还不是它的全部功能。pipedrive是一款云销售平台，非常适合改善客户旅程和客户体验。此外，它还可以帮助你的业务生成新业务，并减少管理多个销售和营销团队的运营成本。免费试用pipedrive，体验在线销售crm如何改变你的销售、营销、项目和人力资源招聘流程。 pipedrive…

Beautiful Soup是什么？

如何安装Beautiful Soup进行网络爬虫？

如何导入和使用Beautiful Soup进行网络爬虫？

网络爬取IMDb网站

最后

Related

Similar Posts