如何掌握Python进行网页抓取
您是否曾经尝试过抓取数千个页面?进一步扩大规模?处理系统故障并从中恢复? 在了解了如何从网站中提取内容以及如何避免被阻止之后,我们将看一下抓取过程。要大规模获取数据,手动获取一些 URL 不是一种选择。我们需要使用一个自动化系统来发现新页面并访问它们。 免责声明:对于实际使用,请找到合适的软件。以下是有关的更多信息。本指南假装是对爬行过程如何工作和做基础知识的介绍。但是有很多细节需要解决。 先决条件 要使代码正常工作,您需要安装 python3。有些系统已经预装了它。之后,通过运行安装所有必需的库pip install。 pip install requests beautifulsoup4 如何获取页面上的所有链接 requests.get从本系列的第一篇文章中,我们知道使用和从网页获取数据很容易BeautifulSoup。我们将从在准备测试抓取的假商店中找到链接开始。 获取内容的基础是相同的。然后我们获取分页器上的所有链接并将链接添加到set. 我们选择…