Robots.txt协议详解及阅读说明

By姚伟斌 December 18, 2023August 3, 2023

robots.txt 是网站用来让网络抓取工具知道他们是否应该抓取页面的文件。您应该尊重该偏好，因为不这样做会很容易检测到您的机器人，否则您可能会面临法律后果。

让我们学习如何在网络抓取时阅读 robots.txt！

Web Scraping 中的 robots.txt 是什么？

Robots Exclusion Protocol (REP) 将robots.txt设置为标准化文件，以指示允许抓取网站的哪些部分，Google 对其进行了推广。

User-agent: *
Sitemap: https://finance.yahoo.com/sitemap_en-us_desktop_index.xml
Sitemap: https://finance.yahoo.com/sitemap_en-us_quotes_index.xml
Sitemap: https://finance.yahoo.com/sitemaps/finance-sitemap_index_US_en-US.xml.gz
Sitemap: https://finance.yahoo.com/sitemaps/finance-sitemap_googlenewsindex_US_en-US.xml.gz
Disallow: /r/
Disallow: /_finance_doubledown/
Disallow: /nel_ms/
Disallow: /caas/
Disallow: /__rapidworker-1.2.js
Disallow: /__blank
Disallow: /_td_api
Disallow: /_remote

User-agent:googlebot
Disallow: /m/
Disallow: /screener/insider/
Disallow: /caas/
Disallow: /fin_ms/

User-agent:googlebot-news
Disallow: /m/
Disallow: /screener/insider/
Disallow: /caas/
Disallow: /fin_ms/

如何从网站获取 robots.txt 文件？

/robots.txt您通常通过向网站域的根目录发送 HTTP 请求并附加到 URL 的末尾来检索网站的 robots.txt 。例如，要检索的规则https://www.g2.com/，您需要向发送请求https://www.g2.com/robots.txt。

您可以使用 cURL 或 Wget 等工具从命令行获取文件。或者，您可以这样做并使用 Python 中的 Requests 和 Beautiful Soup 库阅读它。

备注：如果您的请求失败并返回404 not found错误，则表示该网站没有 robots.txt 文件。并非所有站点都有这样的文件。

最常见的 robots.txt 规则是什么？

robots.txt 文件指示以下网页抓取方向之一：

网站上的所有页面都是可抓取的。
不应访问任何一个。
某些部分或文件应保持不变。它还可以指定抓取速率限制、访问次数和请求速率。

让我们看看您会在 robots.txt 文件中找到哪些说明。

用户代理

它决定了谁可以进行网页抓取。

语法是这样的：

User-agent: [value]
Disallow: [value]

如果User-agent有通配符 ( *)，则表示允许所有人爬行。如果包含特定名称，例如AdsBot-Google，则表示在这种情况下仅允许使用 Google。

当Disallow没有值时，允许所有页面进行抓取。如果您看到/，则意味着每个页面都是不允许的。如果您看到路径或文件名，例如/folder/或/file.html，我们会被指出不应抓取的内容。

的替代说明Disallow是Allow，它说明了您应该访问的唯一资源。

抓取延迟

Crawl-delay设置您可以抓取每个新资源的速度（以秒为单位）。这有助于网站防止服务器过载，其后果是降低人类访问者的网站速度。

Crawl-delay: 7

小心这个，因为不遵循它可能会将您标记为恶意爬虫并很容易被阻止。

访问时间

它指定可以抓取网站的时间。格式为hhmm-hhmm，时区为UTC。

Visit-time: 0200-1230

在这种情况下，允许机器人从 02:00 到 12:30 UTC。

请求率

它限制了爬虫可以同时向网站发出的请求数。格式为x/y，其中x是请求数，y是时间间隔（以秒为单位）。

Visit-time: 1/5

例如，1/5这意味着您只能每五秒请求一页。

使用 robots.txt 抓取网站的步骤是什么

以下是您需要执行的操作，以尊重用于网络抓取的 robots.txt 文件：

/robots.txt通过向网站域的根发送 HTTP 请求并添加到 URL 的末尾来检索网站的 robots.txt 。
解析分析文件内容，了解网站的抓取规则。
检查网站是否为您的用户代理指定了任何“禁止”或“允许”规则。
查找您必须遵守的任何指定的爬网速率限制或访问时间。
确保您的抓取程序遵守规则。
按照 robots.txt 文件中设置的规则抓取网站。

备注：虽然网站所有者使用 robots.txt 来控制对其网站的访问，但您的 bot 可能会被允许但被阻止。您需要了解验证码、IP 阻止和其他可能无意中阻止您的挑战。为避免这种情况，请查看我们关于网络抓取最佳实践的文章。

使用 robots.txt 文件的优点和缺点是什么？

为了总结我们对 robots.txt 文件的概述，我们将讨论它们在网络抓取方面的优缺点。

👍优点：

robots.txt 会通知您可以抓取哪些页面。
它会让您知道网站是否设置了请求速率限制或时间范围。

👎缺点：

如果您不遵守 robots.txt 规则，可能会采取法律行动。
如果您忽略该文件，您的抓取工具可能很容易被阻止。

结论

正如我们所见，阅读 robots.txt 是成功进行网络抓取和避免不必要问题的关键。此外，我们还学习了如何理解该文件。

如果您仍然被阻止，您可能面临反机器人保护。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

Scraping

如何构建分布式网络爬虫的系统和架构

By姚伟斌 November 11, 2023August 3, 2023

正在寻找大规模构建分布式爬虫架构和解析器的指南？了解如何实现分布式爬虫，包括 Web 抓取、提取内容并以容错方式存储具有可扩展性的内容。我们将结合以前帖子中的所有知识来创建一个分布式爬虫系统。首先，我们了解了抓取内容的专业技术，尽管我们今天只使用 CSS 选择器。然后是避免阻塞的技巧，我们将从中添加代理、标头和无头浏览器。最后，我们构建了一个并行爬虫，这篇博文就是从该代码开始的。如果您不理解某些部分或片段，它可能在较早的帖子中。振作起来；冗长的片段来了。先决条件要使代码正常工作，您需要安装Redis和python3。有些系统已经预装了它。之后，通过运行安装所有必需的库pip install。 pip install install requests beautifulsoup4 playwright…

Scraping

如何在Python中使用Puppeteer爬虫神器

By姚伟斌 November 6, 2023July 14, 2023

有兴趣在 Python 中使用Puppeteer吗？幸运的是，原始 Node.js 库上有一个非官方的 Python 包装器：Pyppeteer！在本文中，您将学习如何使用 Pyppeteer 进行网络抓取，包括：用它浏览并提取数据。与动态内容交互。截图。集成代理。自动登录。解决常见错误。…

Scraping

抓取时如何有效地绕过验证码

By姚伟斌 November 6, 2023August 10, 2023

验证码可能会阻碍任何网络抓取项目，并且变得越来越具有挑战性。幸运的是，有一些方法可以在网页抓取时绕过验证码，我们将介绍七种经过验证的技术：轮换 IP。轮换用户代理字符串。使用验证码解析器。避免隐藏的陷阱。模拟人类行为。保存cookie。隐藏自动化指示器。什么是验证码 CAPTCHA 是“区分计算机和人类的完全自动化公共图灵测试”的缩写。这是一种防止自动化程序访问网站的安全措施，保护它们免受潜在的伤害。该测试对于人类来说很容易解决，但对于机器来说却很难理解。例如，在下图中，用户必须选中该框才能证明他们是人类。验证码可以绕过吗一般来说，验证码可以被绕过，但具有挑战性。最推荐的方法是首先阻止它们出现，如果被阻止，则重试请求。或者，你也可以解决它，但成功率要低得多，而且成本要高得多。下面，我们将介绍…

Scraping

如何绕过Akamai反爬虫风控

By姚伟斌 November 25, 2023August 4, 2023

Web 抓取是一种古老且仍然常用的数据提取技术。Akamai Bot Manager 和其他供应商试图减轻抓取可能导致的问题。他们的目标是阻止诸如 DDoS 或欺诈性身份验证尝试之类的攻击。出于教育目的，我们的目标是绕过 Akamai。爬虫不是他们的主要目标，但无论如何都可能会阻止他们的内容。区分好的和坏的机器人不是一件容易的事。让我们看看他们是怎么做的以及如何做的，并学习如何绕过 Akamai Bot Manager！什么是机器人检测软件 Bot 检测，也称为 Web…

Scraping

如何将旋转代理与cURL一起使用

By姚伟斌 November 4, 2023July 12, 2023

您在使用 cURL 时是否被网站阻止？最有效的技术之一是通过代理服务器路由您的请求，从而更难将您的流量识别为非人类流量。在本教程中，您将学习使用 cURL 代理的分步过程以及网络抓取时要考虑的最佳实践和协议。 cURL 中的代理是什么？ cURL 代理是一个服务器，充当客户端和目标服务器之间的中介，以增加匿名性和不受网络限制地访问资源。它是这样工作的：首先，客户端向代理服务器发送请求。接下来，代理服务器将其转发到目标服务器。来自目标服务器的响应返回给代理服务器。最后，代理将响应转发给客户端。如何将代理与 cURL…

Scraping

如何使用Python抓取JavaScript动态内容

By姚伟斌 November 1, 2023August 11, 2023

有没有试过用 Python 抓取 JavaScript 渲染的网页，但你碰壁了？嗯，这是可以理解的。抓取 JavaScript 呈现的网页可能很困难，因为网页上的数据是动态加载的。还有大量使用 React.js、Angular 和 Vue.js 等框架的 Web 应用程序，因此基于请求的抓取器很有可能在抓取 JS 呈现的页面时中断。如果您希望从这些网页中抓取…

Robots.txt协议详解及阅读说明

Web Scraping 中的 robots.txt 是什么？

如何从网站获取 robots.txt 文件？

最常见的 robots.txt 规则是什么？

用户代理

抓取延迟

访问时间

请求率

网站地图

使用 robots.txt 抓取网站的步骤是什么

使用 robots.txt 文件的优点和缺点是什么？

结论

Related

如何构建分布式网络爬虫的系统和架构

如何在Python中使用Puppeteer爬虫神器

抓取时如何有效地绕过验证码

如何绕过Akamai反爬虫风控

如何将旋转代理与cURL一起使用

如何使用Python抓取JavaScript动态内容

Web Scraping 中的 robots.txt 是什么？

如何从网站获取 robots.txt 文件？

最常见的 robots.txt 规则是什么？

用户代理

抓取延迟

访问时间

请求率

网站地图

使用 robots.txt 抓取网站的步骤是什么

使用 robots.txt 文件的优点和缺点是什么？

结论

Related

Similar Posts