工具

如何使用ChatGPT进行Web爬虫，使用插件和代码解释器

By姚伟斌 December 16, 2023September 12, 2023

使用chatgpt code interpreter及其插件进行网络爬虫的详细指南。

如果您不想创建一些新奇的东西，那么您很可能需要一些先决信息才能开始。或者，您可能想研究有价值的输入竞争情况。此外，有很多原因让人们对特定网站的内容感兴趣。

网络爬虫就是为此类用例提供服务的过程。

有几种方法可以做到这一点。您可以订阅一些重量级工具，以便专业地爬取大型网站。或者，您可能需要特定的设置进行内部处理。

无论哪种方式，对于初学者来说，这种方法对于爬取几个网页来说都是昂贵、耗时且繁琐的。

chatgpt用于网络爬虫的概述

我不应该向您介绍chatgpt。是吗？

简而言之，chatgpt是一个像人类一样回答问题的生成ai。您可以使用聊天界面来要求它完成各种任务，例如查询历史事件、写作、摘要、翻译、编码等。

chatgpt以文本形式回复。然而，有一些chatgpt插件可以以许多方式增强其功能。我们将使用其中一个插件。此外，我们将使用其代码解释器来爬取具有复杂网页结构或具有主动反爬虫协议的网站。

请注意，chatgpt有免费和付费版本。但是，您需要购买付费订阅（目前每月20美元）才能使用网络爬虫插件或其代码解释器引擎。

在后续章节中，我将逐步说明整个过程。

免责声明：在自行进行之前，请确认所述的网站允许爬取其内容。如果不允许，请联系网站管理员，看看他们是否允许您避免任何法律纠纷。

使用chatgpt插件进行网络爬虫

登录您的openai账户，将鼠标悬停在gpt-4（当前付费版本）上，然后点击“plugins”。

接下来，点击“no plugins enabled”，向下滚动，然后点击“plugin store”。

请注意，如果有插件处于活动状态，您将看到一个插件图标，而不是“no plugins enabled”。在这种情况下，您需要点击该图标以展开下拉菜单，并点击底部的plugin store。

这将打开plugin store。搜索“scraper”，然后点击“install”。

在chatgpt界面中选择此插件。

在选择了此插件之后，必须提示chatgpt，提及主题url和要进行爬取的内容。

我已经为一些网站做过这样的操作。看看这个示例。

爬取一篇文章

我们是一个以技术为重点的出版物，我选择了我们的主页yaoweibin.com/进行说明。

下面是提示：

检查此网页：https://yaoweibin.cn/，并准备一个表格，列出前10篇文章的文章标题、作者、出版日期和摘要。

可以重新提示将数据转换为csv格式，将其粘贴在以.csv扩展名保存的文本文件中，并在类似ms excel的电子表格应用程序中打开它。

抓取交易或优惠网页

我们精选了一些顶级技术项目的优惠信息的链接_2部分。如何以表格形式获取每个交易的信息？

从此网页准备一个交易列表：https://yaoweibin.cn/deals/，以表格形式呈现结果。

抓取维基百科

以表格形式总结来自维基百科主页的“在新闻中”部分的最新新闻：https://en.wikipedia.org/wiki/main_page

抓取电子商务商店

最后，我尝试从amazon.com上爬取笔记本电脑，通过应用一些过滤器并将url提供给chatgpt。这是我的结果：

问题在于这不是个例。在许多情况下，网站都有反抓取措施。在这种情况下，如果不能订阅行业标准的抓取器，您将需要找到其他获取数据的替代方法。

以下各节介绍了一种解决方案。

使用chatgpt代码解释器进行网络抓取

代码解释器是一个新推出的chatgpt引擎，用于处理与编程相关的任务。虽然默认引擎严重依赖文本回答，但code interpreter可以帮助可视化输出，解析、调试和执行代码，与软件二进制文件集成，以及进行更多面向编程的操作。

在此过程中，我们将下载源html，将其上传到chatgpt代码解释器中，并进行抓取。

我选择了这个页面进行提取：

我们将首先保存网页为html。为此，转到网页并按ctrl+s。

现在我们有了用于抓取的文件。让我们弄清楚提示。

除了文本提示外，您可以看到我给它了一些示例元素以加快抓取速度。由于amazon的网页结构复杂，如果没有这些示例，抓取尝试可能会失败或无结果。

获取这些元素非常简单。在主题网页的任何位置右键单击，然后从弹出菜单中点击“检查”。

首先，点击最上面的图标（标记为1）。这将在您从页面中选择元素时突出显示细节。接下来，选择任何特定产品的容器元素。

请确保选择最内层的容器。您可以悬停浏览，它会保持高亮显示。当您获得覆盖该块的最后一个外壳时，可以单击并转到右侧以复制元素的div class。

同样，选择其他元素的示例。

最后，上传html并使用类似以下的提示：

查看这个网页的html并提取笔记本电脑的标题、价格和评分。在这个聊天界面中以表格格式呈现结果，并提供一个csv文件供下载。

<div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
示例标题元素: span class="a-size-medium a-color-base a-text-normal"
示例价格元素: span class="a-price-whole"
示例评分元素: span class="a-size-base puis-bold-weight-text"

chatgpt代码解释器正在进行处理，这需要一些时间。在这个嵌入的csv文件中，您将得到一些详细信息。

您可以观察到表格中有一些条目在原始网页上不存在，特别是在开头。在这种情况下，您需要仔细检查和清理数据以去除任何冗余。

如果有的话，您可以重新提示chatgpt以获取一个干净的csv文件。

最后的想法

chatgpt可以做很多事情，基本的网页抓取就是其中之一。当然，如果需要抓取数百个页面，它可能不太适用。不过，它可以帮助您朝着正确的方向开始，并且非常适合进行短期的抓取。

在本指南中，我们使用了其中一个抓取插件和代码解释器。虽然插件适用于许多标准网站，但第二种方法适用于自定义网页结构或页面具有动态元素（无限滚动、阅读更多等）的情况。

再次强调，在进行抓取之前，请仔细阅读目标网站的使用条款。

附注：查看这些云抓取解决方案和我们自己的yaoweibin抓取api。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

10个DKIM记录生成器以验证电子邮件的真实性

By姚伟斌 December 1, 2023September 12, 2023

您可以通过使用dkim记录生成工具添加dkim签名来实现营销邮件的最大可交付性。电子邮件钓鱼和欺骗是最常见的两种网络攻击。根据一份statista报告，它们占据了54％的网络漏洞。proofpoint提供的另一份与网络攻击相关的统计数据称，欺诈者每天发送31亿封域名欺骗邮件。解决方案是通过使用加密的加密密钥对进入的电子邮件进行身份验证的电子邮件服务器。全球运作的最佳技术是dkim签名。如果您是任何企业的数字营销人员，请阅读本文直到结束，以了解一些顶级dkim记录生成工具以及dkim的基础知识。此外，如果您仅将电子邮件用于个人用途，并希望远离钓鱼和欺骗攻击，本文将通过提供基础知识来帮助您。什么是dkim记录？ dkim是一种被称为domainkeys identified mail的电子邮件发送方验证技术。电子邮件接收方的电子邮件服务器使用dkim验证电子邮件的完整性和发送方。在dkim中，您在电子邮件的源代码中添加dkim签名。您在电子邮件服务客户端应用程序中设置它，并指示应用程序为从电子邮件域发送的所有电子邮件添加签名作为标头消息。此外，电子邮件应用程序使用加密来加密签名。现在，接收方电子邮件服务器使用一个密钥（公钥）来解开加密锁并读取签名。此密钥和其他dkim文本通称为dkim记录。在现代电子邮件的常规视图中，您无法看到或阅读dkim记录。您需要在通过gmail访问的电子邮件菜单中选择“显示原始邮件”选项才能看到dkim记录。其他电子邮件客户端的电子邮件应用程序也有类似的选项。首先，您将在电子邮件的原始邮件中看到以下内容： dkim：’pass’ with domain…

工具

使用这些令人惊叹的工具来强化Kubernetes

By姚伟斌 November 14, 2023August 30, 2023

本文将向您介绍一些可以与Kubernetes配合使用以增强其功能的强大工具。当在DevOps生态系统中工作时，您可以使用这些工具来提高工作效率。

工具

14个最佳书签管理器，用于保存和回顾您的链接

By姚伟斌 December 18, 2023August 31, 2023

这是一份书签管理器的列表，它们将帮助您保存和管理重要链接。立即阅读吧！

工具

获得云电脑用于远程员工的十大理由

By姚伟斌 November 25, 2023September 12, 2023

云PC因为为用户提供一致的体验而越来越受欢迎。云PC，也被称为或桌面即服务（DaaS），提供了一种独特的桌面环境，终端用户可以从任何地方访问。然而，它不仅局限于桌面虚拟化技术，还提供了一系列的灵活性和安全性功能。这种云解决方案具有敏捷性、灵活性和安全性，这是企业支持远程或混合工作模式所需要的。在下面的章节中，了解为您的远程团队获取云PC的主要原因。什么是云PC？云PC或云桌面是指通过云而不是本地数据中心或物理设备提供的虚拟桌面服务。使用这个解决方案，用户可以通过互联网从任何远程位置或设备访问他们的桌面和应用。这个虚拟桌面在基于云的集中式基础设施中运行，用户可以使用Web浏览器或专门的应用程序获得该服务。在这样的设置中，用户的操作系统、应用程序和桌面的其他组件存储和实施在数据中心的服务器上。用户可以使用任何设备来访问他们的桌面环境，因为设备作为一个显示终端，发送输入并接收来自虚拟桌面的输出。要了解更多关于这个概念的信息，您可以阅读我们的文章。当谈到远程团队和在家工作的员工时，他们应该获取云PC的主要原因如下。集中控制基于云的桌面允许公司对所有计算机进行集中控制。组织也不必担心安装软件或操作系统，因为云会照顾这些事务。它还消除了管理多台机器或购买额外硬件的需求。快速访问云桌面需要更少的资源来处理不同的任务。因此，远程员工可以迅速连接到这些系统，并以更快的速度访问所需的信息。此外，这些桌面会自动更新，因此更具先进性。安全性数据安全是所有远程团队的主要关注。云桌面解决方案提供了强大的安全功能，如加密和，以防止个人和敏感信息落入黑客之手。财务收益如果选择将基于云的桌面作为远程团队，就不需要额外的硬件或软件许可证。即使要向现有基础设施添加新功能或功能，您也可以根据使用量付费。由于没有月费或长期合同，这个解决方案可以帮助您控制预算。…

工具

6个Python图像处理库，用于高效的视觉处理

By姚伟斌 November 9, 2023September 12, 2023

我们大部分通过视觉来感知周围的世界。人类能够通过看到图像来识别物体、感知距离，甚至猜测纹理。然而，尽管视觉对我们来说似乎很常见和容易，但当尝试编程让计算机执行这个看似艰巨的任务时，它仍然有些难以捉摸。然而，多年来已经开发出了一些算法来帮助计算机执行图像处理这一看似艰巨的任务。这些算法已经被实现为代码，并作为软件库分发，本文将介绍这些库。什么是图像处理？图像处理是计算机视觉的一部分。它涉及对图像执行的任务，以便在机器学习中使用它们，并广泛地应用于 artificial intelligence。它对于检测和识别图像中的物体非常有用。这可应用于构建自动驾驶汽车和机器人，并对图像进行分类以识别类似仇恨内容的东西。图像处理的应用图像处理在许多领域中都被使用。一些最常见和有用的应用包括：医学成像和诊断，其中人工智能可以通过扫描来诊断患者在实施生物识别安全系统和建立监控系统时使用的安全性。在构建能够观察环境的机器人时使用的机器人技术。这包括自动驾驶汽车。 Augmented reality，例如滤镜。图像处理用于识别物体并对其应用滤镜。交通分析以读取车牌。这可以用于执法机构识别不遵守红灯停车或超速的驾驶员。…

工具

区块链怪物猎人：如何在世界上首款多链游戏中进行P2E

By姚伟斌 November 21, 2023September 11, 2023

区块链怪物猎人是一个多链游戏，通过您的游戏技能奖励您加密令牌。您想知道它的玩赚机制是如何工作的吗？近年来，基于区块链和元宇宙的游戏产业有了巨大的增长。到2028年，这个市场规模预计将超过1040亿美元。令人印象深刻，对吧？此外，游戏玩家已经转向基于元宇宙的游戏平台，以获得奖励和更好的体验。到2027年，增强现实（AR）和虚拟现实（VR）市场预计将达到超过1000亿美元。区块链怪物猎人是加密领域游戏玩家热议的话题。让我们直入这个基于区块链的增强现实（AR）游戏。什么是区块链怪物猎人？区块链怪物猎人是世界上第一个多链游戏。这款游戏受到了增强现实（AR）手机游戏宝可梦GO的启发。您可以玩这个游戏来探索各种数字空间。每个空间都以区块链上的一个区块表示，并且有着有限的怪物。您可以与这些独特的怪物进行战斗或猎杀，以进一步推进游戏。这个游戏的玩家也被称为“区块链守护者。” 每个区块链怪物猎人的玩家开始游戏时都有一个任务在心中。这个任务就是参与战斗，消灭邪恶的怪物。如果您未能猎杀怪物，它们将继续破坏多元宇宙。区块链怪物猎人使用多链技术来避免其他类似游戏面临的网络拥堵问题。此外，多链功能允许不同区块链的玩家进行互动并创建一个活跃的游戏社区。来源：bcmhunt.gitbook.io 玩家可以根据自己的偏好选择并切换到多个区块链网络。支持的网络包括以太坊、BSC（BNB智能链）、Moonbeam和其他链。例如，在BSC网络上您会发现火属性怪物，而在以太坊网络上有水属性怪物。如果您想用水属性怪物来消弱火属性怪物，您可以使用多链支持功能购买怪物。区块链怪物猎人的玩赚机制如何工作？在玩区块链怪物猎人这款有趣的游戏时，您有四种赚取收益的方式。这些方式包括： #1. 捕捉怪物…