工具

用爬虫浏览器轻松提取数据

By姚伟斌 November 2, 2023September 12, 2023

数据提取是从网页中获取特定数据的过程。用户可以提取文本、图片、视频、评论、产品等数据。您可以提取数据进行市场研究、情感分析、竞争分析和聚合数据。

如果您处理的数据量较小，可以通过将特定信息从网页复制粘贴到电子表格或文档格式中进行手动提取数据。例如，作为客户，如果您正在寻找在线评论来帮助您做出购买决策，可以手动提取数据。

另一方面，如果您处理大量数据集，您需要自动化数据提取技术。您可以创建内部解决方案或使用Proxy API或进行此类任务。

然而，这些技术可能不太有效，因为您所针对的一些网站可能受到验证码的保护。您还可能需要管理机器人和代理。这些任务可能会占用您的大量时间并限制您可以提取的内容的性质。

Scrapping Browser：解决方案

您可以通过Bright Data的Scrapping Browser克服所有这些挑战。这款一体化浏览器可帮助您从难以抓取的网站收集数据。它是一个使用图形用户界面（GUI）并由Puppeteer或Playwright API控制的浏览器，使其对机器人不可见。

Scrapping Browser内置解锁功能，可以自动处理所有阻挡。该浏览器在Bright Data的服务器上打开，这意味着您无需昂贵的内部基础设施即可为大规模项目提取数据。

Bright Data Scraping Browser的特点

自动网站解锁：您无需不断刷新浏览器，因为此浏览器会自动调整以处理解决、新阻挡、指纹和重试。Scrapping Browser模拟真实用户。
庞大的代理网络：您可以针对任何国家，因为Scrapping Browser拥有超过7200万个IP。您可以针对城市甚至运营商，并从最先进的技术中受益。
可扩展：此浏览器使用的是Bright Data基础设施，可以同时打开数千个会话来处理所有请求。
与Puppeteer和Playwright兼容：此浏览器允许您通过Puppeteer（Python）或Playwright（Node.js）进行API调用和获取任意数量的浏览器会话。
节省时间和资源：Scraping Browser会在后台处理所有代理设置，您也无需设置内部基础设施，因为该工具会在后台处理所有这些。

如何设置Scrapping Browser

访问Bright Data网站，单击“Scraping Solutions”选项卡上的链接。

创建帐户。您将看到两个选项：“开始免费试用”和“通过Google免费启动”。让我们先选择“开始免费试用”，然后转到下一步。您可以手动创建帐户，也可以使用您的Google帐户。

创建帐户后，仪表板将显示多个选项。选择“代理和抓取基础设施”。

在打开的新窗口中，选择Scrapping Browser，然后点击“开始”。

保存并激活您的配置。

激活您的免费试用。第一个选项为您提供$5的信用，可用于代理使用。点击第一个选项尝试此产品。但是，如果您是重度用户，您可以点击第二个选项，在您的帐户中充值$50或更多，免费获得$50。

输入您的账单信息。不用担心，平台不会向您收费。账单信息只是用于验证您是否是新用户，并且不是通过创建多个账户来寻找免费赠品的。

创建一个新的代理。保存您的账单详细信息后，您可以创建一个新的代理。点击“添加”图标，选择“代理类型”为“Scraping Browser”。点击“添加代理”并进行下一步。

创建一个新的“区域”。会出现一个弹出窗口询问您是否要创建一个新的区域；点击“是”并继续。

点击“查看代码和集成示例”。您现在将获得可以用于从目标网站抓取数据的代理集成示例。您可以使用Node.js或Python来从目标网站提取数据。

如何从网站提取数据

现在您已经具备从网站提取数据所需的一切。我们将使用我们的网站yaoweibin.com来演示Scraping Browser的工作原理。对于这个演示，我们将使用node.js。如果您已安装了node.js，您可以跟着进行操作。

按照以下步骤进行操作：

在本地计算机上创建一个新项目。进入该文件夹并创建一个名为script.js的文件。我们在本地运行爬取代码，并在终端中显示结果。
在您喜欢的代码编辑器中打开该项目。我使用的是VsCode。
安装puppeteer。使用以下命令：npm i puppeteer-core
将以下代码添加到script.js文件中：

const puppeteer = require('puppeteer-core');

   // 应该看起来像 'brd-customer--zone-:'

const auth='USERNAME:PASSWORD';

async function run(){

  let browser;

  try {

    browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});

    const page = await browser.newPage();

    page.setDefaultNavigationTimeout(2*60*1000);

    await page.goto('https://example.com');

    const html = await page.evaluate(() => document.documentElement.outerHTML);

    console.log(html);

  } 

  catch(e) {

    console.error('运行失败', e);

  } 

  finally {

    await browser?.close();

  }

}

if (require.main==module)

     run();

使用您的账户详细信息更改const auth='USERNAME:PASSWORD';中的内容。在标有“访问参数”的选项卡中检查您的用户名、区域名称和密码。
输入您的目标URL。对于我的案例，我想提取yaoweibin.com上所有作者的数据，位于https://yaoweibin.cn/authors。

我将将第10行的代码更改为以下内容：

await page.goto('https://yaoweibin.cn/authors/');

现在我的最终代码将是：

const puppeteer = require('puppeteer-core');

   // 应该看起来像 'brd-customer--zone-:'

const auth='brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c';

async function run(){

  let browser;

  try {

    browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});

    const page = await browser.newPage();

    page.setDefaultNavigationTimeout(2*60*1000);

    await page.goto('https://yaoweibin.cn/authors/');

    const html = await page.evaluate(() => document.documentElement.outerHTML);

    console.log(html);

  } 

  catch(e) {

    console.error('运行失败', e);

  } 

  finally {

    await browser?.close();

  }

}

if (require.main==module)

     run();

使用以下命令运行您的代码：

node script.js

您将在终端上看到类似以下的内容

如何导出数据

根据您打算如何使用数据，您可以使用几种方法来导出数据。今天，我们可以通过更改脚本将数据导出到一个名为data.html的html文件中，而不是打印在控制台上。

您可以按以下方式更改代码的内容：

const puppeteer = require('puppeteer-core');

const fs = require('fs');

// 应该看起来像'brd-customer--zone-:'

const auth = 'brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c';

async function run() {

  let browser;

  try {

    browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` });

    const page = await browser.newPage();

    page.setDefaultNavigationTimeout(2 * 60 * 1000);

    await page.goto('https://yaoweibin.cn/authors/');

    const html = await page.evaluate(() => document.documentElement.outerHTML);

    // 将HTML内容写入文件

    fs.writeFileSync('data.html', html);

    console.log('数据导出完成。');

  } catch (e) {

    console.error('运行失败', e);

  } finally {

    await browser?.close();

  }

}

if (require.main == module) {

  run();

}

您现在可以使用以下命令运行代码：

node script.js

如下截图所示，终端显示了“数据导出完成”的消息。

如果我们检查项目文件夹，现在可以看到一个名为data.html的文件，其中包含数千行代码。

使用Scraping Browser可以提取哪些内容？

我只是简单介绍了如何使用Scraping Browser提取数据的方法。使用这个工具，我甚至可以仅提取作者的名称和描述。

如果您想使用Scraping Browser，首先确定您想要提取的数据集，然后根据需要修改代码。您可以根据目标网站和HTML文件的结构提取文本、图像、视频、元数据和链接。

常见问题

数据提取和Web抓取是否合法？

Web抓取是一个有争议的话题，一些人认为它是不道德的，而另一些人认为没问题。Web抓取的合法性将取决于被抓取内容的性质以及目标网页的政策。
通常情况下，从包含个人信息（如地址和财务细节）的数据中进行抓取被认为是非法的。在抓取数据之前，请检查您所针对的网站是否有任何指南。始终确保您不要抓取不公开的数据。

Scraping Browser是免费工具吗？

不是的。Scraping Browser是一个付费服务。如果您注册免费试用，该工具会给您5美元的信用额度。付费套餐从每GB 15美元起，每小时额外费用为0.1美元。您还可以选择按使用量付费的选项，每GB起步价为20美元，每小时额外费用为0.1美元。

Scraping Browser和无界面浏览器之间有什么区别？

Scraping Browser是有界面浏览器，意味着它有一个图形用户界面（GUI）。另一方面，无界面浏览器没有图形界面。无界面浏览器（如Selenium）用于自动化Web抓取，但有时受限于需要处理验证码和机器人检测。

总结

正如你所看到的，Scraping Browser简化了从网页中提取数据的过程。与Selenium等工具相比，Scraping Browser的使用非常简单。即使非开发人员也可以使用这个浏览器，它具有出色的用户界面和良好的文档。该工具具有其他抓取工具不具备的解封能力，使其对所有希望自动化这些过程的人来说都非常有效。

你也可以了解如何阻止ChatGPT Plugins从爬取你的网站内容。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

腾讯收购了僵尸游戏开发商Techland，Cohere推出了人工智能助手，Stability AI揭示了新的语言模型。

By姚伟斌 November 17, 2023September 12, 2023

你好！ 🙋我们今天有以下更新！ 📣 zombie游戏制作商techland被腾讯的游戏巨头收购 cohere发布了面向企业的ai助手coral stability ai推出了新的freewilly语言模型 zombie游戏制作商techland被游戏巨头腾讯收购根据 techland 博客的说法，腾讯是一家重要的游戏公司，正在收购其大部分股份。该博客还表示，他们已与一家最好的视频游戏公司合作，帮助许多人达到新的高度。 techland以开放世界的僵尸游戏（如《黎明杀机》）而闻名。此次交易的具体条款没有透露。作为全球最大的游戏公司之一，腾讯广泛投资于全球各地的许多工作室和企业。他们收购了《英雄联盟》的创造者riot games，并持有krafton（《绝地求生》背后的力量）、supercell（《部落冲突》的开发者）、育碧和epic games的股份。 cohere发布了面向企业的ai助手coral…

工具

如何在TikTok上打开个人资料浏览功能并查看谁浏览了你

By姚伟斌 November 3, 2023September 13, 2023

TikTok是一个非常流行的社交媒体平台，近年来在全球范围内风靡一时。 TikTok最初于2016年在中国以抖音的名字推出，后来在2018年为国际观众重新定名为TikTok。自那时以来，TikTok已成为增长最快的社交媒体平台之一，截至2025年拥有超过a billion active users。该应用的流行主要源于其独特和engaging content的内容，主要是15到60秒的短视频。这些视频可以是舞蹈、配音、喜剧小品、挑战赛，也可以是教育内容、生活技巧和美妆教程。该应用的算法还会根据您的兴趣为您提供个性化的内容，使其非常令人上瘾和吸引人。 TikTok也成为发现新音乐和潮流的平台，许多热门歌曲和舞蹈都起源于该应用，然后传播到主流文化中。名人和影响者也注意到该平台庞大的受众，许多人使用TikTok来推广自己的品牌和内容。 TikTok的流行势头没有减缓的迹象，迅速成为社交媒体领域的重要参与者。 TikTok的个人资料页面浏览量是什么？ TikTok的个人资料页面浏览量是指您在TikTok上的个人资料页面被浏览的次数。当有人在TikTok上点击您的用户名或个人头像时，他们会被带到您的个人资料页面。该页面通常显示您的个人头像、个人简介和视频网格。每次有人浏览您的个人资料页面，都会计算为一个个人资料浏览量。个人资料浏览量对于希望在平台上扩大粉丝群和增加参与度的TikTok用户来说是一个重要的指标。通过跟踪您的个人资料浏览量，您可以了解有多少人发现了您的内容并与您的品牌互动。除个人资料浏览量外，TikTok还会跟踪与用户参与度相关的各种指标，如点赞、评论、分享和关注者。这些指标可以帮助您评估您的内容的受欢迎程度，并识别增长趋势和机会。 TikTok还为创作者和企业提供分析工具，以跟踪他们在平台上的表现，并相应地优化他们的内容策略。…

工具

如何在Apple TV上使用VPN

By姚伟斌 November 15, 2023September 11, 2023

关于为什么以及如何在您的Apple TV上使用VPN进行无限制流媒体的指南。 VPNs不再仅仅是安全或商业产品。根据这些VPN统计数据，50%的用户仅出于娱乐目的订阅VPN，77%的此类订阅者每月购买数字内容。因此，很明显VPN不仅限于IT人员或受到压制的地区的人员。’普通’人们使用它来做很多事情，包括解锁地理限制的流媒体内容，保护自己在公共WiFi上的安全，下载种子文件等等。所以，让我们从一个小小的介绍开始这个Apple TV VPN指南。什么是VPN？尽管互联网似乎是全球性的和可访问的，但实际情况恰恰相反。您通过您的计算机的IP地址（以及其他一些东西）进行识别，并且只被允许查看您应该看到的内容。例如，在中国无法使用Facebook或Twitter。同样地，您无法从学校的WiFi访问每个网站。 VPN-虚拟专用网络-试图终结这种数字压制。当您连接到VPN时，它充当您和互联网的桥梁，随后，您的计算机被认为是活动VPN服务器的IP地址。这样，当您选择与感兴趣的内容匹配的适当VPN服务器时，您就可以获得无限制的访问。技术上来说，您的数据通过AES-256位算法加密，以帮助您进行隐秘浏览。这些安全连接由VPN protocols支持，根据用例和功能（如地理解锁、速度、加密强度等）有很多种类。…

工具

14个最佳家长控制应用程序，以确保您的孩子在线安全[2025年]

By姚伟斌 November 22, 2023September 12, 2023

让孩子在网上更安全。今天，技术是我们拥有的最好的东西。我们可以随身携带智能手机，几乎可以与任何人立即联系。我们还可以在这个设备上玩游戏，了解国内最新的情况，点击我们的照片并将它们发送给我们的朋友和家人。孩子们对技术也很着迷，因为这些东西对他们来说是全新的。作为成年人，你知道技术也有负面方面。但是你的孩子还不知道。他们可能会接触到不适合他们年龄的内容，无意识地成为网络欺诈的受害者，甚至访问暴力图像，这可能对他们天真的大脑产生影响。在这种情况下，你会怎么做？一个选择是阻止你的孩子访问智能手机或任何形式的技术。但是选择这个选项，你会剥夺他们的自由。而且，他们会看到他们的朋友使用最新的手机，玩最新的游戏，并向你要求同样的东西。因此，如果你想给孩子们充分使用技术的机会，让他们只使用其中好的部分，而不接触坏的部分，家长控制应用程序是可以帮助你的。家长控制应用程序是可以安装在你的设备上的简单智能手机应用程序。这些应用程序将限制特定内容，以使你的孩子不会接触到它。如果你想控制整个家庭网络，或者不想使用应用程序，你可以尝试内容/dns过滤解决方案。 bark bark可以让你监控超过30个社交网络，几乎不需要你的干预。大多数时候，父母都担心孩子们访问了什么样的社交网络。这个应用程序内置了算法，可以持续监控孩子的活动。当他们试图访问不应该访问的东西时，该应用程序会向你发送警报。bark应用程序可在android和ios上使用，可以帮助监控你孩子的社交媒体、电子邮件和短信活动。你还可以配置屏幕时间和过滤web。 umobix 作为现代家长，使用 umobix 手机追踪器，实时跟踪你孩子的平板电脑或智能手机，并监控一切。它允许你监控30多个应用程序，如kik、facebook、chrome、skype、wechat、instagram、snapchat、messenger、whatsapp等。…

工具

13 个最佳的 Adobe Animate 替代方案，适用于创意动画和设计项目

By姚伟斌 November 10, 2023September 12, 2023

如果我们谈论动画，Adobe Animate是目前最好的工具之一。但是成为最好的并不意味着每个人都喜欢它。动画师可能因为多种原因不喜欢它 – 它可能价格昂贵，他们不喜欢某些功能，该工具学习曲线陡峭或其他原因。如果你是一位寻找替代方案的动画师，请阅读本博客，了解市场上最好的替代方案。但首先，让我们谈谈Adobe Animate的受欢迎程度和缺点。 Adobe Animate的受欢迎程度 Adobe Animate – 以前被称为Macromedia Flash（然后是Adobe Flash），已经存在了很长时间（从1987年的第2版开始）。人们主要使用它来创建基于网络的动画和互动内容。…

工具

如何设置无密码身份验证以访问GitHub私有仓库？

By姚伟斌 November 9, 2023August 30, 2023

重复相同的任务对于像我们这样的程序员来说既无聊又痛苦，不是吗？其中一个这样的任务是与GitHub的私有仓库进行互动。