工具

如何使用Geekflare网页抓取API来抓取网站

By姚伟斌 December 2, 2023September 11, 2023

Web scraping是从World Wide Web中提取有用信息的过程。在进行谷歌搜索时，网络爬虫（bot），即爬虫，浏览了网上几乎所有的内容，并选择与您相关的内容。

信息或知识对每个人都应该是可访问的这一理念导致了World Wide Web的形成。但是，您正在寻找的数据必须允许公开使用。

Web scraping有什么用途？

我们生活在信息时代。原始数据可以转化为有用的信息，可以借助web scraping用于服务更大的目的。它可以用于分析和研究产品的用户以改进产品，换句话说，创建一个反馈循环。

电子商务公司可以使用它来研究竞争对手的定价策略，并相应地制定自己的策略。网页抓取还可以用于天气和新闻报告。

挑战

#1. IP限制

一些网站通过检测您的IP地址或地理位置来限制您在特定时间间隔内获取网站数据的请求数量。他们这样做是为了防止对其网站的恶意攻击。

#2.验证码

区分真正的人类和试图访问该网站的机器人是验证码的真正作用。网站使用它来防止网站上的垃圾信息，并控制网站上的抓取程序数量。

#3.客户端渲染

这是网络爬虫面临的最大障碍之一。现代网站使用能够创建单页应用程序的前端框架。大多数单页应用程序没有服务器渲染的内容。

相反，它们使用客户端JavaScript根据需要生成内容。这使得抓取程序难以得知一个网页的内容。为了获取内容，您需要渲染一些客户端JavaScript。

Geekflare API

A web scraping API可以解决在执行Web抓取时遇到的大多数挑战，因为它会为您处理所有事情。让我们探索一下Geekflare API，并看看您如何将其用于Web抓取。

Geekflare的API为您提供了一个简单的三步流程：

提供要抓取的URL
提供一些配置选项
获取数据

它可以为您抓取网页，然后将原始HTML数据作为字符串或HTML文件返回，您可以通过链接访问，以适合您的方式。

使用API

在本教程中，您将学习如何使用Geekflare API使用NodeJS – 一个JavaScript运行时环境。如果您还没有在系统上安装Install NodeJS，请在继续之前安装。

在一个新文件夹内，创建一个名为index.mjs的文件。之所以选择mjs扩展名，是因为我们希望将此文件视为ES模块而不是Common JS文件。查看difference between ES modules and Common JS files。

在终端中的当前文件夹或目录中运行命令npm init -y。它将为您创建一个package.json文件。

在package.json文件中，如果main键值默认值是其他值，请将其更改为index.mjs。或者，您还可以添加一个键type并将其值设置为module。

{
  "type": "module"
}

通过在终端中运行npm i axios命令添加一个名为axios的依赖项。此依赖项帮助我们向特定端点发出获取请求。

您的package.json应该类似于以下内容：

{
  "name": "webscraping",
  "version": "1.0.0",
  "description": "",
  "main": "index.mjs",
  "scripts": {
    "test": "echo "Error: no test specified" && exit 1"
  },
  "author": "Murtuzaali Surti",
  "license": "ISC",
  "dependencies": {
    "axios": "^1.1.3"
  }
}

在index.mjs文件中引入axios。这里使用import关键字，因为它是一个ES模块。如果它是一个commonJS文件，那么将使用require关键字。

import axios from ‘axios’

对于我们对Geekflare API的所有请求，基本URL对于每个端点都是相同的。因此，您可以将其存储在一个常量中。

const baseUrl = 'https://api.yaoweibin.com'

指定要抓取数据的URL。

let toScrapeURL = "https://developer.mozilla.org/en-US/"

创建一个异步函数，并在其中初始化axios。

async function getData() {
    const res = await axios({})
    return res
}

在axios的配置选项中，您应该将方法指定为post，URL与端点一起指定，一个称为x-api-key的标头，其值将是Geekflare提供的API密钥，最后，一个将发送到Geekflare API的data对象。您可以通过转到dash.yaoweibin.com来获取API密钥。

const res = await axios({
    method: "post",
    url: `${baseUrl}/webscraping`,
    headers: {
        "x-api-key": "your api key"
    },
    data: {
        url: toScrapeURL,
        output: 'file',
        device: 'desktop',
        renderJS: true
    }
})

如您所见，数据对象具有以下属性：
- url：需要抓取的网页的URL。
- output：将数据呈现给您的格式，可以是内联字符串或HTML文件。内联字符串是默认值。
- device：您希望在其中打开网页的设备类型。它接受三个值，'desktop'、'mobile'和'tablet'，其中'desktop'是默认值。
- renderJS：一个布尔值，用于指定是否要渲染javascript。当您处理客户端渲染时，此选项非常有用。
- 如果您想获得配置选项的完整列表，请阅读Geekflare API的链接。
- 调用异步函数并获取数据。您可以使用IIFE（立即调用的函数表达式）。
```
(async () => {
    const data = await getData()
    console.log(data.data)
})()
```
- 响应将是这样的：
```
{
  timestamp: 1669358356779,
  apiStatus: 'success',
  apiCode: 200,
  meta: {
    url: 'https://murtuzaalisurti.github.io',
    device: 'desktop',
    output: 'file',
    blockAds: true,
    renderJS: true,
    test: { id: 'mvan3sa30ajz5i8lu553tcckchkmqzr6' }
  },
  data: 'https://api-assets.yaoweibin.com/tests/web-scraping/pbn0v009vksiszv1cgz8o7tu.html'
}
```
解析HTML

为了解析HTML，您可以使用一个名为node-html-parser的npm包，并从HTML中提取数据。例如，如果您想从网页中提取标题，可以这样做：
```
import { parse } from ‘node-html-parser’
const html = parse(htmlData) // htmlData是您从Geekflare API获取的原始HTML字符串。
```
或者，如果您只想获取网站的元数据，您可以使用Geekflare的metadata API端点。您甚至不必解析HTML。

使用Geekflare API的好处

在单页应用程序中，内容通常不是由服务器渲染的，而是由浏览器使用JavaScript渲染的。因此，如果您在不渲染用于呈现内容的JavaScript的情况下抓取原始URL，您将什么都得不到，只有一个没有内容的容器元素。让我给您举个例子。

这是一个使用react和vitejs构建的网站。demo website使用带有renderJS选项设置为false的Geekflare API来抓取此站点。你得到了什么？
```
    
```
只有一个没有内容的根容器。这是renderJS选项发挥作用的地方。现在尝试使用将renderJS选项设置为true的相同站点进行抓取。你得到了什么？
```
    
        
            
                
                    
                
                
                    
                
            
            Vite + React
            
                
                Edit src/App.jsx and save to test HMR
            
            Click on the Vite and React logos to learn more
        
    
```
使用Geekflare API的另一个好处是它允许您使用轮换代理，以确保网站不会发生IP阻塞。 Geekflare API在其premium plan下包含了代理功能。

最后的话

使用网络爬虫API使您只关注抓取的数据，而不会有太多技术麻烦。除此之外，Geekflare API还提供了诸如检查损坏的链接、元数据抓取、网站加载统计、屏幕截图、站点状态等功能。所有这些都在一个API下。请查看official documentation of the Geekflare API获取更多信息。

Related

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

ChatGPT与VS Code：轻松编码的第一步

By姚伟斌 December 1, 2023September 12, 2023

ChatGPT已成为有史以来最热门的关键词之一。在ChatGPT的众多优势中，它的代码助手功能最为突出。无论是代码生成、代码优化、错误解决还是文档编写，ChatGPT都能胜任。诚然，有时候它会产生幻觉并给出自信但不准确的答案，这时您必须进行验证，但这正是人类的用武之地。ChatGPT并非只能独立使用，而是需要与各领域的经验丰富的人类伴侣共同使用。就coding而言，ChatGPT对程序员来说有多种益处。让我们来看看其中一些：使用ChatGPT进行编码在编码过程中使用ChatGPT的好处包括：虚拟内容生成：编程过程中最无聊且耗时的任务之一是为手动测试生成虚拟内容。我知道您可以使用“lorem ipsum”来应付，但如果您想要特定数据类型的内容而不仅仅是字符串呢？好吧，ChatGPT可以为您完成。代码转换：假设您在Javascript中编写了一个程序，但想要将其移植到仅支持Java的其他设备上。在这种情况下，您将需要将其转换为Java并进行必要的优化。ChatGPT做起来非常容易。文档编写：这是大多数开发人员忘记在其代码中添加的内容。良好的文档是其他软件开发人员最希望得到的东西。是的，ChatGPT在这方面也很擅长。代码生成：为了让ChatGPT生成准确的代码，您必须提供对您想要解决的问题进行详细描述。您提供的上下文越多，生成的代码就越优化和准确。现在，所有这些都很好，但如果我告诉您，您可以将世界上最强大的AI工具与世界上最流行的代码编辑器集成在一起，您会怎么样？是的，您猜对了。ChatGPT可以与VS Code集成，让您兼得两全。在VS Code中使用ChatGPT的好处 VS Code被大多数开发人员使用，因为它具有很高的可扩展性。它本质上是一个代码编辑器，但如果与多个扩展结合使用，它将变成一个功能强大的集成开发环境。如果您已经熟悉VS…

工具

如何在您的应用程序中实施Passkeys/FIDO身份验证[8个解决方案]

By姚伟斌 November 2, 2023September 12, 2023

Passkeys或FIDO身份验证相比用户或密码身份验证，可以为来自不同用户设备的应用程序和网站提供更高的可访问性、更高的安全性和更快的登录速度。依赖基于密码的登录系统的企业可能面临黑客攻击、数据泄露、phishing attacks、按键记录器等问题。首先，密码登录的概念被引入以提供安全性，并在某种程度上确实做到了这一点。然而，许多网络用户经常创建弱密码或在不同应用程序和服务中重复使用相同的密码。网络犯罪分子可以轻易猜到或破解这些weak passwords，并获得对账户的访问。网络安全专业人员随后开发了多因素身份验证(MFA)，其中通过短信、电子邮件或电话进行验证。虽然这种做法增加了一层安全性，但并没有根除问题，它只是让黑客的事情变得困难。为了提供更好的安全性并减少或防止攻击，另一种技术被开发出来——FIDO身份验证或Passkeys。在本文中，我将讨论FIDO身份验证是什么，它如何有利于您的业务以及一些最好的FIDO提供商。让我们开始吧！什么是FIDO身份验证？ Fast Identity Online（FIDO）是一种提供强大认证规范的高级安全标准。它由FIDO联盟设计和开发，旨在在协议和客户端层面提供强大的身份验证。 FIDO身份验证或密码可以用快速安全的登录体验取代旧的传统登录方式。FIDO规范具有多因素身份验证和公钥加密。与密码身份验证不同，FIDO将包括生物识别身份验证数据在内的信息存储在用户设备上，以防止攻击。通过FIDO身份验证，开发者在为客户创建安全登录方面的努力减少了。它支持FIDO2、通用第二因素协议（U2F）和通用身份验证框架（UAF）。UAF帮助客户端设备在注册过程中创建一对新的密钥，其中包括一个用于在线服务的私钥和一个公钥。…

工具

7 个最佳的 Jenkins 托管平台，适用于小型到企业级

By姚伟斌 November 15, 2023August 31, 2023

会 not have heard about Jenkins. Jenkins is an open source automation server that helps automate various tasks in the software development process. It provides support for building, deploying, and automating any project.

让以下平台托管您的Jenkins，让您专注于构建和开发。如果您是开发人员或热衷于DevOps，那么很不可能您没有听说过Jenkins。Jenkins是一个开源自动化服务器，帮助自动化软件开发过程中的各种任务。它提供构建、部署和自动化任何项目的支持。

工具

30+常见的Linux面试问题和答案[2023]

By姚伟斌 December 4, 2023September 11, 2023

尽管Linux操作系统最初是由Linus Torvalds在1991年开始的业余项目，但它已经发展成为驱动超级计算机、Web服务器、智能手机和许多其他技术的主要参与者。 Linux因其稳定性、安全性和有效利用资源而受到青睐。多年来，对Linux的使用和需求不断增长，并且这个趋势不会很快停止。 2025年，Statista 报道称47%的专业开发人员使用Linux。同年，9th Annual Open Source Jobs Report显示Linux开发和管理是雇主和开发人员最需要的第二项技能。在软件开发、系统管理、DevOps、网络管理、安全工程等方面，掌握Linux技能至关重要。因此，如果你对这些领域中的任何一个感兴趣，很可能会被问及你的Linux技能。为了帮助你做好准备，以下是你可能会遇到的一些最常见的Linux面试问题及其答案。什么是Linux？答案：Linux是一个在1991年由Linux Torvalds开发的自由开源操作系统，并在GNU通用公共许可证（GPL）下发布。为什么使用Linux？…

工具

Linux Mint vs. Ubuntu：2025年更好的选择

By姚伟斌 November 17, 2023September 11, 2023

选择合适的发行版并不容易。当你需要在Linux Mint和Ubuntu之间进行选择时，这变得具有挑战性。毕竟，对于刚开始使用Linux的任何人来说，两者都是很好的选择。然而，如果你在这里，你不确定该选择哪一个。在本指南中，我们将探讨Linux Mint与Ubuntu之间的区别。我们将从不同的方面进行公正的比较，包括易用性、灵活性、安全性、可靠性和支持。让我们开始吧。什么是Linux Mint？ Linux Mint是基于Debian和Ubuntu的发行版。它在许多方面提供了类似于Windows的快速用户界面。它在新用户中很受欢迎，因为它宣传自己是Apple MacOS和Microsoft Windows的一个很好的替代品。为什么不呢？它提供了一个类似的界面，具有出色的易用性。Linux Mint的哲学是提供一个优雅、现代和舒适的操作系统。一旦你安装了它，你会发现它可以直接使用。它提供了完整的多媒体支持。此外，它不需要购买者花任何钱。此外，它专注于一个社区驱动的方法，意味着不断改进，涉及像你这样的真实用户。…

工具

创建令人惊叹的培训视频，创造数百万 [9种软件]

By姚伟斌 November 11, 2023September 11, 2023

你打算在市场上分享你的美德、经验和知识吗？从培训视频开始，在教育网站上发布它们，开始吧。你多久会去像Udemy和Coursera这样的网站上查看课程吗？还是去YouTube上找一些教育或免费培训视频，以帮助你解决特定的问题？我们都这样做过，而且在我们遇到困难或需要提升技能时仍然会这样做。尤其是在大流行期间，在线课程和认证以更多的人士提升他们的知识迎来了新的转折。然而，当制作迷人的online courses时，必须记住它可能会导致更多的视频。对于视频制作者来说，这是展示他们的才能并为观众提供真正学习体验的最佳机会之一。市场上有许多适合初学者和经验丰富的专业人士设计培训视频的interactive video-making软件。这些软件包含易于使用、消费者友好和价格实惠的软件，可以帮助创建教学视频。以下是一些最佳的培训视频编辑软件，以满足您的需求。 Adobe Connect Adobe Connect为用户提供了升级传统方法的增强音频和视频体验。它可以帮助创建可重复使用、可定制和安全的屏幕定位体验，以开发真实的互动。该软件配有可调整大小的面板，用于屏幕上的功能。特点：具有自定义布局的互动storyboard，以连接虚拟会议的目标和风格。基于角色或虚拟教室，可以为视频添加结构、动画和焦点。设置虚拟工具以轻松上传PDF文档、PowerPoint幻灯片、音乐、MP4视频和图像。…

Web scraping有什么用途？

挑战

#1. IP限制

#2.验证码

#3.客户端渲染

Geekflare API

使用API

解析HTML

使用Geekflare API的好处

Vite + React

最后的话

Related

Similar Posts