工具

如何使用Geekflare Meta Scraping API提取网站元数据

By姚伟斌 December 3, 2023September 12, 2023

通常，网络抓取是从加载网页时生成的html中提取数据。

元抓取是从网页的标签中提取网页的元数据。

网页的元数据是有关网页的信息，而不是网页的内容。例如，元数据可能包括作者的姓名、标题和网页的描述。

它帮助用户和搜索引擎了解页面的内容。通过抓取元数据，用户可以在更短的时间内快速收集有关网页的信息。

可以使用多种方法来抓取网页的元数据，包括手动抓取、使用库或使用yaoweibin元抓取api等。

许多种方法杀死一只猫

要手动抓取，可以使用chrome devtools打开网页，并从元素选项卡中提取元数据。但是，当处理多个页面时，这种手动、重复和繁琐的方法是不可行的。我们可以使用多种方法自动化这个任务：

第一种方法是从头开始编写代码。在这种方法中，您向要抓取元数据的网站发出http请求。然后，您可以使用正则表达式或模式匹配解析响应的html，从标签中提取数据。但是，这种方法是重新发明轮子，因为您将花费时间重写现有的代码。

第二种方法是使用您喜欢的任何编程语言的库。这样可以对实现细节进行抽象，并保持简单。但是，如果您选择的编程语言没有合适的库，或者您所使用的特定运行时不支持该库，则无法使用它。

第三种方法是使用像yaoweibin metascraping api这样的api。这种方法非常理想，因为它为您提供了一个统一的接口，无论您使用的编程语言是什么。只要支持进行http请求，它就可以在任何语言中使用。

本文将演示如何使用curl、php和javascript（nodejs）来使用yaoweibin metascraping api。

为什么应该使用yaoweibin metascraping api？

由于其他方法的缺点，使用yaoweibin api的优点包括：

它是与语言和运行时环境无关的。
您避免重新发明轮子，花费更少的时间编写代码。
您可以高效地抓取多个网站（仅需几秒钟）。
它非常容易使用。
您可以免费使用它。

开始使用yaoweibin api

要使用yaoweibin api，您需要一个api密钥。要获取api密钥，请转到siterelic并创建一个免费帐户。创建帐户后，登录到仪表板。从仪表板中，您应该能够看到您的api密钥。

yaoweibin metascraping api概述

api端点位于https://api.yaoweibin.com/metascraping。当您发出请求时，您应该在请求头中提供您的api密钥，名称为x-api-key，值为您的api密钥。

您还需要在请求体中传入其他参数。这些参数是url、device和proxycountry。

url 指定要抓取元数据的网页的网址。
设备指定在抓取元数据时使用的设备。您可以选择移动设备或桌面设备。
代理国家 指定在抓取数据之前应该从哪个国家发出请求。然而，代理国家是高级功能，只能在 yaoweibin 的付费计划下使用。

鉴于参数将作为请求体的一部分传递，请求必须是一个 post 请求，因为 get 请求不能包含元数据。

使用 curl 的 yaoweibin metascraping api

在第一个示例中，我们将使用命令行中的 curl 实用程序请求 metascraping api。要使用 curl，您需要先安装它。

我将使用 bash 终端。这应该是 macos 和 linux 上的默认终端。对于 windows，您需要安装 git bash。

安装了 curl 之后，我们可以使用 curl 命令进行请求。我们将向命令传递选项来指定请求参数：请求方法、端点、请求体和请求头。

curl -x post 
https://api.yaoweibin.com/metascraping  
-d '{ "url": "https://tesla.com" }' 
-h 'content-type: application/json' 
-h 'x-api-key: '

注：第一三行后面的反斜杠允许您将命令输入拆分为多行。

这个命令将 http 方法指定为 post，端点指定为 yaoweibin api 的元数据抓取端点。

我们还将请求体作为一个 json 对象发送，其中指定了一个 url 属性，该属性的值为 https://tesla.com。最后，我们添加了头部，将请求体的内容类型指定为 json，并使用 x-api-key 头部提供了 api 密钥。

当我们运行这个命令时，我们得到以下输出：

{"timestamp":1669328564856,"apistatus":"success","apicode":200,"meta":{"url":"https://tesla.com","device":"desktop","test":{"id":"1fh2c30i05vmvxb99pdh6t6hze2x72jv"}},"data":{"author":null,"date":null,"description":"tesla is accelerating the world’s transition to sustainable energy with electric cars, solar and integrated renewable energy solutions for homes and businesses.","image":"https://tesla-cdn.thron.com/delivery/public/image/tesla/6139697c-9d6a-4579-837e-a9fc5df4a773/bvlatur/std/1200x628/model-3-homepage-social-lhd","logo":"https://tesla.com/themes/custom/tesla_frontend/assets/favicons/favicon-196x196.png","publisher":"tesla","title":"electric cars, solar & clean energy | tesla","url":"https://www.tesla.com/","lang":"en"}}

这是正确的输出。

使用 javascript 的 yaoweibin metascraping api

对于这个项目，我们将创建一个 nodejs 脚本来从 api 中获取数据。这意味着您需要安装 nodejs。您还需要 npm 或任何其他用于 node 的软件包管理器来管理项目的依赖关系。我还将使用 bash 终端来运行命令。

要在 javascript 中使用 api，我们首先创建一个空的项目文件夹，并在终端中打开它。

mkdir metascraping-js && cd metascraping-js

完成后，我们可以创建一个文件，我们将在其中编写脚本：

touch index.js

然后我们可以将项目实例化为一个node项目：

npm init -y

为了在我们的文件中使用esmodule语法，将“type“ : “module”添加到package.json文件的根目录，使其看起来像这样：

{
  "name": "metascraping",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "type": "module",
  "scripts": {
    "test": "echo "error: no test specified" && exit 1"
  },
  "keywords": [],
  "author": "",
  "license": "isc",
}

接下来，我们将安装node-fetch包。此包在nodejs中提供了一个与浏览器的fetch函数类似的fetch函数。这使得在nodejs中进行http请求比使用内置的http模块更容易。

npm install node-fetch

当包正确安装后，我们可以开始编辑脚本了。使用您选择的文本编辑器打开index.js文件。在我的情况下，我将使用基于终端的nano文本编辑器。

nano index.js

编辑index.js文件，我们首先导入fetch函数，它是node-fetch模块的默认导出。

import fetch from 'node-fetch'

然后，我们将定义请求的主体。这将是一个具有url属性的json字符串。 url属性的值是我们要获取元数据的网页。

const body = json.stringify({ url: 'https://spacex.com' });

接下来，我们可以定义我们将在最终调用fetch函数时传递给它的请求选项。

const options = {
    method: 'post',
    headers: {
        'content-type': 'application/json',
        'x-api-key': 
    },
    body: body
}

我们将请求方法定义为post请求。我们还定义了两个头部。一个指定主体包含json数据，另一个提供api密钥。

您可以用实际的api密钥替换。在实际应用中，api密钥不应硬编码到文件中，而应使用环境变量加载。最后，我们将body属性指定为我们之前定义的body常量的值。

最后，我们调用fetch

fetch('https://api.yaoweibin.com/metascraping', options)
    .then(response => response.json())
    .then(json => console.log(json))

在这里，我们调用了fetch函数，传入了api端点和我们之前定义的选项。由于fetch返回一个promise，我们附加了一个回调函数，使用then解析json响应。

回调函数返回另一个promise，当它解析时，我们将console.log()返回的对象。

所以最终，我们的文件应该是这样的。

使用fetch模块来自'node-fetch'

const body = json.stringify({ url: ‘https://spacex.com' });

const options = {
method: ‘post',
headers: {
‘content-type': ‘application/json',
‘x-api-key':
},
body: body
}

fetch(‘https://api.yaoweibin.com/metascraping', options)
.then(response => response.json())
.then(json => console.log(json))

要运行该脚本，请保存编辑内容，然后关闭nano或您使用的文本编辑器，然后输入以下命令：

node .

您应该获得以下元数据：

{
  timestamp: 1669305079698,
  apistatus: 'success',
  apicode: 200,
  meta: {
    url: 'https://spacex.com',
    device: 'desktop',
    test: { id: '8m3srgqw06q2k8li5p6x70s8165d6e2f' }
  },
  data: {
    author: null,
    date: null,
    description: 'spacex designs, manufactures and launches advanced rockets and spacecraft.',
    image: 'https://www.spacex.com/static/images/share.jpg',
    logo: 'https://spacex.com/static/images/favicon.ico',
    publisher: 'spacex',
    title: 'spacex',
    url: 'http://www.spacex.com/',
    lang: 'en'
  }
}

使用php与yaoweibin api

要使用yaoweibin metascraping api，首先确保您的本地机器上安装了php和composer。

首先，创建并打开项目文件夹。

mkdir metascraping-php && cd metascraping-php

接下来，安装guzzlehttp。 guzzle是您可以与yaoweibin api一起使用的许多php客户端之一。

composer require guzzlehttp/guzzle

安装完guzzle后，我们可以创建一个带有

touch script.php

然后我们可以开始编写代码。使用您选择的文本编辑器打开script.php文件。在我的情况下，我将使用基于终端的文本编辑器nano。

nano script.php

在脚本中，我们插入boiler-plate php

现在要加载扩展，从guzzle导入request和client类。此代码应写在我们之前写的<?php和?>之间。

require_once('vendor/autoload.php');

use guzzlehttpclient;
use guzzlehttppsr7request;

接下来，我们可以通过实例化guzzlehttpclient类来创建一个客户端

$client = new guzzlehttpclient();

之后，我们可以为请求定义头文件。对于此特定请求，我们将提供两个头文件，一个指定请求主体的内容类型为json，另一个包含我们的api密钥。

$headers = [
    'x-api-key' => ,
    'content-type' => 'application/json'
];

将替换为您在yaoweibin api仪表板中实际的api密钥。

然后，我们可以定义正文。在我们的情况下，正文将是一个json字符串，其中属性url设置为"https://twitter.com"

$body = json_encode([
    "url" => "https://twitter.com"
]);

创建请求时，我们实例化之前导入的请求类，传入请求方法、端点、头部和请求体。

$request = new request('post', 'https://api.yaoweibin.com/metascraping', $headers, $body);

接下来，我们使用客户端发送请求。

$response = $client->sendasync($request)->wait();

之后，我们可以提取请求的主体并将其打印到控制台。

echo $response->getbody();

如果你正确复制了代码，script.php文件应该如下所示

 ,
    	'content-type' => 'application/json'
	];

	$body = json_encode([
    	"url" => "https://twitter.com"
	]);

	$request = new request('post', 'https://api.yaoweibin.com/metascraping', $headers, $body);

	$response = $client->sendasync($request)->wait();

	echo $response->getbody();
?>

保存脚本，关闭它并使用以下命令运行

php script.php

你应该得到以下输出：

{
    "timestamp":1669322100912,
    "apistatus":"success",
    "apicode":200,
    "meta": {
        "url":"https://twitter.com",
        "device":"desktop",
        "test":{ 
            "id":"wn1nj30r04bk0ijtpprwdqmtuirg9lze"
        }
     },
     "data":{ 
         "author":null,
         "date":null,
         "description":"the latest stories on twitter - as told by tweets.",
         "image":"https://abs.twimg.com/a/1602199131/img/moments/moments-card.jpg",
         "logo":"https://abs.twimg.com/responsive-web/client-web/icon-ios.b1fc7279.png",
         "publisher":"twitter",
         "title":"explore",
         "url":"https://twitter.com/explore",
         "lang":"en"
     }
}

最后的话

本指南介绍了使用yaoweibin metascraping api的不同方法。

metascraping api允许您提供比url更多的参数。其中一个参数是代理参数，只能通过yaoweibin api高级计划访问。无论如何，yaoweibin api在许多用途上仍然足够强大。

查看yaoweibin api的官方文档以获取更多信息。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

如何制作Instagram Reels并增加参与度，以获得更好的社交媒体存在感

By姚伟斌 November 21, 2023September 12, 2023

众所周知，Instagram Reels的推出是为了与TikTok竞争。很明显，他们偷了风头。随着其推出，Reels成为创作者和品牌发展社交媒体影响力的首选。举个例子： Nike的每个Reel平均有4.6 Million次观看路易威登平均有700万次观看而红牛法国有几个Reel有2.4M+次观看如今，成千上万的品牌正在通过Instagram Reels培养自己的社交媒体影响力。那么Reels是什么，如何制作能够走红的Instagram Reels呢？在这篇文章中，我们将为您介绍一步一步制作Instagram Reels并提升参与度以获得更好社交媒体影响力的指南。什么是Instagram Reel？ Reels是Instagram在2020年8月推出的全球增长最快的功能。它是一个90秒的多剪辑视频，用户可以录制并上传，配以流行歌曲、录制音频、滤镜、字幕、贴纸和互动背景。…

工具

14个适用于小型到企业级的网络监控软件

By姚伟斌 December 12, 2023September 12, 2023

您的网络安全吗？如果您的答案是“是”，恭喜您！您的网络不会受到各种麻烦的困扰，几乎不会遇到可能影响您业务运营的技术故障。您是否正在监控您的网络流量？但是如果您的答案是“否”或者“不知道”呢？那么，您必须考虑监控您的网络或者增强其相关能力。这个数字时代需要您时刻保护您的企业，密切关注所有方面，特别是互联网。这是因为广泛的安全威胁经常给企业造成损失，并恶化它们的形象。只需要一瞬间就能摧毁您多年来所取得的一切成果。而您肯定无法承受那样的后果… 永远都不能承受！这正是为什么您必须监控您的网络以便减轻威胁并保护您的业务，这样您的客户才能始终信任您。网络监控的市场规模在2019年超过了20亿美元，预计从2020年到2026年的复合年均增长率将超过10%，达到50亿美元，据这份报告称。所以，现在是时候承认它的潜在重要性并投资于高质量的网络监控能力以保持安全。但首先，让我们先了解一点网络监控的知识，然后我将介绍一些令人惊叹的软件。开始吧，好吗？什么是网络监控？监控服务器、防火墙、交换机、路由器等网络组件的过程就是您可以称之为网络监控。…

工具

从您的用户中收集视频推荐的9个平台

By姚伟斌 December 7, 2023September 12, 2023

视频证明让客户告诉您他们对您的商品或服务的看法。客户的这些评论更具说服力，将帮助您赢得客户的信任。想想以下情况：您拥有一家企业，并正在努力寻找新客户。您已经能够吸引一大批人，让他们对您的网站感兴趣，并让他们关注您的社交媒体账号。但是，他们还没有准备好购买。如何在不推销的情况下将这些潜在客户转化为实际客户？ Video marketing是让人们做您想要的事情的最佳方法。尽管大多数视频格式在这种情况下都有帮助，因为视频在一般情况下是一种有价值的工具，但许多公司选择使用客户证明作为链接，因为这样更有可能让客户购买并带来更多收入。购买决策中品牌认知的重要性如果您稍微想一下您购物的方式，您可能会得出这样的结论：您购买的大多数物品都是基于您对不同品牌的感觉。您不是唯一一个在做购买决策时只看品牌名称的人。77% of B2C customers也会这样做。购物时，人们会根据对特定公司的印象选择一种品牌的意大利面酱而不是另一种。这种印象是由他们对该公司的想法和感受构成的。一旦客户决定了对一个品牌的看法，很难改变他们的想法。因此，公司努力确保人们对其品牌有好的看法，而不仅仅是中立或负面的看法。当您了解人们对您的品牌的感觉时，更容易塑造其声誉，帮助客户了解它与竞争对手的区别，并建立您公司的价值。您可以通过询问客户对品牌的感受并跟踪他们对其的看法来弄清楚这一点。客户证明在建立信任和认知方面有多重要？您认为谁将是您的企业更好的代表？您还是一位曾经从您这里购买过的满意客户？即使很明显您在这个领域知识丰富，直到您能够证明自己是真正的行家，客户也不会太信任您。因此，对于客户证明的重要性无法言喻。在购买任何东西之前，大多数人会寻找第三方的验证，例如客户证明。人们不再相信媒体或他们认为是“有影响力的人”。这就是为什么他们不太关注旨在引起他们注意的零售商的宣传。因此，客户和营销人员在建立关系时应给予客户证明很大的重视。…

工具

2025年最佳团队服务器托管提供商

By姚伟斌 December 16, 2023September 13, 2023

在如今压力重重的世界中，游戏是一项更加放松的活动。几乎所有性别和年龄段的人都对玩各种游戏感兴趣。有人对射击游戏感兴趣，有人对car games感兴趣，还有人对其他游戏感兴趣。如今，游戏不再只是坐在椅子上玩，它允许你与其他玩家连接并开始体验其中的真实感。Multiplayer games非常受欢迎，以各种流派、内容和风格呈现。《Squad》是一款受到许多游戏玩家喜爱的战斗游戏。让我们来探索一下这款游戏的外观以及为什么你需要一个专用的游戏服务器来托管和玩它。《Squad》是什么游戏？《Squad》是一款第一人称在线射击游戏，旨在通过团队合作和沟通来展现战斗的真实性。它结合了其他战术射击游戏中的元素，并填补了军事模拟器中的各种空白。在这款游戏中，玩家可以组建自己的团队并分配角色和目标。《Squad》游戏由加拿大的Offworld Industries游戏开发工作室开发。游戏以半虚构和真实内容的混合为特点，其中大部分游戏发生在现实冲突中。你也可以在Steam上找到这款游戏。此外，《Squad》游戏通过100人战斗、基地建设、集成VoIP系统和武器战斗，弥合了军事模拟与街机射击之间的差距。最近的更新中增加了七辆新车辆、毁灭性的轰炸指挥官技能、十五种特定派系的可部署武器等等。玩法《Squad》是一款注重战斗真实性的大规模多人射击游戏，强调团队协作。它拥有10个派系、基于车辆的综合武器战斗、23张庞大的地图和玩家建造的基地。总体而言，它营造了一种令人身临其境的心跳加速的游戏体验。战场是通过使用游戏内的资源和环境来组建有组织的团队建设的。这有助于与对手进行战术对抗。从基地建设到角色组织和车辆机制，你可以有效地利用手头的工具。《Squad》游戏支持导航系统和直观的位置VoIP，让玩家保持局势感知。这款游戏由两个团队进行对战。队伍中的玩家从不同的士兵职业中选择自己的队伍，扮演不同的战斗角色。…

工具

什么是Google JAX？你需要了解的一切

By姚伟斌 November 9, 2023August 30, 2023

Google JAX 或执行后即时（Just After Execution）是由谷歌开发的用于加速机器学习任务的框架。您可以将其视为 Python 的库，其中包含，和 HTML 标签。

工具

10个学习区块链和获得认证的好资源

By姚伟斌 November 6, 2023September 11, 2023

区块链是一个你可能在某处听过的时髦词汇。尽管这项技术已经存在十年，但它在过去几年成为讨论的话题。它有能力彻底改变数字世界。源自金融科技（金融技术）机构，它正在全球不同领域如广告、公共事业、医疗保健等以及不同国家传播。人们开始认识到区块链的潜力，其中许多人已经开始采用基于区块链的应用程序来处理比特币和其他货币的交易和支付接受。 ABI Research预测区块链收入将在2025年大幅增长，达到106亿美元。由于对区块链的采用和认识的增加，未来几年对具备区块链技能的人才的需求可能会增加。那么，您对区块链及相关技术感到好奇吗？如果是的，那么这篇文章就是为您准备的！在这里，您将找到学习区块链以及获得认证的资源。什么是区块链？区块链是一个数字的、不可变的、共享的账本，记录交易并在分布式网络中跟踪资产。将这些交易记录称为“块”，将互连的数据库网络称为“链”。将这种存储称为“数字账本”。区块链是一种分布式分类账技术（DLT）。在区块链的世界中，资产可以是有形的或无形的。有形的是一些东西，比如汽车、房子、一块土地等，而无形的东西可以是版权、专利、知识产权等。您可以在区块链网络上交易和跟踪任何具有价值的东西，同时降低成本和风险。以Google…