Node.js 如何使用cheerio来爬取网络数据
Node.js是一个使用谷歌Chrome浏览器引擎构建的开源跨平台环境。Node.js用于在浏览器之外执行JavaScript代码。
Cheerio: 其工作方式基于jQuery,完全基于一致的DOM模型工作。Cheerio有时用于爬取网页数据,也可以用于自动化任务。
实现方法: 本文中,我们爬取了世界米特尔(world meter)的COVID信息网站的数据,其中包括确诊病例总数、死亡人数和迄今为止康复的患者总数。
下面是逐步实现的步骤:
步骤1: 进入命令提示符窗口,并输入以下命令,将创建package.json文件。
npm init
步骤2: 创建包后,您需要从以下命令安装cheerio、request和chalk的JSON文件:
npm install request cheerio chalk
步骤3: 现在你的项目目录如下所示:

步骤4: 现在我们创建 index.js 文件,并编写以下代码:
index.js
const { Cheerio } = require("cheerio");
const request = require("request");
const cheerio = require("cheerio");
const chalk = require("chalk");
request("https://www.worldometers.info/coronavirus/", cb);
function cb(error, response, html) {
if (error) {
console.error("Error:", error);
} else {
handleItem(html);
}
}
function handleItem(html) {
let setTool = cheerio.load(html);
let contentArr = setTool("#maincounter-wrap span");
let total = setTool(contentArr[0]).text();
let death = setTool(contentArr[1]).text();
let recovered = setTool(contentArr[2]).text();
console.log(chalk.gray("Total cases:" + total));
console.log(chalk.red("Total Death:" + death));
console.log(chalk.green("Total cases:" + recovered));
}
输出: 打开命令提示符并输入以下命令
node index.js

极客教程