Node.js 如何使用cheerio来爬取网络数据

Node.js 如何使用cheerio来爬取网络数据

Node.js是一个使用谷歌Chrome浏览器引擎构建的开源跨平台环境。Node.js用于在浏览器之外执行JavaScript代码。

Cheerio: 其工作方式基于jQuery,完全基于一致的DOM模型工作。Cheerio有时用于爬取网页数据,也可以用于自动化任务。

实现方法: 本文中,我们爬取了世界米特尔(world meter)的COVID信息网站的数据,其中包括确诊病例总数、死亡人数和迄今为止康复的患者总数。

下面是逐步实现的步骤:

步骤1: 进入命令提示符窗口,并输入以下命令,将创建package.json文件。

npm init
JavaScript

步骤2: 创建包后,您需要从以下命令安装cheerio、request和chalk的JSON文件:

npm install request cheerio chalk
JavaScript

步骤3: 现在你的项目目录如下所示:

Node.js 如何使用cheerio来爬取网络数据

步骤4: 现在我们创建 index.js 文件,并编写以下代码:

index.js

const { Cheerio } = require("cheerio"); 
const request = require("request"); 
const cheerio = require("cheerio"); 
const chalk = require("chalk"); 
  
request("https://www.worldometers.info/coronavirus/", cb); 
  
function cb(error, response, html) { 
  if (error) { 
    console.error("Error:", error); 
  } else { 
    handleItem(html); 
  } 
} 
function handleItem(html) { 
  let setTool = cheerio.load(html); 
  let contentArr = setTool("#maincounter-wrap span"); 
  
  let total = setTool(contentArr[0]).text(); 
  let death = setTool(contentArr[1]).text(); 
  let recovered = setTool(contentArr[2]).text(); 
  
  console.log(chalk.gray("Total cases:" + total)); 
  console.log(chalk.red("Total Death:" + death)); 
  console.log(chalk.green("Total cases:" + recovered)); 
} 
JavaScript

输出: 打开命令提示符并输入以下命令

node index.js
JavaScript

Node.js 如何使用cheerio来爬取网络数据

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册