一起来尝尝Node爬虫吧~

时间：2023-04-03 18:34:24 Node.js

新建一个文件夹，这里我命名为“Crawler”。mkdirpa初始化一个项目并安装相关模块。cdpa//installpackage.jsonnpminit//安装cheerio，用于在服务端使用jq语法操作domnpminstallcheerio--save新建一个名为app.js的文件，根据需求爬取数据，保存到数据.txt。consthttp=require('http')constfs=require('fs')constcheerio=require('cheerio')functiongetData(url,title){http.get(url,function(res){lethtml=''res.setEncoding('utf-8')res.on('data',function(chunk){html+=chunk})res.on('end',function(){const$=cheerio.load(html)//根据页面dom结构获取你需要的数据constcontent=`\n\n\n\n\n\n--------公告内容【${title}】---------\n\n`+$('.xq4').text().trim()+`\n\n--------公告[${title}]是over----------\n\n\n`fs.appendFile('./datas/data.txt',content,'utf-8',function(err){if(err){控制台.log(err);}})})})}//根据实际情况写请求http.get(`接口地址`,function(res){res.setEncoding('utf-8')res.on('data',function(res){res=JSON.parse(res)res.data.forEach(item=>{consturl=`带有接口返回参数的页面地址${item.id}`getData(url,item.title)});})})执行nodeapp.js，一个超级简单的爬虫就完成了~

上一篇：Electron+React+Express搭建爬虫优质内容付费会员体系

下一篇：web 全架构系列(一)- 整体分层及各层模块化

一起来尝尝Node爬虫吧~相关文章