当前位置: 首页 > 后端技术 > Node.js

一起来尝尝Node爬虫吧~

时间:2023-04-03 18:34:24 Node.js

新建一个文件夹,这里我命名为“Crawler”。mkdirpa初始化一个项目并安装相关模块。cdpa//installpackage.jsonnpminit//安装cheerio,用于在服务端使用jq语法操作domnpminstallcheerio--save新建一个名为app.js的文件,根据需求爬取数据,保存到数据.txt。consthttp=require('http')constfs=require('fs')constcheerio=require('cheerio')functiongetData(url,title){http.get(url,function(res){lethtml=''res.setEncoding('utf-8')res.on('data',function(chunk){html+=chunk})res.on('end',function(){const$=cheerio.load(html)//根据页面dom结构获取你需要的数据constcontent=`\n\n\n\n\n\n--------公告内容【${title}】---------\n\n`+$('.xq4').text().trim()+`\n\n--------公告[${title}]是over----------\n\n\n`fs.appendFile('./datas/data.txt',content,'utf-8',function(err){if(err){控制台.log(err);}})})})}//根据实际情况写请求http.get(`接口地址`,function(res){res.setEncoding('utf-8')res.on('data',function(res){res=JSON.parse(res)res.data.forEach(item=>{consturl=`带有接口返回参数的页面地址${item.id}`getData(url,item.title)});})})执行nodeapp.js,一个超级简单的爬虫就完成了~