superagent官方文档爬虫源码实现(github地址)安装koa脚手架注意koa2只支持node版本v7+,请保证版本足够npmikoa-generator-g//安装所有脚手架koa2projectName//初始化项目目录cdprojectNamenpmi//默认自带package.json文件,需要我们自己安装node_modules包。npmstart//启动项目(默认3000端口号)。需要注意的是,每次执行npmstart命令时,koa2都会默认帮我们执行入口文件,必要时动态监听文件变化。开发环境推荐使用nodemon进行实时监控和刷新。(npminodemon-g),这里需要将package.json文件中的script属性改为"scripts":{"start":"nodemonbin/www"}即可,superagent请求数据的用法如下如下:npmisuperagent-Ssuperagent.get(url).set({//设置请求头"Connection":"keep-alive",}).end((err,res)=>{//错误优先级if(err){console.log(err);return;}ctx.body=res.text//请求的html在text属性中}Cheerio文档可以在这里或这里找到cheerio是专门为没有window对象的运行环境,是jquery的核心实现。(不基于window对象)constcheerio=require('cheerio');//superagent请求数据后,执行const$=cheerio.load(res.text);...CommonApi:addClass(className):在标签中添加类名,方便抓取datatext():获取标签的文本内容find('img'):查找某类标签或classtoArray:可以将伪数组转为数组each:循环得到的数组,参数为(索引,元素);cheerio的具体实现和使用可以参考GitHub源码。觉得源码对你有帮助记得点个Star哦~
