node爬虫什么是爬虫?它是一种按照一定规则自动抓取万维网上信息的程序或脚本。为什么选择node,因为我是前端,当然肯定是用js实现的。项目分析爬取http://top.zhaopin.com三个月内竞争最激烈的全国前十名的智联网站。不需要定期抓取。使用请求和cheerio模块。Node版本7.6.0,npm版本4.1.2安装npminstallrequestcheerio-Srequest模块是一个简化的HTTP客户端。cheerio模块是为服务器设计的核心jQuery的快速、灵活和精益实现。爬取的内容可以像jQuery一样使用。核心代码//app.jsconstrequest=require('request');constcheerio=require('cheerio');//发起请求request('http://top.zhaopin.com',(error,response,body)=>{if(error){console.error(error);}letjson={};//获取内容进入cheerio模块const$=cheerio.load(body);//jQuery遍历#hotJobTop.topListli是通过http://top.zhaopin分析页面结构得到的.com$('#hotJobTop.topListli').each(function(index){letobj=json[index]={};obj.name=$(this).find('.title').text().trim();obj.num=$(this).find('.paddingR10').text().trim();});//打印数据console.log(json);});执行nodeapp.js,你会得到如下结果。[{name:'Java开发工程师',num:'340538人/天'},{name:'软件工程师',num:'220873人/天'},{name:'销售代表',num:'175053人/天'},{name:'会计/会计',num:'168225人/天'},{name:'行政专员/助理',num:'150913人/天'},{name:'WEB前端开发',num:'140979人/天'},{name:'助理/秘书/文员',num:'139098人/天'},{name:'软件测试',num:'136399人/day'},{name:'人力资源专员/助理',num:'123482人/天'},{name:'用户界面(UI)设计',num:'107505人/天'}]一个简单的爬虫就记下来,看看前十名里有没有你工作的岗位!我的博客和github地址http://blog.langpz.comhttps://github.com/lanpangzhi参考https://github.com/request/requesthttps://github.com/cheeriojs/cheerio
