Nodejs相关模块获取网页内容(httprequestsuperagent等)过滤网页信息(cheerio)输出或存储信息(consolefsmongodbmysql等)1.使用request模块获取网页内容varrequest=require('request');//通过GET请求读取获取http://cnodejs.org/的内容request('http://cnodejs.org/',function(error,response,body){if(!error&&response.statusCode==200){//输出网页内容console.log(body);}});如果是其他请求方式,或者需要指定请求头信息,可以在第一个参数中传入一个对象来指定,例如:varrequest=require('request');request({url:'http://cnodejs.org/',//请求URLmethod:'GET',//请求方法headers:{//指定请求头'Accept-Language':'zh-CN,zh;q=0.8',//指定Accept-Language'Cookie':'__utma=4454.11221.455353.21.143;'//指定Cookie}},function(error,response,body){if(!error&&response.statusCode==200){console.log(body)//输出网页内容}});2、使用cheerio模块提取网页数据cheerio是jQueryCore的一个子集,在jQueryCore中实现设备无关D浏览OM操作API,下面是一个简单的例子:varcheerio=require('cheerio');//通过load方法将HTML代码转换为jQuery对象var$=cheerio.load('
