当前位置: 首页 > 后端技术 > Node.js

NodeJS爬虫基础

时间:2023-04-03 22:59:16 Node.js

我没有在项目中使用过node,但是我觉得node作为一种基于js编程的服务端语言是非常有趣的。可以用来写一些接口,写一个爬虫。这是一篇基础文章。看了一会儿文档后写的。使用爬虫来增强您对节点的理解。爬虫的原理很简单。大致可以分为三步获取对应网站的数据(也就是html代码),过滤出自己需要的数据(比如用户信息,图片的地址)。下载或者整理自己想要的资源写入数据库varhttp=require('http')varfs=require('fs')varpath=require('path')http.get('http://jspang.com/',function(res){varcontent=''res.on('data',function(txt){content+=txt})res.on('end',function(){varreg=/data-src="(.*?\.jpg)"/img;//匹配图片地址//vardata=content.match(reg);//fs.writeFile('./test.txt',data,function(){//console.log('写入成功')//})varfilename=null;//循环出图片地址while(filename=reg.exec(content)){getImage(filename[1])}})})//下载图片函数getImage(url){varobj=path.parse(url);varname=obj.base;varfilestream=fs.createWriteStream('./img/'+name);http.get(url,function(res){res.pipe(filestream)})}当然这只是最简单的demo,进阶版本会持续更新!市面上的框架千变万化,只有基础学得好才能学得好,性能优化、网络、安全等方面的知识要多学,因为在大公司,重要的不是你能做多好看,而是你的安全。不管做得好不好,一旦不小心泄露了信息,就会导致很多难以想象的事情发生。