前端er需要用Node爬取数据

时间：2023-04-03 19:24:08 Node.js

爬虫，基本上每个公司都有，难免落在前端开发的头上。今天我们就来看看Node是如何爬取数据的。其实前端抓取数据，就是ajax请求一个接口，但是返回值有两种类型：text/html（早期的XML之类），application/json（目前工作中使用的就是这种类型）.有时候为了一些简单的数据分析，我直接在控制台请求数据。请求页面发起的请求和node发起的请求还是有区别的。再来说说https库和http库consthttps=require('https');//Node自带https.get('https://www.lilnong.top/cors/node-https',(resp)=>{letdata='';resp.on('data',(chunk)=>{data+=chunk;});resp.on('end',()=>{console.log('resp',JSON.parse(data));});}).on("error",(err)=>{console.log("Error:"+err.message);});优点是Native自成一体，没有依赖。缺点也很明显。很多功能不支持，写法复杂。http和https不共享。你可以认为是前端XMLHTTPRequest，很少有人直接使用。request库是需要安装的第三方库。它易于使用并且被大量的人使用。request=require('request');request('https://www.lilnong.top/cors/node-request',{json:true},function(err,res,body){if(err){返回console.log(err);}console.log(body);});优点是包库简单易用，支持的东西很多。缺点是库停止新功能的开发，不是promise(request-promise)。axios库也是需要安装的第三方库。因为这个库可以跨环境使用（前端和Node都可以），所以用起来也很方便。axios=require('axios');axios('https://www.lilnong.top/cors/node-axios').then(函数(rsp){console.log(rsp.data);});pros换句话说，跨环境，promise。缺点方面，node中的formdata，https设置代理时（axios-https-proxy-fix），其他库其实有很多https://github.com/request/re...node-fetchgotsuperagenturllib页面发起请求XMLHttpRequestxhr=newXMLHttpRequest();xhr.open('get','//www.lilnong.top/cors/XMLHttpRequest')xhr.send()xhr.responseType='json'xhr.onload=()=>console.log(xhr.response)是它附带的。经过多年的更新，基本具备了所有的功能。缺点是低版本的IE不支持（IE不需要jquery不是废话吗，一般是$.ajax）axios跨平台库可以在浏览器环境和Node环境下使用。axios('https://www.lilnong.top/cors/axios').then(function(rsp){console.log(rsp.data);});优点，跨平台（上面代码可以复制然后运行??)缺点，好的。我基本上一直在用它，没有明显的弱点。$.ajaxjquery库中携带的方法。也是神器，支持promise方法。$.ajax({url:'https://www.lilnong.top/cors/$.ajax'}).then(函数(数据){console.log(数据);});优点：兼容性好，支持多种写法。缺点：时代变了，jquery已经过时了。你问这是什么？这是青年抓取浏览器的新规范。使用起来也很方便，abort的规范也在制定中。当然，xhr还不能杀掉。fetch('https://www.lilnong.top/cors/fetch').then(v=>v.json()).then(console.log)优点：添加到浏览器，天生支持promise缺点：兼容需要添加的功能还蛮多的（abort、progress、cookie（默认值已改））看一下这个API，如果熟悉了，基本可以上手使用了。$=cheerio.load('

lilnong.top

');//为了解析DOM，我们通常将请求的响应放入其中。$('h1').text('欢迎关注公众号：前端里农。');$('h1').addClass('title');当然还有其他库JSDOM、Puppeteer（作为浏览器使用，点击按钮等）。htmlscript标签中的内容其实是比较取巧的。比如你从来没有用jQuery获取过脚本中的变量。其实有一个很简单的方法。一般来说，你要爬取的数据不是前端写的，很多都是模板直接输出的。包括Vue的SSR之类的。特点很明显，一个变量占一行。然后我们可以直接比较每一行。如果您要查找的变量以开头，那么我们将截取这一行。我们稍后再填写示例。我忘记了谁是这样的。JSON很简单，基本一个库都支持，JSON.parse不支持。不过相比前面两个，这个更多的是分析字段，探索规则，referer处理这些东西。前端处理和响应前端一般都是简单的数据，主要用于分析。当然也有优点，比如自动携带cookies，自动更新cookies，甚至你可以使用他里面封装的ajax。前端在html\xml中操作DOM不是家常便饭吗？jQuery吃遍了全世界。只是偶尔，querySelector和getElementById就可以满足你。htmlscript标签中的内容就更简单了，直接获取对象。..无话可说。jsonjson不难吧？微信公众号：前端立农

上一篇：在linux服务器上搭建node.js环境

下一篇：前端HTML & CSS 基础入门（4）列表及其样式

前端er需要用Node爬取数据相关文章