当前位置: 首页 > 后端技术 > Node.js

Node.js爬虫实战——爬你喜欢的

时间:2023-04-03 21:11:45 Node.js

前言今天没有前言,只是想分享一些关于爬虫的技术,任性。拜托,女士们先生们,请...文章开头的第一个问题:什么是爬行动物?首先声明一下,爬行动物不是“虫子”,姑娘们不要害怕。爬虫-以一定的方式、按照一定的规则爬取数据的操作或方法。开头的第二个问题:爬虫能做什么?来来来,说说需求品MM:爱豆新片上架,电影整体评价如何?暗恋她的女孩最近又失恋了,她怎么会第一时间知道她发的微博,好让她照顾?看小说总是点广告?我看的时候老是点,澳洲xx秀又上线了吗?新闻网站没有数据源怎么办?研发GG:爬虫随时准备为您服务!使用爬虫拉取偶像视频的所有评价,导入表格,然后分析评价使用爬虫,添加定时任务,拉取女孩的微博,只要数据有变化,接入短信或邮件服务,使用赶快爬虫吧,拉取小说内容或者xxx视频,然后自己设计一个展示页面,完美!使用爬虫、定时任务,从多个新闻源拉取新闻,存入数据库。章节开头的第三个问题:爬虫是如何实现的?实现爬虫的技术有很多,比如python、Node等,今天胡哥就给大家分享一下如何使用Node做爬虫:爬小说网站-首页推荐小说爬第1步-确定目标目标网站:https://www.23us.so我们要获取列表中的六本小说:书名,封面,以及小说书信息对应的地址(后面获取小说的完整信息)爬取步骤2-分析目标特点网页的内容是由HTML生成的,crawl获取内容相当于找到特定的HTML结构并获取元素的值。打开网页调试控制台,查看元素的HTML结构。注意页面的HTML结构。排行榜推荐的小说HTML结构为bdo#s-dd元素dd子元素-每本小说一个目录信息img封面一个小说名爬取步骤3-农亚的工具拿手了一定要先磨刀霍霍,还有准备好手头的武器!superagent模拟客户端发送网络请求,可以设置请求参数和header信息/-index.js-package.json-node_modules/上层代码://node-pachong/index.js/***使用Node.js做爬虫实战*作者:justbecoder*///导入所需的工具包constsp=require('superagent');constcheerio=require('cheerio');//定义请求的URLconstBASE_URL='http://www.23us.so';//1.发送请求,获取HTML字符串(async()=>{lethtml=awaitsp.get(BASE_URL);//2.导入字符串,使用cheerio获取元素let$=cheerio.load(html.text);//3.获取指定元素letbooks=[]$('#s_dddd').each(function(){letinfo={link:$(this).find('a').eq(0).attr('href'),名称:$(this).find('a').eq(1).text(),图像:$(this).find('img').attr('src')}books.push(info)})console.log(books)})()友情提示:每个网站的HTML结构都不一样。从不同的网站抓取数据时,需要分析不同的解构才能成功。效果图:获取信息后,返回接口数据,存入数据库,想干什么就干什么……获取源码关注胡歌有话要说公众号,回复“爬虫”,即可获取源代码地址。后记以上就是胡哥今天给大家分享的内容。如果喜欢,请记得收藏、转发,点击右下角按钮观看,推荐给更多的朋友。欢迎大家留言交流……胡哥有话说,有技术,胡歌有情怀!京东开放平台首席前端攻城狮。和你聊聊大前端,分享前端系统架构、框架实现原理,以及最新最高效的技术实践!长按扫描二维码关注,更帅更美!关注胡歌有话要说公众号,可以继续和胡歌深度交流!