当前位置: 首页 > 后端技术 > Node.js

用Node.js做一个GitHub爬虫

时间:2023-04-03 16:50:52 Node.js

用Node.js写一个爬虫,可以得到GitHub上各种编程语言排名前十的库的在线地址:http://www.flypie。cn:9999/GitHub地址:前端https://github.com/flypie2/gi...后台https://github.com/flypie2/gi...技术栈后端框架koa数据采集axios采集datacheerio抓取数据数据存储可选本地json存储或redis存储node-schedule启动定时任务抓取数据并更新本地存储前端使用vue2.0和MintUI进行数据展示和操作功能有空的时候经常逛GitHub查看当前的星级排名。之前的库,所以干脆做了个小爬虫定期抓取GitHub上的前十个库,然后根据编程语言选择浏览。功能很简单,大概花了一天时间搞定。大部分时间花在了调试上,因为GitHub做的很好的反爬,如果发送请求太多太快,就会被屏蔽或者返回429错误(429代表请求太频繁)。最后放一张工程截图: