当前位置: 首页 > 科技观察

这个用Python写的开源爬虫网站,让你秒搜豆瓣所有好书

时间:2023-03-18 19:26:26 科技观察

程序员在提升自己的路上,大部分还是选择看编程书籍,只是没那么好找一本好书。通过查看各大销售网站的销售数据和评价,以及豆瓣评分和评价数量,可以帮助我们更快地挖掘出经典的电脑书籍,以及那些被人们忽视的好书。最近猿哥在GitHub上找到一个网站,是中科院自动化所大神(lanbing510)用Python写的爬虫。他爬取了16年豆瓣所有的阅读数据,做了一个WebAppInterface端来挖掘寻找和阅读好书。怪我知道的太晚了。后来lanbing510再次爬取了豆瓣阅读的数据,一共更新了3,232,088本图书信息,总计2,138,386KB,并开源了。这个网站的界面很简洁,没有花哨的内容,只有干货,可以直接通过关键词、评分、评价人数三个选项进行搜索。比如我们可以搜索关键词:编程;得分:9.0;评价人数:搜索结果有两种显示方式:按分数排序和按人数排序。按评分排序截图如下:按评价人数排序截图如下:本站除了上面演示的操作外,还实现了以下功能:可以爬爬豆瓣阅读标签下的所有书籍并根据评分存储在Excel中,方便大家筛选搜索,比如筛选高分>1000的书籍;它们可以根据不同的主题存储在不同的Excel工作表中。使用UserAgent伪装成浏览器进行爬取,并加入随机延迟,更好地模仿浏览器的行为,避免爬虫被拦截。也就是说不仅可以在网站上搜索,还可以下载各种分类下的Excel图书列表文件,直接在Excel中搜索效果截图如下:附上网址:http://sobook.lanbing510.infoGitHub地址:https://github.com/lanbing510/DouBanSpider