这个用Python写的开源爬虫网站，让你秒搜豆瓣所有好书

时间：2023-03-18 19:26:26 科技观察

程序员在提升自己的路上，大部分还是选择看编程书籍，只是没那么好找一本好书。通过查看各大销售网站的销售数据和评价，以及豆瓣评分和评价数量，可以帮助我们更快地挖掘出经典的电脑书籍，以及那些被人们忽视的好书。最近猿哥在GitHub上找到一个网站，是中科院自动化所大神（lanbing510）用Python写的爬虫。他爬取了16年豆瓣所有的阅读数据，做了一个WebAppInterface端来挖掘寻找和阅读好书。怪我知道的太晚了。后来lanbing510再次爬取了豆瓣阅读的数据，一共更新了3,232,088本图书信息，总计2,138,386KB，并开源了。这个网站的界面很简洁，没有花哨的内容，只有干货，可以直接通过关键词、评分、评价人数三个选项进行搜索。比如我们可以搜索关键词：编程；得分：9.0；评价人数：搜索结果有两种显示方式：按分数排序和按人数排序。按评分排序截图如下：按评价人数排序截图如下：本站除了上面演示的操作外，还实现了以下功能：可以爬爬豆瓣阅读标签下的所有书籍并根据评分存储在Excel中，方便大家筛选搜索，比如筛选高分>1000的书籍；它们可以根据不同的主题存储在不同的Excel工作表中。使用UserAgent伪装成浏览器进行爬取，并加入随机延迟，更好地模仿浏览器的行为，避免爬虫被拦截。也就是说不仅可以在网站上搜索，还可以下载各种分类下的Excel图书列表文件，直接在Excel中搜索效果截图如下：附上网址：http://sobook.lanbing510.infoGitHub地址：https://github.com/lanbing510/DouBanSpider

上一篇：企业需要了解物联网的未来

下一篇：腾讯企业微信 3.1.12 更新：PC 端支持全局搜索，群消息 24 小时内可撤回

这个用Python写的开源爬虫网站，让你秒搜豆瓣所有好书相关文章