当前位置: 首页 > 科技观察

教你用Python网络爬虫实现起点小说下载

时间:2023-03-17 12:00:50 科技观察

今天给大家分享一个小说爬取的案例--------起点小说小说下载。在做这个案例之前,我们需要分析一下,1.接口分析,如图:通过分析可以很容易的找到我们的get请求参数,进而获取相应页面的小说名和链接:获取到后数据,我们会随机选择一本小说下载,我们选择第一本,然后打开它的文章目录,可以看到这个,如图:基本上这部小说很长,可以看到它的第1卷和第2卷是免费的,后面会收费,所以今天我们只爬取免费章节。那么我们现在开始分析网页的结构,如图:那么,我们可以先打印出Volume1的名称和章节编号,以及该章节下各章节的名称。首先我们可以分析一下这个网页的地址,如图:https://book.qidian.com/info/1014243481#Catalog我们发现前面那个没变,后面的基本变了,添加一个info/1014243481#Catalog,下面开始分析:info:信息的意思,1014243481:小说对应的ID,#Catalog:数据补全,意义不大,因为文章链接的内容有刚爬出来,所以现在只需要拼接一个#Catalog:接下来我们就可以向它发起请求,然后分析它的页面。首先发起get请求。根据前面的网页分析结构,我们应该这样写:可以看出,因为这里是异步加载的,所以我们的请求不会一下子显示出来,需要不断的请求,当然最好加上延迟。这样我们就得到了这个页面所有的小说,这个也是可以的,因为我们没有找到接口,所以强行解析只能解析部分内容,但是也很全面。如图:搜索的还是比较详细的,但是没有搜索界面时得到的数据那么规范和美观。