教你用Python网络爬虫实现起点小说下载

时间：2023-03-17 12:00:50 科技观察

今天给大家分享一个小说爬取的案例--------起点小说小说下载。在做这个案例之前，我们需要分析一下，1.接口分析，如图：通过分析可以很容易的找到我们的get请求参数，进而获取相应页面的小说名和链接：获取到后数据，我们会随机选择一本小说下载，我们选择第一本，然后打开它的文章目录，可以看到这个，如图：基本上这部小说很长，可以看到它的第1卷和第2卷是免费的，后面会收费，所以今天我们只爬取免费章节。那么我们现在开始分析网页的结构，如图：那么，我们可以先打印出Volume1的名称和章节编号，以及该章节下各章节的名称。首先我们可以分析一下这个网页的地址，如图：https://book.qidian.com/info/1014243481#Catalog我们发现前面那个没变，后面的基本变了，添加一个info/1014243481#Catalog，下面开始分析：info：信息的意思，1014243481：小说对应的ID，#Catalog：数据补全，意义不大，因为文章链接的内容有刚爬出来，所以现在只需要拼接一个#Catalog：接下来我们就可以向它发起请求，然后分析它的页面。首先发起get请求。根据前面的网页分析结构，我们应该这样写：可以看出，因为这里是异步加载的，所以我们的请求不会一下子显示出来，需要不断的请求，当然最好加上延迟。这样我们就得到了这个页面所有的小说，这个也是可以的，因为我们没有找到接口，所以强行解析只能解析部分内容，但是也很全面。如图：搜索的还是比较详细的，但是没有搜索界面时得到的数据那么规范和美观。

上一篇：有人说DockerHub上30%的镜像都存在漏洞？是的？

下一篇：常见的编码错误，如果你不避免它们，你就完了

教你用Python网络爬虫实现起点小说下载相关文章