本系列文章是在阅读《Python3网络爬虫开发实战》等网络资料学习爬虫过程中的一些笔记和心得。希望与大家分享。章节概述:如何爬取需要登录的网站章节结构:模拟登录Cookie池具体内容:模拟登录1、登录过程:提交登录后使用浏览器开发者工具的保留日志查看日志。提交登录请求,方式为POST,请求包含FormData和Headers两部分,Headers包含Cookies、Host、Origin、Referer、User-Agent。FormData包括login、password、utf8、commit(值为signin)、authentication_token。其中Cookie和authenticationtoken需要我们通过get请求获取初始值。有了登录请求所需的变量,我们通过实现登录方法来设置发布所需的初始数据。Cookie池Cookie池的作用是保存大量登录信息cookies,实时检查这些信息的可用性,并定期清理。如果失败,重复上述模拟登录,获取新的cookie信息。Cookie池=获取模块+存储模块+检测模块+接口模块实现技术:Redis存储模块:实现set、get、delete、count、random、usernames等方法获取模块:实现登录模拟,生成cookies,返回字典类型的结果表示是否获取成功。检测模块:通过遍历cookie检测redis中登录信息的有效性。接口模块:get_cookie_connect信息。本书具体代码实现https://github.com/Python3Web...