Python3网络爬虫开发实战读书笔记---第10章模拟登录

时间：2023-03-26 12:30:58 Python

本系列文章是在阅读《Python3网络爬虫开发实战》等网络资料学习爬虫过程中的一些笔记和心得。希望与大家分享。章节概述：如何爬取需要登录的网站章节结构：模拟登录Cookie池具体内容：模拟登录1、登录过程：提交登录后使用浏览器开发者工具的保留日志查看日志。提交登录请求，方式为POST，请求包含FormData和Headers两部分，Headers包含Cookies、Host、Origin、Referer、User-Agent。FormData包括login、password、utf8、commit（值为signin）、authentication_token。其中Cookie和authenticationtoken需要我们通过get请求获取初始值。有了登录请求所需的变量，我们通过实现登录方法来设置发布所需的初始数据。Cookie池Cookie池的作用是保存大量登录信息cookies，实时检查这些信息的可用性，并定期清理。如果失败，重复上述模拟登录，获取新的cookie信息。Cookie池=获取模块+存储模块+检测模块+接口模块实现技术：Redis存储模块：实现set、get、delete、count、random、usernames等方法获取模块：实现登录模拟，生成cookies，返回字典类型的结果表示是否获取成功。检测模块：通过遍历cookie检测redis中登录信息的有效性。接口模块：get_cookie_connect信息。本书具体代码实现https://github.com/Python3Web...

上一篇：Python中的字符串识别

下一篇：[LeetCode264.丑陋的数字II】三分球-带着问题签到[2]

Python3网络爬虫开发实战读书笔记---第10章模拟登录相关文章