Python爬虫教程（三）

时间：2023-03-26 16:07:31 Python

1、处理cookies，实战登录17K小说网部分网站需要登录获取所需数据。对于这个例子，如果我们要获取小说网站的书架数据，需要先登录获取属于该账号的信息。1.会话（Session）跟踪是Web程序中常用的技术，用于跟踪用户的整个会话。常用的会话跟踪技术有Cookie和Session。Cookies通过在客户端记录信息来确定用户身份，Session通过在服务器端记录信息来确定用户身份。2.使用浏览器开发工具找到登录所需的URL。3.使用session获取想要的内容。4.获取cookie。5、获取页面数据，使用session保持登录状态。6.第二种获取方式。我们可以看到直接使用requests是无法进入登录状态的，但是我们也可以通过cookie来解决这个问题。在浏览器开发工具中获取cookie。2.请求处理防盗链，获取梨视频。在梨视频中选中任意一个视频，使用浏览器开发工具可以看到它的视频链接，但是我们在页面源码中找不到视频下载链接刷新页面，可以得到RequestURL请求URL和srcUrlURL开发者工具。在浏览器中输入，会出现错误。我们把正确的视频网址和这个网址对比一下，可以看到前后是一样的，只有中间部分不一样。在不同的位置查找源并比较两个接口。抓取下面的视频。1.获取contID2.获取videoStatus并返回json文章已下线，但内容在浏览器中。我们会处理防盗链的问题。级链接。过滤内容并获取json。3.修改替换获取到的URL中的内容。4.下载视频。三、综合训练，抓取网易云音乐评论信息1.使用开发者工具找到想要的内容位置。2、它发现自己的数据是加密的，根据自己的请求找到加密的位置运行进程。3.找到未加密的参数4.参考网易的逻辑找到其加密的逻辑。可以发现需要两个参数params和encSecKey。5、对应以上逻辑，分别找到d,e,f,g对应的内容。6.抓取下面的评论。7、运行得到结果，得到网易云音乐歌曲的评论信息。

下一篇：Python打包现状：三种类型的包

Python爬虫教程（三）相关文章