当前位置: 首页 > 后端技术 > Python

Python爬虫教程(三)

时间:2023-03-26 16:07:31 Python

1、处理cookies,实战登录17K小说网部分网站需要登录获取所需数据。对于这个例子,如果我们要获取小说网站的书架数据,需要先登录获取属于该账号的信息。1.会话(Session)跟踪是Web程序中常用的技术,用于跟踪用户的整个会话。常用的会话跟踪技术有Cookie和Session。Cookies通过在客户端记录信息来确定用户身份,Session通过在服务器端记录信息来确定用户身份。2.使用浏览器开发工具找到登录所需的URL。3.使用session获取想要的内容。4.获取cookie。5、获取页面数据,使用session保持登录状态。6.第二种获取方式。我们可以看到直接使用requests是无法进入登录状态的,但是我们也可以通过cookie来解决这个问题。在浏览器开发工具中获取cookie。2.请求处理防盗链,获取梨视频。在梨视频中选中任意一个视频,使用浏览器开发工具可以看到它的视频链接,但是我们在页面源码中找不到视频下载链接刷新页面,可以得到RequestURL请求URL和srcUrlURL开发者工具。在浏览器中输入,会出现错误。我们把正确的视频网址和这个网址对比一下,可以看到前后是一样的,只有中间部分不一样。在不同的位置查找源并比较两个接口。抓取下面的视频。1.获取contID2.获取videoStatus并返回json文章已下线,但内容在浏览器中。我们会处理防盗链的问题。级链接。过滤内容并获取json。3.修改替换获取到的URL中的内容。4.下载视频。三、综合训练,抓取网易云音乐评论信息1.使用开发者工具找到想要的内容位置。2、它发现自己的数据是加密的,根据自己的请求找到加密的位置运行进程。3.找到未加密的参数4.参考网易的逻辑找到其加密的逻辑。可以发现需要两个参数params和encSecKey。5、对应以上逻辑,分别找到d,e,f,g对应的内容。6.抓取下面的评论。7、运行得到结果,得到网易云音乐歌曲的评论信息。