当前位置: 首页 > 科技观察

Python微博手机端爬虫实例(附代码)

时间:2023-03-12 11:28:22 科技观察

本文简单介绍了用Python爬取微博移动端数据的方法。看看机器人协议。也尽量不要爬得太快。如果你肆无忌惮地爬取别人的数据,那么别人的网站当然会反爬得越来越厉害。至于为什么不爬PC端,原因是移动端比较简单,非常适合爬虫初学者。有时间再写PC端!环境介绍Python3/Windows-10-64bit/微博移动端网页分析以获取评论信息为例(其他数据可根据喜好获取)。如下图:这里会涉及到一个动态加载的概念,即我们只能通过鼠标滚轮向下滑动来加载更多的评论数据。这就是网页经常使用的方式。下一步是找到评论信息的真实URL。找到真实网址的方法是打开浏览器的开发者工具。Firefox/Google是F12键。打开方式如下:打开后,点击网络,网络用于记录浏览器与服务器交互的信息。接下来,慢慢向下滚动鼠标滚轮,这个过程中会弹出类似上图的信息,即评论信息已经加载完毕。找到评论信息,应该在第一篇。如下图:真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3在火狐中打开网址如下图:上面的网址其实是pages=3表示第三页,所以就模拟一下URL,pages=4,5,6。...另外,因为是Json文件,提取数据也很方便,使用切片操作即可。