当前位置: 首页 > 后端技术 > Python

Python免登录微博数据爬虫(仅供研究使用)

时间:2023-03-25 21:55:27 Python

微博数据是非常有价值的数据,可以作为一些系统开发的数据源,比如前段时间发的那个:Python短文来识别一个人是否有自杀倾向,本文利用微博绝望树洞的数据,利用SVM做一个简单的自杀倾向识别模型。当然,微博数据的应用不仅限于此。如果大胆细化,大胆猜测,将有很多机会利用这些数据进行研究。然而,技术是一把双刃剑,有好有坏。我不想让你用这个爬虫去做违背道德和法律的事情。把它应用到美好的事物上,是技术诞生的初衷。这篇文章是关于基于用户的爬虫。如果你想能够自定义你需要的爬虫,请看这个教程:Python爬取微博树洞详解教程一、准备工作其实免费登录的原理很简单,就是通过手机版的微博绕过它的登录验证。你可以用手机打开这个网站,你会发现即使不登录也能看到大部分微博:https://m.weibo.cn/u/2075686772可见时爬上去。所以我们只需要调用这条微博数据的json接口就可以获取到数据了。但是,不能一上来就直接写代码,要善于利用Python开源社区的特点,在网上找相关现成的成熟轮子,而不是自己做一个半成熟的版本我们自己,这可以节省很多时间。经过一番查找,找到了这个由dataabc开发的无cookie微博爬虫:https://github.com/dataabc/weibo-crawler其代码思路和我想的差不多,只需要调用json的数据接口即可可以获取数据:下载开源项目,可以去网页直接下载,也可以使用git:gitclonehttps://github.com/dataabc/weibo-crawler.git如果没有两者都知道,没关系,后台微博采集工具Python实战宝典可以下载。2.配置采集参数在开始采集数据之前,需要确保你的电脑上已经安装了Python。如果没有,请访问这篇文章:超详细的Python安装指南进行安装。安装好Python后,Windows环境打开Cmd(开始—运行—CMD),苹果系统环境打开Terminal(command+空格进入Terminal)。进入我们刚刚下载的文件夹,输入以下命令安装需要的模块:pipinstall-rrequirements.txt**如果看到很多Successfullyinstalledxxx,说明安装成功。2.1找到你要爬取的用户ID,点击你要爬取的用户主页,此时查看url,你会发现链接中有一串数字,这个就是我们要使用的userID,就复制它。如果不是一串数字,可以点击任意微博评论页。这时候上面的链接肯定会有一串数字。如果还是没有一串数字,去手机版微博页面找。这个时候就需要耐心和耐心了。尝试过。2.2修改config.json获取用户的userID后,需要将ID写入config.json的user_id_list数组中,如图:其他参数如:filter:控制爬取的范围,取值为1表示爬取所有原创微博,值为0表示爬取所有微博(原创+转发)下载转发微博图片,是否下载原视频,是否下载转发视频,为1则为,为0则为否。后面如果需要写入数据库,也可以配置MySQL或者MongoDB的连接参数。3.开始采集配置完成后,采集就很简单了。你只需要用CMD或者Terminal进入文件夹,输入:pythonweibo.py就可以开始采集数据了。收藏后如果设置保存为csv文件,会在当前文件夹下的weibo文件夹中生成一个名为weibo用户名的数字.csv文件,如:weibo\ArsenalFootballClub\2075686772.csv这个文件是你想要的数据。开源模块设计的功能其实很齐全,可以看下面的列表。真的很甜,不得不感谢这位开源作者,喜欢的话记得去他的仓库给个star哦!这是我们文章的结尾。想要我们今天的Python实战教程,请继续关注我们。如果对您有帮助,请在下方点赞/观看。有什么问题可以在下方评论留言,我们会耐心解答!Python实战宝典(pythondict.com)不只是一个合集欢迎关注公众号:Python实战宝典原文来自Python实战宝典:Python免费登录微博数据爬虫(仅供研究使用)