Python免登录微博数据爬虫（仅供研究使用）

时间：2023-03-25 21:55:27 Python

微博数据是非常有价值的数据，可以作为一些系统开发的数据源，比如前段时间发的那个：Python短文来识别一个人是否有自杀倾向，本文利用微博绝望树洞的数据，利用SVM做一个简单的自杀倾向识别模型。当然，微博数据的应用不仅限于此。如果大胆细化，大胆猜测，将有很多机会利用这些数据进行研究。然而，技术是一把双刃剑，有好有坏。我不想让你用这个爬虫去做违背道德和法律的事情。把它应用到美好的事物上，是技术诞生的初衷。这篇文章是关于基于用户的爬虫。如果你想能够自定义你需要的爬虫，请看这个教程：Python爬取微博树洞详解教程一、准备工作其实免费登录的原理很简单，就是通过手机版的微博绕过它的登录验证。你可以用手机打开这个网站，你会发现即使不登录也能看到大部分微博：https://m.weibo.cn/u/2075686772可见时爬上去。所以我们只需要调用这条微博数据的json接口就可以获取到数据了。但是，不能一上来就直接写代码，要善于利用Python开源社区的特点，在网上找相关现成的成熟轮子，而不是自己做一个半成熟的版本我们自己，这可以节省很多时间。经过一番查找，找到了这个由dataabc开发的无cookie微博爬虫：https://github.com/dataabc/weibo-crawler其代码思路和我想的差不多，只需要调用json的数据接口即可可以获取数据：下载开源项目，可以去网页直接下载，也可以使用git：gitclonehttps://github.com/dataabc/weibo-crawler.git如果没有两者都知道，没关系，后台微博采集工具Python实战宝典可以下载。2.配置采集参数在开始采集数据之前，需要确保你的电脑上已经安装了Python。如果没有，请访问这篇文章：超详细的Python安装指南进行安装。安装好Python后，Windows环境打开Cmd（开始—运行—CMD），苹果系统环境打开Terminal（command+空格进入Terminal）。进入我们刚刚下载的文件夹，输入以下命令安装需要的模块：pipinstall-rrequirements.txt**如果看到很多Successfullyinstalledxxx，说明安装成功。2.1找到你要爬取的用户ID，点击你要爬取的用户主页，此时查看url，你会发现链接中有一串数字，这个就是我们要使用的userID，就复制它。如果不是一串数字，可以点击任意微博评论页。这时候上面的链接肯定会有一串数字。如果还是没有一串数字，去手机版微博页面找。这个时候就需要耐心和耐心了。尝试过。2.2修改config.json获取用户的userID后，需要将ID写入config.json的user_id_list数组中，如图：其他参数如：filter：控制爬取的范围，取值为1表示爬取所有原创微博，值为0表示爬取所有微博（原创+转发）下载转发微博图片，是否下载原视频，是否下载转发视频，为1则为，为0则为否。后面如果需要写入数据库，也可以配置MySQL或者MongoDB的连接参数。3.开始采集配置完成后，采集就很简单了。你只需要用CMD或者Terminal进入文件夹，输入：pythonweibo.py就可以开始采集数据了。收藏后如果设置保存为csv文件，会在当前文件夹下的weibo文件夹中生成一个名为weibo用户名的数字.csv文件，如：weibo\ArsenalFootballClub\2075686772.csv这个文件是你想要的数据。开源模块设计的功能其实很齐全，可以看下面的列表。真的很甜，不得不感谢这位开源作者，喜欢的话记得去他的仓库给个star哦！这是我们文章的结尾。想要我们今天的Python实战教程，请继续关注我们。如果对您有帮助，请在下方点赞/观看。有什么问题可以在下方评论留言，我们会耐心解答！Python实战宝典（pythondict.com）不只是一个合集欢迎关注公众号：Python实战宝典原文来自Python实战宝典：Python免费登录微博数据爬虫（仅供研究使用）

上一篇：2021年南方今年的第一场雪是Python

下一篇：Python面向对象特殊变量main,name以及self的一系列问题

Python免登录微博数据爬虫（仅供研究使用）相关文章