GitHub：新浪微博爬虫，利用Python采集新浪微博数据

时间：2023-03-26 15:58:17 Python

大家好，朋友们，大家好，今天要给大家分享的开源项目是：weiboSpider，看名字就知道这个项目是干什么的！没错，这个开源项目就是收集新浪微博的一个或多个用户（如：胡歌、迪丽热巴、郭碧婷）的数据，并将结果信息写入文件或数据库。书面信息几乎包含了用户微博的所有数据，包括用户信息和微博信息。本开源项目需要设置cookies获取微博访问权限，后面会讲解如何获取cookies。如果不想设置cookie，可以使用无cookie版本，功能类似。具体写入文件类型如下：写入txt文件（默认）写入csv文件（默认）写入json文件（可选）写入MySQL数据库（可选）写入MongoDB数据库（可选）下载自建微信原创博客中的图片（可选）下载用户转发的微博原始图片（仅适用于无cookie版本）为用户下载原始微博视频（可选）为用户下载微博视频从微博直播照片中下载用户创建的视频（仅适用于无cookie版本）无cookie版）从微博直播图片下载用户转发的视频（仅适用于无cookie版）项目列表自定义字段无cookie版区分，两者抓取的信息如下。如果是无cookie版本独有的信息，会有无cookie标记，没有标记的信息为双方共享。用户信息Userid：微博用户id，比如“1669879400”，其实这个字段已经是已知字段Nickname：用户昵称，比如“亲爱的-迪丽热巴”Gender：微博用户性别Birthday：用户出生日期所在地:用户所在地学习经历:用户上学时学校名称和时间工作经历:用户所属公司名称和时间博客数:用户微博总数(转发微博+原创followercount:用户关注的微博数:FansNumber:用户的粉丝数Profile:用户个人资料首页地址(无cookie版):手机版微博首页urlAvatarurl(无cookie版):用户头像url高清头像url（无cookie版）：用户高清头像url微博等级（无cookie版）：用户微博等级会员等级（无cookie版）：微博会员用户等级，普通用户等级为0是否进行身份验证（无cookieversion):用户是否通过认证，为布尔型Authenticationtype(无cookie版本):用户认证类型，如个人认证、企业认证、政府认证等认证信息：认证用户独有的认证信息显示在用户信息栏微博信息微博id：微博的唯一标识微博内容：微博正文头条文章url：微博头条文章的url，如果微博中没有头条文章，值为''原图url：微博原图和转发微博原因中的图片的url。如果某个微博中有多张图片，则每个url之间用逗号分隔。如果没有图片，则取值为""None"videourl:微博中的视频url，如果微博中没有视频，取值为"none"NumberofLikes:微博上的点赞数Reposts:转发数微博评论数：微博评论数微博发布工具：微博发布工具，如iPhone客户端，HUAWEIMate20Pro等结果文件：保存在当前目录weibo文件夹下以用户昵称命名的文件夹中，以“user_id.csv”和“user_id.txt”的形式博客转发原因中的图片存放在以用户昵称命名的文件夹下的img文件夹中微博视频：原微博中的视频存放在以用户昵称命名的文件夹下的video文件夹Weibobid（无cookie版）：无cookie版特有，与本程序中的微博id同值Topic（无cookie版）：微博话题，也就是说，两个#s主题中的内容，每个你l英文逗号分隔，如果没有，值为''@user（无cookie版）：微博@users，如果有多个@user，每个url用英文逗号分隔，如果没有，值为''原创微博（无cookie版）：转发微博特有，为转发微博中转发的微博，以字典的形式存储，包括上述微博信息中的所有内容，如微博id，微博博客内容等运行环境开发语言：python2/python3系统：Windows/Linux/macOSDeployment项目源码安装$gitclonehttps://github.com/dataabc/weiboSpider.git$cdweiboSpider$pipinstall-rrequirements.txt或者$python3-mpipinstallweibo-spider运行程序的源代码。安装程序的用户可以在weiboSpider目录下运行以下命令。已经安装pip的用户可以在任意有写权限的目录下运行以下命令。$python3-mweibo_spider第一次执行会在当前目录下自动创建一个config.json配置文件。配置完成后，执行同样的命令获取微博。如果已经有config.json文件，也可以通过config_path参数配置config.json路径，运行程序，使用命令行如下：$python3-mweibo_spider--config_path="config.json"自定义程序（可选）这部分是可选的，如果您不需要自定义程序或添加新功能，您可以忽略这部分。该程序的主要代码位于weibo_spider.py文件中。程序的主体是一个Spider类。以上所有功能都是通过在main函数中调用Spider类实现的。默认调用代码如下：config=get_config()wb=Spider(config)wb.start()#爬取微博信息用户可以根据自己的需要调用或修改Spider类。通过执行这个程序，我们可以获得很多信息。定时自动抓取微博（可选）如果您希望程序每隔一段时间自动抓取一次，并且抓取的内容是新添加的内容（不包括已经获取的微博），请勾选定时自动抓取微博。如何获取Cookie要了解如何获取cookie，请参阅cookie文档。如何获取user_id要了解如何获取user_id，请参考user_id文档，其中描述了如何获取一个或多个微博用户user_id的方法。开源地址：https://github.com/dataabc/we...有兴趣的可以申请。首先，您可以参考作者的编码风格。一种收集数据的方法。不知道大家喜欢今天的推荐吗？如果喜欢，请在文章底部留言或点赞，表示对我的支持。你们的评论、点赞、转发和关注是我持续更新的动力，peace！关注公众号回复：“1024”免费领取海量学习资源，先到先得！

上一篇：Leetcode周赛173-python答案

下一篇：安利5个惊艳的Matplotlib操作！

GitHub：新浪微博爬虫，利用Python采集新浪微博数据相关文章