大家好,朋友们,大家好,今天要给大家分享的开源项目是:weiboSpider,看名字就知道这个项目是干什么的!没错,这个开源项目就是收集新浪微博的一个或多个用户(如:胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。书面信息几乎包含了用户微博的所有数据,包括用户信息和微博信息。本开源项目需要设置cookies获取微博访问权限,后面会讲解如何获取cookies。如果不想设置cookie,可以使用无cookie版本,功能类似。具体写入文件类型如下:写入txt文件(默认)写入csv文件(默认)写入json文件(可选)写入MySQL数据库(可选)写入MongoDB数据库(可选)下载自建微信原创博客中的图片(可选)下载用户转发的微博原始图片(仅适用于无cookie版本)为用户下载原始微博视频(可选)为用户下载微博视频从微博直播照片中下载用户创建的视频(仅适用于无cookie版本)无cookie版)从微博直播图片下载用户转发的视频(仅适用于无cookie版)项目列表自定义字段无cookie版区分,两者抓取的信息如下。如果是无cookie版本独有的信息,会有无cookie标记,没有标记的信息为双方共享。用户信息Userid:微博用户id,比如“1669879400”,其实这个字段已经是已知字段Nickname:用户昵称,比如“亲爱的-迪丽热巴”Gender:微博用户性别Birthday:用户出生日期所在地:用户所在地学习经历:用户上学时学校名称和时间工作经历:用户所属公司名称和时间博客数:用户微博总数(转发微博+原创followercount:用户关注的微博数:FansNumber:用户的粉丝数Profile:用户个人资料首页地址(无cookie版):手机版微博首页urlAvatarurl(无cookie版):用户头像url高清头像url(无cookie版):用户高清头像url微博等级(无cookie版):用户微博等级会员等级(无cookie版):微博会员用户等级,普通用户等级为0是否进行身份验证(无cookieversion):用户是否通过认证,为布尔型Authenticationtype(无cookie版本):用户认证类型,如个人认证、企业认证、政府认证等认证信息:认证用户独有的认证信息显示在用户信息栏微博信息微博id:微博的唯一标识微博内容:微博正文头条文章url:微博头条文章的url,如果微博中没有头条文章,值为''原图url:微博原图和转发微博原因中的图片的url。如果某个微博中有多张图片,则每个url之间用逗号分隔。如果没有图片,则取值为""None"videourl:微博中的视频url,如果微博中没有视频,取值为"none"NumberofLikes:微博上的点赞数Reposts:转发数微博评论数:微博评论数微博发布工具:微博发布工具,如iPhone客户端,HUAWEIMate20Pro等结果文件:保存在当前目录weibo文件夹下以用户昵称命名的文件夹中,以“user_id.csv”和“user_id.txt”的形式博客转发原因中的图片存放在以用户昵称命名的文件夹下的img文件夹中微博视频:原微博中的视频存放在以用户昵称命名的文件夹下的video文件夹Weibobid(无cookie版):无cookie版特有,与本程序中的微博id同值Topic(无cookie版):微博话题,也就是说,两个#s主题中的内容,每个你l英文逗号分隔,如果没有,值为''@user(无cookie版):微博@users,如果有多个@user,每个url用英文逗号分隔,如果没有,值为''原创微博(无cookie版):转发微博特有,为转发微博中转发的微博,以字典的形式存储,包括上述微博信息中的所有内容,如微博id,微博博客内容等运行环境开发语言:python2/python3系统:Windows/Linux/macOSDeployment项目源码安装$gitclonehttps://github.com/dataabc/weiboSpider.git$cdweiboSpider$pipinstall-rrequirements.txt或者$python3-mpipinstallweibo-spider运行程序的源代码。安装程序的用户可以在weiboSpider目录下运行以下命令。已经安装pip的用户可以在任意有写权限的目录下运行以下命令。$python3-mweibo_spider第一次执行会在当前目录下自动创建一个config.json配置文件。配置完成后,执行同样的命令获取微博。如果已经有config.json文件,也可以通过config_path参数配置config.json路径,运行程序,使用命令行如下:$python3-mweibo_spider--config_path="config.json"自定义程序(可选)这部分是可选的,如果您不需要自定义程序或添加新功能,您可以忽略这部分。该程序的主要代码位于weibo_spider.py文件中。程序的主体是一个Spider类。以上所有功能都是通过在main函数中调用Spider类实现的。默认调用代码如下:config=get_config()wb=Spider(config)wb.start()#爬取微博信息用户可以根据自己的需要调用或修改Spider类。通过执行这个程序,我们可以获得很多信息。定时自动抓取微博(可选)如果您希望程序每隔一段时间自动抓取一次,并且抓取的内容是新添加的内容(不包括已经获取的微博),请勾选定时自动抓取微博。如何获取Cookie要了解如何获取cookie,请参阅cookie文档。如何获取user_id要了解如何获取user_id,请参考user_id文档,其中描述了如何获取一个或多个微博用户user_id的方法。开源地址:https://github.com/dataabc/we...有兴趣的可以申请。首先,您可以参考作者的编码风格。一种收集数据的方法。不知道大家喜欢今天的推荐吗?如果喜欢,请在文章底部留言或点赞,表示对我的支持。你们的评论、点赞、转发和关注是我持续更新的动力,peace!关注公众号回复:“1024”免费领取海量学习资源,先到先得!
