当前位置: 首页 > 后端技术 > Python

Python一键获取Top100榜单电影信息

时间:2023-03-26 11:30:51 Python

最近看到一个UP主做的视频,用可视化动态图列出了目前观看次数最多的UP主,结果是BilibiliInMilf剧中,第一名的播放量是第二名的近10倍。B站的剧集数量相对于其他平台来说也比较多,质量也不错。说实话,我刚开始用哔哩哔哩的时候,就是为了看剧。作为一个喜欢看番剧的pk哥,决定用爬虫来爬取TOP100的日本动漫电影有哪些?上网查了一下发现时光网有这个排行榜,资料比较齐全。于是决定用爬虫把这个榜单前100名的电影信息全部保存为csv文件本地,看看有没有之前遗漏的经典动漫电影。下面是保存后的效果。保存的栏目包括片名、导演、编剧、发行公司、更多片名、评分、首日票房、总票房。一些没有评分和票房信息的电影直接显示为空。获取电影ID信息本次爬虫项目主要分为三部分。第一部分,我们需要获取电影的Id信息,因为我们需要保存的所有信息都与此有关。从哪里获得的Id?下面我们打开这个列表页的源代码。我们在源码中可以看到,ids都在链接的后面。为了缩小范围,我们发现这些链接都在class=top_nlist中,我们使用beautifulsoup库提取所有属性class=top_nlist的元素。然后用正则表达式提取每个页面的id信息。这里的第一页需要特殊处理,因为从第二页到第十页的数字后面都是直接跟数字的。如果我在第一个页面直接加-1,会报404,所以这个页面单独拿出来提取页面信息。然后将所有ID信息添加到空列表中。提取评分和票房信息得到ID信息,然后我们利用ID信息获取电影的评分和票房信息。我们可以通过F12调试看到。评级和票房信息在js中。请求链接中变化的是电影的ID,其他不变。我们通过简单的处理,将返回的信息转化为Json格式。之后我们就可以直接通过key值来提取value值了。这里提取的主要信息有:收视率、首日票房和总票房。提取其他电影详情接下来,我们需要通过ID信息获取对应电影的名称、导演、编剧等详细信息。这些信息在源代码中,可以直接通过正则表达式提取。用正则表达式提取信息的前提是我们要找到信息的规律。这样通过正则表达式提取既快速又准确。提取信息后,我们将其保存在list列表中,这样做的目的是为后面保存为csv文件做准备。获取保存为csv文件的各个页面的信息后,我们可以将信息追加保存到csv文件中。每保存一个电影信息,就额外保存下一个电影信息。为了避免打开保存的csv文件时出现乱码,我们需要设置编码为encoding='utf-8'格式。通过这三个步骤,Top100榜单中的所有动漫电影信息都保存在了本地的csv文件中。那么我们就可以更方便的浏览这些电影信息了。这样我们可以更好地跟进。本文所有代码资料可在公众号“Python知识圈”后台回复“动漫电影”获取。欢迎关注公众号“Python知识圈”,公众号会在后台回复关键词获取更多干货。回复“英语”:我给你7000个英语单词的速记方法。亲测非常有效。回复“编程”:免费领取2019年最新编程资料,认真学习BAToffer,手软。回复“赚钱”:领取36个简单实用的赚钱小项目,每天多赚100零花钱。