Python一键获取Top100榜单电影信息

时间：2023-03-26 11:30:51 Python

最近看到一个UP主做的视频，用可视化动态图列出了目前观看次数最多的UP主，结果是BilibiliInMilf剧中，第一名的播放量是第二名的近10倍。B站的剧集数量相对于其他平台来说也比较多，质量也不错。说实话，我刚开始用哔哩哔哩的时候，就是为了看剧。作为一个喜欢看番剧的pk哥，决定用爬虫来爬取TOP100的日本动漫电影有哪些？上网查了一下发现时光网有这个排行榜，资料比较齐全。于是决定用爬虫把这个榜单前100名的电影信息全部保存为csv文件本地，看看有没有之前遗漏的经典动漫电影。下面是保存后的效果。保存的栏目包括片名、导演、编剧、发行公司、更多片名、评分、首日票房、总票房。一些没有评分和票房信息的电影直接显示为空。获取电影ID信息本次爬虫项目主要分为三部分。第一部分，我们需要获取电影的Id信息，因为我们需要保存的所有信息都与此有关。从哪里获得的Id？下面我们打开这个列表页的源代码。我们在源码中可以看到，ids都在链接的后面。为了缩小范围，我们发现这些链接都在class=top_nlist中，我们使用beautifulsoup库提取所有属性class=top_nlist的元素。然后用正则表达式提取每个页面的id信息。这里的第一页需要特殊处理，因为从第二页到第十页的数字后面都是直接跟数字的。如果我在第一个页面直接加-1，会报404，所以这个页面单独拿出来提取页面信息。然后将所有ID信息添加到空列表中。提取评分和票房信息得到ID信息，然后我们利用ID信息获取电影的评分和票房信息。我们可以通过F12调试看到。评级和票房信息在js中。请求链接中变化的是电影的ID，其他不变。我们通过简单的处理，将返回的信息转化为Json格式。之后我们就可以直接通过key值来提取value值了。这里提取的主要信息有：收视率、首日票房和总票房。提取其他电影详情接下来，我们需要通过ID信息获取对应电影的名称、导演、编剧等详细信息。这些信息在源代码中，可以直接通过正则表达式提取。用正则表达式提取信息的前提是我们要找到信息的规律。这样通过正则表达式提取既快速又准确。提取信息后，我们将其保存在list列表中，这样做的目的是为后面保存为csv文件做准备。获取保存为csv文件的各个页面的信息后，我们可以将信息追加保存到csv文件中。每保存一个电影信息，就额外保存下一个电影信息。为了避免打开保存的csv文件时出现乱码，我们需要设置编码为encoding='utf-8'格式。通过这三个步骤，Top100榜单中的所有动漫电影信息都保存在了本地的csv文件中。那么我们就可以更方便的浏览这些电影信息了。这样我们可以更好地跟进。本文所有代码资料可在公众号“Python知识圈”后台回复“动漫电影”获取。欢迎关注公众号“Python知识圈”，公众号会在后台回复关键词获取更多干货。回复“英语”:我给你7000个英语单词的速记方法。亲测非常有效。回复“编程”：免费领取2019年最新编程资料，认真学习BAToffer，手软。回复“赚钱”：领取36个简单实用的赚钱小项目，每天多赚100零花钱。

上一篇：【100个JS逆向案例】cnki学术翻译AES加密分析

下一篇：Python数据分析入门教程（二）：数据预处理

Python一键获取Top100榜单电影信息相关文章