2019年就这样匆匆过去了。就在日前,国家电影局发布了2019年中国电影市场数据。数据显示,去年总票房642.66亿元,同比增长5.4%;国产影片总票房411.75亿元,同比增长8.65%,市场占比64.07%;城市影院观影人次17.27亿人次,同比增长0.64%。看起来很多,对吧?不过,作为严谨求实的数据分析师,我从官方数据中看出了一些端倪:国内票房涨幅已经高达8.65%,为什么观影人次增幅不到1%?到底为什么会出现这样的现象,最好的办法就是从数据中寻找答案。我们说到做到,按照老规矩,先用python爬取数据,再用BI分析数据,最后事情的真相就会水落石出。一、分析目的和分析指标首先明确我们数据分析的目的。根据2019年电影的数据,对国内电影市场的分析主要是寻找票房与观影人次之间的关系。如何衡量一部电影的好坏?懂电影的人应该知道以下指标:“电影票房”、“票房比”、“上座率”、“排片率”、“评分”等。其中,我们的数据来源是猫眼电影。不过因为猫眼的评分门槛很低,可能会有很多喷子,所以这次没有使用“评分”这个指标。2.Python爬取下面开始爬取数据,因为猫眼电影的网页结构比较简单,爬取操作也比较简单,这里就不详细展示了,只是需要注意的几个步骤。注:源码可在后台私信回复我的“电影”获取!1.先看结构。从猫眼电影可以看到我们要爬取的网页。首先,我们需要提取这个网页的信息。了解大致情况后,右键查看网页源代码,看看我们需要的爬取的数据信息在源代码中的什么地方。2、伪装成浏览器请求数据的方法已经是老生常谈了,这里不再赘述,发送请求前加上headers参数即可。3、提取数据猫眼里的电影票房都是加密字体,所以我们需要对字体进行解密。尽管字符的编码发生了变化,但对象却没有。然后我们可以第一次下载一个字体文件origin.ttf,写出编码对应的字体。第二次从网上重新下载一个字体文件online_base64.ttf时,可以对比对象信息。如果对象相同,则将第一种编码对应的文本赋值给第二种编码,即可。4、主程序调用excel保存首先需要创建一个空列表,将所有数据添加到其中。在之前提取数据的函数中,将print(data)重写为yielddata,将所有数据添加到一个list中,保存数据。5、注意事项下载一个基本字体路径,找到它对应的编号和编码每次爬取网页,都要先下载该网页的字体文件,然后与基本字体文件进行比对获取爬取的网页编号对应的代码。3.BI分析有了源文件,我们就可以进行BI分析了。至于为什么不用python,就是比较麻烦。比如我们要做一个28的分析模型,写代码还是比较麻烦的,在日常工作中不是很常见。能满足需求。所以一般来说,我现在都是用专业的BI工具来做数据分析。目前市场上的BI工具很多,但性能也参差不齐。这里我以国产BI工具的优秀代表FineBI为例。注:如需获取finebi下载地址,可在后台私信回复“电影”获取!1.数据连接首先导入我们需要分析的数据。Finebi可以连接到Excel、CSV、XML和各种数据库。因为有python爬取的excel表格,直接选择excel导入即可。2.数据处理我们爬取的数据可能需要进行二次处理,如脏数据处理、数据合并、过滤等,FineBI通过自助数据集根据需要对原始数据进行再处理,并创建新的数据。用于分析、再处理的数据集包括选择字段、过滤、分组汇总、添加列、设置字段、排序、合并等操作。3、数据可视化因为本次涉及的指标比较简单,所以基本上可以通过FineBI拖拽数据字段进行可视化。4、结论分析废话不多说,先说结论:国内电影市场接近饱和,今年的表现是虚荣;头部效应加剧,多数影片票房惨淡,市场表现不佳;票房增长基本靠电影价格拉动1、今年票房前20名的电影中,一半以上是国产电影。看似红火,其实从上图的区间直方图可以看出,《我和我的祖国》、《流浪地球》、《复联4》属于第一梯队,票房超过40亿;票房在20亿到30亿左右;剩下的电影基本都在20亿以下,《银行补习班》排在20位才8亿。整体来看,去年国内电影市场的大片较多,但整体呈阶梯状,悬崖峭壁较多,且大多集中在前五名,大体符合二十八条规则。2、票房的帕累托模型为了看是否真的符合帕累托定律,特意用FineBI加了一个累计票房百分比:结果很明显,前20%的电影占了超过整个市场80%的票房总量,也就是说去年国内市场的总票房,基本都是靠几部大片撑起来的。票房分布越来越集中,绝对不是什么好事。居住空间。3、票房比、放映率与票房的关系低片就是烂片,放映率低票房高的电影就是黑马;我们可以将此图与前20个直方图进行比较。真正意义上高票房、高票房率、低放映率的黑马电影有哪些?答案只有一个《流浪地球》。《哪吒》排片率高是因为上映期间没有优质电影与之抗衡,所以《哪吒》的成功一半是人和,一半是天气;《疯狂外星人》的表现中规中矩,《海王》是典型的商业片,《我和我的祖国》是特例,不能一概而论。4、上座率与票房的关系上座率:即一部影片获得的观众数量,优秀影片的上座率就高,反之亦然。为了方便对比,我在图中加了一条平均出勤率的警戒线。其中,《我和我的祖国》和《我为你牺牲》的出勤率最高。原因我就不说了,大家应该都明白。奇怪的是《飞驰人生》,《新喜剧之王》,《攀登者》。不尽如人意,应该是其导演和主演的号召力所致。《流浪地球》上座率中上,无论从哪个角度看都是一部好电影,无可挑剔。令人欣慰的是,上座率排名靠前的影片基本都是国产片,可见国外影片并不能满足大多数人的口味。5.做一些电影类型和上座率关系的其他分析。喜剧电影方兴未艾,动画电影黑马崛起,科幻电影方兴未艾,恐怖、悬疑、历史等小众题材的电影依旧惨淡。颜色越深代表上座率越高,字体越大代表票房越高。虽然陈凯歌经常被烂片之王诟病,但是不得不说他的表演还是很不错的。此外,像宁浩、韩寒、郭帆、陈国辉等人都是国产电影的希望。最后别忘了,可以私信“电影”获取python源码和BI下载地址!
