当前位置: 首页 > 科技观察

猫眼电影李明辉:机器学习在票房预测中的实战

时间:2023-03-23 10:56:38 科技观察

【.com原稿】近年来,我国票房市场翻了一番,2011年近150亿,2016年450亿,预计2020亿左右达到1000个规模。但这样的市场规模只有美国市场的一半左右。究其原因,中国电影的主要收入来自票房本身,而美国电影衍生品的收入高达电影相关产业总收入的70%,中国在这方面几乎是空白。因此,中国电影市场未来还有很大的增长空间。诚然,机遇与风险并存,票房市场在上升的同时,也出现了问题。目前,我国上映上映的影片有很多。每周上映近十部电影,但大部分不赚钱,亏钱是常态。风险高,投资回报率难以预测。很多时候,投入大不一定产出大。在电影票房方面,缺乏预测工具导致电影票房预测出现真空。票房预测的意义、困难和影响因素票房预测的意义票房预测非常重要。它将在每个阶段发挥关键作用:在电影上映之前,投资人正准备在这个时候推出一部电影。如果能提前发布预计的投资回报率,就能有效控制风险。在电影上映期间,可以进行电影的广告营销。如果能根据影片的票房规模制定不同的营销方案,就可以控制成本。影片上映期间,可根据票房预估结果进行智能排片,逼近利润最大化目标。票房预测困难目前,票房预测无法达到预期效果主要有以下几个困难:中国电影处于残酷的成长期,市场还不够成熟。可用的数据和参考信息非常多,但噪音很大。从互联网、搜索引擎、社交网络等渠道获取的大量电影信息中很难挖掘出对票房有用的数据。可供参考和学习的样本相对较少,这是使用机器学习解决票房预测时遇到的最大问题。没有样本和数据,再好的方法、再先进的模型也难以应用。一些感知特征很难量化。比如口碑通常用来评价一部电影的好坏,但是口碑怎么衡量呢?比如如何衡量国庆和暑假对电影上映的影响?影响票房的因素票房的高低会受到多方面的影响。以下是一些关键因素:主题。无论电影是动画片、文艺片、动作片,还是国际好莱坞大片,不同的题材导致不同的观众,直接影响票房。演员阵容。演员和导演的阵容将形成粉丝群。不排除有些电影在质量和内容上不是很好,但因为有一些比较有魅力的演员参与演出,会带来可观的票房。视频质量。影片的质量和口碑普遍公认不错,在社交媒体上广为流传,也会拉高票房。日程。同期上映的影片之间的竞争,会影响一部电影的票房。宣传力。电影上映时花多少营销费、广告费多少、票补投入多少,也会影响票房。非市场因素。比如官方因素,前期为某部电影定下销售目标或内容遭到国家反对,购买或窃取票房数据等因素都会影响票房。猫眼票房预测的整体技术体系,从1915年前后的电影时代到现在,在整个票房预测发展过程中,经历了三个主要阶段,涉及多种预测方法。详见下图:2013年之后,本期电影票房预测涉及全国实时票房、院线级实时票房、天际票房和总票房等部分。猫眼目前重点关注上映前一天、上映首日、上映周末的票房效果。下图是猫眼票房预测的整体技术体系:实时票房是指每部电影在上映当天产生的票房。还有排片、人次、平均票价等各种细粒度的数据。天空票房是预测每部电影在全国上映的次日票房。目前,猫眼可以在前一天的17:00和21:00预测第二天的票房。总票房是指以首映日和首周末为时间节点,每部电影在整个上映周期内的全国票房预测。实时票房、天际票房和总票房之间存在一定的关系。实时票房提供实时和未来的预测数据,为天价票房提供数据基础。天机票房预测某日票房,为总票房预测提供数据依据。下图为猫眼专业版基础数据、预测服务与三个子模块的关系:影院实时票房预测。当然,得到的数据还需要一些降噪处理。拿到全国各个影院的实时票房后,就可以做市区的实时票房预测了。重点是对票房榜首和总票房的预测,需要比较复杂的方法。处理后的数据将在猫眼专业版中展示,供电影从业者、影院管理者、电影制片人参考。下图是猫眼工具的首页:工具首页显示的是实时票房,点击进入可以看到天际票房和总票房的预测结果。当然,在这些数据的背后,也会存在一些问题和解决办法。我们先从实时票房入手,依次分析一下天机票房和总票房背后有哪些技术支持。实时票房实时票房数据对于电影从业者来说非常重要。通过猫眼工具,您可以看到所有影院的电影档期、发行和实时票房数据。没有这样的工具,这些数据只能等到第二天全国电影票房的公布。我们与90%的影院合作,对接18种票务系统,详细的影院时间和座位数据等,这些都是猫眼在实时票房方面的优势。用猫眼买过票的小伙伴一定对下图所示的UI不陌生。在买票的过程中,红色是不能卖的。是不是说把全国所有影院的红数据加起来就接近实时票房了?看似这么简单的道理,但其实红色数据并不代表所有的销量,就像电影院预留的电影票,如果你想预留一些好的座位或者自己卖掉以获得更高的利润,它们也会出现红色.定义这个问题就是要知道猫眼合作影院(约占全国90%)每部电影每场次的实时座位图数据,如何准确预测每部电影的实时票房总和全国所有影院。这里有两个难点:locationmap中的状态不清晰,导致数据噪声大。不是所有影院,资料不全。针对这两个问题,猫眼的解决方案是进行数据抽样,根据部分样本估算全量。下图是实时票房的统计模型:与猫眼合作的影院有多家,一共n场,从这些影院中抽取“优质”影院,一共米显示。什么是高质量?也就是看到的红仓数据和第二天上报的数据接近。统计m场次售出的门票数量,设X。通过右上角红框内的公式,可以得到全国售票总量,其中X、m、n是确定的提取优质影院的数据,只有α是未知的。在这种情况下,可以使用前一天或历史alpha值来模拟今天的alpha值。带上图中的公式得到当天的预估值,这是票房的核心统计模型。以下是实时票房的总体框架:为了更好地提供实时服务,同时面临巨大的计算量,计算分为离线和在线两部分。α值比较稳定,可以采用离线计算的方法。线上部分需要做数据清洗、票价处理、实时计票和票房计算。影院和地区的实时票房计算是另外一个相对独立的部分,算法也比较类似,这里就不详细介绍了。空中票房基于可直接获取交易数据的在线售票系统。预售票房、电影排期等细粒度数据和精准的实时票房,为天际票房预测提供了可靠的特征。这就是猫眼天级票房预测的实力。优势。天空票房是指预测未来某一天的票房。猫眼目前可以提前一天预测第二天的票房。全天约占30%。猫眼预计整体销量在30%左右,难度很大,因为每部电影的占比都不一样。一个基本的假设是票房=票价*人数=票价*场次*场均人数。可以看出,很多特征是有乘积关系的。经过对数变换后,特征与目标之间存在线性关系,可以使用线性模型来解决这个问题。下面是等式:log(票房)=log(票价)+log(时间)+log(人均次数)y=w1*x1+w2*x2+...下面是对数关系图featureandtarget:通过这两张图可以看出,前一天的预售VS次日的票房和前一天的套票VS次日的票房有很强的线性相关性。特征和目标变量之间的关系是线性的,所以可以用一个线性回归模型来拟合票房,如下图所示:左图是线性回归,右图是多元线性回归.它们是回归分析中最简单和最常用的预测方法。目标是平方误差,求解方法有最小二乘法、梯度下降法等,这里引入正则化来防止过拟合。如下图所示,天空票房预测中使用的主要特征:一方面是实时票房提供的特征,另一方面是票房相关的特征猫眼自带的票务系统带来的。还有一些其他的特征,比如节假日,特征的组合等。由于每天的规律不同,用单一的线性回归模型来拟合票房预测效果并不好。所以,猫眼采用的方法是找到票房衰减的规律,分段建模。模型根据不同时间分别构建,首映日、非首映日、节假日、星期几将分别考虑。总票房首先我们来看一个比较明显的总票房预测对比,如下图所示:图中所示的两条曲线分别是《速度与激情 8》和?的票房走势。第一《速度与激情 8》部的票房走势还比较正常,但是到了第二的后期,由于口碑的不断发酵,票房曲线持续上升。在这样的情况下,前期票房能涨多少很难预测。总票房重点关注首映日和首周末两个时间节点来预测总票房。如下图所示,是总票房预测的层级模型:总票房根据预测日期进行区分,比如首映日和首周末必须拆分。它在不同的时间段展示,使用的模型也不同,都需要单独建模。下图为总票房预测所用到的特征:总票房特征与天票房特征有很大区别,涉及影片属性、档期、竞赛等。下图为支持向量回归模型用于总票房预测:该模型具有三个优点:当特征维度大于样本数时,仍然适用。在小样本的情况下,模型泛化能力强。非线性核函数可以解决非线性回归问题。未来工作展望在票房预测的基础上,猫眼还需要改进结果、提前时间节点和创新方法。具体规则如下:洞悉票房内在规律,不断探索新方法。试图预测票房趋势和预售比率。互动预测系统:支持总票房和日级票房的预测。天级票房小目标提前1~2天。总票房预测比大目标提前1个月。在应用扩展方面,细则还有以下几点:排片:排片助手=>智能排片。发行营销:参与营销策划,优化票补。为票房预测设定行业基准。以上内容根据李明辉先生在WOTI全球创新科技峰会-高峰论坛上的演讲整理而成。2016年加入猫眼大数据部,负责票房预测方向。2007年毕业于哈尔滨工业大学,获博士学位。计算机应用专业,后就职于微软、百度、阿里等互联网公司。他的研究和工作领域包括自然语言处理、计算广告、机器学习和人工智能。【原创稿件,合作网站转载请注明原作者和出处为.com】本月热点文章推荐TOP4东方金信CTO史其灵:大数据风险分析与控制应用解析张丹民生银行高级数据分析师:用R语言让数据玩花样说说技术CTO唐丽佳:技术人的产品创新能力看透了CDN的痛点,互联网老手说说CDN那些事!