当前位置: 首页 > 科技观察

更大并不总是更好:谷歌流感趋势哪里出了问题?

时间:2023-03-18 20:44:08 科技观察

谷歌发现,某些搜索词可以很好地指示流感流行的现状。GFT的工作原理是使用汇总的Google搜索数据来估计流感爆发,然后将其与疾病控制和预防中心(CDC)的监测报告进行比较。但2013年2月,《自然》杂志发表文章指出,GFT预测的流感样病例门诊就诊人次是CDC根据美国各实验室监测报告预测结果的两倍多(但GFT的构建最初是用来预测报告结果的CDC的)。研究作者大卫·拉泽(DavidLazer)认为,造成这一结果的两个重要原因是“大数据狂妄自大”(BigDataHubris)和算法变化。“大数据狂妄”指的是认为大数据可以完全取代传统的数据采集方式,而不是与之互补。这种观点最大的问题在于,绝大多数大数据与通过严格的科学实验获得的数据存在很大差异。编写一个将5000万个搜索词匹配到1152个数据点的算法非常困难,并且存在很高的过拟合风险(将噪音误认为是信号):许多关键字似乎只与流感有关,但实际上没有任何联系。事实上,在2013年的报告发布之前,GFT曾多次高估了很长一段时间内的流感流行率。2010年的一项研究发现,使用CDC的滞后预测报告(通常有两周的滞后)来预测当前的流感爆发甚至比GFT的预测更准确。谷歌搜索引擎的算法不是一成不变的,谷歌会不断调整和改进算法。搜索引擎算法和用户搜索行为的变化都会影响GFT的预测结果。例如,媒体对流感疫情的报道会增加流感相关词的搜索量,进而影响GFT的预测。此外,相关搜索(Peoplealsosearchfor)的算法也会影响GFT。例如,搜索“发烧”会在相关搜索中给出关键字“流感”,而搜索“咳嗽”会给出“普通感冒”。此外,搜索建议(recommendedsearch)会进一步增加一些热门词的搜索频率。由于GFT在其模型中使用了相对流行的关键字,因此搜索引擎算法可能会对GFT的预测产生不利影响。奇怪的是,GFT建立在特定关键字的相对搜索量与特定事件之间存在相关性的假设之上。问题在于,用户的搜索行为不仅受到外部事件的影响,还受到业务影响。GFT高估了2012-2013年流感流行季的流感流行;在2011-2012年,它有一半以上的时间高估了流感的流行。从2011年8月21日到2013年9月1日,108周中有100周GFT预测都很高。上图:预测流感样病例的门诊人数;下图:偏差%=(非CDC预测值-CDC预测结值)/CDC预测值,GFT的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT和CDC的组合是0.232。以上统计结果为P<0.05。图片来源:谷歌流感的寓言:大数据中的陷阱Lazer和他的研究团队认为,如果谷歌能够公开提供派生和聚合数据,那么研究人员就可以更好地理解GFT背后的算法。此外,谷歌还需要解决可重复性问题:利用谷歌的Correlate服务获取的与流感高度相关的关键词,无法与GFT选择的关键词相匹配。另外,GFT的优点是可以提供非常细化的数据(数据粒度小)。因此,与CDC相比,GFT的价值在于提供区域层面的流感预测。而且,GFT非常适合建立流感传播的生成模型(GenerativeModel),对未来几个月的流感疫情预测具有很高的准确性。数以百万计的工程师和用户都在不断地改变着搜索引擎的算法,而作为研究者,我们需要更好地理解这些变化,因为正是搜索引擎的算法决定了我们最终得到的信息。论文第一作者指出,数据的价值不仅仅体现在“大小”上。真正核心的改变在于用创新的数据分析方法来分析数据,从而帮助我们更好地认识世界。