北京时间1月15日上午消息,雅虎周四公布了雅虎新闻、雅虎财经等用户如何使用公司服务的大量数据。此举旨在为学术界的机器学习研究人员提供素材。 这并不是雅虎第一次发布此类数据。
在雅虎实验室的Webscope项目中,雅虎已经发布了56次此类数据,涉及广告、图片、社交媒体和收视率等。此次发布的数据来自2015年四个月的时间段,覆盖2000万人,包括用户访问雅虎网站所使用的设备类型、文章的阅读状况以及文章的主题。其他数据包括用户的位置、年龄和性别,但这些数据是匿名的。 不过,值得指出的是,雅虎此次提供的数据集非常庞大,高达13.5TB。
此前雅虎提供的数据集通常只有1TB。 加州大学圣地亚哥分校电气与计算机工程教授 Gert Lanckriet 表示:“我对此感到兴奋。这是因为学术界和工业界之间的此类合作对于更强大的人工智能非常重要而现实世界中机器学习技术和大数据处理的研究、设计和开发至关重要。
” 近期,雅虎正在采取措施吸引开发者。例如,雅虎开源了一些算法。这些算法用于流数据的计算以及网络爬虫处理网站上的结构化数据。雅虎此次发布的数据将有助于学术界进一步了解用户的阅读习惯,进而优化自己的算法。
Yahoo 提供了一个 100 行数据示例,其中包含各种类型的数据,例如股票、学校、政治、体育、名人等。 Yahoo 其实还有更多数据可以分享。
雅虎实验室个性化科学研究总监Suju Rajan表示,她经常要处理PB(1PB=1000TB)级别的数据,这对于雅虎这样的互联网公司来说并不罕见。然而,PB级数据对于单个研究人员来说很难处理,甚至13TB的数据也显得非常大。 雅虎实验室研究副总裁Ricardo Baeza-Yates表示:“很多人没有能力使用这些数据,但我们认为通过这种方式我们可以推进相关研究。