当前位置: 首页 > 科技观察

腾讯数据平台部总经理姜杰:亿级广告的基础是精准实时推荐

时间:2023-03-20 21:17:44 科技观察

接题的姜杰先生是腾讯数据平台部总经理。在加入腾讯之前,他是支付宝的数据经理。提问的车品觉先生是中国信息化协会大数据分会副会长。过去几年,您在腾讯做了哪些推动大数据应用的工作?三年来,我一直在坚持一件事:推动大数据的实时应用。现在国外数据中心的数据可以一秒到达深圳数据中心。这就是腾讯的数据能力。有了这个能力,可以做很多商业行为模型。目前,腾讯收集的数据已超过1万亿,计算机规模已超过8800台。如果能够实时处理如此庞大的数据量,将具有巨大的商业价值。这种商业价值就是精准推荐。腾讯每年数十亿的广告,都是基于数据的精准推荐。实时数据推荐还可以用于视频推荐、腾讯音乐推荐、新闻客户端推荐、游戏道具推荐等。目前我们可以做到从数据传入到数据下发的延迟不超过50毫秒。有了这个技术基础,腾讯的精准推荐就有了基础。实时还降低了内部管理方面的成本。因为实时数据处理可以用完“每一秒”。传统数据仓库一般从晚上0:00到次日早上8:00进行数据截断、提取和处理,因为老板需要在早上9:00看数据报表。一天中只有三分之一的时间用于数据处理,其余时间自由活动。当我们对数据进行实时处理时,实际意义是将分析时间成本分摊到全天,成本更低。同时,这也有利于风险控制,因为只要出现错误,就可以立即监控并快速回滚。所以你把大部分精力放在“实时”上。为什么您认为“实时”会为腾讯增加更多的商业价值?首先,数据是时效性的,一秒前的行为与一秒后的行为有天壤之别。过去,我们通过统计数据来制定规则,寻找用户偏好。现在实时变得更加重要。如果你前一秒看过母婴内容,几秒内应该会推送相关广告,转化率会比较高。如果前几天还在推送这个用户看球的数据信息,这个业务就很难做下去了。在腾讯,我们在三个方面研究精准推荐:数据整理、实时计算和算法研究。我知道实时计算是关键核心。在我看来,所有数据都必须以消息为中心,实时处理、提炼和划分。解决不了的数据可以离线分析。例如,一张照片必须首先在数据处理端口进行实时过滤。这个照片在哪拍的?其中有多少人被拍照?当所有的数据收集和处理完成后,我可能需要找到这张图片和其他图片之间的关系,然后我会做离线处理。基本上,腾讯90%以上的数据都是在线实时处理的。我一直坚持把腾讯的数据集中起来,放在一个平台系统下。这其实是阿里巴巴的教训。(江杰曾在支付宝数据部工作)阿里巴巴的数据到今天还是碎片化的。其实我对数据的实时体验也是在支付宝时期积累的。我当时了解到的一件事是,没有搜索引擎的支持,根本不可能做数据分析。当时很多人说没办法让数据在6秒内可以搜索到,但我坚持认为可以实现。其实在腾讯现在,15000个字段,所有的数据交叉都可以在3秒内实现。这是做技术的本分。在实时领域,有哪些技术难点?我一直在慢慢弱化数据仓库,逐渐走向实时数据仓库。其中最大的问题是如何实现实时数据采集?实时数据处理的前提首先是实时采集。我的做法是,一方面和业务部门协商,一方面把数据采集文件部署到所有机器上,从安装操作系统开始就写数据采集文件。这样腾讯的40万台机器全部可以协同工作。近两年,腾讯从原来的一小时响应变成一秒精准推送,CTR(点击率)可以提升20%。规模越大,效果越明显。精准推荐有三大要素,第一是数据,第二是实时,第三是算法。首先,要有强大的数据。如果数据丢失,则无能为力;二是实时效果明显,三是优化算法。这是整个精准推荐系统的核心。实时在其中排名第二。我们的实践证明,在没有变化的情况下,频率的变化会带来整体收入的增加。解决了数据的获取之后,数据底层遇到的最大困难是什么?直接的挑战在于深度学习。大数据时代,腾讯有200PB的图片数据,如何挖掘图片数据的价值?如何挖掘语音数据的价值?我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提取商业价值?这包括深度学习DNN和CNN技术,包括如何做文本之间的相似关系。这些都是需要突破的点。微信上的所有语音训练都是由深度学习处理的。例如,每当你用微信播放语音时,机器会自动翻译成文本,由深度学习网络训练。但目前,计算能力仍然是一个门槛。这种能力并不像我们想象的那么容易,需要更多的计算技术来提升。未来数据处理是否会发生剧烈变化?硬件决定数据能效。数据规模越大,数据的展现方式就越多,未来对实时计算的处理需求会越来越旺盛。相信在未来,能够适配更多应用场景的高效计算引擎将会出现。这是我对未来的判断。很显然,如果不对当前秒的数据进行完整的处理和细化,那么后续分析的成本会越来越高,而数据的价值会越来越低。因此,未来高效计算引擎和存储引擎的出现,将对大数据的发展产生快速的影响。后记:在姜杰看来,没有什么比实时更重要。在腾讯,他对实时数据对广告的价值很敏感,所以他把大部分精力都放在数据的实时处理和如何优化广告上。现在很多公司的数据仓库都是离线的,数据离实际业务很远。这个距离不仅无法实时响应,也无法保证数据的稳定性和质量。在这方面,实时数据是业务与数据结合的关键。但实时数据并不是终点。每一秒都有新数据产生,如何梳理新数据与已有数据的关系?如果我们一直通过数据收集和分析得知一只狗坐在电脑前,但是如果有一天数据收集显示它会叫。那么我们能不能判断出电脑前的东西其实是一只猫呢?这不仅仅是数据更新和变化那么简单,还有我们如何判断和分析。所以,这个时候,延迟判断就变得非常重要了。面对海量数据如何做延时判断?虽然你有分析实时数据的能力。这可能是下一个更有趣的话题。