2021年7月13日,劳累了一天的年轻人,准备躺下拿出手机,打开熟悉的小破站APP,连接上最新的一键更新自己喜欢的up主。视频。结果突然发现眼前一黑:时隔一年,B站终于揭开了谜底:一个“心机0”。不过,大家有没有想过,为什么这条微博在经历了用户的疯狂涌入之后,为什么还没有崩溃呢?AI和微博是什么关系?在揭开这个谜团之前,我们需要先从人工智能的发展说起。7月27日,由中国互联网协会指导,微博、新浪新闻主办的2022“融合生态价值共创”新智者大会圆满召开。在“智能驱动万物:AI推动万物互联加速到来”的主题中,微博COO、新浪移动CEO、新浪AI媒体研究院院长王薇发表了题为《云为数智 技术融合应用 赋能微博复杂业务场景》的主题演讲。王伟表示,如果回顾机器学习的发展,我们可以看到人工智能的总体发展趋势是:训练数据的海量和多样化,人工智能模型的复杂性和泛化性,计算的高效性和规模化。力量。首先是多模态数据融合。随着5G的快速发展,图片、视频模态内容在网络内容中所占比例越来越大,模态融合非常必要。对于微博来说,如果能同时以多种方式整合文字、图片、视频,就能更好的理解这条微博的内容。二是超大规模图计算。与其他机器学习模型相比,超大规模图计算有一个特殊的优势:通过信息在网络中的传递,促进信息的流动、聚合和融合。例如,对于一个行为很少的冷启动用户,我们可以利用他的关注列表中的人以及这些人发布的内容,通过信息传播来推断用户的兴趣。三是AI开发的哑铃模式。当前人工智能研发的重点,一个是越来越大的超大型模型,另一个是模型微型化技术。我们都知道,随着模型参数规模越来越大,模型的效果越来越好,高精度的模型还在不断增加。比如2018年谷歌的Bert刚出来的时候,模型参数的规模是3亿。它太大了,但从那以后这个数字一直在迅速增长。OpenAI开发的GPT-2模型参数规模为15亿,GPT-3模型参数规模为1750亿。到2021年,谷歌发布的SwitchTransformer参数规模达到1.6万亿。另一方面,虽然说模型越大效果越好,但是由于模型太大,有时实际应用中无法实现。因此,另一个研发重点是将这些大模型小型化和轻量化,比如模型蒸馏、模型剪枝等技术。第四,AI模型正在从专用模型走向通用模型。谷歌在2021年下半年发布了Pathways模型框架,首先提出了这个想法,希望通过构建一个通用的大模型来实现“一个模型可以做几万件事”的目标。具体思路是在输入不同任务的数据后,通过路由算法选择神经网络的部分路径到达模型输出层。不同的任务既有参数共享又有任务特定的模型参数。10亿个节点+100亿条边的超大规模图为什么要讲机器学习这么久?因为接下来出现的就是“微博精选推荐系统”。众所周知,作为中国最大的社交媒体网络,微博目前月活跃用户达5.82亿!如此庞大的用户规模,必然会让微博上的网络环境变得非常复杂。再加上内容的时效性强、多样性高,网络重大事件第一时间在微博上引爆。另外,微博面临的场景还是非常多样的。需要在关系流、热点流、视频流等诸多场景下分发用户感兴趣的“千人千面”内容。我可以没有手指,但不能没有手机面对复杂的业务场景。微博如何利用AI和大数据做一个能适应变化的推荐系统?王伟告诉我们,整个微博推荐系统由内容理解、用户理解和推荐系统三部分组成。首先是内容理解。要想看懂一条微博在说什么,仅仅看懂文字内容是不够的。你必须使用多模态理解技术来整合博文、图片、视频等媒体信息。为此,微博训练了自己的微博多模态预训练模型,并利用这种自监督学习的方式,通过“比较学习”进行多模态预训练。下图的例子展示了微博是如何利用自己的“话题”自动构建训练数据的。例如,我们以“训练中的拉什福德”的两条微博为正例,随机选取一些不同主题的微博作为负例,这样就可以自动构建训练数据。对于微博,其中的文本内容采用Bert编码,图像和视频内容采用ViT编码,然后通过融合子网络进行信息融合,形成微博的嵌入码。这是一个预训练过程。预训练后,可以使用学习好的微博编码器对新的微博内容进行多模态编码,形成嵌入,用于推荐等下游任务。其次,在用户理解方面,微博采用超大规模图计算,更好地理解用户的阅读兴趣。微博毕竟有自己的社交媒体属性,与大规模图计算自然契合。以用户和博文作为图中的节点,并根据用户之间的关系、用户与博文之间的阅读、转发评论等互动,构建图中的边,微博建立了10亿节点规模和10十亿规模的边缘。非常大的比例图。通过大规模图计算中的信息传播、聚合和融合,形成代表用户兴趣的嵌入向量,可以更好地理解用户兴趣。这样可以同时处理用户与博文的关注关系、用户的转发、评论、点赞等交互行为。微博推荐系统在了解了用户在谈论什么,了解了微博用户的兴趣爱好后,会以个性化的方式向感兴趣的用户推送优质的微博。那么,如何在如此复杂的场景下构建高效的推荐系统呢?微博采用多场景建模的方式。理想情况下,只构建一个推荐模型并使用它来服务于多个场景。那么如何表现场景之间的共性和个性呢?场景的共性和个性可以通过场景间共享网络参数,或者场景自身共享私有网络参数来体现。比如这个模型图中,模型底层的特征输入层,以及网络中间的一部分“专家子网络”,这些网络参数是每个场景共享的;而其他子网参数是特定场景特有的。这样一个模型可以服务多个场景,节省模型资源。唐山事件:流量翻倍怎么办?现在,让我们回到最初的“悬念”。对于微博来说,这个不保就“爆”的热点一直是一个非常大的挑战。比如最近备受全民关注的“唐山事件”,事发当天的热??点流量比日峰值流量翻了一倍。对此,王伟表示,微博很早就应用了微服务+Docker容器化技术,不仅提升了服务运维效率,还实现了服务动态扩缩容的能力。目前,微博已具备10分钟内调度1万多台服务器的扩容能力,并有足够的服务器来应对热点流量。此外,微博还建立了热点监控机制和热点联动系统,通过微博自主研发的WeiboMesh技术,可以实现不同服务之间的高效跨语言调用,提升整体服务性能,以及联动扩展效率。最后,微博采用离线实时混合部署技术。利用CPU实时抢占式调度技术与容器化技术相结合,实现微博服务的离线实时混合部署。结合以上操作,当热点流量来袭时,可以秒级承接核心业务的热点流量。最后,让我们回顾一下互联网的发展。如果说PC互联网是网络世界的开端,那么移动互联网的兴起则让我们将这个无形的信息空间收入囊中。随着大数据、云计算、人工智能等技术与移动互联网的叠加融合,我们已经进入智能信息时代。而现在,最热门的话题是元宇宙。去年以来,元界引发广泛讨论,数字孪生、数字人、XR、区块链技术等。王伟认为,当前基于AI、区块链、XR等前沿技术的应用场景已经体现Metaverse的一些原型。游戏、社交等领域都是元界非常好的应用场景,会点燃大家参与元界的热情。
