奇葩推荐系统：6亿用户音乐场景中的AI思考

时间：2023-03-21 00:56:11 科技观察

【.com原创稿件】网易云音乐是音乐爱好者的聚集地，云音乐推荐系统致力于通过落地实现万千用户AI算法上千条个性化推荐，为用户带来不一样的聆听体验。图片来自pexels2019年6月21日至6月22日，由WOT主办的WOT全球人工智能技术峰会在北京JW万豪酒店举行。在机器学习实践环节，网易云音乐的音乐推荐算法负责人肖强为大家介绍了《AI 算法在音乐推荐中的实践》。本次分享重点介绍了AI算法在音乐推荐中的应用实践，以及在算法实现过程中遇到的挑战和解决方案。将从以下两部分开始：AI算法在音乐推荐中的应用AI思维在音乐场景中的应用自2013年4月正式上线以来，网易云音乐平台持续提供：乐屏社区、UGC（UserGeneratedContent）歌曲服务下单、精准推荐等孵化了音乐人策划、LOOK直播、主播平台等版块。目前，云音乐注册用户已达6亿，继续稳居音乐App排行榜第一。AI算法在音乐推荐中的应用在音乐推荐的实际应用场景中，我们使用AI技术来分发歌曲和播放列表。比较典型的应用有：日常歌曲和私人FM，可以根据个性场景推荐相关曲目。上图是我们整个音乐推荐系统的逻辑图，包括各种日志流、ETL、特征、召回、排名和最终推荐。对于这个推荐系统来说，最重要的是如何理解用户画像，也就是通过整合前端数据，了解用户具体喜欢什么样的音乐。如上图所示：在数据层，我们主要使用Hive、Hadoop、Flink、SparkSQL和Mammut。在机器学习层，我们使用了SparkML、Tensorflow、ParameterServer和Caffe。以上是数据体系建设的对比图。其中，算法体系建设包括用户体系建设，即云音乐AI算法的应用环境。我们的团队主要分为：数据体验团队人工智能算法团队中台团队业务相关成员在使用人工智能的推荐方式上，音乐推荐不同于其他产品。例如：我们可以在10秒内浏览十几件衣服，因为我们可以很快地说出自己喜欢什么。但是音乐需要时间去体验。通常我们会听一段音乐10秒或更长时间，然后才意识到它不合我们的口味。因此，直接看音乐是无法理解的。在做推荐产品的过程中，要以用户体验为导向，真正理解音乐本身。衣服在单位时间内只能消费一次，但人们可以通过循环播放列表和单曲循环，在单位时间内反复欣赏音乐。所以，这是一个可以重复消费的行为，我们在做推荐的时候要把握好这个规律。由于音乐消费的成本相对较高，我们需要更加关注用户体验以及用户消费过程中存在的强时序相关性。同时，是否让用户听一首歌10秒、30秒、60秒，对于他们来说有着完全不同的意义。因此，我们需要提供的是真正有意义的消费，让这些相关性体现有效的行为意义。如何衡量音乐推荐系统的优劣？是考察用户使用平台的时长吗？或者看看他在收藏夹中收藏的音乐曲目数量？当然，我们发现有些用户从来没有通过点击红心来收集任何东西。歌曲。通过后期的沟通，我们发现他其实只是直接屏蔽了我们不喜欢的歌曲。可见，我们很难用单一的目标来衡量音乐推荐系统的效果。下面我们来看看云音乐平台是如何应用各种AI技术的：①音乐的复杂性鉴于上面提到的音乐的复杂性，我们应该如何理解音乐？在我们的平台上，对于不一样的音乐，丰富的UGC，以及各种优质的用户评论。因此，我们可以利用这些对播放列表的评论和认知，利用bi-Istm生成一些对音乐的描述性句子。然后，当输入新的音乐时，我们可以根据与之相关的较小语言制定新的解释性描述。如上图所示，例如有一首《逆流之河》的歌曲，其下方有很多相关的歌单标题和描述信息。我们可以通过添加关键字来还原各种标签词，然后生成对音乐家相关特征的描述。在此基础上，我们根据人工筛选的词汇，自动生成“网络中国女声”、“香港民歌”等词组。因此，多亏了这个NLP（自然语言处理）系统，我们终于能够将歌曲短语可视化。这样一来，对于社区用户来说，甚至不用点击某首歌曲来收听，就可以大致了解歌曲的流派。其次，我们可以用比较简单的“视频+图像+卷积”技术来理解音乐。例如，对于一些流行的歌曲，我们利用生成的表情和已有的相关性得到相关的音频，识别歌曲的响度、节奏、风格以及音乐之间的相似度，给音乐“画像”。②音乐的重复消费价值主要体现在音乐推荐中的CF。如上图所示，我们通过追踪发现，某用户听了10次A曲，9次B曲，C曲只听了1次。那么我们可以将A、B、C的相似度理解为：用户更喜欢A、B的歌曲，A、B的相关性也更大。因此，我们可以根据用户的重复消费频率，通过设置X、Y、Z坐标轴之间的关系来表达它们之间的空间位置和空间方向的差异。显然，通过这种相似度计算，我们对各种音乐的推荐效率会大大提高。③音乐的高消费成本和前后关联度高，需要更合适的模型来表达用户的需求。如上图所示，我们经历了从一开始的线性模型，到树模型，再到大规模的FTRL，再到深度Neuralnetwork，最后到deepsequentialnetwork，这样一个音乐推荐的迭代过程.首先，我们从LR模型开始。LR模型解释性更强，方便我们选择。但是，虽然解释性更强，迭代速度更快，但其表达力却非常有限。后来，我们转向了树模型。该模型中的RF和LGB等模型的优点是能够解决一些非线性解释。当然，他们的缺点是贴合能力有待加强。接下来，我们安装了一个适合表达的大规模FTRL。它的优点是可以通过记忆特征表达和描述基于先前学习和时间序列训练的所有特征和相关性。缺点是特征纬度比较大，即针对不同公司的不同需求，需要的样本量会比较多，计算量会比较复杂。为了增加后续的表达能力，我们使用深度神经网络，包括：DNN、DeepFM和Wide&Deep等模型。它们的优点是理论性很强，缺点是：由于神经网络本身的复杂性，其可解释性比较差，无法学习到各种隐含的时序关系。最后，我们采用了深度时间序列网络，其对应的模型包括：LSTM、GRUTransformer、DIN和DEIN。它们的优势在于可以学习到不同时间序列的特征，进而具备描述和泛化的能力。当然，它们也有上面提到的深度神经网络的缺点，即：网络比较复杂，可解释性比较差。下面我们来看看LR和树模型。前面我们说过，线性模型和树模型的特点是：统计/泛化特征非常丰富，但是泛化能力比较差。在歌曲应用场景中，我们可以直接为模型提供与歌曲相关的、用户行为产生的丰富数据。我们需要通过算法，将各种音乐指标抽象成标签。然而，虽然我们有足够的音乐资源和行为样本，但由于行为序列往往不是线性的，我们会遇到过拟合和特征时间旅行（即特征记忆）的问题。我们迫切需要通过离线和在线特征的一致性来有效地利用数据，学习不同行为的上下文相关性，进而提高模型的拟合能力。因此，为了提高拟合能力，我们首先尝试了DNN模型。在结构上，DNN使用ReLU来保证低阶特征组合和高阶特征组合的全连接，但这也导致了整体数量的膨胀。因此，我们将其改进为DeepFM，它可以同时对低阶特征和高阶特征的组合进行建模，从而学习到各阶特征之间的组合关系。如上图所示，后期我们也引入了DCN。DCN可以显式学习高阶特征的交互。我们可以使用它来有效地捕获高度非线性的交叉点特征。由于仍然保持DeepFM模型，我们可以有效地控制向量的膨胀，从而减少参数空间。在上一篇文章中，我们也提到了时间相关性表达的问题。在这方面，我们使用了DIN（深度兴趣网络）来获得点击率。在用户多样化的兴趣点中，DIN关注那些会影响当前推荐的历史行为。然而，DIN无法捕获用户对音乐的兴趣类型的动态变化。例如，原来喜欢电音的用户，现在喜欢民歌。这种“演变”正是DIN无法捕捉到的。在此基础上，我们切换到深度兴趣进化网络（DIEN）模型。该模型的主要特点是：通过关注用户在系统中的兴趣演化过程，设计了兴趣抽取层和演化层。它采用新的网络结果和建模形式，更准确地表达了用户兴趣的动态变化和时间演化的过程。为了更细粒度地把握用户兴趣变化，我们还使用了DSIN模型。DSIN主要由两部分组成：一是稀疏特征，二是处理用户行为序列。该模型可以找出用户在同一会话中浏览的产品的相似性，以及不同会话中浏览的产品的差异性，进而提取用户的时间序列兴趣。④在音乐消费方面，鉴于用户需求的复杂性，很难用单一的目标来衡量一个音乐推荐系统的优劣。推荐系统虽然是典型的统计应用，但统计只能解决95%的问题，剩下的5%是个人喜好问题。我们在实际应用中经常会遇到各种各样的问题，包括：CTR（Click-Through-Rate，点击率）与消费时间的关系并不是同步增长的，有时甚至会呈现出潮起潮落的趋势。那么我们如何解决多目标问题呢？对于多目标问题，我们有很多解决方案可供选择。如上图所示，有：sampleweighting、WeightLoss、partialnetworksharing。因此，我们采用多目标联合训练，这是一个简单的实现。在上图中，我们首先在网络层保证了各种输出，并实现了浅层共享表示。因此，在训练效果上，虽然目标之间存在一定的差异，但随着我们引入差异网络进行训练，收集率和消费时间都有了明显的提升。可以看出，联合训练的优势在于：通过在多个目标任务之间共享浅层表示，我们在任务之间添加了噪声数据。这样不仅减少了网络的过拟合，还提高了泛化的效果。在多目标任务的学习中，我们通过让不同任务的局部最小值处于不同的位置并相互影响来辅助逃离局部最小值。通过多目标任务的联合训练，让模型尽可能求解多任务的共同最优解。通过类似“窃听”的方式跟踪用户的音乐收藏等操作，然后做出相应的判断。回顾音乐推荐与上述其他类型推荐的区别，我们实现了以下点对点的解决方案：区别：基于音乐本身的复杂性，我们应该如何理解音乐资源？解决方案：使用NLP、视频和图像技术来更好地理解音乐。差异：可重用与不可重复的区别。解决方案：利用音乐的消费特征，智能分析不同歌曲之间的相关性。区别：各种音乐不仅消费昂贵，而且前后有明显的相关性。此外，有效行为的意义往往更丰富。解决方案：使用复杂的AI模型来探索用户收听歌曲的顺序相关性。区别：很难用单一的目标来衡量音乐推荐系统的效果。解决方案：利用MTL技术解决用户多样化的需求。音乐场景中的AI思考那么，为什么音乐场景必然需要AI呢？显然，不再是过去靠买CD、唱片听歌的端到端时代了。我们的音乐推荐平台有数亿用户。在不同的心情下，面对超过10万名音乐人创作的上万首音乐作品，他们需要通过优美的音乐来获得好心情。我们可以毫不夸张地说：“耳机是网络时代的氧气管，音乐就是氧气。”因此，我们需要在4维空间中解决复杂的匹配问题。而这正是人工智能的用武之地。通过基于AI的推荐系统，我们可以持续提供强大的长尾发现能力和精准匹配能力，从而不断提升用户体验，同时促使用户主动分享和发现更多歌曲资源。网易云音乐平台。为了达到上述目的，我们建立了如上图所示的架构。具体包括以下几个方面：用户心智模型体系。包括：行为、认知、态度等用户研究体系。包括：调查问卷等。案例分析系统。包括：分析用户和用户群体的使用行为。评价指标体系。包括：收藏率、切歌率、使用时长等数据反馈系统。包括：喜欢、切歌、离开等正负反馈。通过这些定性和定量的用户体验评价体系，我们结合知识图谱、统计学习、强化学习构建了如下三层模型体系:排名系统。包含：排名模型、ee模型、流行趋势模型。匹配系统。包括：行为推荐模型，以及新的内容发现模型。数据系统。包含：行为数据、用户画像、内容画像。通过以上，我们不断掌握与用户相关的数据知识甚至专家知识，从而更好地提高平台的针对性和用户的接受度。【原创稿件，合作网站转载请注明原作者和出处为.com】

上一篇：联邦迁移学习的最新进展：计算和迁移如何“限制”模型性能？

下一篇：Java中基于CAS的原子类盘点

奇葩推荐系统：6亿用户音乐场景中的AI思考相关文章