当前位置: 首页 > 科技观察

夯实AI基础,聚焦行业实践---WOT全球人工智能技术峰会机器学习实践分论坛

时间:2023-03-14 01:08:22 科技观察

【.com原稿】6月21日,北京粤财JW主办的WOT2019全球人工智能技术峰会万豪酒店准时开始。作为2019全球技术人知名的线下交流峰会,本次大会紧紧围绕通用技术、应用领域、企业赋能三大核心篇章展开。来自全球的60多位AI一线专家齐聚一堂,与千余人分享深度学习、神经网络、视觉技术、无人驾驶、机器学习、算法模型、知识图谱等话题的技术内容..6月21日下午,在通用技术篇A会场机器学习实践分论坛,网易云音乐音乐推荐负责人肖强、VIPKID供需优化技术负责人沉亮、王永康,美团点评高级技术专家,三位机器学习专家。本领域专家应邀出席并发表精彩演讲。会后会将各位专家的发言整理成文,希望他们发言的精华对大家有所帮助。网易云音乐音乐推荐负责人肖强:AI算法在音乐推荐中的实践网易云音乐音乐推荐负责人肖强分为三部分:第一部分是网易云音乐介绍,第二部分是AI算法音乐推荐中的算法第三个是音乐场景中的AI思维。自2013年4月正式上线以来,网易云音乐凭借UGC社区、UGC歌单、三大特色产品精准推荐,成为音乐爱好者的聚集地。网易云音乐推荐系统致力于通过AI算法为用户实现个性化推荐,为用户带来不一样的听音乐体验。虽然和其他推荐一样,都是以用户体验为导向,帮助用户更快地获取资源,但是,音乐推荐有不同的特点和难点。首先,由于音乐本身的复杂性,需要系统更好地理解音乐。网易云音乐的做法是,通过社区用户自发产生的内容,利用NLP系统对音乐进行描述,让你不用听也能对音乐有一个大概的了解。新音乐利用视频和图像技术实现与音乐相关的研究工作。其次,使用可重复消费来计算CF相似度。也就是说,基于用户的可重复消费(一首歌听过多次),来表达用户的喜好和歌曲之间的关联程度,包括空间位置差异和空间方向差异。第三,音乐推荐的消费成本高,对相关性的重视程度也强,需要合适的模型来表达用户的需求。LR模型的可解释性强,但表达能力有限。树模型的优点,以及LR和树模型的结合,是可以解决一些非线性问题。大规模FTRL的优点是可以获得类似记忆的特征,具有很强的描述能力。缺点是特征维度大,需要的样本量大,计算复杂。另外还有表达能力强的深度神经网络,可以学习时间序列特征,还有描述能力+泛化能力强的深度时间序列网络。从线性模型、树模型,到大规模FTRL、深度神经网络,再到深度时序网络,网易云音乐通过模型迭代实现了对用户需求更精准的表达。肖强指出,在音乐消费中,由于用户需求的复杂性,音乐推荐系统很难用单一的目标来衡量,经常会遇到CTR&消费时长,不同步提升,甚至取舍,多——客观问题。网易云音乐使用联合训练来解决多目标问题。联合训练主要有四大优势:第一,多个目标任务在浅层共享表示,在任务之间添加噪声数据,减少网络过拟合,提高泛化能力。二是多目标任务学习中不同任务的局部极小值处于不同的位置,通过交互作用,可以帮助逃离局部极小值。三是多目标任务的联合训练,模型尽可能解决多个任务的共解。四是窃听。通过联合训练,音乐的收藏率和消费时长都得到了显着提升。在音乐场景的AI思考部分,肖强表示,音乐推荐需要解决亿级用户*千万首歌曲*10万音乐人*n个场景的四维空间中的匹配问题。推荐系统的核心目标是使用人工智能来改善用户体验。包括用户愿意分享音乐,愿意长期听音乐,愿意收藏和反复听喜欢的音乐,用户听的歌越来越多。网易云音乐的人工智能推荐系统是知识图谱、统计学习和强化学习的结合。它利用强大的长尾发现能力和精准匹配能力,让用户更好地发现音乐。VIPKID供需优化技术负责人沉亮:视频理解在在线教育行业的应用是核心数据之一。因此,针对特定领域和场景的视频内容理解技术尤为重要,可以提升在线教育企业的核心竞争力。VIPKID不仅是一家在线教育公司,更是一家视频内容公司。VIPKID平台每天产生超过400W分钟、30T的视频数据,累计视频内容达7PB。数据就是价值。沉亮接下来的演讲将主要围绕VIPKID挖掘数据价值的方法以及将这些数据商业化的尝试展开。由于以下原因,视频内容理解技术近年来非常流行。首先,视频内容理解的大趋势是从人到机器。2015年开始流行直播,2017年和2018年随着短视频的兴起,产生的数据呈指数级增长。直播可以理解为PGC(ProfessionalProducedContent),而短视频则是UGC(UserGeneratedContent)。UGC的内容产出远大于PGC。围绕内容理解、视频内容创作等领域,对视频内容理解的技术需求从审核、编辑逐渐渗透到推荐产品。此外,产品用户体验、内部运营效率等现实的KPI指标也推动了视频内容理解技术的发展。比如前几年视频推荐基本都是根据用户行为、视频标签等,但是现在,基本已经过渡到视频本身的领域,输出的是一些不可描述的特征,或者一小部分可检测的内容。深度学习的兴起是视频内容理解技术的燃料。传统机器学习算法下的计算机视觉/语音开发步骤繁琐,对领域知识的依赖性很强,特征处理复杂度也很高。需要领域专家+算法专家不断反复调试模型。随着深度学习的发展,基础算法模型的效果得到了质的提升。比如在人脸检测、人脸识别、语音识别等领域,已经超越了人类的水平。为视频内容理解提供基础技术支持。因此,可以说深度学习与产品需求的相互驱动,让视频内容理解领域慢慢渗透到产品和用户的多个方面。VIPKID每天有近300W分钟的视频数据。从拆解来看,每天需要处理400万分钟语音+3亿张图片数据。在语音领域需要做语音识别、噪声识别、语音情感识别等,在图像领域需要做人脸识别/检测,挑战非常大。通过自研+与第三方技术厂商(如阿里云、腾讯云、亚马逊云、Face++、驰声)的合作,VIPKID建立了一套完整的解决方案,包括部分人脸识别、多种特定手势识别、AI看图在机器复习、课程质量评价、精彩片段等项目中,核心的错误召回主要是师生人脸识别效果不佳。VIPKID作为人脸识别的补充,对模型进行了多次标注和优化。回忆起10%以上的人脸图像。此外,VIPKID通过多种模型对多种特定手势进行检测,从而实现手势的检测和分类。通过机器审核,效率提升100倍。美团点评高级技术专家王永康:美团外卖的商业变现实践美团外卖目前拥有超过3亿用户和超过360的商户。基于这样的背景,美团外卖也对广告变现进行了探索。目前包括信息流广告、搜索广告、展示广告等产品形态,以及CPT、GD、CPM、CPC等销售模式。这样的业务背后,是有一套比较完善的业务逻辑和技术手段支撑的。王永康详细介绍了配送模式的演变过程。针对电商场景,连续特征多,描述能力强,所以美团外卖开始使用xgboost。为了提高迭代效果,美团外卖从xgboost转向lgb,训练速度提升了2倍。现在的模型迭代一般使用lightgbm来迭代之前的模型基础版本。当然树模型有一些局限性,比如序列信息的表达,稀疏和高维离散特征的表达比较弱,所以会迁移到DNN。上图展示了外卖广告预测模型的演变过程。平台方面,主要是收益优化。外卖场景中存在大量的多模态信息,如图片、文字、菜品图片等。比如做菜品预估时,菜品图片信息在菜品排序时比较重要。美团外卖首先采用了两阶段的方法。首先,使用经过训练的CNN网络将图像表示为Embedding,并将其提供给模型。后来直接简化了一个VGG16网络,直接接模型进行end2end训练。对于文本信息,可以直接作为离线特征输入模型,也可以通过预训练词的嵌入输入模型,或者在模型结构中将文本序列连接到LSTM。对于序列特征,连接不同实体的不同行为可以产生不同的序列,比如“点击”“POI”序列,“订单”“图像”序列等。不同的序列可以捕捉到用户不同的行为和语义,视觉偏好,你可以直接把ID序列喂给模型,或者用representationlearning的方法学习ID的Embedding表达式,将Embedding序列输入到模型中,在上层做一些Pooling,Similarity,Attention等操作。在多目标学习中,外卖场景涉及到曝光、点击、下单、下单金额,所以相应的模型会预估ctr、cvr、price。传统估算CVR时,训练样本使用的是点击+转化数据,看不到曝光数据。预估Price时,训练样本使用的是转化+转化金额的数据,所以看不到曝光数据。并且点击数据,但是预测的时候一起预测,造成训练和预测样本分布不一致的问题。美团外卖的方法是通过共享embedding层或者localnetwork层来解决。在商家端,优化商家的投入产出比。美团外卖利用机器学习解决业务问题可以分为两部分。一是如何将业务问题转化为机器学习问题,二是如何用机器学习优化业务问题。上图展示了如何根据业务设计合理的State、Reward、Action。中间环节相当于一个黑盒子,需要用一个模型来对状态到奖励的整个过程进行建模。关键问题是如何通过状态中特征的设计来描述中间环节。在用户端,主要是体验优化。美团外卖从Utility的角度理解用户体验,将用户体验分为三个阶段:短期体验、中期体验、长期体验。***王永康总结道,美团外卖在平台侧通过模型预估和机制设计优化收益,在商家侧通过手动策略到强化学习的OCPC迭代优化转化,在用户侧通过用户体验建模优化优化体验。优化,最终实现了美团外卖的商业变现。以上内容是记者根据WOT2019全球人工智能技术峰会《机器学习实践》分论坛发言内容整理而成。更多完整WOT内容请关注51cto.com。【原创稿件,合作网站转载请注明原作者和出处为.com】