【.com原稿】推荐系统是互联网行业随处可见的一种产品形态。从今日头条到抖音,都有推荐系统的影子。可以说,推荐系统已经完全融入了我们的生活。然而,推荐系统本身存在一些难以解决的问题,例如推荐系统中的马太效应和稀疏性问题。所谓推荐系统的马太效应是指推荐系统中项目的输入分布通常呈现马太效应的形式,影响推荐系统的计算性能和推荐效果。业界在推荐系统的马太效应方面经验丰富,但学术会议和期刊很少。仅有的几篇公开资料是2017年后RecSys、ICCCBDA、SIGIR等会议的论文。本文向大家介绍一篇论文MatRec:MatrixFactorizationforHighlySkewedDataset发表于2020年国际学术会议ICBDT2020。本文为第一篇国际上一批矩阵分解算法提出了马太效应问题的解决方案。2020年最佳论文报告奖。因为马太效应和算法的公平性有着千丝万缕的联系,MatRec也是世界上第一个基于公平性的推荐系统算法。在解决推荐系统的马太效应时,我们面临的第一个问题就是如何对推荐系统的马太效应进行建模。对马太效应建模最经典最简单的概率统计分布是Zipf分布,即第i项出现的概率为1/i。所以热度极高的物品出现几率特别高,而热度极低的物品出现几率特别低。从经典的马太效应模型我们知道,影响推荐系统马太效应的主要变量是用户的热度排名userrank和物品的热度排名itemrank,因此我们将矩阵分解模型修正如下:而矩阵分解整体的求解框架不变,就是下面的形式:MatRec的基本思想是在矩阵分解的用户特征向量和物品特征向量中加入用户热度排名和物品排名变量,然后使用随机梯度下降来解决这个问题。MatRec算法思路简单,实现起来也不难,性能可以与主流经典算法相提并论。在与ALS、BPR-MF、DeepMatrixFactorization等算法的对比过程中,整体表现突出。在LastFM数据集上进行测试时,ALS的最佳MAE为0.05,MatRec为0.1771,BPR-MF为0.2+;在MovieLens数据集上测试时,ALS的MAE>0.94,MatRec的最佳MAE为0.8618,而DeepMatrixFactorization的MAE为0.82-0.83,但DeepMatrixFactorization的速度比MatRec慢了几个数量级.推荐系统的马太效应和公平性近年来受到越来越多的关注。中国政府今年还成立了人工智能伦理委员会,这表明世界上越来越多的人意识到人工智能算法带来的各种社会问题。随着越来越多的人加入人工智能伦理研究的行列,人工智能带来的各种社会问题必将化为泡影。科技与人文是一种相互成长、相互促进的关系。人工智能会给社会法制和理念带来怎样的变革,让我们拭目以待。本文介绍的MatRec算法链接:https://arxiv.org/pdf/2011.04395.pdf作者介绍王浩,技术总监/架构师,美国犹他大学本科/硕士,上-对外经济贸易大学就业MBA。在百度、新浪、网易、豆瓣等公司拥有多年研发和技术管理经验。擅长机器学习、大数据、推荐系统、社交网络分析等技术。在TVCG、ASONAM等国际会议和期刊发表论文11篇。国际学术会议IEEESMI2008和ICBDT2020最佳论文奖。【原创稿件,合作网站转载请注明原作者和出处.com】
