本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处用于转载。工欲善其事,必先利其器。在工作中实施自己的ML项目之前,有必要了解该领域的前沿动态,吸取前人的经验。然而,现在每天都有数百篇新论文出现在arXiv上。哪些值得一看?为此,亚马逊工程师EugeneYan等人创建了论文集。在这个GitHub项目中,他们继续分享来自谷歌、亚马逊、Facebook和其他主要公司的关于数据科学和机器学习的论文和博客文章。这些论文/文章涵盖了24个不同的类别,从搜索排名到NLP、CV,可以在这里找到:数据质量数据工程数据挖掘分类回归推荐算法搜索排名嵌入自然语言处理序列建模预测计算机视觉强化学习异常检测图优化信息提取弱监督生成效率验证和A/B测试伦理和道德实践失败目前有2.3k颗星。以推荐算法为例。对于不同的行业,业务有很大的不同。即使算法的基本框架相似,但要训练出一个精准的推荐模型,在细节上还是有很多差异的。并且本榜单收录了电商、视频、音乐、课程等各行各业的推荐算法技术博客/论文。比如阿里的《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》。论文介绍了行为序列Transformer在阿里电商推荐系统中的应用。研究人员提出利用Transformer模型捕捉用户行为序列背后的时序信号,以增强个性化推荐的有效性,增加点击量。经过实验验证,他们将该模型部署到淘宝线上,证明该方法与基线相比可以显着提高在线点击率。论文链接:https://arxiv.org/abs/1905.06874在视频个性化推荐方面,YouTube、Netflix、TikTok的技术方案都包含在内。比如YouTube上的《Deep Neural Networks for YouTube Recommendations》,被引用了1039次。该论文强调了深度学习为YouTube推荐系统带来的巨大性能提升。首先,研究人员详细介绍了深度候选人旅程模型和深度排名模型。随后,研究人员还在论文中分享了一个拥有大量用户的大型推荐系统从设计、迭代到维护过程中获得的实践经验和启示。论文地址:https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45530.pdf另外,比较有意思的是这篇论文/文章列表还包含了一些失败的经验.比如GooglePhotos在给照片打标签的时候,就曾经严重翻车:把黑人标记为“大猩猩”。最近火爆的GPT-3并没有解决上一代GPT-2的“偏见”问题。在生成的文本中,穆斯林总是与暴力和死亡联系在一起。关于作者该项目的主要维护者是亚马逊应用科学家EugeneYan。毕业于新加坡管理大学,获得心理学和人力资源管理学士学位,佐治亚理工学院计算机科学硕士学位。现在的主要工作是利用消费者数据构建机器学习系统,提升用户体验。传送门项目地址:https://github.com/eugeneyan/applied-ml
