本文转载自公众号《核心阅读》(ID:AI_Discovery)。在某种程度上,人工智能已经超越了我们过去最疯狂的想象;但实际上,Siri甚至无法告诉用户今天的天气如何。问题?创建高质量的数据库来训练和测量我们的模型仍然非常困难。我们应该在一天内收集20,000个标签来训练Reddit分类器,但我们却等了三个月,得到了一个充满垃圾邮件的训练集。四年前,AlphaGo打败了世界围棋专家,大型科技公司对每一个他们能接触到的机器学习创业公司都进行了人才收购,《纽约时报》宣告“机器学习将彻底改变计算机技术”。2016年,DeepMind开始构建玩《星际争霸2》的AI,到2019年底,名为“AlphaStar”的AI程序达到了大师级成就。似乎用不了几年,Alexa就会接管我们的家,而Netflix会比我们的朋友更擅长推荐电影。之后发生了什么?更快的GPU放弃了训练神经网络的开销,并允许训练越来越大的模型。新工具使基础设施工作更轻松。还开发了能够学习执行更多主观任务的新型神经网络架构。以OpenAi的GPT-3模型为例,这是一种语言生成器,能够撰写博客文章并在HackerNews网站上获得头条新闻。GPT-3撰写的一篇关于生产力的博文登上了HackerNews的头条。那么革命发生在哪里呢?那么为什么人工智能还没有接管世界呢?为什么人们能够使用GPT-3生成博客文章,但社交媒体公司却很难将煽动性内容从他们的feed中移除?为什么会有超人?星际争霸算法,电商公司还推荐我再买个烤面包机?为什么模型能够合成逼真的图片(和电影)但不能合成人脸识别?模型在改进,但数据仍然停滞不前。模型是在仍然有问题的数据集上训练的,而且很少符合创建者的真正意图。现在数据怎么了?垃圾来来去去。在某些情况下,数据是基于链接和用户协议等类别对代理进行培训。例如,社交媒体推文未经过培训,无法为用户提供最佳体验;相反,他们只是利用链接和协议,这是获取数据的最简单途径。但点赞数与数字无关,离谱的阴谋论很吸睛,但你真的想在你的推文中看到它们吗?这种不匹配会导致许多意想不到的副作用,包括点击诱饵。政治虚假信息激增,恶意和煽动性内容普遍存在。在其他时候,模型是在非母语人士或知道永远不会检测到低质量结果的工人创建的数据集上进行训练的。以下面的推文为例:一个典型的标注者会识别“婊子”、“他妈的”和“狗屎”,并将这条推文标记为有害的,不管滥用是否基于积极向上的态度。这种情况在训练集中发生了无数次。数据定义模型。如果数据被错误标记为垃圾,没有机器学习专家可以阻止模型同样无用。我们需要多少进步?数据集问题引发了一大堆问题。当面对表现不佳的模型时,工程师们花了几个月的时间来修补产品功能和新算法,却没有意识到问题出在他们的数据中。本应团结亲情和友情的算法反而产生了激烈的情绪和愤怒的评论。如何解决这些问题?(1)能够理解你试图解决的问题的熟练和高质量的标注者虽然人工智能系统变得越来越复杂,但我们需要先进和巧妙的人类标注系统来教授和衡量它们的性能。想想对世界有足够了解的模型,可以对误导性信息进行分类,或者可以增加时间而不是点击的算法。使用更多低技能工人不会增加这种复杂程度。为了让我们的机器理解仇恨言论并识别算法偏见,我们需要能够理解这些问题的高质量标签能力。(2)与机器学习团队和识别器沟通的空间机器学习模型是不断变化的。今天被识别为垃圾邮件的东西明天可能就不会了,我们永远无法掌握标记密码的每一个细微差别。正如构建产品是用户和工程师之间反馈驱动的过程一样,创建数据集也应该如此。在计算图片中的面孔时,卡通人物算吗?标记仇恨言论时,引号放在哪里?标记器在检查了数千个示例后发现了歧义和见解。为了最大限度地提高数据质量,我们双方需要进行沟通。(3)与人类价值观一致的目标函数模型通常在仅近似于其真实目标的数据集上进行训练,从而导致意想不到的分歧。例如,在人工智能安全辩论中,人们担心机器智能会发展到威胁世界的地步。其他人反驳说,这是遥远未来的问题——然而,看看当今技术平台面临的最大问题,这不是已经发生了吗?例如,Facebook的使命不是获得“赞”,而是将我们与朋友和家人联系起来。但通过训练他们的模型来增加点赞和互动,他们学会了传播极具吸引力但也具有伤害性和误导性的内容。如果Facebook可以将人类价值观注入其培训目标中会怎样?这不是幻想:谷歌搜索已经在其实验中使用了人工评估,我们正在构建的人工智能系统也致力于这样做。数据驱动的AI未来机器学习的核心是教计算机按照我们希望的方式行事,我们通过展示积极的例子来做到这一点。因此,为了构建高质量的模型,机器学习工程师最重要的技能不应该是构建高质量的数据集并确保它们适合手头的问题吗?归根结底,我们关心的是人工智能能否解决人类的问题需求,而不是它是否超越了人工基准。如果你正在处理内容审核,你的数据集是否检测到恶意言论,或者它是否也捕获了积极的、令人振奋的谩骂?如果您正在构建下一代搜索和推荐系统,您的数据集正在设置模型相关性和质量,或者它是否具有令人着迷的误导性和点击诱饵?创建数据集不是学校教的东西,对于花费多年时间研究算法的工程师来说,专注于arXiv中最奇特的模型是很容易的。但如果我们希望人工智能能够解决我们自己的现实世界需求,我们需要深入思考定义模型的数据集,并赋予它们一定的人性化。
