作为任何人都可以编辑的在线百科全书,维基百科需要大量的志愿编辑者花费大量的时间和精力来保留每个词条最新。虽然有很多志愿编辑,但要确保每天及时更新数千页,仍然是一项非常具有挑战性的工作。 不久前,麻省理工学院的研究人员推出了一种新的人工智能系统,该系统可用于自动更新在线百科全书的任何错误,以帮助人类编辑。 麻省理工学院计算机科学与人工智能实验博士生DarshShah说,“维基百科的文章需要不断更新,所以每篇文章需要数百人修改,而AI可以做修改自动,大大提高了生活质量。” 研究人员提出了一个文本系统,可以在相关维基百科句子中查明和替换特定信息,同时使用类似于人类书写和编辑方式的语言。 当人们在界面中输入带有更新信息的非结构化句子时,AI在维基百科中搜索正确的页面和过时的信息,然后以类似人类的语言风格呈现内容。 之前有许多其他机器人可以自动编辑维基百科,但Shah说,“这些工具更规则-based,将一些狭义定义的信息放入预定义的模板中,但编辑任务更重要的是对两个句子的矛盾部分进行推理,然后生成一个连贯的文本句子。研究人员的模型解决了这个问题。通过输入一段非结构化信息,模型会以类似人类的方式自动修改句子。》AI识别矛盾信息 识别两个独立句子之间的矛盾信息并将它们融合在一起,这对人类来说是一项容易的任务,但对机器学习来说却是一个挑战。新任务。 例如原句:“FundAconsiders28outof42minorityinterestsinactiveoperatingcompaniestobeparticularlySignificant”。 系统会根据这两句话,先找到关于“FundA”的相关维基百科文本,然后自动去掉过时的数字28和42并替换它们新号码23和43。更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统 通常,该系统在包含成对句子的流行数据集上进行训练,其中一个是语句,另一个是相关的维基百科句子。每对以三种方式标记:同意,表示句子匹配;不同意,表示有矛盾的信息;和中性,表示没有足够的信息可用于这两个标签。 系统的目标是修改所有过时的句子以满足相应的要求,同时也使所有不一致的句子对达到“一致”。因此,这需要使用单独的模型来产生所需的输出。 这个模型是一个事实检查分类器,它预先将每个句子对标记为“同意”、“不同意”或“中立”,重点关注“不同意”的句子对。与分类器一起运行的是一个自定义的“中性掩蔽器”模块,它可以识别过时句子中的哪些词与声明中的句子相矛盾。它在过时的句子上创建了一个二进制“掩码”,0放在最有可能需要删除的词上,1放在保留词上。 masking后,在废句处使用两个encoder-decoder框架对待删词(被0覆盖的词)进行融合填充不同的信息。 该模型在更新事实信息方面比其他几种传统文本生成方法更准确,其输出更类似于人类书写。在一项测试中,研究人员根据其输出句子包含事实更新和匹配人类语法的程度,以1到5的比例对模型进行评分。该模型的事实更新平均得分为4,语法匹配得分为3.85,高于所有其他传统方法。 研究人员希望在未来,人工智能能够将整个过程自动化,这意味着它可以在网络上搜索相关主题的最新消息并替换文本,自动更新维基百科上的过时信息。扩充数据集以消除偏见 该研究还表明,该系统可用于扩充数据集以在训练“假新闻”检测器时消除偏见。 “假新闻”是一种包含虚假信息的宣传形式,旨在吸引注意力、误导读者或塑造公众舆论。这些部分检测器在同意-不同意对的数据集上进行训练,匹配给定的证据以验证真假新闻。在这些句子对中,声明将某些信息与维基百科上的支持“证据”进行比较,训练模型通过反驳证据并将句子标记为“假”来帮助识别假新闻。 但数据集通常有意想不到的偏差。“在训练过程中,该模型将某些语言标记为假的,遵循人类书面语言的要求,而不会过多依赖相应的证据句子,”Shah说。这降低了模型在评估真实示例时的准确性,因为它没有执行事实检查。” 因此,研究人员使用相同的去除和融合技术来平衡数据集中不同意的对并帮助减轻偏见,并且在一些“不同意”的对中,他们使用修改后的句子中的错误信息来重新生成假的“证据”支持句子,一些短句也同时存在于“同意”和“不同意”的句子中,这将使模型能够分析更多的特征并得到扩展的数据集。 研究人员使用这种方法将流行的假新闻检测器的错误率降低了13%。维基百科部署人工智能编辑 早在2015年,维基百科就构建了一个人工智能引擎,旨在自动分析维基百科的变化。 既然任何人都可以编辑维基百科,任何人都可能错误地添加虚假信息而破坏网站,所以最早的维基百科建立了严格的筛选制度,阻止了很多人加入维基百科编辑的行列。 维基百科的高级研究科学家Halfaker构建了自己的AI引擎来识别这种破坏行为,以更友好的方式增加新手的参与度。同时,他也承认,“这项服务无法捕捉到所有的破坏行为,但可以捕捉到最多的破坏行为。”,新的文本系统的出现可以自动更新维基百科的信息,大大减少了志愿编辑的工作量,编辑也正朝着被淘汰的方向前进。 机器越来越智能,机器自动化代替人的工作越来越普遍。人类是否会被机器取代,也是当下的一个热门话题。虽然有人预测人工智能和机器人技术将在未来20年内取代我们多达47%的工作,但其他人则认为人工智能将创造大量新工作。 没有人可以预测未来,我们唯一能做的就是把握现在。
