当前位置: 首页 > 科技观察

北京大学研究人员发现,AI“躺平”的原因是数据集的错

时间:2023-03-13 09:08:55 科技观察

在训练人工“弱智”时,AI最后往往会学到一些莫名其妙的方法来完成人类的任务。有些AI会学习如何通过“卡虫”来快速过关。也有一些AI学会了“只要比赛暂停,我就不会输”的终极哲学。AI也想“躺平”。为了提高模型的准确率,通常会设置相应的奖励,但有时模型会在前期找到一条可以获得奖励的“捷径”。每当AI尝到甜头时,它总会选择走这条“捷径”,而不去学习更难的知识或方法。北京大学的研究人员在训练语言模型时发现:AI虽然可以正确回答,但无法弄清楚为什么答案是正确的。它只知道在遇到某些类型的问题时可以使用这个答案。因此,研究人员决定给AI“扶起来”,让其“好好学习”,不能偷懒。论文地址:https://arxiv.org/pdf/2106.01024.pdf本文已发表在arxiv上。作者为北京大学王选计算机研究所、北京大学计算语言学教育部重点实验室的来宇轩、陈。Zhang、YansongFeng、QuzheHuang和DongyanZhao(赵东岩)为什么AI总是想“平躺”?虽然有研究发现AI总是爱“躺平”,但并未发现这种现象与数据集中的“捷径”问题有关。为此,该论文提出了一个全新的标记数据集,其中包括对一个问题的“捷径”和“挑战”答案。该数据集使用“解释”作为更复杂和深入答案的标准,因为语义理解对于表达所学知识是必要的。相比之下,“快捷方式”答案就像日期或其他关键字一样生成,但没有任何上下文或推理。研究人员发现,训练集中样本的“捷径版本”越高,就越阻碍模型学习“解释”以解决具有挑战性的问题。模型在回答“快捷版”问题时的表现基本稳定。文章表明,当训练集中有足够多的“挑战”问题时,模型不仅能更好地理解“挑战”问题,还能正确回答“捷径”问题。人工智能是如何学会“平躺”的?文章称,在训练的早期阶段,模型往往会寻找最简单的方法来实现梯度下降来拟合训练数据。由于“捷径”需要较少的计算资源来学习,因此适应这些技巧成为当务之急。之后,由于模型学到的“捷径”可以用来正确回答大部分训练问题,剩余的问题不会激励模型继续探索问题“挑战版”所需的复杂解决方案。有没有办法“帮助”人工智能?除了NLP架构本身的问题,也很可能是训练过程中标准优化和资源保护的结果,以及让模型在短时间内用有限的资源获得结果的压力。时间。正如文章所说,数据预处理领域可能需要考虑将数据中的“捷径”视为一个紧迫的问题,或者修改NLP架构以优先处理更具挑战性的数据。