当前位置: 首页 > 科技赋能

DeepMind开发了一个衡量AI推理能力的测试

时间:2024-05-22 14:06:55 科技赋能

强人工智能人工智能已经非常擅长完成特定任务,但距离强人工智能还很远(编者注:强人工智能Artificial General Intelligence是指能够与人类竞争,有意识、感知和智能的人工智能,目前只存在于理论上)还有很长的路要走。

这是人工智能导航世界的一种方式。

,就像人类甚至动物一样。

强人工智能的一个关键要素是抽象推理——超越“此时此地”的思考能力,看到更微妙的模式和关系,并进行复杂的思考。

周三,DeepMind 的研究人员发表了一篇论文,详细介绍了他们测量各种人工智能以及我们自己的抽象推理能力的尝试。

DeepMind 是谷歌旗下专注于人工智能的子公司。

人类智商 对于人类,我们使用相当直观的视觉智商测试来测量抽象推理。

一种名为 Raven 的渐进矩阵的流行测试,有几行图像,最后一行缺少最终图像。

测试人员可以根据已完成的行的模式来选择下一个应该显示的图像。

测试不会直接告诉考生要在图像中寻找什么——也许这个过程与每幅图像中物体的数量、颜色或位置有关。

他们需要利用自己的抽象推理能力自己解决这个问题。

为了将此测试应用于人工智能,DeepMind 的研究人员创建了一个可以生成独特矩阵问题的程序。

然后他们训练了各种人工智能系统来解决这些矩阵问题。

最后,他们测试了系统。

在某些情况下,他们使用与训练集具有相同抽象因素的测试问题,例如训练和测试人工智能的问题,要求它考虑每个图像中的形状数量。

在其他情况下,他们使用包含与训练集不同的抽象因素的测试问题。

例如,他们可能会训练人工智能解决一个考虑每个图像中形状数量的问题,然后测试它以计算考虑形状的那些位置的正确答案。

测试结果不太理想。

当训练和测试问题集中于相同的抽象因素时,系统运行良好,正确回答问题的概率为 75%。

然而,如果测试集与训练集不同,即使差异很小(例如,在具有深色物体的矩阵上进行训练,在具有浅色物体的矩阵上进行测试),AI也会表现得很差。

最终,该团队的人工智能测试表明,即使是当今最先进的人工智能也无法解决我们没有接受过培训的问题。

这意味着我们距离强大的人工智能还有很长的路要走。

但至少我们现在有一种直接的方法来监控我们的进展。