AI高分通过美国8年级科学考试：常识题和推理题都能做如果不服与

时间：2023-03-20 15:19:14 科技观察

同台对战，只要以60分通过8年级理科考试，即可获得8万美元（折合人民币57万元）的奖金。但是，参加考试的“学生”必须是人工智能。四年多来，700多名计算机科学家参加了这场人工智能竞赛，但他们的人工智能接连失败，没有一个能及格。但是现在，一个新的历史记录来了。艾伦研究所的一个名叫Aristo的AI已经做到了这一点。不仅8年级理科90%以上的题都答对了，高三的题更是80%都答对了！对于AI，有点像鹅妹。语言理解+逻辑，难倒AI虽然AI围棋可以拿世界冠军，扑克也可以唬人，IBM的Watson已经小考完了《危险边缘(Jeopardy!)》，但想通过美国八年级的科学考试，还是一大挑战人工智能。即使排除图片题和图表题，科学测试中的问题和答案仍然不是简单的自然语言理解题，还涉及逻辑推理甚至常识——答案显然不存在于课文中的某处。例如，在考试中，有仅涉及信息检索的简单问题：一组协同工作以执行特定功能的组织称为：（1）器官（2）有机体（3）系统（4）细胞但是这是问题是什么：什么样的变化会导致该地区的松鼠减少？(1)食肉动物更少(2)松鼠之间的竞争更少(3)食物更多(4)森林火灾更多这不是AI仅靠学习规则就能回答的问题。其中涉及的逻辑推理对于人类来说可能是小菜一碟，但对于AI来说，就没那么简单了。甚至还有多项选择题。2016年，当AlphaGo震惊世界时，最强的AI系统在纽约州八年级科学考试中只能达到59.3%的准确率，不幸落选。基于Bert的AristoAristo是如何实现突破的？事实上，它站在了巨人的肩膀上。基于AllenInstitute的deepcontextualizedwordrepresentationELMo（NAACL2018bestpaper）和大名鼎鼎的BERT开发（现已被RoBERTa取代），Aristo集成了8类agents，其中agents负责数据库查找答案，someexaminelists相关概念的（元组），其他人专门执行逻辑推理。每个代理对答案进行评分，Aristo对不同的分数进行加权以做出最终的选择决定。在实验测试中，研究人员让Aristo参加了2017年至2019年各年级的纽约州考试。结果显示，Aristo在4年级和8年级考试中的正确率都在90%左右，符合符合纽约州教育部的要求。被评为“优秀标准”（85%）。12年级考试正确率为83.54%，与优秀仅差一点点。在此之前，这些测试数据并不在Aristo的训练集中。而且，现在Aristo的答题范围已经不仅仅局限于文字题了，计算机视觉相关的图形题也在胜出。在接受媒体采访时，Aristo项目的高级经理PeterClark表示：Aristo的目标不仅仅是通过科学考试，而是创造一个对科学有更深刻理解的系统。尽管在现实中，Aristo仍然不是“真正”的智能，但正如做过类似研究的微软研究员JingjingLiu所说，我们无法将Aristo的能力与人类学生的推理能力相提并论。但无疑，它创造了一个很好的应用方向。比如更强大的搜索，比如个性化教育。对了，Aristo现在有在线试玩，可以在线调情。PortalDemo：http://aristo-demo.allenai.org/数据集：http://data.allenai.org/ai2-science-questions/相关论文：https://allenai.org/papers/papers-aristo-2019.html

上一篇：我们为什么要拥抱数字健康？

下一篇：科技圈大佬在两场会议上都说了什么？

AI高分通过美国8年级科学考试：常识题和推理题都能做如果不服与相关文章