同台对战,只要以60分通过8年级理科考试,即可获得8万美元(折合人民币57万元)的奖金。但是,参加考试的“学生”必须是人工智能。四年多来,700多名计算机科学家参加了这场人工智能竞赛,但他们的人工智能接连失败,没有一个能及格。但是现在,一个新的历史记录来了。艾伦研究所的一个名叫Aristo的AI已经做到了这一点。不仅8年级理科90%以上的题都答对了,高三的题更是80%都答对了!对于AI,有点像鹅妹。语言理解+逻辑,难倒AI虽然AI围棋可以拿世界冠军,扑克也可以唬人,IBM的Watson已经小考完了《危险边缘(Jeopardy!)》,但想通过美国八年级的科学考试,还是一大挑战人工智能。即使排除图片题和图表题,科学测试中的问题和答案仍然不是简单的自然语言理解题,还涉及逻辑推理甚至常识——答案显然不存在于课文中的某处。例如,在考试中,有仅涉及信息检索的简单问题:一组协同工作以执行特定功能的组织称为:(1)器官(2)有机体(3)系统(4)细胞但是这是问题是什么:什么样的变化会导致该地区的松鼠减少?(1)食肉动物更少(2)松鼠之间的竞争更少(3)食物更多(4)森林火灾更多这不是AI仅靠学习规则就能回答的问题。其中涉及的逻辑推理对于人类来说可能是小菜一碟,但对于AI来说,就没那么简单了。甚至还有多项选择题。2016年,当AlphaGo震惊世界时,最强的AI系统在纽约州八年级科学考试中只能达到59.3%的准确率,不幸落选。基于Bert的AristoAristo是如何实现突破的?事实上,它站在了巨人的肩膀上。基于AllenInstitute的deepcontextualizedwordrepresentationELMo(NAACL2018bestpaper)和大名鼎鼎的BERT开发(现已被RoBERTa取代),Aristo集成了8类agents,其中agents负责数据库查找答案,someexaminelists相关概念的(元组),其他人专门执行逻辑推理。每个代理对答案进行评分,Aristo对不同的分数进行加权以做出最终的选择决定。在实验测试中,研究人员让Aristo参加了2017年至2019年各年级的纽约州考试。结果显示,Aristo在4年级和8年级考试中的正确率都在90%左右,符合符合纽约州教育部的要求。被评为“优秀标准”(85%)。12年级考试正确率为83.54%,与优秀仅差一点点。在此之前,这些测试数据并不在Aristo的训练集中。而且,现在Aristo的答题范围已经不仅仅局限于文字题了,计算机视觉相关的图形题也在胜出。在接受媒体采访时,Aristo项目的高级经理PeterClark表示:Aristo的目标不仅仅是通过科学考试,而是创造一个对科学有更深刻理解的系统。尽管在现实中,Aristo仍然不是“真正”的智能,但正如做过类似研究的微软研究员JingjingLiu所说,我们无法将Aristo的能力与人类学生的推理能力相提并论。但无疑,它创造了一个很好的应用方向。比如更强大的搜索,比如个性化教育。对了,Aristo现在有在线试玩,可以在线调情。PortalDemo:http://aristo-demo.allenai.org/数据集:http://data.allenai.org/ai2-science-questions/相关论文:https://allenai.org/papers/papers-aristo-2019.html
