本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请见谅转载请联系出处。AI学数学确实火了。不管这两个领域的大佬们有没有平台,每次相关进展的发布,都会引来不少关注,比如AI求解偏微分方程。△既然每年相关论文的预估数量是这样,那AI是怎么学数学的呢?现在有一个团队专门梳理了十年的发展历程,回顾了数学推理与深度学习交叉领域的关键任务、数据集和方法,评估了现有的基准和方法,并讨论了该领域未来的研究方向。值得一提的是,他们还贴心地整理了相关资源,并在Github上放了一份阅读清单供大家消费。接下来,小编就带大家看完这篇文章。一文看懂AI数学发展现状在这份调查报告中,作者回顾了深度学习在数学推理方面的进展,主要包括几个方面。任务和数据集;神经网络和预训练语言模型;大型语言模型的上下文学习;现有基准和未来方向。首先,作者梳理了目前可用于深度学习数学推理的各种任务和数据集。一般任务主要分为这几类。数学应用问题MWP几十年来,开发自动求解数学应用问题的算法一直是NLP研究的方向。涉及人、实体和数量的简短陈述,可以通过一组方程式建模,方程式的解揭示了问题的最终答案。MWPs对NLP系统的挑战在于对语言理解、语义解析以及各种数学推理能力的需求。大多数MWP数据集都提供带注释的方程式来求解。为了提高求解器的性能和可解释性,MathQA使用精确的操作程序进行标注;MathQA-Python提供具体的Python程序;并且数据集使用多步自然语言来标注问题,更适合人类阅读。Lila使用Python程序的原理对上述许多MWP数据集进行了注释。TheoremprovingTPorproblem就是通过一系列逻辑论证来证明一个数学命题的真实性。最近,越来越多的人关注在交互式定理证明器(InteractiveTheoremProvers,ITP)中使用语言模型进行定理证明。为了证明ITP中的一个定理,它首先用编程语言陈述,然后通过生成“证明步骤”来简化,直到它简化为已知事实。结果是构成验证证明的一系列步骤。其数据源包括与ITP对接的交互式学习环境,以及通过ITP图书馆认证获得的数据集,如CoqGym、Isabelle、Lean、Lean-Gym、miniF2F等。几何问题解决GPS与数学文字问题不同,几何问题解决(GPS)由自然语言和几何图形组成。多模态输入包括几何元素的实体、属性和关系,目标是找到未知变量的数学解。基于这些特性,使用深度学习解决GPS问题是相当具有挑战性的,因为它涉及解析多模态信息、符号抽象、使用定理知识和进行定量推理的能力。早期的数据集相对较小或不公开,限制了深度学习方法的发展。针对这一局限性,出现了Geometry3K(由3002个几何问题组成,以及多模态输入的统一逻辑形式标注),以及新发布的GeoQA、GeoQA+、UniGeo的介绍。MathQA数值推理是人类智能的核心能力,在许多NLP任务中发挥着重要作用。除了定理证明和数学应用题,还有一系列围绕数学推理的QAbenchmark。近期大量相关数据集诞生,如QuaRel、McTaco、Fermi等,但最新研究表明,最先进的数学推理系统可能存在推理脆性,即模型依赖于虚假信号达到看似令人满意的性能。为了解决这个问题,各个方面都诞生了新的基准,例如MATH,它由具有挑战性的竞赛数学组成,以衡量模型在复杂情况下的问题解决能力。此外,还有一些其他的数学任务。作者还特地汇总了表格,整理了各个任务的相关数据集。三大深度神经网络模型接下来,团队整理了主要应用于数学推理任务的几大深度神经网络模型。Seq2Seq网络已成功应用于上述四项关键任务。它使用编码器-解码器架构将数学推理形式化为序列生成任务。基本思想是将输入序列(如数学问题)映射到输出序列(如方程、程序和证明)。常见的编码器和解码器包括LSTM、GRU等。基于图的数学网络。一些特定的数学表达式(如AST、graph)所包含的结构信息无法通过Seq2Seq方法显式建模。为了解决这个问题,基于图的神经网络被用来对表达式中的结构进行建模。比如Sequence-to-tree模型,ASTactic等模型。基于注意力的数学网络,注意力机制已成功应用于NLP、CV等问题,在解码过程中考虑输入的隐变量。最近,研究人员发现它可以用来识别数学概念之间的重要关系,并被应用于数学应用题(MATH-EN)、几何问题和定理证明。此外,还有CNN、多模态网络等。在该领域中,视觉输入使用ResNet或Faster-RCNN进行编码,而文本表示则通过GRU或LTSM获得。随后,使用BAN、FiLM和DAFA等多模态融合模型学习联合表示。在具体任务中,利用擅长空间推理的GNN来分析几何问题;WaveNet应用于定理证明,因为它可以求解纵向时间序列数据;Transformer生成数学方程式等,其中,进展频繁、效果惊人的大型语言模型在数学推理方面表现如何?事实上,有一些挑战。首先,由于模型训练不是专门针对数学数据进行训练,因此在数学任务上的熟练程度低于自然语言任务。而且,与其他任务数据相比,数学数据相对较少;其次,预训练模型规模的增长使得从头开始训练下游特定任务变得非常昂贵;最后,从目标的角度来看,模型可能很难学习数学表示或高级推理技能。作者分析了自我监督学习和特定任务微调的性能。在对现有数据集和基准的分析中,研究团队发现了几个缺陷,包括对低资源环境的关注有限、数值表示不充分以及推理能力不一致。最后,该团队在泛化和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面探索了未来的研究方向。还编制了一份AI数学阅读清单,一份关于AI数学的调查报告,由加州大学洛杉矶分校、圣母大学、华盛顿大学等机构的研究人员共同完成。第一作者是加州大学洛杉矶分校的潘璐,目前正在攻读第四个博士学位。师从常凯伟、朱松纯等教授,曾获清华大学硕士学位。共同作者是同样来自加州大学洛杉矶分校的邱亮。今年毕业,是亚马逊AlexaAI的应用科学家。他们还在GitHub上整理了一份数学推理和人工智能研究主题的阅读清单。感兴趣的朋友,可以点击下方链接了解更多~https://github.com/lupantech/dl4math论文链接:https://arxiv.org/abs/2212.10535
