如果你说你的高数考不上AI,会不会更难接受?没错,OpenAI的Codex在麻省理工七门高等数学课程中的正确率达到了81.1%,妥妥的麻省理工本科水平。课程范围从初等微积分到微分方程、概率论和线性代数。除了计算,甚至还有绘图题。这件事最近上了微博热搜。△“只”拿了81分,对AI的期望太高了现在,谷歌传来最新的大新闻:不仅是数学,我们的AI竟然拿下了整个理工科的最高分!科技巨头们在培养“AIasaquestioner”这件事上,似乎又上了一个新台阶。谷歌,最新的人工智能测试员,参加了四门考试。在数学竞赛测试MATH中,过去只有三届IMO金牌得主能拿到90分,普通计算机博士只能拿到40分左右。至于其他AI测试人员,之前的最好成绩只有6.9分……而这次,谷歌的新AI拿到了50分,比电脑博士还要高。综合考试MMLU-STEM包括数学、物理、化学、电气工程和计算机科学。题目难度达到高中甚至大学水平。这一次,谷歌AI“满血版”也拿到了测试者中的最高分,直接提升了20分左右的分数。小学数学题GSM8k直接把分数拉到了78分,相比之下GPT-3还没有及格(只有55分)。即使是固态化学、天文学、微分方程和狭义相对论等麻省理工学院的本科和研究生课程,谷歌的新AI也能回答200多个问题中的近三分之一。最重要的是,与OpenAI用“编程技能”获得数学高分的方式不同,GoogleAI这次走的是“像人一样思考”的道路——只背书,不像文科生一样做题.而是掌握了更好的科学和工程解决问题的能力。值得一提的是,论文第一作者Lewkowycz还分享了一个论文中没有提到的亮点:我们的模型参加了今年的波兰数学高考,成绩高于全国平均水平。看到这里,一些家长再也坐不住了。如果我把这些告诉我女儿,我怕她会用AI来做作业。但如果你不告诉她,你还没有为她的未来做好准备!在业内人士看来,仅依靠语言模型,而不是硬编码算术、逻辑和代数,达到这种水平,是这项研究最惊人的部分。那么,这是怎么做到的呢?AI在arXiv上阅读200万篇论文的新模型Minerva,是基于Pathway架构下的通用语言模型PaLM改造而成。分别在80亿、600亿和5400亿参数PaLM模型的基础上进行进一步训练。Minerva的出题方式和Codex完全不同。Codex的方法是把每一道数学题改写成一个编程题,然后通过写代码来解决。另一方面,密涅瓦正在疯狂地阅读论文,试图以理解自然语言的方式来理解数学符号。在PaLM的基础上继续训练。新增的数据集分为三部分:主要是arXiv上收集的200万篇学术论文,60GB的LaTeX公式网页,以及PaLM训练阶段使用的一小部分文本。通常的NLP数据清洗过程会删除所有的符号,只保留纯文本,导致公式不完整。比如爱因斯坦著名的质能方程只剩下Emc2。但谷歌这次保留了所有的公式,像纯文本一样通过Transformer训练程序,让AI像理解语言一样理解符号。这也是Minerva与之前的语言模型相比在数学问题上表现更好的原因之一。但与专门研究数学问题的AI相比,Minerva的训练没有明确的底层数学结构,这带来了劣势和优势。缺点是可能会出现AI用错误的步骤得到正确答案的情况。优点是可以适应不同的科目。即使有些问题不能用形式化的数学语言表达,也可以结合自然语言理解能力来解决。在AI的推理阶段,Minerva还融入了谷歌最近研发的多项新技术。首先是ChainofThought思维链接提示,这是谷歌大脑团队在今年1月份提出的。具体来说,就是在提问的同时,给出一个逐步解答的例子来引导。人工智能在做题时可以采用类似的思维过程,正确回答原本会出错的问题。另一种是谷歌和麻省理工学院联合开发的Scrathpad草稿纸方法,可以让AI暂时存储一步步计算的中间结果。最后,还有今年3月才公布的多数表决法。让AI多次回答同一个问题,选择出现频率最高的答案。充分利用这些技术后,拥有5400亿个参数的Minerva在各种测试集上达到了SOTA。即使是80亿参数版本的Minerva,在竞赛级数学题和MIT公开课题上也能达到最新davinci-002版GPT-3的水平。说了这么多,Minerva具体可以提出哪些问题呢?对此,谷歌也开放了样本集,一起来看看吧。在数学、物理、化学、生物,甚至机器学习方面全能,密涅瓦可以像人类一样一步步计算数值,而不是直接暴力求解。对于单词问题,您可以制定自己的方程式并对其进行简化。甚至可以推导出一个证明。物理方面,Minerva可以求出电子在中性氮基态(Z=7)下的总自旋量子数,做大学水平的题。在生物和化学方面,Minerva还可以凭借其语言理解能力做各种选择题。以下哪种形式的点突变对DNA序列形成的蛋白质没有负面影响?以下哪项是放射性元素?天文学:为什么地球有强磁场?在机器学习方面,它通过解释“分布外样本检测”的确切含义,正确地给出了该术语的另一个词。……不过,密涅瓦有时也会犯一些低级错误,比如取消等式两边的√。另外,Minerva会出现推理过程错误但结果正确的“误报”情况,比如下面这种,有8%的可能性。团队经过分析发现,主要的错误形式来自于计算错误和推理错误,只有一小部分来自于对题意的误解、步骤中使用了错误的事实等其他情况。计算错误可以很容易地通过访问外部计算器或Python解释器来解决,但其他类型的错误由于神经网络太大而不易调整。总的来说,Minerva的表现让很多人惊叹不已,纷纷在评论区索要API(遗憾的是,Google暂时还没有公开的计划)。有网友认为,除了前几天GPT-3解题正确率飙升61%的“哄骗”方式外,它的准确率可能还会进一步提升?不过作者的回应是coaxing方法属于零样本学习,再强也未必比得上4个样本的few-samplelearning。也有网友提出,既然可以当做题,是不是可以反过来?事实上,MIT已经和OpenAI合作,用AI给大学生做题。他们将人类提出的问题和人工智能提出的问题混合在一起,让学生做问卷调查。大家也很难区分一个问题是不是AI出的。简而言之,目前的情况,除了那些忙着看这篇论文的从事AI的人。学生们期待有一天他们能够使用人工智能来完成作业。老师们也很期待能用AI出论文的那一天。论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdfDemo地址:https://minerva-demo.github.io/相关论文:ChainofThoughthttps://arxiv.org/abs/2201.11903Scrathpadshttps://arxiv.org/abs/2112.00114MajorityVotinghttps://arxiv.org/abs/2203.11171参考链接:https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.htmlhttps://twitter.com/bneyshabur/status/1542563148334596098https://twitter.com/alewkowycz/status/1542559176483823622
