当前位置: 首页 > 科技观察

谷歌与OpenAI学者谈AI:语言模型努力“征服”数学

时间:2023-03-19 19:30:44 科技观察

如果问计算机擅长什么,数学一定排在所有答案之列。经过长期的研究,顶尖学者在研究计算机在数学计算方面的发展取得了惊人的成果。以去年为例,来自加州大学伯克利分校、OpenAI、谷歌的研究人员在语言模型方面取得了长足的进步,开发出了GPT-3、DALL·E2等。然而,直到现在,语言模型一直无法解决简单的、口头描述的数学问题,例如“爱丽丝比鲍勃多五个球,鲍勃给查理四个球后有两个球。问爱丽丝她有多少球。”?对于语言模型来说,给出正确答案可能有点“难”。“当我们说计算机非常擅长数学时,我们的意思是它们非常擅长具体、具体的事情,”谷歌的机器学习专家盖伊·古尔-阿里说。诚然,计算机擅长算术,但在特定模式之外,计算机无能为力,无法回答简单的文字描述问题。谷歌研究员EthanDyer曾说过:做数学研究的人有一套僵化的推理系统,知道的和不懂的之间有明显的差距。解决口头问题或定量推理问题很棘手,因为与其他问题不同,两者都需要稳健性和严谨性。过程中任何一步的错误都会导致错误的答案。DALL·E在绘画方面令人印象深刻,虽然它生成的图像有时很奇怪,人的手指可能会缺失,眼睛很奇怪……这些我们可以接受,但它在数学上有错误,我们的容忍度会很高小的。来自OpenAI的机器学习专家VineetKosaraju也表达了这样的想法,“我们对语言模型所犯的数学错误(比如将10误解为1和0而不是10)的容忍度仍然比较小。”OpenAI的机器学习专家KarlCobbe说:“我们学习数学只是因为我们发现它是独立的,而且非常有趣。”随着机器学习模型在更大的数据样本上进行训练,它们变得更加稳健且不易出错。但扩展upmodels似乎只有通过定量推理才有可能。研究人员意识到语言模型所犯的错误似乎需要更有针对性的方法。去年,来自加州大学伯克利分校和OpenAI的两个研究团队发布了数据集MATH和GSM8K这两个数据集分别包含几何、代数、初等数学等数以千计的数学问题。“我们想看看这是否是数据集的问题,”人工智能安全中心从事数学研究的研究员史蒂文·巴萨特(StevenBasart)说。语言模型在单词问题上是出了名的糟糕,它们在这个问题上的表现有多糟糕,是否可以通过引入更好的格式和更大的数据集来解决?在MATH数据集上,顶级语言模型的准确率为7%,而人类研究生的准确率为40%,奥运冠军的准确率为90%。在GSM8K数据集(小学水平问题)上,模型达到了20%的准确率。使用微调和验证技术对OpenAI进行的实验表明,该模型发现了许多自身错误的例子,这一发现很有价值。当时,OpenAI的模型需要在100倍的数据上进行训练,才能在GSM8K上达到80%的准确率。但在今年6月,谷歌发布了Minerva,准确率达到了78%。研究人员表示,这一结果超出了预期,而且比预期来得更早。论文地址:https://arxiv.org/pdf/2206.14858.pdfMinerva基于谷歌自研的Pathways语言模型(PaLM),拥有更多的数学数据集,包括arXiv和LaTeX等数学格式。Minerva还采用了其他策略。在思维链提示中,密涅瓦将较大的问题分解成较小的部分。此外,Minerva还采用了多数表决(majorityvoting),不是要求模型给出一种答案,而是要求它想出100种答案。在这些答案中,密涅瓦选择了最常见的一个。这些新策略的收益是巨大的,Minerva在MATH上实现了高达50%的准确率,在GSM8K和MMLU上实现了近80%的准确率,MMLU是一组更普遍的STEM问题,包括化学和生物学。当Minerva被要求重新处理稍微调整过的问题时,它的表现同样出色,这表明它的力量不仅仅来自记忆。Minerva可以进行奇怪、混乱的推理,但仍能得出正确的答案。虽然像Minerva这样的模型可能会得出与人类相同的答案,但它们遵循的实际过程可能会大不相同。谷歌机器学习专家EthanDyer说:“我认为有这样一种观念,即数学界的人有某种严格的推理系统,知道某事和不知道某事之间存在明显的区别。’但是人们给出了不一致的答案,犯了错误,并且无法应用核心概念。在机器学习的前沿,界限是模糊的。