当前位置: 首页 > 科技观察

连奥赛冠军都做错题了,却被用来测试ML模型?GPT-3:我不行

时间:2023-03-22 00:14:59 科技观察

为了衡量机器学习模型的数学求解能力,加州大学伯克利分校和芝加哥大学的研究人员提出了一个包含12500道数学竞赛题的新数据集MATH,并帮助模型学习预训练数据集AMPS的数学基础知识。研究发现,即使是大参数的Transformer模型,准确率也很低。许多学术研究探索数学问题的解决,但这超出了计算机的能力。那么机器学习模型是否具备解决数学问题的能力呢?加州大学伯克利分校和芝加哥大学的研究人员为此创建了一个名为MATH的新数据集。该数据集包含12,500个数学竞赛谜题,每个谜题都有完整的分步解法,可用于教授机器学习模型生成答案和解释。为了促进未来的研究并提高模型在MATH数据集上的准确性,研究人员还创建了另一个大型辅助预训练数据集,用于向模型教授数学基础知识。尽管这些方法提高了模型在MATH数据集上的准确率,但实验结果表明准确率仍然较低,即使对于Transformer模型也是如此。研究人员还发现,仅靠增加预算和模型参数数量并不能实现强大的数学推理能力。扩展Transformer可以自动解决大部分文本任务,但仍然无法解决MATH问题。该研究的第一作者DanHendrycks在推特上表示,国际数学奥林匹克竞赛(I??MO)的三位金牌获得者可以达到90%的准确率,而GPT-3只能达到5%左右的准确率。如果这种趋势继续下去,机器学习模型离获得数学推理的能力还差得很远。Datasets本节介绍两个新的数据集,一个是用于测试模型解决数学问题能力的MATH数据集,另一个是用于辅助预训练的AMPS数据集。MATHDatasetMATH数据集包含12500道数学题(其中7500道属于训练集,5000道属于测试集),是从AMC10、AMC12、AIME等数学竞赛年收集的,旨在评估美国最优秀青年数学人才解决数学问题的能力)。与以往的大多数研究不同,MATH数据集中的大部分问题无法通过直接应用标准的K-12数学工具来解决,人类解决此类问题通常需要使用问题解决技术和“启发式”。基于这些数学问题,模型可以学习到各种有用的问题解决启发式方法,并且每个问题都有逐步的解决过程和最终答案。下面的图1显示了一个具有逐步解决过程的问题的示例:该数据集的创建涉及以下重要步骤:问题分类:该数据集中的问题难度各不相同,涵盖多个主题,包括算术、代数、数论、计数和概率、几何、中级代数、预微积分。研究人员按照1-5的等级对问题的难度进行了评分,对人类来说从易到难。格式化:使用LATEX和Asymptote图形语言对数学问题及其解进行统一格式化。自动评估生成的答案:MATH数据集的独特设计允许研究人员自动评估模型生成的答案,即使模型输出空间非常大。人类表现:为了评估人类表现,研究人员从MATH测试集中随机抽取20个问题,由大学生回答。一位不喜欢数学的参赛者答对了8道题(准确率40%),两位喜欢数学的参赛者分别答对了14道题和15道题,一位在AMC10数学竞赛中获得满分,在USAMO竞赛中有多位参赛者正确回答了18个问题,IMO三金得主也是如此(准确率90%)。这说明MATH数据集中的数学问题对人类来说也是有难度的。AMPS数据集(KhanAcademy+Mathematica)预训练数据可以极大地影响性能,而数学是在线文本的一小部分,因此本研究创建了一个庞大而多样的数学预训练语料库。预训练数据集AuxiliaryMathematicsProblemsandSolutions(AMPS)包括许多LATEX格式的分步解决方案问题。AMPS数据集包含从可汗学院收集的100,000个数学问题,以及通过手动设计Mathematica脚本生成的约500万个问题。该研究使用Mathematica的计算机代数系统来生成处理分数、超越数和解析函数的数学问题。这些问题涵盖各种主题,包括代数、微积分、计数和统计、几何、线性代数和数论(见下表1)。实验模型性能研究人员通过实验研究了模型在MATH数据集上的性能,发现即使是最好的模型也具有较低的准确性。此外,与大多数基于文本的数据集不同,该数据集的准确性随着模型大小的增加而增长得更慢。如果这种趋势继续下去,我们不仅需要模型扩展,还需要算法改进,以便在MATH数据集上取得重大进展。下表2显示最小模型GPT-2(1亿参数量,基线模型)在MATH数据集中多个主题的平均准确率为5.4%,而GPT-2(15亿参数量,参数量为baseline模型的15倍),平均准确率为6.9%,比baseline提高了28%。这表明,与大多数其他基于文本的任务不同,增加MATH数据集上的模型参数确实有帮助,但模型的绝对准确率仍然很低,增长速度也很慢。此外,研究人员还测试了使用AMPS预训练的效果。在没有AMPS预训练的情况下,GPT-2(1.5B)模型在MATH数据集上的准确率为5.5%;经过AMPS预训练,GPT-2(1.5B)在MATH数据集上的准确率为6.9%(见表2),准确率提升了25%。也就是说,AMPS预训练对准确率的提升效果相当于参数数量增加15倍的效果,可见AMPS预训练数据集的价值。Step-by-step研究人员对逐步解决方案进行了试验,发现模型在得到答案之前生成逐步解决方案会导致准确性下降。研究人员使用GPT-2(1.5B)进行评估,发现模型性能下降,从6.9%下降到5.3%。研究人员还对这些生成的逐步解决方案进行了定性评估,发现虽然许多步骤看起来与问题相关,但存在逻辑问题。有关示例,请参见下面的图3和图4:图3:问题,由GPT-2(1.5B)模型生成的分步解决方案,ground-truth解决方案。图4:问题示例、生成的解决方案和真实解决方案。不过,研究人员发现逐步求解仍然可以带来一些好处:提供部分真值的逐步求解过程可以提高性能,在训练过程中向模型提供逐步求解过程可以提高准确率。下面的图6显示了GPT-2(0.7B)模型使用求解过程的不同部分的精度变化。