尽管语言模型在一系列NLP任务中取得了显着的成功,他们的推理能力往往是不足的,这个问题不能通过简单地扩大模型尺寸来解决。基于此,Wei等人。(2022)提出了思维提示链,它促使语言模型生成一系列短句,这些短句模仿了一个人在解决推理任务时可能采用的推理过程。现在谷歌研究院的研究人员提出了一种名为“自洽”的简单策略,可以显着提高大型语言模型的推理准确性。论文地址:https://arxiv.org/pdf/2203.11171.pdf论文作者之一、GoogleBrain创始成员QuocLe今天发推表示,这种自洽方法可以解决75%的GSM8K基准测试。数学问题,大大超越了现有的方法。图源:https://twitter.com/quocleix/status/1513632492124663808简单来说,复杂的推理任务通常有多个推理路径可以得到正确答案,自洽的方法通过链从语言模型中采样一个集合思维提示不同的推理路径,并返回其中最一致的答案。该方法在一系列算术和常识推理基准上评估自一致性,无需额外训练或辅助模型即可稳健地提高各种语言模型的准确性。当与最近的大规模语言模型PaLM-540B结合时,自洽方法将几个基准推理任务的性能提升到SOTA水平。该方法是完全无监督的,直接使用预训练的语言模型,不需要额外的人工标注,也不需要任何额外的训练、辅助模型或微调。该研究评估了一系列算术推理和常识推理任务在三种大型语言模型上的自洽性,包括LaMDA-137B(Thoppilanetal.,2022)、PaLM-540B(Chowdheryetal.,2022)和GPT-3175B(布朗等人,2020年)。研究人员发现,对于这些不同尺度的语言模型,自洽的方法可以显着提高它们的推理能力。与通过贪婪解码生成单一思维链(Wei等人,2022)相比,自洽方法有助于显着提高所有推理任务的准确性,如下图2所示。在不同推理路径上始终如一的人的一个显着特征是他们的思维方式不同。很自然地假设在一项深思熟虑的任务中可能有多种解决方案,所有这些解决方案都会导致相同的正确答案。因此,研究人员提出可以通过从语言模型解码器中采样,在语言模型中模拟这个过程。如下表1所示,一个模型可以针对一个数学问题生成多个可能的答案,最终得出相同的正确答案(例如输出2、4和5)。由于语言模型不是完美的推理器,并且模型也可能生成错误的推理路径或在某个推理步骤中出错(例如在输出1和3中),因此该解决方案不太可能导致相同的答案(表126和14).也就是说,当假设的推理过程正确时,即使它们是多样的,与不正确的推理过程相比,它们在最终答案中往往具有更高的连贯性。研究人员建议通过自洽方法利用这种直觉。具体步骤如下:首先,用一组手写的思维链例子来提示语言模型;然后,从语言模型的解码器中采样一组候选输出,生成一组不同的候选推理路径;最后,生成的答案中选择最一致的答案来整合结果。在实验研究中,研究人员发现,思维链提示和的组合会产生比仅考虑单一生成路径的思维链单独产生更好的结果。实验结果研究人员进行了一系列实验,以在不同的算术和常识推理基准上将所提出的自洽方法与现有方法进行比较。发现该方法大大提高了各语言模型的推理准确率,覆盖了广泛的模型尺度。具体来说,他们评估不同推理路径上的自洽性,即自洽性(多路径)(Multipath)。结果平均超过10次运行,其中40个输出在每次运行中独立于解码器进行采样。比较的基线是单个思维链的贪心解码,称为贪心解码(Single-path),之前在大型语言模型中已经用于解码。算术推理的结果示于下表2中。对于LaMDA-137B,自洽策略在各项任务上相比贪心解码(Single-path)都取得了显着的性能提升,在AddSub、ASDiv、AQuA和GSM8K任务上获得了近10%的绝对精度提升。MultiArith和SVAMP任务分别提高了23.9%和14.4%。对于更大的PaLM540B模型,自洽策略显着提高了性能,在ASDiv、AQuA、SVAMP和GSM8K上实现了7.9%、12.5%、7.6%和17.9%的显着增益。常识推理结果如下表3所示。对于LaMDA-137B模型,自洽策略显着提高了所有任务的准确性。StrategyQA和CommonsenseQA的绝对准确率提升了2%-5%,ARCeasyset和ARCchallengeset的绝对准确率分别提升了4.0%。和4.7%。同样,更大的PaLM540B模型也取得了一致的收益,StrategyQA提高了6.3%,ARC-challenge提高了3.5%。下面的图3显示了通过从解码器中采样不同数量的推理路径,自洽解码与贪婪解码(单路径)的性能比较。可以看出,对更多数量(例如40)的推理路径进行采样始终会产生更好的性能,再次强调了在推理路径中引入多样性的重要性。本研究比较了自洽方法和基于集成的方法在少样本学习中的性能。结果如下表5所示,与自洽方法相比,基于集成的方法获得的增益要小得多。另一种提高生成质量的常用方法是采样排序,其中从解码器采样多个序列,然后根据每个序列的对数概率或基于额外训练的重新排序器进行排序。该研究使用GPT-3模型得到如下图4所示的结果。虽然样本排序方法通过额外的采样序列和排序提高了准确性,但与自洽方法相比,收益要小得多。有关更多详细信息,请参阅原始论文。