大规模语言模型(LLM)已经通过In-contextLearning在各种复杂任务上表现出了优异的性能,不需要针对特定任务进行训练或微调,提示和解码方面的最新进展也使LLM成为解决复杂推理任务的现实。然而,LLM可能存储过时、不完整或不正确的知识,维基百科等外部知识来源对于LLM成功部署到实际应用程序至关重要。此前,曾有人尝试将知识应用于较小的语言模型(LM),例如T5、BERT和RoBERTa,但这些方法通常需要额外的训练或微调,这对于LLM来说成本高昂且完全不切实际。基于此,来自罗切斯特大学、腾讯人工智能实验室和宾夕法尼亚大学的研究人员联合提出了一种名为RethinkingwithRetrieval(RR)的后处理方法,以利用LLM中的外部知识。论文地址:https://arxiv.org/pdf/2301.00303v1.pdf本次研究的思路是首先使用chain-of-thought(CoT)提示法生成一组不同的推理路径,类似于王等人。(2022)方法。然后该研究使用这些路径中的每个推理步骤来检索相关的外部知识,从而使RR方法能够提供更合理的解释和更准确的预测。本研究使用GPT-3175B和几个常见的外部知识源(维基百科、维基数据、WordNet和Conceptnet)来评估RR方法在三种复杂推理任务上的有效性,包括常识推理、时间推理和表格推理。实验结果表明,在没有额外训练或微调的情况下,RR在这三个任务上始终优于其他方法,这表明RR方法在利用外部知识提高LLM性能方面具有很大优势。重新思考检索在实践中,尽管LLM准确地捕获了回答问题所需的内容,但这些模型有时会产生错误的结果。这种现象表明LLM在存储和检索知识的方式上存在一些问题,包括:预训练语料库中存在过时、不正确或缺失的相关知识;预训练时相关知识存储错误;相关知识在推理阶段搜索中被错误存储。RR方法的总体思路如下:给定一个输入问题Q,RR方法首先使用链式思维提示生成一组不同的推理路径R_1,R_2,...,R_N,其中每条推理路径R_i表示为解释E_i由其后的预测P_i组成,然后从适当的知识库KB中检索相关知识K_1,...,K_M以支持每条推理路径中的解释,以及选择与该知识最匹配的预测。思想链(CoT)提示。与标准提示显着不同,CoT提示由提示中的逐步推理实例演示组成,以生成一系列捕捉推理过程的短句。例如,给定输入问题:“亚里士多德使用笔记本电脑吗?”CoT提示旨在生成一条完整的推理路径:CoT提示推理是:“亚里士多德死于公元前322年。1980年发明了笔记本电脑。因此,亚里士多德没有使用笔记本电脑。所以答案是否定的。”而不是简单地输出“否”。采样不同的推理路径。类似于Wang等人。(2022),本研究对一组不同的推理路径R_1,R_2,...,R_N进行了采样,而不是仅考虑最佳尺度路径(贪婪路径)。“亚里士多德使用笔记本电脑吗?”这个问题的可能推理思路如下:(R_1)亚里士多德于2000年去世。第一台笔记本电脑是在1980年发明的。所以亚里士多德使用了笔记本电脑。所以这个问题的答案是肯定的。(R_2)亚里士多德死于公元前322年。第一台笔记本电脑是在2000年发明的。因此,亚里士多德并没有使用笔记本电脑。所以答案是否定的。知识检索。不同的知识库可以用来处理不同的任务。例如,要解决“亚里士多德是否使用笔记本电脑?”这个问题,我们可以使用维基百科作为外部知识库KB。信息检索技术可以根据分解的推理步骤从维基百科中检索相关知识K_1,...K_M。理想情况下,我们可以从维基百科中找到以下两段关于这个问题的内容:(K_1)亚里士多德(公元前384年-公元前322年)是一位希腊哲学家和博学者(K_2)第一台笔记本电脑爱普生HX-20于1980年发明...忠实的推理。我们可以使用函数f_KB(R_i)估计每个推理路径R_i的置信度,该函数建立在从知识库KB检索到的相关知识K_1,...,K_M的基础上。可以通过应用以下推理程序获得最终预测:实验评估在本节中,研究提出了RR在三个复杂推理任务上的评估:常识推理、时间推理和表格推理。实验装置。在所有实验中,除非另有说明,否则该研究使用GPT-3text-davinci-002。实验完成过程中生成的token的最大数量设置为256,zero-shot、few-shot和chain-of-thoughtprompting,温度参数(temperature)固定为0。结果。如表1所示,我们提出的方法RR在所有三个推理任务上始终优于所有基线,无需额外训练或微调。这些结果突出了RR在利用外部知识提高LLM绩效方面的有效性。本研究在StrategyQA数据集上使用CoT提示方法对GPT-3进行了分析。在仔细检查GPT-3的输出后,该研究发现RR可以为许多问题提供合理的解释和正确的预测。例如,当给出问题“佐治亚州奥尔巴尼是否会在纽约州奥尔巴尼之前达到100,000名居民?”时,GPT-3产生了以下输出:总体而言,该问题的输出答案质量很高。然而,该研究还观察到,GPT-3可能偶尔会为其解释提供错误的事实支持,或对其预测做出错误的推断,尽管它通常能够识别出合适的观点。虚假的支持事实。如表2所示,GPT-3为LilJon在Billboard排行榜上排名最高的歌曲提供了错误的事实支持,指出排名最高的歌曲是GetLow而不是正确答案Yeah。此外,GPT-3做出了富士山顶不会高于日本海的错误推理,而不是正确答案。有关更多技术细节,请参阅原始论文。
