人类在回答复杂问题时,可以理解来自不同模态的信息,形成完整的思维链(ChainofThought,CoT)。深度学习模型能否打开“黑匣子”,为其推理过程提供思路链?近日,加州大学洛杉矶分校和艾伦人工智能研究所(AI2)提出了第一个带有详细注释的多模态科学问答数据集ScienceQA,以测试模型的多模态推理能力。在ScienceQA任务中,作者提出了GPT-3(CoT)模型,在GPT-3模型中引入了基于思维链的hintlearning,使得模型在生成答案的同时可以生成相应的推理解释。GPT-3(CoT)在ScienceQA上的准确率达到75.17%;人类评估表明它可以产生高质量的解释。像人类一样高效地学习和完成复杂的任务是人工智能追求的长期目标之一。人类在决策过程中可以遵循完整的思维链(CoT)推理过程,从而对给定的答案做出合理的解释。然而,现有的机器学习模型大多依赖于大量的输入输出样本训练来完成特定的任务。这些黑盒模型往往直接生成最终答案,而不会透露具体的推理过程。科学问答任务(ScienceQuestionAnswering)可以很好地诊断人工智能模型是否具备多步推理能力和可解释性。要回答科学问题,模型不仅需要理解多模态内容,还需要提取外部知识以得出正确答案。同时,一个可靠的模型还应该给出揭示其推理过程的解释。然而,大多数当前的科学问答数据集缺乏对答案的详细解释,或者仅限于文本形式。因此,作者收集了一个新的科学问答数据集ScienceQA,其中包含来自中小学科学课程的21,208道选择题。一个典型的问题包含多模态上下文、正确选项、一般背景知识(lecture)和具体解释(explanation)。ScienceQA数据集的示例。要回答上面显示的示例,我们首先必须回忆一下力的定义:“力是推力或拉力……推力的方向是……拉力的方向是……”,进而形成多步推理过程:“宝宝的手对柜门施加了一个力。→这个力使柜门打开。→这个力的方向是朝向宝宝的手。”最后得出正确答案:“这个力是拉力”。在ScienceQA任务中,模型需要在预测答案的同时输出详细的解释。在本文中,作者利用大规模语言模型生成背景知识和解释作为思维链(CoT),以模仿人类拥有的多步推理能力。实验表明,目前的多模态问答方法无法在ScienceQA任务中取得良好的性能。相比之下,GPT-3模型能够通过基于思维链的提示学习在ScienceQA数据集上实现75.17%的准确率,同时生成高质量的解释:根据人工评估,其中65.2%的解释是相关的、正确的和完整的.思维链还可以帮助UnifiedQA模型在ScienceQA数据集上实现3.99%的提升。论文链接:https://arxiv.org/abs/2209.09513代码链接:https://github.com/lupantech/ScienceQ项目主页:https://scienceqa.github.io/数据可视化:https://scienceqa。github.io/explore.htmlLeaderboard:https://scienceqa.github.io/leaderboard.html1.ScienceQADataset数据集统计ScienceQA的主要统计数据如下。ScienceQA数据集的主要信息ScienceQA包含21208个例子,其中有9122个不同的问题(question)。10332个通道(48.7%)有视觉背景信息,10220个通道(48.2%)有文本背景信息,6532个通道(30.8%)有视觉+文本背景信息。绝大部分问题都有详细的注释:83.9%的问题有背景知识注释(lecture),90.5%的问题有详细的答案(explanation)。ScienceQA数据集中的问题和背景分布。数据集的主题分布与现有数据集不同。ScienceQA涵盖自然科学、社会科学和语言学三大分支,包括26个主题(topics)、127个类别(category)和379个知识技能(skills)。ScienceQA的主题分布。数据集的词云分布如下图词云分布所示,ScienceQA中的问题具有丰富的语义多样性。模型需要了解不同的问题表述、场景和背景知识。ScienceQA的词云分布。数据集比较ScienceQA是第一个带有详细解释注释的多模态科学问答数据集。与现有数据集相比,ScienceQA在数据规模、问题类型多样性、主题多样性等多个维度上都具有优势。ScienceQA数据集与其他科学问答数据集的比较。2.模型与方法Baselines作者在ScienceQA数据集上评估了不同的benchmark方法,包括Top-DownAttention、MCAN、BAN、DFAF、ViLT、Patch-TRM和VisualBERT等VQA模型,UnifiedQA等大规模语言模型和GPT-3,以及随机机会和人类表现。对于语言模型UnifiedQA和GPT-3,背景图像被转换为??文本说明。最近关于GPT-3(CoT)的工作表明,如果给出适当的提示,GPT-3模型可以在不同的下游任务上表现出卓越的性能。为此,作者提出了GPT-3(CoT)模型,在提示中加入了思维链(CoT),使得模型在生成答案的同时,可以生成相应的背景知识和解释。具体提示模板如下图所示。其中Ii代表训练样例,It代表测试样例。训练样例包含Question、Options、Context和Answer元素,其中答案由正确答案、Lecture和Explanation组成。GPT-3(CoT)根据输入提示完成测试样例的预测答案、背景知识和解释。GPT-3(CoT)采用的提示模板。3.实验与分析不同基准和方法在ScienceQA测试集上的准确率结果如下表所示。VisualBERT是目前最好的VQA模型之一,其准确率只能达到61.87%。在训练时引入CoT数据,UnifiedQA_BASE模型可以达到74.11%的准确率。GPT-3(CoT)在2个训练示例的提示下达到75.17%的准确率,高于其他基线模型。人类在ScienceQA数据集上表现出色,总体准确率达到88.40%,并且在不同类别的问题上表现稳定。ScienceQA测试集上不同方法的结果。生成解释的评估作者使用BLEU-1、BLEU-2、ROUGE-L和句子相似度等自动评估指标评估了不同方法生成的解释。由于自动评价指标只能衡量预测结果与标注内容的相似度,作者进一步采用人工评价的方法来评价生成的解释的相关性、正确性和完整性。可以看出,GPT-3(CoT)生成的解释中有65.2%符合Gold标准。生成解释的不同评估方法的结果。不同的提示模板作者比较了不同提示模板对GPT-3(CoT)准确性的影响。可以看出,在QAM-ALE的模板下,GPT-3(CoT)可以获得最大的平均准确率和最小的方差。此外,GPT-3(CoT)在提示2个训练示例时表现最佳。不同提示模板的结果比较。模型上限为了探索GPT-3(CoT)模型的性能上限,作者在模型输入(QCMLE*-A)中添加了带注释的背景知识和解释。我们可以看到GPT-3(CoT)可以达到高达94.13%的准确率。这也暗示了一个可能的模型改进方向:模型可以进行逐步推理,即首先检索准确的背景知识并生成准确的解释,然后将这些结果作为输入。这个过程与人类解决复杂问题的过程非常相似。GPT-3(CoT)模型的性能上限。不同的ALE位置作者进一步讨论了不同ALE位置对GPT-3(CoT)生成预测时结果的影响。ScienceQA上的实验结果表明,如果GPT-3(CoT)先生成背景知识L或解释E,再生成答案A,其预测准确率会显着下降。主要原因是背景知识L和解释E的词数较多。如果先生成LE,GPT-3模型可能会用完最大词数,或者提前停止生成文本,从而无法得到最终答案A。不同的LE位置。成功案例在下面的4个例子中,GPT-3(CoT)不仅生成了正确的答案,而且给出了相关、正确和完整的解释。这表明GPT-3(CoT)在ScienceQA数据集上表现出强大的多步推理和解释能力。GPT-3(CoT)生成正确答案和解释的示例。失败案例I在下面的三个示例中,GPT-3(CoT)生成了正确的答案,但给出了不相关、不正确或不完整的解释。这表明GPT-3(CoT)在生成逻辑上一致的长序列方面仍然面临很大困难。GPT-3(CoT)生成正确答案但解释不正确的示例。失败案例二在下面的四个例子中,GPT-3(CoT)没有生成正确的答案,也没有生成正确的解释。原因如下:(1)目前的Imagecaptioning模型无法准确描述示意图、表格等图片的语义信息。如果用图片标注文字来表示图片,GPT-3(CoT)不能很好的回答包括图表背景在内的问题。(2)GPT-3(CoT)在生成长序列时,容易出现不一致(inconsistent)或不连贯(incoherent)的问题;(3)GPT-3(CoT)目前还不太擅长回答需要特定领域知识的问题。GPT-3(CoT)生成错误答案和解释的示例。4.结论与展望作者提出了ScienceQA,这是第一个带有详细解释的多模态科学问答数据集。ScienceQA收录了21208道中小学科学学科的选择题,涵盖三大科学领域和丰富的主题,大部分题目都标有详细的背景知识和解释。ScienceQA评估模型在多模态理解、多步骤推理和可解释性方面的能力。作者在ScienceQA数据集上评估了不同的基准模型,并提出GPT-3(CoT)模型可以生成相应的背景知识和解释以及答案。大量的实验分析和案例分析为模型的改进提供了有利的启示。
