当前位置: 首页 > 科技观察

AI自动审稿,CMU可行吗?我们用它来审阅以下论文

时间:2023-03-14 22:14:12 科技观察

近年来,提交到各大学术会议的论文数量急剧增加,大大增加了论文审阅的工作量。那么,论文是否可以自动生成审稿结果呢?最近,CMU的研究人员对此进行了探索,并创建了一个自动论文审查系统。上传PDF论文可以自动生成审稿结果,可能会给论文审稿带来一些变化。科学技术的快速发展伴随着同行评审的科学出版物呈指数级增长。同时,论文评审是一个耗时耗力的过程,必须由相应领域的专家来完成。这使得为??越来越多的论文提供高质量的评论成为一项挑战。那么,是否可以自动生成论文评论呢?在最近发表的一篇论文中,来自CMU的研究人员创建了一个自动生成论文评审结果的Demo网站ReviewAdvisor,只需要上传PDF论文就可以自动生成评审结果。论文链接:https://arxiv.org/pdf/2102.00176.pdf在论文中,研究人员探讨了使用SOTA自然语言处理(NLP)模型为学术论文生成同行评审结果的可能性。其中,最难的部分是如何定义“好”的评审结果,因此本研究首先探讨评审结果的衡量指标。然后是数据的问题。研究人员收集了机器学习领域的论文集,用每篇评论所涵盖的不同方面对论文进行了注释,并训练了一个目标摘要模型来生成评论结果。实验结果表明,系统生成的评论通常比人类专家给出的评论涉及更多的论文方面。但是,除了对论文核心思想的解释,生成的评论文本在其他方面没有逻辑解释,大部分关于核心思想的评论都是正确的。最后,研究人员总结了构建性能良好的论文评论生成系统的八个挑战和可能的解决方案。但研究人员发现,人工专家评审和系统自动评审都表现出不同程度的偏差,而且与人工专家评审相比,系统生成的评审结果更加偏颇。上面这段话来自论文“TL;QR”的第一部分。有趣的是,这部分内容是由其开发的系统生成的。ReviewAdvisor系统试用用户在试用系统时,需要在浏览器中允许所有cookies,否则系统将无法正常工作。研究人员使用sciparser工具从PDF论文中提取信息,因此如果上传的论文使用不熟悉的模板,系统可能无法正常工作。目前ReviewAdvisor支持来自ICML、Neurips、ICLR、ACL、EMNLP和AAAI等计算机科学顶级会议或期刊的论文。这个自动论文审查系统有多有效?机器之心尝试上传本研究中使用的样本纸《Attention Is All You Need》。Abstract+CE(withaspect)可以细分为6个方面:Abstract、Clarity、Originality、Reliability、Substance和Comparison。下图是对范例论文的原创性和鲁棒性的评审意见《Attention is All You Need》,其中原创性评审意见是“使用self-attention的idea很有趣很新颖”(图中左边黄色部分)下图),以及关于可靠性的评论意见批评意见是“论文没有解释清楚为什么transformer模型优于其他基准模型”(下图右侧绿色部分)。看来效果还不错。但是机器之心在上传其他论文时,系统没有及时生成审稿,或者多次上传后才生成审稿结果。研究人员表示,由于该系统使用的电脑服务器是第二作者刘鹏飞自己搭建的,所以会出现内存不足的情况。这可能是论文评审结果不能及时产生的原因之一。此外,研究人员强调,ReviewAdvisor系统可能会产生不正确、不完整或有偏见的评审结果,无法替代人类专家的评审结果。好的同行评审的标准是什么?研究首先总结了评价同行评审结果的常用标准:Comprehensive性:组织一次好的同行评审,首先简要总结论文的贡献,然后从不同的方面评价论文的质量;Justification:一个好的同行评审应该是有根据的,尤其是在指出论文不足的时候;准确性:一个好的同行评审应该确保事实是正确的;友善:好的同行评审应该以礼貌和友善的方式措辞。数据集本研究介绍了如何构建具有更细粒度元数据的评论数据集,该数据集可用于Aspect-enhancedPeerReview(ASAP-Review)进行系统训练和多角度评论评估。数据收集研究人员通过OpenReview抓取了2017-2020年的ICLR论文,并通过NeurIPSProceedings抓取了2016-2019年的NeurIPS论文。对于每篇论文,研究人员保留尽可能多的元数据信息,包括以下内容:参考评论,由委员会成员撰写;元评论,通常由现场主席(高级委员会成员)撰写;是“接受”还是“拒绝”;其他信息,包括url、标题、作者等。该研究使用AllenaiScience-parse解析每篇论文的pdf并保留结构化文本信息(例如标题、作者、章节内容和参考文献)。下表2展示了ASAP-Review数据集的基本统计数据:Aspect-enhancedReviewdataset虽然reviews展示了下图3所示的内部结构:Reviews通常以一个summary开始,然后按aspect列出不同的观点,并给出证据。实际上,这种有用的结构化信息无法直接访问。考虑到评论中各个方面的细粒度信息对评价起着至关重要的作用,本研究对评论进行方面标注。为此,该研究首先介绍方面类型学,然后进行人工标注。定义的研究类型包括以下8个领域,遵循ACL审查指南并有一些小的变化:摘要(SUM)动机/影响(MOT)原创性(ORI)可靠性/正确性(SOU)实质性(SUB)再现性(REP)有意义Comparison(CMP)Clarity(CLA)总体来说,数据标注包括4个步骤,如下图1所示:ReviewAdvisor是如何生成科学评审结果的?首先,让我们看看“科学评论生成”任务是什么。该任务在概念上可以理解为基于方面的科学论文摘要任务,但有一些重要的区别。例如,大多数当前的工作要么从“作者的角度”(即仅使用作者所写的内容构建摘要)或从“读者的角度”总结论文,后者认为论文摘要应考虑研究成员的观点社区。在这项工作中,CMU研究人员将科学论文摘要的视角从“作者”或“读者”扩展到“审稿人”,认为一份好的科学论文摘要不仅应该体现论文的核心思想,还应该包括领域专家。各方做出的重要评估需要原始论文以外的知识。这个想法的好处是:1)帮助作者找到论文中的缺陷并使其更强大;2)帮助审稿人减轻部分审稿负担;3)帮助读者快速掌握论文的主要思想,理解“领域专家”(即本研究中创建的系统)对论文的评价。如下图3所示:系统设计与其他基准摘要数据集相比,本研究中创建的评论数据集包含的训练样本较少,但最近的上下文预训练模型的少样本学习能力可以训练评论生成系统。该研究使用BART作为预训练模型,该模型在多项生成任务中表现出卓越的性能。然而,即使有了BART的加持,如何用它来处理长文本仍然是一个不小的挑战。经过几次试验,研究人员决定采用两阶段方法。使用两阶段系统处理长文本本研究使用“先提取后生成”机制将文本生成分解为两个步骤。具体来说,首先进行内容选择,即从源论文中提取显着的文本片段,然后根据这些文本生成摘要。Aspect-awareSummarization(切面感知摘要),通常采用extract-then-generate机制,可以直接使用提取的内容,构建sequence-to-sequence模型来生成文本。为了生成更多方面的评论结果,并通过其内部结构来解释评论结果,该研究更进一步,提出了一个提取然后生成和预测的生成框架。具体来说,研究人员将他们标记的aspect作为附加信息,设计了一个辅助任务来预测生成的文本(评论)aspect,如下图5:实验研究人员通过以下两个问题评估了系统的有效性。这个系统擅长什么?你不擅长什么?根据本研究中定义的评估指标,研究人员对参考评论和生成的评论进行了自动化和人工评估,以分析自动评论生成系统在哪些子任务上表现良好,在哪些子任务上失败。评估结果如下表5所示:实验发现评论生成系统存在一些缺陷,主要表现在以下几个方面:缺乏对论文的高层次理解:系统无法准确区分高质量论文和低质量论文,而且大多数时候是负面的证据是不可靠的;styleofimitationofsourcedata:一些特定的句子经常出现在不同的generativereview结果中,说明generativereview的style容易受到Papercontent中高频句型的影响,而这是peerreview的重要组成部分。当然,该系统也有一些优点。它往往能够准确概括输入论文的核心思想,生成的评论比人工审稿人涵盖更多的论文质量方面。案例研究调查人员还进行了案例研究,下面的表6显示了示例审查结果。可以看出,该模型不仅可以生成流畅的文本,还可以识别生成的文本是关于哪个方面及其正确的极性。比如紫色部分是“Summary”,黄色部分是“Clarity”,+表示review比较积极。尽管生成的分面通常是带有一些小对齐问题的小文本片段,但模型仍然可以清楚地感知不同的分面。系统生成的评论是否有偏见?文本中的偏见无处不在,但难以检测。除了设计用于生成评论的模型外,本研究还提出了一种偏差分析方法,用于更细粒度地识别和量化人工注释和系统生成的数据中的偏差。首先是测量审查中的偏见。下图6显示了参考评论和生成评论的区别:该研究将所有评论按照“本土性”和“匿名性”进行了分类,详见下表7:分析发现Native论文(即至少有一个作者列表为Native讲英语的人)和非匿名论文在参考评论和生成评论中得分更高。具体结果如下图所示:在论文的最后,研究人员还列出了自动评论生成系统面临的八个挑战,涉及模型、数据和评估三个方面,即:长文本建模、预置科学领域的训练模型、结构信息、外部知识、更细粒度的评论数据、更准确和强大的科学论文解析器、公平和偏见、生成文本的真实性和可靠性。回到“科学评审能否实现自动化?”这个问题,答案依然是“还不能”。不过,也许在不久的将来,自动审稿生成系统至少可以帮助审稿人更快、更高效地完成审稿工作。