论文地址:https://arxiv.org/pdf/2206.11863.pdf数据集CHEF数据集链接:https://github.com/THU-BPM/CHEF1。介绍先来看看任务的定义,举个比较简单的例子:比如上海封城期间,某自媒体称“李立群下楼买肉被抓”。仅凭这份声明(Claim)本身,我们其实无法判断他是否偷偷下楼买肉被捕。为了验证这个说法的真实性,最直观的想法就是寻找证据(Evidence)。证据是您可以收集的信息,可以帮助我们验证声明的真实性。比如下图,我直接撕掉就可以作为证据。上面引用的说法比较简单,只需要简单的证据,不需要循证推理。让我们看一个更复杂的例子。比如有这样的说法:2019年成都中考共有12.08万人参加,但招生计划只有4.3万人。这个说法比较难验证。如果我们查到2019年成都中考的相关资料:……今年共有12.08万人参加了中考。这是成都全市,包括20个区、高新区和天府新区的总参考数。几个月前,教育局公布了2019年普通高中招生计划,计划招生人数进一步增加,去普高的机会就更大了。……2019年中心城区(13区)招生计划43015人。这份文件包含了很多与该声明相关的信息,但与该声明直接相关并能帮助我们验证该声明的是上面第二段的后半部分,以及很多段之后的第一句。根据这些证据,我们可以知道,成都20个区确实有12.08万人参加中考,而中心城区(仅包括13个区)的招生计划确实只有4.3万人。.虽然数字是正确的,但这里改变了概念。在讨论中考人数时,用的是20区的数量,但在讨论招生计划时,将20区的范围缩减为13区,从而误导读者。为了验证这样一种说法,我们往往需要从一份或多份文件中提取直接相关的证据,同时根据提取的证据进行推理。为了促进中文机器学习系统的事实核查,我们提出了这样一个基于证据的中文数据集。2.相关工作根据事实核查[1]的回顾,目前的事实核查数据集大致可以分为两类:人工(Artificial)和自然(Natural)。人工(Artificial):要求标注者根据维基百科改写句子作为陈述,文档中的相关段落可以作为验证该陈述的证据。如果是同义转换,则该陈述得到证据支持(Supported)。如果句子中的实体被替换,或加入否定等一系列修饰,则该陈述被证据所反对(Refuted)。这种标注范式最初是FEVER[2],很多著名的数据集如TabFact[3]也沿袭了这种范式。这种人工数据集的优点是可以缩放。请注释100,000条语句,非常适合训练神经网络。另一方面,相关证据也一应俱全。缺点是这些说法不是我们日常生活中会遇到的,普通大众喜闻乐见。比如你不会根据李立群的维基百科改写“他偷偷下楼买肉被抓”的说法。另一方面,这种类型的数据集假设维基百科包含所有知识来验证声明,这是一个比较强的假设。在实际场景中,这个假设往往不满足。最简单的问题是维基百科会有时间滞后。Natural(自然):是从事实核查平台直接抓取的声明。一个著名的外国组织是PolitiFact,它经常检查特朗普的言论。这类数据集的好处是,它是普通民众每天都会遇到的、想知道真相的说法。这也是人类事实核查员需要仔细审查的声明。如果我们最终要建立一个可以在一定程度上替代人类跳棋的系统,那么这个系统的输入就需要是这种语句。此类数据集的明显缺点是人工检查的索赔数量非常有限。如表所示,大多数数据集实际上比手动构建的数据集小一个数量级。另一方面,寻找证据是一个非常困难的问题。现有数据集一般直接使用经过事实核查的文章[4]作为证据,或者使用语句输入到谷歌搜索查询[5][6],然后使用返回的搜索摘要(如红框所示)作为证据。证据。这些寻找证据的方法存在两个问题:使用事实核查文章本身作为证据:在现实场景中,这种方法不切实际。如果我们想启动一个事实核查系统,系统需要检查新的声明通常,没有事实核查的文章尚未出现。这样系统就无法学习如何收集证据。使用谷歌片段作为证据:这种方法克服了上述问题,更接近真实场景。事实核查员通常需要依靠搜索引擎来查找相关信息。但是这种方法也有缺点,就是信息量严重不足。如上图所示,谷歌基于规则的总结基本上无法提供足够的信息来帮助我们判断声明的真实性。针对上述问题,我们构建了CHEF,它具有以下特点:使用真实世界的陈述,也是中文的,填补了中国事实核查数据集的空白。使用搜索引擎返回的文档作为原始证据,更接近真实场景。使用人工标注返回文档的相关句子作为细粒度的证据,可以用来训练验证系统学习如何收集证据。3.数据集构建数据集构建包括4个部分:数据收集、索赔标注、证据检索和数据验证。3.1数据采集声明原文主要爬取自四个中文事实核查网站(据杜克新闻平台),其中简体中文网站有两个:中国辟谣中心和腾讯真。繁体中文来自台湾的两个平台:MyGoPen和台湾事实核查中心。由于从事实核查网站爬取的绝大多数(90%+)的说法都是假的,其实很直观的是,大多数流行的谣言/说法都是假的,都会被验证平台辟谣/验证。参考前人的方法(PublicHealth[7]),我们将中国新闻网的头条新闻作为真实的语句进行抓取,构建了标签相对均衡的数据集。3.2声明标注与国外相对成熟的事实核查机构相比,中国验证平台发布的文章相对不够规范。例如,PolitiFact会准确地告诉你索赔是什么,验证摘要是什么,证据和推理细节是什么(如上图所示)。但是中文文章一般都没有明确表述,所以我们请标注者在阅读文章后将文章验证的语句提取出来。同时,语句也被清洗以减少它包含的偏差。之前的工作表明[8],事实核查数据集中的陈述包含比较强的偏见(例如,虚假陈述一般包含否定词),而BERT等PLM可以在没有证据的情况下直接捕获这些偏见来验证陈述。清洗方法包括将反问句改为陈述句,去除一些可能包含偏见的词,如:heavy、shocked等。在提取声明后,我们还要求注释者根据经过事实检查的文章对声明进行标注。我们采用类似于FEVER等系列工作的分类,使用Supported、Refuted和Notenoughinformation(NEI)三种分类。其中Refuted最多,NEI数量最少。3.3证据检索我们以声明为查询词进行谷歌搜索,然后筛选出部分文件,部分为声明发布时间后的文件,另一部分为虚假信息传播平台的文件,最后保留前5个文档。然后要求注释者选择最多5个句子作为每个声明的证据。数据集中的索赔和证据统计如下:如果使用谷歌基于规则的摘要,则每个陈述返回文档的平均长度为3691个单词,注释器提取最后一个细粒度证据的句子包含126个单词平均包含68个单词。简单地比较数字,使用返回的文档和带注释的句子,比直接使用摘要提供更多的上下文信息。3.4数据校验为了保证标注的一致性,我们增加了一轮数据校验,随机抽取3%的标注语句,共310个分配给5个标注者重新标注。FleissK评分达到0.74,略高于FEVER的0.68和Snopes的0.70[5],表明数据标注质量不逊于之前的数据集。CHEF的发言主要分为5个主题:社会、公共卫生、政治、科学和文化。与欧美的事实核查平台侧重于政治领域不同,中国平台更关注公共卫生问题,例如:新冠病毒、卫生保健、医疗保健等。另一个主要话题是社会,例如如:欺诈、升学、社会事件等。核实索赔主要面临四大挑战:证据收集:近70%的索赔需要找到相关证据才能核实。专家咨询:近40%的理赔需要咨询专家以获取相关信息。数字推理:18%的索赔验证需要数字推理才能得出结论。多模态:大约8%的索赔需要非文本证据,例如图片、视频等。4.基线系统类似于以前的经典事实检查数据集(例如FEVER)。机器学习系统需要在给定的文档中选择相关的句子作为证据(证据检索),然后根据证据对声明进行验证(声明验证)。基于数千人的工作,本文提出了两大类基线系统:管道系统和联合系统。管道:证据检索和陈述验证是两个独立的模块。首先使用证据检索器提取证据,然后将联合声明交给声明验证模块进行分类。证据检索部分:我们使用4种不同的提取器从返回的文档中提取句子作为细粒度证据。第一种是基于字符特征匹配:TF-IDF;第二种是基于语义特征匹配:我们使用中文BERT,然后计算余弦相似度。第三种是混合特征:取上面两个特征,然后用rankSVM排序。最终的基线系统是经典的Google返回摘要。声明验证部分:我们使用3种不同的模型。第一种是在中文BERT的基础上,把上面得到的statement和evidence拼接起来丢给BERT做三分类。第二种是基于注意力的模型,根据陈述对证据分配不同的权重进行分类。第三种是基于图的模型:我们在FEVER上使用了SOTA图模型KGAT[9],它可以更好地综合不同的证据进行推理。联合:证据检索和索赔验证模块联合优化。使用了三种不同的模型。第一个是SOTAonFEVER[10]的联合模型,它使用多任务学习框架,同时学习标记证据和陈述。第二种是将证据抽取作为隐变量处理[??11],将返回文档的每个句子标记为0或1,标记为1的句子将作为证据与语句一起分类,使用REINFORCE进行训练。第三种方法与第二种方法类似,但使用HardKuma和重参数方法进行联合训练[12],而不是策略梯度。5.实验结果5.1主要结果实验的主要结果如下图所示:从证据检索的角度来看:联合模型总体上表现优于管道模型,主要是证据检索模块可以通过优化找到更有用的证据来验证索赔。另一方面,使用返回的文档总是比使用Google的摘要要好,主要是因为文档包含的信息更多。最后,直接使用人工标注的证据效果远超目前的两类基线模型。与其他事实核查数据集(FEVEROUS)类似,证据检索是验证声明的一项挑战。如何基于人类标记的证据优化证据检索模块是未来值得研究的方向。从索赔验证的角度来看:基于图的模型(KGAT)比简单的基于BERT和基于注意力的模型表现更好,是一种通过构建图来捕获证据推理链的有效方法。但另一方面,图模型的提升并不是特别明显,数据集本身可能需要一些因地制宜的优化。5.2细粒度证据的数量细粒度证据越多越好,如下图所示,当我们选择5个句子作为细粒度证据时,管道系统中的证据提取器取得了最好的结果。当提取10句和15句作为证据时,效果越来越差。我们猜测提取出来的句子引入了更多的噪声,影响了语句验证模型的判断。5.3语句长度的影响大多数语句都超过10个词,长度越长,模型效果越好。我们猜测主要是陈述的更详细,更容易收集的详细证据有助于模型做出判断。当语句长度比较短时,与集中基线模型的差距不是很大。当长度比较长时,获得的证据越好,陈述验证的效果越好,这也说明了证据检索的重要性。5.4声明领域的影响科学领域的声明最难验证,模型效应基本不超过55。一方面相关证据收集困难,另一方面,科学问题的陈述相对复杂,往往需要隐式推理才能得出结果。5.5claimcategories的影响如图所示,即使我们引入了一些Supportedclaims,整个数据集仍然存在类别不平衡的问题。该模型对NEI类别的影响远弱于Supported和Refuted类别。未来的工作可以研究如何针对类别不平衡的事实检查数据集调整声明验证模型,或者使用数据增强方法在训练期间随机增加NEI的数量,例如FEVEROUS[13]在训练期间随机增加NEI的数量。丢弃一些索赔的相应证据,然后将这些索赔的类别更改为NEI。
