当前位置: 首页 > 科技观察

冒充人类作者、ChatGPT和其他滥用行为引起关注,本文回顾AI生成文字检测方法

时间:2023-03-13 13:29:40 科技观察

自然语言生成(NLG)技术的最新进展显着提高了大型语言模型生成文本的多样性、控制力和质量。一个值得注意的例子是OpenAI的ChatGPT,它在回答问题、撰写电子邮件、论文和代码等任务中展示了卓越的性能。然而,这种新发现的高效生成文本的能力也引发了人们对检测和防止大型语言模型被滥用于网络钓鱼、虚假信息和学术不诚实等任务的担忧。例如,由于担心学生将其用于家庭作业,纽约公立学校已禁止使用ChatGPT,媒体也对大型语言模型产生的假新闻提出警告。这些对大型语言模型被滥用的担忧严重阻碍了自然语言生成在媒体和教育等重要领域的应用。最近有很多关于是否以及如何正确检测大型语言模型生成的文本的讨论,这篇文章对现有检测方法进行了全面的技术介绍。论文地址:https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection相关研究地址:https://github.com/datamllab/awsome-LLM-generated-text-detection/现有的tree/main方法大致可以分为两类:黑盒检测和白盒检测。大型语言模型生成的文本检测概述黑盒检测方法通常只能对大型语言模型进行API级访问。因此,此类方法依赖于收集人类和机器文本样本来训练分类模型;白盒检测,此类方法可以完全访问大型语言模型,并且可以控制模型的生成行为或在生成的文本中包含Watermark(水印)以跟踪和检测生成的文本。在实践中,黑盒检测器通常由第三方构建,例如GPTZero,而白盒检测器通常由大型语言模型开发人员构建。大规模语言模型生成的文本检测分类法的黑盒检测黑盒检测一般分为三个步骤,即数据收集、特征选择和模型构建。对于人类文本的收集,一种方法是聘请专业人员进行数据收集,但这种方法费时费力,不适合大数据集的收集。一种更有效的方法是使用现有的人类文本数据,例如来自维基百科的数据。收集由各种专家编辑的条目,或从Reddit等媒体收集数据。特征的选取一般分为统计特征、语言特征和事实特征。其中,统计特征一般在一些常用的文本统计指标中用于检查大型语言模型生成的文本是否与人类文本不同,例如TFIDF和Zif定律。语言特征一般是寻找一些语言特征,比如词性、依存分析、情感分析等。最后,大型语言模型往往会生成一些反事实的陈述,所以事实验证也可以提供一些信息来区分大型语言模型生成的文本.现有的分类模型一般分为传统的机器学习模型,如SVM等。最新的研究倾向于以语言模型为骨干,如BERT和RoBERTa,并取得了更高的检测性能。两个文本之间存在明显差异。来自ChalkbeatNewYork的人工文本。白盒检测白盒检测一般默认使用大型语言模型开发者提供的检测。与黑盒检测不同,白盒检测对模型具有完全的访问权限,因此可以通过改变模型的输出来植入水印,从而达到检测的目的。目前的检测方法可以分为post-hocwatermark和inferencetimewatermark:post-hocwatermark是在大型语言模型生成文本后,在文本中添加一些隐藏信息,以供后续检测;inferencetimewatermark是改变大规模语言模型的token抽样机制加一个watermark。大规模语言模型在生成每个token的过程中,会根据所有token的概率和预设的采样策略来选择下一个生成的词。这个选择过程可以添加水印。Inferencetimewatermark作者的担忧(1)对于黑盒模型来说,数据采集是非常关键的一步,但是这个过程非常容易引入偏差。例如,现有的数据集主要集中在问题回答、故事生成和几个任务上,这就引入了主题偏差。此外,大型模型生成的文本通常具有固定的样式或格式。这些偏差通常被黑盒分类器用作分类的主要特征,并降低检测的鲁棒性。随着大规模语言模型能力的提升,大规模语言模型生成的文本与人类之间的差距会越来越小,导致黑盒模型的检测准确率越来越低。因此,白盒检测是未来更有前途的检测方法。.(2)现有检测方式默认大型语言模型为公司所有,所有用户均通过API获取公司的大型语言模型服务。这种多对一的关系对于检测系统的部署非常有用。但如果一家公司开源了一个大型语言模型,这将使??几乎所有现有的检测方法都变得无用。对于黑盒检测,由于用户可以微调自己的模型,改变模型输出的样式或格式,黑盒检测无法找到共同的检测特征。白盒检测可能是一种解决方案,企业可以在模型开源前给模型加上水印。但用户也可以对模型进行微调,改变模型令牌的采样机制来去除水印。目前还没有一种水印技术能够抵御用户的这些潜在威胁。