ChatGPT“克星”：AI生成文字被AI识别，在英文论文阅读笔记中可以检测到

时间：2023-03-21 13:58:03 科技观察

ChatGPT的出现，让很多人看到了期末作业（手动狗头）的曙光。不管是英文论文还是读书笔记，只要在ChatGPT的知识范围内，都可以请它帮你完成，写的内容也有理有据。但是，有没有想过您的老师会使用类似“AI文本检测器”之类的东西来防止您作弊？输入这样一条看似无害的纸条，经过检测，这段文字“AI写的”（假）的可能性高达99.98%！△文字由ChatGPT生成试试别的数学试卷？ChatGPT的输出貌似没有问题，但还是被准确的看穿了：-训练有素的人工智能。见状，有网友调侃：用魔法打败魔法？使用AI编写的东西来训练新的AI。这个AI检测器叫做GPT-2OutputDetector，由OpenAI和哈佛大学等高校和机构联合打造。（是的，OpenAI自己做的）输入50多个字符（token）可以更准确地识别AI生成的文本。但即使是专门检测GPT-2的模型也能同样适用于检测其他AI生成的文本。作者首先发布了一个“GPT-2生成的内容”和WebText（摘自国外贴吧Reddit）的数据集，让AI理解“AI语言”和“人类语言”的区别。随后，用这个数据集对RoBERTa模型进行微调，得到AI检测器。RoBERTa（RobustlyOptimizedBERTapproach）是BERT的改进版本。原始BERT使用13GB数据集，但RoBERTa使用包含6300万条英文新闻的160GB数据集。其中，人类的文字都被识别为True，AI生成的内容都被识别为Fake。例如，这是从中英文博客复制的一段内容。从识别结果来看，明显是作者自己写的（手动狗头）：△文源Medium@MeganNg当然，这个检测器并不是100%准确。AI模型参数的数量越多，生成的内容被识别的可能性就越小。例如，具有1.24亿个参数的模型比具有15亿个参数的模型更有可能被“捕获”。同时，模型生成结果的随机性越高，AI生成内容被检测到的概率就越低。但即使将模型调整为产生最高随机性（Temperature=1，越接近0，产生的随机性越低），1.24亿参数模型被检测到的概率仍然是88%，而15亿参数的模型被检测率仍然是74%。这是两年前OpenAI发布的模型。那时，GPT-2生成的内容是“准确的”。现在面对升级版的ChatGPT，依然可以起到检测英文生成内容的效果。但是面对ChatGPT生成的中文，它的识别能力就没那么好了。比如让ChatGPT写一篇作文：AI检测器给出99.96%的概率是人写的……当然，ChatGPT也可以检测自己生成的文字。所以不排除老师会直接把你的作业交给ChatGPT进行鉴定：OneMoreThing。值得一提的是，ChatGPT表示不能上网搜索信息。显然，它还没有意识到AI检测器GPT-2OutputDetector的存在：那么，ChatGPT能否像网友所说的那样，生成一段“没有被AI检测器检测到”的内容呢？不幸的是，我不会：所以让我们自己写大作业...参考链接：[1]https://weibo.com/1402400261/Mj7QtwRoH[2]https://github.com/openai/gpt-2-输出-dataset/tree/master/detector[3]https://chat.openai.com/[4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57

上一篇：英国人工智能初创公司Faculty完成A轮融资

下一篇：GitHubstars6000+！Python带你练机器学习圣经PRML

ChatGPT“克星”：AI生成文字被AI识别，在英文论文阅读笔记中可以检测到相关文章