ChatGPT的出现,让很多人看到了期末作业(手动狗头)的曙光。不管是英文论文还是读书笔记,只要在ChatGPT的知识范围内,都可以请它帮你完成,写的内容也有理有据。但是,有没有想过您的老师会使用类似“AI文本检测器”之类的东西来防止您作弊?输入这样一条看似无害的纸条,经过检测,这段文字“AI写的”(假)的可能性高达99.98%!△文字由ChatGPT生成试试别的数学试卷?ChatGPT的输出貌似没有问题,但还是被准确的看穿了:-训练有素的人工智能。见状,有网友调侃:用魔法打败魔法?使用AI编写的东西来训练新的AI。这个AI检测器叫做GPT-2OutputDetector,由OpenAI和哈佛大学等高校和机构联合打造。(是的,OpenAI自己做的)输入50多个字符(token)可以更准确地识别AI生成的文本。但即使是专门检测GPT-2的模型也能同样适用于检测其他AI生成的文本。作者首先发布了一个“GPT-2生成的内容”和WebText(摘自国外贴吧Reddit)的数据集,让AI理解“AI语言”和“人类语言”的区别。随后,用这个数据集对RoBERTa模型进行微调,得到AI检测器。RoBERTa(RobustlyOptimizedBERTapproach)是BERT的改进版本。原始BERT使用13GB数据集,但RoBERTa使用包含6300万条英文新闻的160GB数据集。其中,人类的文字都被识别为True,AI生成的内容都被识别为Fake。例如,这是从中英文博客复制的一段内容。从识别结果来看,明显是作者自己写的(手动狗头):△文源Medium@MeganNg当然,这个检测器并不是100%准确。AI模型参数的数量越多,生成的内容被识别的可能性就越小。例如,具有1.24亿个参数的模型比具有15亿个参数的模型更有可能被“捕获”。同时,模型生成结果的随机性越高,AI生成内容被检测到的概率就越低。但即使将模型调整为产生最高随机性(Temperature=1,越接近0,产生的随机性越低),1.24亿参数模型被检测到的概率仍然是88%,而15亿参数的模型被检测率仍然是74%。这是两年前OpenAI发布的模型。那时,GPT-2生成的内容是“准确的”。现在面对升级版的ChatGPT,依然可以起到检测英文生成内容的效果。但是面对ChatGPT生成的中文,它的识别能力就没那么好了。比如让ChatGPT写一篇作文:AI检测器给出99.96%的概率是人写的……当然,ChatGPT也可以检测自己生成的文字。所以不排除老师会直接把你的作业交给ChatGPT进行鉴定:OneMoreThing。值得一提的是,ChatGPT表示不能上网搜索信息。显然,它还没有意识到AI检测器GPT-2OutputDetector的存在:那么,ChatGPT能否像网友所说的那样,生成一段“没有被AI检测器检测到”的内容呢?不幸的是,我不会:所以让我们自己写大作业...参考链接:[1]https://weibo.com/1402400261/Mj7QtwRoH[2]https://github.com/openai/gpt-2-输出-dataset/tree/master/detector[3]https://chat.openai.com/[4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57
