当前位置: 首页 > 科技观察

ChatGPT“克星”来了!文章作者几秒就被AI检测出来了,中国小哥在元旦放假的时候搞定了,服务器已经人满为患了

时间:2023-03-20 01:34:45 科技观察

你是说ChatGPT,写的逼真到你都看不下去'分不开?没关系!现在,它的“克星”来了——一位中国小哥专门建立了这样一个网站,用来识别文字是AI还是人类。你只需要将相应的内容粘贴进去,几秒钟就可以分析出结果。它:“我知道这是人工智能。”这样的法宝一经问世,可谓是迅速俘获了所有人的芳心。不行,干脆把服务器压死(幸好有备份)。现在,那些用ChatGPT写作业的“熊孩子”也要惨了?是人还是ChatGPT?GPTZero:看看我的网站GPTZero。它主要靠“困惑度”,即以文本的“困惑度”为指标来判断给定内容是谁写的。NLP领域的朋友都知道,这个指标是用来评价一个语言模型的好坏的。这里,每当你给GPTZero喂一段测试内容,它就会计算:1.总文本困惑度的值越高,它就越有可能是人类写的。2.Averageperplexityoverallsentences句子越长,这个值通常越低。3.每句话的困惑度以条形图的形式呈现,鼠标悬停在每个方块上可以查看对应的句子(这里只放两个方块,因为我此时输入的测试内容只有两个句子)。作者也解释了画这样一个条形图的原因:根据最新的研究:人类写的一些句子可能perplexity较低(前面说了,人类的perplexity比较高),但是随着你继续写下去,有bound成为困惑的尖峰。相比之下,对于机器生成的文本,困惑度分布均匀且始终很低。另外,GPTZero还会挑出混淆度最高(也就是写得最像人)的句子:这些是规则,然后才是实际测试。测试一:成功首先,一段最新的英文新闻(暂不支持中文):粘贴到测试框内(注意每句话至少5个词,建议每段10个句子,结果会更准确)。很快,GPTZero计算出这段文字的总文本困惑度为27,平均句子困惑度为171.2,每个句子的困惑度图如下所示:而困惑度最高的句子的值为476。看这个结果,你大概猜到了GPTZero的答案:它是人类写的。答对了。测试2:某些ChatGPT失败。将内容粘贴到测试框中,发现这段文字的总文本perplexity为31,平均句子perplexity为76.67,每个句子的perplexitygraph是这样的:perplexity最高的句子的值为99.看起来每一项的perplexity值都和上面的差了很多,应该可以猜到是AI写的。但遗憾的是,GPTZero无法给出答案,希望大家可以加一点文字试试。很显然,这段文字足够多,但句子不够多,不足以让GPTZero一眼识破ChatGPT的“伪装”。测试3:如果成功,让我们尝试另一个ChatGPT会话。这次内容够长,句子够多。果然没有问题,GPTZero直接回答:好像找到方法了:就是词多了,同时必须有更多的句子,至少5个句子,这样GPTZero才能识别通过直方图的分布。最终的准确率是可以提高一些的。另外需要提一下,在挑战失败的情况下,除了上面提到的识别失败之外,还有直接的识别错误——比如判断AI写的是大人写的:判断新闻写的byhumansasAI:在这种情况下,根据上面提到的提示,添加更多内容也许可以将结果带回来。(注意是可以的,上面的新闻,我们把所有的内容都贴进去了,它说没有,还说再补充。)创建网站的人是22岁的EdwardTian,一个中国男孩,来自加拿大多伦多。现为美国普林斯顿CS专业大四学生,辅修认知科学与新闻学,对软件工程、机器学习等有浓厚兴趣。现为微软实习生,曾在等公司撰写科技手稿作为BBC和Bellingcat,也加入了地图工具Representable的创始团队。求学期间,他来到清华大学参加为期四个星期的城市研究研讨会。据他介绍,该应用程序是在新年假期期间在一家咖啡店完成的。之所以要开发这个app,简而言之,就是因为ChatGPT炒作太多了,人类应该知道哪些文章是AI写的。仍处于准系统阶段,预计在接下来的几周内会改进模型和分析。除其他外,他透露他正在测试学生撰写的新闻文章数据集,并希望最终发表一篇论文。更多ChatGPT杀手其实,不喜欢ChatGPT的不止这位小哥一个。还有其他人类组织相应地开发了一个人工智能文本检测器,AKAChatGPTKiller。大体思路也是一样的,就是“用魔法打败魔法”,用AI写的东西来训练新的AI。前段时间OpenAI和哈佛等高校联合打造了一个检测器:GPT-2OutputDetector。作者首先发布了一个“GPT-2生成的内容”和WebText(摘自国外贴吧Reddit)的数据集,让AI理解“AI语言”和“人类语言”的区别。随后,用这个数据集对RoBERTa模型进行微调,得到AI检测器。其中,人类的文字都被识别为True,AI生成的内容都被识别为Fake。(RoBERTa是BERT的改进版,原BERT使用13GB数据集,而RoBERTa使用160GB数据集,包含6300万条英文新闻。)另一位早年的代表选手也被提及。它是由MIT-IBM沃森人工智能实验室和哈佛NLP实验室开发的GLTR模型。主要对文本进行统计分析和可视化,检测是与原来生成文本相同或相似的模型。目前主要支持两种模型,GPT-2和BERT。由于输出是模型知道的所有单词的排名,文本中的每个单词都根据排名进行颜色编码,前10个为绿色,前100个为黄色,前1000个为红色,紫色不太可能字。如果一段文字中黄绿色过多,那么这段文字主要是AI生成的。此次GPTZero再次现身,让不少网友惊叹:难得的佳作!但其他人说,文本检测器只是一场失败的军备竞赛,而且它们并不能很好地工作。它不能阻止ChatGPT的发展。同时,也有网友讨论了“文章是否需要明确注明是人工智能还是人类所写”的必要性。一个词曲作者认为这是必要的,就像看杂志时标注“广告”一样,这应该是一个简单的要求。但立即有网友表示反对,为什么要设置障碍?这就像使用Photoshop然后添加Adob??e水印,这对产品没有任何好处。你怎么看这个问题?演示链接:https://etedward-gptzero-main-zqgfwb.streamlit.app/参考链接:[1]https://brackets.substack.com/about[2]https://www.reddit.com/r/programming/comments/102hxlg/gptzero_an_app_to_efficiently_tell_if_an_essay_is/[3]https://twitter.com/Marc__Watkins/status/1601746409203863553[4]http://gltr.io/