日前,MetaAI与PaperswithCode发布了大型语言模型Galactica,一大特色就是解放你的双手,代笔帮你写论文,写出来的论文有多全?摘要、引言、公式、参考文献等应有尽有。如下图,Galactica生成的文本看起来就像一篇论文的配置:Galactica不仅可以生成论文,还可以生成词条的百科查询,并对提出的问题进行智力解答。除了文本生成,Galactica还可以执行涉及化学公式和蛋白质序列的多模式任务。例如,在化学反应中,Galactica需要预测化学方程式LaTeX中的反应产物。该模型只能根据反应物进行推理。结果如下:为了方便本次调研的用户体验,团队还推出了试用版。如下图,前几天界面还显示了输入、生成等功能。(上一版)Galactica试用版地址:https://galactica.org/短短几天,它的界面就变成了这个样子,再也不能输入了。据PaperswithCode称,他们已经收到了社区的一些反馈,暂停了Galactica的Demo演示功能。前两天发推称赞的图灵奖得主YannLeCun今天无奈表示,自己再也无法从中获得快乐。你快乐吗?不过,与那些极力主张研究的人相比,一些网友提出了一些反对意见。与其带来的好处相比,卡拉狄加会带来更多的负面后果。想想这将如何影响学生写论文。比起学生用它来写论文,下面这位网友发现的问题更加严重。“我问了卡拉狄加一些问题,它的回答都是错误的或有偏见的,但听起来是正确和权威的。”经过一系列实验,推特用户MichaelBlack表示:“卡拉狄加生成的文本是符合语法的,感觉很真实。由此产生的文章变成了一篇真正的科学论文。文章可能是真实的,但也可能是错误的或有偏见的,很难被发现,并影响人们的思维方式。”“它提供了看似权威的科学,但没有科学方法的基础。卡拉狄加根据科学写作的统计特性产生伪科学,让人难以辨别真假。这可能会迎来一个深度科学证伪的时代。”这些生成的Papers会在真实的papers中被别人引用,那就乱七八糟了。我很欣赏这个项目的初衷,但请注意,这不是科学加速器,甚至不是科学写作的有用工具。这对科学有潜在的扭曲和危险。”迈克尔布莱克回答了部分截图。链接:https://twitter.com/Michael_J_Black/status/1593133722316189696发现卡拉狄加存在不严谨、文章伪科学等问题的不仅是MichaelBlack,其他网友也发现了这个缺陷。我们再看看网友们的其他评论。争议卡拉狄加试玩版推出后,不少学者对此提出了质疑。一位名叫DavidChapman的AI学者指出,语言模型应该组织和综合语言,而不是产生知识:这确实是一个非常值得思考的问题。如果AI模型能够产生“知识”,如何判断这些知识的正确与否?它们如何影响甚至误导人类?DavidChapman以他的一篇论文为例来说明问题的严重性。Galactica模型在论文的“Alogicalfarce”部分提取关键术语,然后使用一些相关的维基百科文章,最后编辑合成一篇错误百出的文章。由于Galactica模型的试用版不再可用,我们无法看出这篇文章与本文的初衷有多大偏差。但是可以想象,如果初学者看了这篇关于卡拉狄加模型合成的文章,可能会被严重误导。知名AI学者、Robust.AI创始人GaryMarcus也表达了对Galactica模型的强烈质疑:“大语言模型(LLM)混淆数学和科学知识有点吓人,高中生可能会喜欢,用它来愚弄他们的老师。这应该让我们担心。”纽约大学计算机系的学者也对Galactica模型的结果进行了测试,发现Galactica并没有回答问题:来源:https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.htmlFirstof所有,在这个实验中,卡拉狄加模型的响应确实包含了一些正确的信息,例如:引力探测器B(GP-B)确实是美国宇航局为验证广义相对论和参考系拖曳的正确性而发射的科学探测器影响。LeonardSchiff确实是提出这个实验的物理学家,FrancisEveritt是项目负责人(PI)。重力探测器A确实是对爱因斯坦理论的早期检验。然而,这位纽约大学学者提出的问题是:维基百科文章与确定引力常数的实验相关,而卡拉狄加模型回答的是“与检验广义相对论相关的实验的百科全书信息”。这是根本错误的。不仅如此,Galactica模型的回答也存在一些事实错误:Galactica在回答中强调不要混淆GP-B和GravityProbeB的实验,但实际上“GP-B”指的是“GravityProbe-B”“实验。答案中提到的伦纳德希夫获得了博士学位。1937年在麻省理工学院任教。他曾多次在宾夕法尼亚大学和斯坦福大学任教,但从未在马里兰大学任教。FrancisEveritt于1959年在伦敦帝国理工学院获得博士学位。GravityProbeA(GravityProbeA在1966年并没有因为预算削减而被取消,也与陀螺仪没有任何关系。事实上,GravityProbeA是在1976年推出的涉及激射器(maser)的实验。纽约大学的这个实验清楚地表明Galactica模型的生成结果存在严重错误,并且该研究针对许多不同的问题进行了实验,而Galactica的答案每次都错漏百出.由此可见,卡拉狄加产生错误信息绝非偶然纽约大学实验报告:https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html面对卡拉狄加的失败,有网友将其归咎于深度学习的局限性:“深度学习的本质是从数据中学习,不同于人类智能,不可能达到一般的人工集成lligence(AGI)。”对于深度学习的未来发展,众说纷纭。但毫无疑问,卡拉狄加错误生成“知识”的语言模型是不可取的。
