12月,计算生物学家CaseyGreene和MiltonPividori开始了一项不同寻常的实验:他们请一位非科学家助理帮助他们改进三篇研究论文。他们勤奋的助手建议在几秒钟内修改文档的各个部分,每份手稿大约需要五分钟。在一份生物学手稿中,他们的助手甚至在引用方程式时发现了错误。审稿并不总是一帆风顺,但最终的手稿更容易阅读——而且成本适中,每份文件不到0.50美元。论文地址:https://www.biorxiv.org/content/10.1101/2023.01.21.525030v1正如Greene和Pividori在1月23日的预印本中报道的那样,这个助手不是一个人,而是一个名字,它是人工智能算法GPT-3,于2020年首次发布。它是一种大肆宣传的生成式AI聊天机器人类工具,无论是被要求创作散文、诗歌、计算机代码,还是编辑研究论文。这些工具中最著名的(也称为大型语言模型或LLM)是ChatGPT,它是GPT-3的一个版本,在去年11月发布时声名鹊起,因为它免费且易于访问。其他生成式AI可以生成图像或声音。文章地址:https://www.nature.com/articles/d41586-021-00530-0“我印象非常深刻,”在费城宾夕法尼亚大学工作的皮维多里说。“这将帮助我们提高研究人员的工作效率。”其他科学家表示,他们现在经常使用LLM,不仅是为了编辑手稿,也是为了帮助他们编写或审查代码以及集思广益。“我现在每天都使用LLM,”位于雷克雅未克的冰岛大学的计算机科学家HafsteinnEinarsson说。他从GPT-3开始,但转而使用ChatGPT,这有助于他编写演示幻灯片、学生考试和课程作业,并将学生论文转化为论文。“许多人将其用作数字秘书或助理,”他说。LLM是搜索引擎的一部分,编码助手,甚至是可以与其他公司的聊天机器人协商以获得更好产品价格的聊天机器人。总部位于加利福尼亚州旧金山的ChatGPT的创建者OpenAI宣布了一项每月20美元的订阅服务,承诺更快的响应时间和优先访问新功能(其试用版仍然免费)。已经投资OpenAI的科技巨头微软在1月份宣布进一步投资,据报道约为100亿美元。LLM注定要被纳入通用的文字和数据处理软件中。未来生成人工智能在社会中的普遍性似乎是有把握的,尤其是因为今天的工具代表了该技术的初级阶段。但LLM也引发了广泛的担忧——从他们撒谎的倾向,到担心人们将AI生成的文本冒充为自己的文本。文章地址:https://www.nature.com/articles/d41586-023-00288-7当Nature向研究人员询问聊天机器人(例如ChatGPT)的潜在用途,尤其是在科学领域时,他们的兴奋夹杂着担忧.“如果你相信这项技术的变革潜力,那么我认为你必须对此感到紧张,”奥罗拉科罗拉多大学医学院的格林说。研究人员表示,很大程度上将取决于未来的法规和指南如何限制人工智能聊天机器人的使用。流利但不真实一些研究人员认为,法学硕士非常适合加快完成论文或资助等任务,只要他们受到监督。“科学家们不再坐下来为资助申请写冗长的报告,”瑞典哥德堡萨尔格伦斯卡大学医院的神经生物学家AlmiraOsmanovicThunstr?m说,他与人合着了一篇使用GPT-3作为实验的论文。手稿。“他们只是让系统去做,”伦敦软件咨询公司InstaDeep的研究工程师汤姆图米尔说,他每天都以法学硕士作为助手来帮助编写代码。“它几乎就像一个更好的StackOverflow,”他说,指的是一个流行的社区网站,程序员可以在该网站上互相回答问题。但研究人员强调,法学硕士在回答问题时根本不可靠,有时会产生错误的回答。“当我们使用这些系统来产生知识时,我们需要保持警惕。”这种不可靠性反映在LLM的构造方式上。ChatGPT及其竞争对手通过从庞大的在线文本数据库中学习语言统计模式(包括任何不真实、有偏见或过时的知识)来工作。当LLM收到提示时(例如Greene和Pividori精心要求重写部分手稿),他们只是吐出任何在文体上看似合理的方式来继续对话。结果是LLM很容易产生虚假和误导性的信息,尤其是对于他们可能没有太多数据可供训练的技术科目。法学硕士也不能透露他们的信息来源;如果被要求撰写学术论文,他们会编造虚构的引文。“不能相信该工具能够正确处理事实或生成可靠的参考,”1月份在ChatGPT上发表在《自然机器智能》杂志上的一篇社论指出。文章地址:https://www.nature.com/articles/d41586-023-00107-z有了这些注意事项,ChatGPT和其他LLM可以成为具有足够专业知识的研究人员的有效助手,可以直接发现问题或轻松验证答案,例如计算机代码解释或建议,是正确的。但是这些工具可能会误导天真的用户。例如,在12月,StackOverflow暂时禁止使用ChatGPT,因为网站版主发现自己被热心用户发送的大量错误但看似令人信服的LLM生成的答案淹没了。这可能是搜索引擎的噩梦。缺点可以克服吗?一些搜索引擎工具,例如以研究人员为中心的Elicit,解决LLM归因问题的方法是首先使用它们的特性来指导对相关文献的查询,然后简要总结引擎找到的每个网站或文档——从而产生清晰的输出被引用(尽管LLM可能仍然会错误地总结每个单独的文档)。建立LLM的公司也很清楚这些问题。去年9月,DeepMind发表了一篇关于名为Sparrow的“会话代理”的论文。近日,首席执行官兼联合创始人DemisHassabis告诉《时代》杂志,该论文将在今年以内测形式发布。报告称,目标是开发包括引用来源能力在内的功能。Anthropic等其他竞争对手表示,他们已经解决了ChatGPT的一些问题。一些科学家表示,目前,ChatGPT尚未接受足够的专业内容培训来帮助解决技术主题。马萨诸塞州剑桥市哈佛大学生物统计学博士生KareemCarr在工作中尝试时感到很失望。“我认为ChatGPT将很难达到我需要的特异性水平,”他说。(即便如此,卡尔说,当他向ChatGPT询问解决研究问题的20种方法时,它的回答是胡言乱语和一个有用的想法——一个他从未听说过的统计术语——这使他进入了一个新的学术文献领域。)一些科技公司正在根据专业科学文献训练聊天机器人——尽管它们也有自己的问题。去年11月,拥有Facebook的科技巨头Meta发布了一个名为Galactica的法学硕士项目,该项目接受科学摘要训练,旨在使其特别擅长制作学术内容和回答研究问题。在用户使其不准确和种族主义之后,该演示已从公共访问中撤出(尽管其代码仍然可用)。“现在已经不可能随便滥用它来获得一些乐趣了。玩得开心?”Meta首席AI科学家YannLeCun发推回应批评。安全和责任Galactica遭遇了伦理学家多年来指出的一个熟悉的安全问题:如果没有输出控制,LLM很容易被用来生成仇恨言论和垃圾邮件,以及可能隐含在其训练数据中的种族主义、性别歧视和其他有害的联想。科学、技术和公共政策部主任ShobitaParthasarathy表示,除了直接产生有毒内容外,人们还担心人工智能聊天机器人可能会从其训练数据中嵌入历史偏见或对世界的看法,例如特定文化的优越性密歇根大学的项目,由于创建大型LLM的公司大多来自这些文化,他们可能很少尝试克服这种系统性和难以纠正的偏见。当OpenAI决定公开发布ChatGPT时,它试图回避其中的许多问题。它将其知识库限制在2021年,阻止其浏览互联网,并安装过滤器以试图让该工具拒绝为敏感或有毒提示生成内容。然而,要做到这一点,人工审阅者需要标记有毒文本。记者报道说,这些工人的工资过低,有些人受到了精神创伤。社交媒体公司也对工人剥削提出了类似的担忧,这些公司雇用人员来训练自动机器人来标记有毒内容。但现实情况是,OpenAI的护栏并未完全成功。去年12月,加州大学伯克利分校的计算神经科学家史蒂文·皮安塔多西(StevenPiantadosi)在推特上表示,他已要求ChatGPT开发一个Python程序,以确定一个人是否应该根据其原籍国受到酷刑。聊天机器人用代码回应,邀请用户进入一个国家,或者在某些国家,输出“这个人应该被折磨”。(OpenAI随后关闭了此类问题。)去年,一群学者发布了一个名为BLOOM的替代方案。研究人员试图通过在少量高质量的多语言文本源上对其进行训练来减少有害输出。该团队还完全开放了其训练数据(与OpenAI不同)。研究人员已敦促大型科技公司负责任地效仿这个例子——但尚不清楚他们是否会遵守。一些研究人员表示,学术界应该完全拒绝支持大型商业LLM。除了对偏见、安全问题和受剥削工人的担忧之外,这些计算密集型算法需要大量能量来训练,引发了对其生态足迹的担忧。更令人担忧的是,通过将思想转移到自动聊天机器人上,研究人员可能会失去表达自己的能力。“作为学者,我们为什么如此热衷于使用和宣传此类产品?”荷兰奈梅亨Radboud大学的计算认知科学家IrisvanRooij在一篇博文中写道,敦促学术界抵制他们的呼吁。更令人困惑的是一些法学硕士的法律地位,这些法学硕士是根据从互联网上抓取的内容进行培训的,有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制,但不包括对其风格的模仿。当这些AI生成的模仿通过摄取原件进行训练时,就会出现问题。包括StableDiffusion和Midjourney在内的一些AI艺术程序的创作者目前正在被艺术家和摄影机构起诉;OpenAI和微软(连同其附属技术网站GitHub)也因创建他们的AI编码助手Copilot而被起诉。英国纽卡斯尔大学互联网法律专家莉莲·爱德华兹(LilianEdwards)表示,强烈抗议可能会迫使法律发生变化。一些研究人员表示,因此,强制诚实使用为这些工具设定界限可能至关重要。爱德华兹建议,现有的关于歧视和偏见的法律(以及计划中的对AI的危险使用的监管)将有助于保持LLM的使用诚实、透明和公平。“那里有大量的法律,”她说,“这只是应用它或稍微调整它的问题。”与此同时,LLM的使用也出现了透明化的趋势。学术出版商(包括《自然》)说科学家应该在研究论文中披露法学硕士的使用;老师们说他们希望学生也能采取类似的行动。《科学》杂志更进一步,声明不能在论文中使用由ChatGPT或任何其他人工智能工具生成的文本。文章地址:https://www.nature.com/articles/d41586-023-00191-1一个关键的技术问题是人工智能产生的内容是否容易被发现。许多研究人员正在研究这个,其中心思想是使用LLM本身来发现AI创建的文本的输出。例如,去年12月,新泽西州普林斯顿大学计算机科学本科生EdwardTian发布了GPTZero。此AI检测工具以两种方式分析文本。一是“perplexity”,衡量LLM对课文的熟悉程度。Tian的工具使用了一个早期的模型,称为GPT-2;如果它发现大多数单词和句子是可以预测的,那么文本很可能是由AI生成的。另一种是“突发”,用于检查文本的变化。与人类书写的文本相比,AI生成的文本在语气、节奏和困惑度方面往往更加一致。对于科学家而言,反剽窃软件开发商TurnitinInc.开发的工具可能尤为重要,因为Turnitin的产品被世界各地的学校、大学和学术出版商使用。该公司表示,自2020年GPT-3发布以来,一直在研发AI检测软件,预计今年上半年推出。另外,OpenAI本身已经发布了GPT-2的检测器,并在1月份发布了另一款检测工具。然而,这些工具中没有一个声称是万无一失的,尤其是在随后编辑AI生成的文本的情况下。作为回应,德克萨斯大学奥斯汀分校的计算机科学家和OpenAI的访问研究员ScottAaronson表示,检测器可能会错误地认为一些人类编写的文本是人工智能生成的。该公司表示,在测试中,其最新工具将人工编写的文本错误标记为AI编写的文本的概率为9%,而正确识别AI编写的文本的概率仅为26%。例如,Aaronson说,例如,在指控学生仅仅根据检测器测试隐瞒他们使用AI之前,可能需要进一步的证据。另一个想法是让AI内容带有自己的水印。去年11月,Aaronson宣布他和OpenAI正在研究一种为ChatGPT输出添加水印的方法。虽然尚未发布,但在1月24日发布的预印本中,由马里兰大学帕克分校的计算机科学家TomGoldstein领导的团队提出了一种制作水印的方法。这个想法是在LLM生成输出的特定时刻使用随机数生成器,以创建一个合理的替代词列表,指示LLM从中选择。这会在最终文本中留下可统计识别但对读者不明显的选定单词的痕迹。编辑可能会删除这些痕迹,但戈德斯坦认为这需要更改一半以上的单词。Aaronson指出,加水印的优点之一是它永远不会产生误报。如果有水印,文本是用人工智能生成的。不过,他说,这并非万无一失。“如果你有足够的决心,肯定有办法击败任何水印方案。”检测工具和水印只会使欺骗性地使用AI变得更加困难——并非不可能。与此同时,LLM的创建者正忙于开发基于更大数据集的更复杂的聊天机器人(OpenAI有望在今年发布GPT-4)——包括专门用于学术或医学工作的工具。12月下旬,谷歌和DeepMind发布了一份名为Med-PaLM的以临床为重点的预印本。该工具几乎可以像普通人类医生一样回答一些开放式医学问题,但它仍然存在缺点和不可靠。加利福尼亚州圣地亚哥斯克里普斯研究转化研究所所长EricTopol表示,他希望在未来,包括LLM在内的AI甚至可以通过交叉检查来自学术界的文本来帮助诊断癌症和理解疾病。反对身体扫描图像的文献。但他强调,这一切都需要专家的审慎监督。生成人工智能背后的计算机科学发展如此迅速,以至于每个月都会出现创新。研究人员选择如何使用它们将决定他们和我们的未来。“认为在2023年初,我们已经看到了这种情况的结束,这太疯狂了,”Topol说。“这真的才刚刚开始。”
