当前位置: 首页 > 科技观察

和男朋友约会问语言模特?性质:抛砖引玉,总结笔记,GPT-3变身当代“科研工作者”

时间:2023-03-15 15:09:13 科技观察

让一只猴子在打字机上随意按键,只要给的时间够长,莎士比亚全集也可以被打出来。如果猴子理解语法和语义怎么办?答案是即使是科学研究也能帮到你!语言模型的发展非常迅速。几年前,只能在输入法上自动补全下一个要输入的单词。今天,它可以帮助研究人员分析和撰写科学论文并生成代码。大型语言模型(LLM)的训练一般需要海量的文本数据做支撑。2020年,OpenAI发布了拥有1750亿参数的GPT-3模型。写诗和做数学题几乎可以做到生成模型能做到的事情。GPT-3已经做到了极致。即使在今天,GPT-3仍然是很多语言模型可以比较和超越的基线。GPT-3发布后,迅速在推特等社交媒体上引发热议。大量研究人员对这种古怪的“类人书写”方式感到惊讶。GPT-3的在线服务发布后,用户可以随意输入文字,让模型返回以下内容。加工750字最低费用仅为0.0004美元,堪称物美价廉。最近在Nature专栏的科技专题上发表了一篇文章。没想到这些语言模型除了能帮你写小论文,还能帮你“搞科研”!让机器帮你思考雷克雅未克冰岛大学计算机科学家HafsteinnEinarsson说:我几乎每天都使用GPT-3,比如修改一篇论文的摘要。Einarsson在6月的一次会议上准备文案时,虽然GPT-3提出了很多无用的修改建议,但也有一些有用的建议,比如“在摘要的开头让研究问题更清晰”,而这种问题你自己你看稿子是不会意识到的,除非你让别人给你读,为什么这个别人就不能是“GPT-3”?语言模型甚至可以帮助您改进实验设计!在另一个项目中,Einarsson想要使用Pictionary游戏来收集参与者之间的语言数据。在给出游戏描述后,GPT-3给出了一些修改游戏的建议。理论上,研究人员还可以要求对实验方案进行新的尝试。一些研究人员还使用语言模型来生成论文标题或使文本更具可读性。斯坦福大学计算机科学系教授、博士生MinaLee,采用向GPT-3输入“使用这些关键词生成论文标题”的方式作为提示,模型会帮你拟定几个标题.如果有些章节需要重写,她还会使用以色列特拉维夫AI21实验室发布的人工智能写作助手Wordtune。只需点击“改写”即可转换改写段落的多个版本,然后仔细选择即可。Lee还会要求GPT-3为生活中的一些事情提供建议。例如,在询问“如何向父母介绍男朋友”时,GPT-3建议去海边的餐厅。DomenicRosati是纽约布鲁克林科技创业公司Scite的计算机科学家,他使用生成语言模型来重组他的思维。链接:https://cohere.ai/generateGenerate由加拿大NLP公司Cohere开发。该模型的工作流程与GPT-3非常相似。你只需要输入笔记,或者随便说一些想法,最后加上“总结”或者“把它变成一个抽象的概念”,模型就会自动为你整理你的想法。为什么要自己写代码?OpenAI研究人员在大量文本上训练GPT-3,包括书籍、新闻故事、维基百科条目和软件代码。后来,团队注意到GPT-3可以完成代码和普通文本。研究人员创建了一个名为Codex的算法微调版本,使用来自代码共享平台GitHub的超过150G的文本进行训练;GitHub现已将Codex集成到Copilot的服务中,以协助用户编写代码。华盛顿西雅图艾伦人工智能研究所AI2的计算机科学家LucaSoldaini说,他办公室里至少有一半的人在使用Copilot。Soldaini表示,Copilot最适合重复编程的场景。比如他有一个项目,涉及到编写处理PDF的模板代码,Copilot直接完成。但是Copilot完成的内容经常会出错,所以最好用一些熟悉的语言来使用。文档检索语言模型最成熟的应用场景可能是文档的搜索和汇总。AI2开发的SemanticSc??holar搜索引擎使用TLDR的语言模型为每篇论文给出类似于Twitter长度的描述。该搜索引擎涵盖了大约2亿篇论文,其中大部分来自生物医学和计算机科学领域。TLDR的开发是基于Meta早先发布的BART模型,然后AI2研究人员在人工编写的摘要的基础上对模型进行了微调。按照今天的标准,TLDR并不是一个大型语言模型,因为它只包含大约4亿个参数,而最大版本的GPT-3包含1750亿个。TLDR还用于语义阅读器,这是由AI2开发的扩展科学论文应用程序。当用户在语义阅读器中使用文本内引用时,会弹出一个信息框,其中包含TLDR的摘要。SemanticSc??holar的首席科学家DanWeld说,这个想法是使用语言模型来增强阅读体验。当语言模型生成文本摘要时,模型可能会生成某些文章中不存在的事实。研究人员称这个问题为“错觉”,但实际上语言模型纯粹是捏造或撒谎。TLDR在真实性测试中表现良好,论文作者对TLDR的准确性打了2.5分(满分3分)。Weld说TLDR更符合实际,因为摘要只有大约20个词长,也可能是因为算法不会把文中没有出现的词放到摘要中。在搜索工具方面,位于加利福尼亚州旧金山的机器学习非营利组织Ought在2021年推出了Elicit。如果用户问它“正念对决策有何影响?”它将输出一个包含十篇论文的表格。用户可以要求软件在栏中填写摘要和元数据等内容,以及有关研究参与者、方法和结果的信息,然后使用包括GPT-3在内的工具从论文中提取或生成这些信息。马里兰大学帕克分校的JoelChan的研究方向是人机交互,每当他开始一个新项目时,都会使用Elicit来搜索相关论文。斯德哥尔摩Karoline研究所的神经科学家古斯塔夫·尼尔森(GustavNilsonne)也使用Elicit查找包含可以添加到汇总分析中的数据的论文,使用该工具查找在其他搜索中找不到的文档。不断发展的模型AI2的原型赋予了LLM一种未来主义的感觉。有时,研究人员在阅读了一篇科学论文的摘要后会有疑问,但还没有时间阅读全文。AI2的一个团队也开发了一种工具,可以回答NLP领域的这些问题。该模型首先要求研究人员阅读NLP论文的摘要,然后提出相关问题(例如“分析了哪五个对话属性?”)。研究小组随后请其他研究人员在阅读整篇论文后回答这些问题。AI2训练了另一个版本的Longformer语言模型,将一篇完整的论文作为输入,然后使用收集到的数据集生成其他论文上不同问题的答案。ACCoRD模型可以为150个与NLP相关的科学概念生成定义和类比。在使用MS2(一个包含470,000个医学文档和20,000个多文档摘要的数据集)对BART进行微调后,研究人员能够提出一个问题和一组文档,并生成一个简短的元分析摘要。2019年,AI2微调了谷歌2018年创建的语言模型BERT,在SemanticSc??holar的论文上创建了1.1亿参数的SciBERTSCite,利用人工智能创建了科学搜索引擎,进一步微调了SciBERT,使其搜索引擎列表时引用目标论文的论文,这些论文被归类为支持、对比或以其他方式引用该论文。罗萨蒂说,这种细微差别有助于人们识别科学文献中的局限性或差距。AI2的SPECTER模型也基于SciBERT,它将论文简化为紧凑的数学表示。Weld说,会议组织者使用SPECTER将提交的论文与同行评审员进行匹配,而SemanticSc??holar使用它来根据用户的存储库推荐论文。希伯来大学和AI2的计算机科学家TomHope表示,他们有一些研究项目可以微调语言模型,以识别有效的药物组合、基因与疾病之间的联系,以及COVID-19研究中的科学挑战和方向。但是语言模型能否提供更深入的洞察力,甚至是发现能力?5月,Hope和Weld与微软首席科学官EricHorvitz共同撰写了一篇评论,概述了实现这一目标的挑战,包括“(推断)重新组合两个概念的结果”的教学模型。Hope说这和OpenAI的DALLE2图像生成模型“生成一只猫飞入太空的图片”基本是一回事,但我们如何才能走向结合抽象和高度复杂的科学概念呢?这是一个开放性问题。今天,大型语言模型已经对研究产生了真正的影响,如果人们还没有开始使用这些大型语言模型来辅助他们的工作,他们就会错失这些机会。参考资料:https://www.nature.com/articles/d41586-022-03479-w