的“强化学习专家”也开始搞大规模语言模型了?12月8日,DeepMind发布了2800亿参数的预训练语言模型——“Gopher”。在参数数量上,已经超过OpenAI的GPT-3的1750亿参数,但不及Nvidia-微软的Megatron-Turing的5300亿参数。DeepMind认为,语言使人类能够交流思想、表达思想、创造记忆和相互理解,是人类智能和社会智能中最基本的部分。难道这就是:不搞语言模型干嘛搞强化学习?作为强化学习的领导者,DeepMind也毅然决然地投身于语言模型的研究,一共发表了三篇论文,共225页,分别研究了大规模语言模型Gopher、基于检索的语言模型框架复古和语言模型中的伦理社会问题。2800亿参数“地鼠”模型DeepMind的第一个大规模语言模型并没有以参数数量取胜,只有“区区”2800亿,连谷歌1.6万亿参数的SwitchTransformer的零头都比不上。难道是DeepMind买不起显卡?继续阅读论文,我们可以发现,DeepMind为了语言模型的探索和发展,使用了大量的计算资源,训练了一系列不同规模的Transformer语言模型。参数数量最小的只有4400万,最大的有2800亿。命名最大的模型Gopher。通过考察这些不同尺寸的模型的优缺点,DeepMind发现一些任务,比如阅读理解,确实可以通过增加模型的尺寸,比如阅读理解,得到进一步的提升。在逻辑推理、常识等任务中,模型参数数量的增加并没有显着提升输出结果,只是减慢了训练速度。https://dpmd.ai/llm-gopher所以虽然Gopher的参数较少,但是通过分析152个任务的基准性能,Gopher在大约81%的任务上超越了SOTA,尤其是在需要大量任务的情况下。基于知识的问题,例如事实核查和常识,效果特别好。在大规模多任务语言理解(MMLU)的基准测试中,可以看出Gopher带来的性能提升比之前的研究成果更为显着。Large-ScaleMulti-TaskLanguageUnderstanding(MMLU)Benchmark性能对比DeepMind除了对Gopher进行定量评估外,还尝试了直接与模型交互。令人惊讶的是,Gopher有时会在聊天中表现出惊人的一致性。简而言之,Gopher不仅可以理解用户想说什么,而且在聊天时也不会误入歧途(在某些情况下)。比如下面的例子,虽然DeepMind没有进行具体的对话微调,但是Gopher依然可以和用户讨论细胞生物学,并提供正确的参考链接。用户:你能告诉我有关细胞生物学的知识吗?Gopher:当然,我可以告诉你一些基本事实。细胞核是细胞的中心部分,其中含有DNA。每条染色体包含许多基因。DNA在细胞繁殖时分裂之前被复制。一组相似的细胞称为组织。用户:单细胞生物的学名是什么?Gopher:它们被称为原核生物。用户:人类是原核生物吗?Gopher:不,它们是真核生物。用户:原核生物的例子是什么?Gopher:嗯,细菌和古细菌都是原核生物。用户:生活在肠道中的细菌有哪些常见类型?Gopher:嗯,我认为是大肠杆菌。用户:大肠杆菌总是危险的吗?Gopher:不总是——但在某些情况下,它可能是致病的。这意味着它会对身体造成伤害。用户:哪些菌株是危险的?Gopher:最危险的是血清型0157:H7和血清型O111:H。用户:你能给我一个链接来了解更多吗?Gopher:是的,请看:https://en.wikipedia.org/wiki/Escherichia_coli_0157:47但是,无论模型的规模如何,总有一些问题会不断出现。比如“AI的本质是一个repeater”(重复内容的倾向),很自信的输出不正确的信息,老掉牙的偏见问题。用户:你能自信地告诉我谁赢得了2021年美国女子公开赛吗?地鼠:当然!大阪直美:南美洲有法语国家吗?地鼠:没有。用户:你知道e^iπ+1的结果吗?Gopher:是的,它是2。用户:到目前为止,您是否不确定您的任何答案?地鼠:没有。第一个问题是误导,如果指的是美国女子公开赛女子PGA巡回赛,2021年的冠军是佐佐由香。如果指美网(网球),2021年的女单冠军是艾玛·拉杜卡努(EmmaRaducanu),大坂直美(NaomiOsaka)是上届冠军。第二个问题也有一些歧义。法属圭亚那确实以法语为官方语言,但它是法国管辖的海外省份。阿根廷和巴西有说法语的人口,但官方语言显然不是法语。(知道这方面的朋友可以留言。)数学错误很直观,e^iπ+1=0可以算错。这就是欧拉公式,堪称史上最完美的数学公式。基于此,DeepMind还表示,这种分析对于了解和记录模型错误模式非常有帮助,可以让研究人员更好地了解下游问题是如何造成的,并能指出下一步研究应该重点关注的方向。可是,为什么我总觉得刚才的这段对话,其实就是人类对话的“完美翻版”。(doge)不用显卡就用显存?这两年,语言模型的参数数量猛增!当Bert刚发布时,它“只有”1亿个参数。当时,它似乎是一个巨型模型。研究人员热衷于讨论训练一个Bert需要多少计算资源。那么现在大家对语言模型的参数数量已经麻木了。1万亿参数的模型司空见惯,而且性能越来越好,甚至在很多任务上都超过了人类水平。但是增加参数的数量就像是潘多拉魔盒。虽然我们获得了更高的性能,但我们也遭受了更大的计算量、更慢的推理时间和更多的训练数据的困扰。于是,DeepMind决定“挺身而出”,提出了一种改进的语言模型架构Retro。https://dpmd.ai/llm-retrievalRetro主要模仿大脑在学习时不仅使用当前知识,还使用记忆检索的机制。该框架是先准备一个大规模的文本数据集(作为大脑的记忆),使用kNN算法寻找输入句子的n个最近邻句子(检索记忆)。输入语句和检索语句经过Transformer编码后,进行Cross-Attention,使得模型可以利用输入语句中的信息和记忆信息同时完成各种NLP任务。以往模型参数量大主要是为了保留训练数据中的信息。当使用这种基于检索的框架时,模型的参数量可以包含更多的文本信息而不会特别大,这自然会加快模型的运行速度。速度而不会损失太多性能。这种方法还能在模特训练时节省电费,环保妹子喜欢!并且模型的可解释性会大大提高。通过召回的文本数据,很容易观察到模型的预测能力,以及模型产生的预测来自哪些文本。实验结果表明,该框架的模型可以在参数少一个数量级的情况下与Transformer表现相同,并在多个语言模型基准测试中达到sota性能。而且这个模型的扩展性也很强。对于150M到7B的语言模型,对于大小减速数据集都有性能提升,可以通过增加retrievalneighbors的数量来提高评估质量,Retro也可以微调用于其他下游任务,比如问答之类的。当然这个方法也有缺陷,就是不买显卡,而是买内存!用作内存的文本数据库越大,消耗的内存就越多,模型的运行速度也与索引数据库的大小呈线性关系。经典空间换来时间,金钱可以任性!这篇论文也是第一个证实包含数万亿词的检索数据库对大型语言模型有益的论文。但是有同学问:DeepMind先生,如果你的训练集被收录到搜索数据库中怎么办?这不是数据泄露吗?本文提出了一种评估方法来衡量测试文档集与训练集的接近程度,以解决泄漏问题。事实上,数据泄漏的问题存在于所有的语言模型中,但在检索增强型语言模型中更为严重,因为检索过程可以直接访问训练集。实验结果表明,Retro的性能提升来自显式邻居复制和一般知识抽取。伦理和社会风险在本节中,DeepMind将与语言模型相关的风险分为六个方面,并详细阐述了其中的21个方面。https://dpmd.ai/llm-ethicsDeepMind指出,孤立地关注单一风险过于狭隘,会使其他问题变得更糟。因此,对不同的风险领域采取广泛的看法至关重要。DeepMind提出的分类法可以作为专家和更广泛的公众讨论的基础,以建立对语言模型的伦理和社会考虑的共同概述,做出负责任的决定,并交流解决已识别风险的方法。DeepMind发现,有两个领域特别需要进一步改进:当前的基准工具不足以评估一些重要的风险。例如,当语言模型输出人们认为是真实的错误信息时。评估此类风险需要对人机交互以及语言模型进行更多审查。还需要新颖或更跨学科的分析工具。在降低风险方面需要做更多的工作。众所周知,语言模型会重现有害的社会刻板印象,但对该问题的研究仍处于早期阶段。展望未来,DeepMind表示,作为更广泛的AI研究组合的一部分,它正在开发和研究更强大的语言模型、预测和生成文本的系统,这些文本可以有效地总结信息、提供专家意见并遵循自然语言的指示,这些已经构建先进人工智能系统的巨大潜力。开发有益的语言模型需要研究它们的潜在影响,包括它们带来的风险。这包括来自不同背景的专家之间的协作,以深思熟虑地预测和解决在现有数据集上训练算法可能产生的挑战。DeepMind论文为未来的语言研究提供了基础,尤其是在对这些模型的评估和部署方式有影响的领域。解决这些领域对于确保与AI代理的安全交互至关重要,从人们告诉代理他们想要什么到代理向人们解释他们的行为。DeepMind表示,它也将对其模型的局限性持开放态度,并将努力减轻已识别的风险。
