大尺度模型的出现开启了AI研究的新纪元,其带来的成果提升显着,超越了很多领域的具体研究问题设计具体算法实现的改进。具体来说,Finetune预训练新范式最本质的特征就是统一的框架和统一的模型。首先,更统一的架构。在预训练出现之前,CNN、RNN、Gate、Attention等算法框架层出不穷。2017年Transformer出现后,统一的框架取代了各种流行的框架。第二,这个统一的框架通过预训练机制带来了统一的模型,所以我们现在可以使用统一的模型进行fine-tuning,从而可以同时用在大量的下游任务上。那么,大模型时代有哪些新问题亟待关注和探索?因此,我想与大家分享十个值得深入探讨的问题。希望更多的研究者在大模型时代找到自己的研究方向。试题如下:1.理论:大模型的基本理论是什么?2.架构:Transformer是终极框架吗?3.能源效率:如何让大型模型更高效?4.适配:大模型如何适配下游任务?5、可控性:如何实现大模型的可控生成?6.安全:大模型如何提升安全伦理?7.认知:如何让大模型获得高级认知能力?8、应用:大机型有哪些创新应用?9.评估:如何评估大型模型的性能?10.易用性:如何降低大模型的使用门槛?01理论:大模型的基本理论是什么?首先我觉得大模型第一个很重要的问题就是它的基础理论问题。大模型一个很重要的特点就是可以用非常少的下游任务数据去适配相关的下游任务。无论是fulldownstreamtask的训练数据,few-shotlearning,甚至是zero-shotlearning,都能取得相当不错的效果。影响。同时,在从预训练到下游任务适配的过程中,需要调整的参数数量可以非常少。这两个特点是大模型带给我们的新现象。对于这个现象,我们有很多问题要问:第一,什么——什么是大模型?我们应该有什么样的更好的数学或分析工具来对大型模型进行定量或理论分析,这本身就是一个非常重要的问题。第二,How——大模型为什么好?大模型是怎么做到的?预训练和微调有什么关系?大模型到底学到了什么?这些是How问题。最后,Why——为什么大模型学得好?这方面已经出现了一些非常重要的研究理论,包括超参数化等理论,但最终理论框架的面纱还没有被揭开。面对What、How和Why这三个方面,大模型时代有很多值得探讨的理论问题。02架构:Transformer是终极框架吗?第二个问题,目前大模型使用的主流基础设施,Transformer已经提出了5年(2017年提出)。我们已经看到,随着模型规模的不断增长,性能提升逐渐表现出边际收益递减。那么Transformer是终极框架吗?有没有可能找到比Transformer更好更高效的框架?这也是一个值得探讨的问题。神经网络本身受到神经科学的启发,我们可以在其他学科的支持下探索下一代大型模型框架。其中,来自数学的灵感包括非欧空间Manifold的框架,以及如何将一些几何先验放入模型中。这些都是最近比较新的研究方向。我们也可以从工程和物理学的角度来考虑这个问题,比如状态空间模型、动力系统的角度等等;第三个方面来自神经科学,面向类脑人。最近有人在研究SpikingNeuralNetwork,以上这些都是新颖架构的前沿研究。下一代大模型框架到底是什么?目前还没有标准答案,这本身就是一个亟待探索的问题。03能效:如何让大模型更高效?第三个问题是大模型的性能问题。随着大模型越来越大,计算和存储成本的消耗自然会增加。最近有人提出了GreenAI的概念,即需要考虑计算能耗来综合设计和训练人工智能模型。面对这个问题,我们认为随着模型变得越来越大,人工智能将越来越需要与计算机系统相结合,从而提出更高效的大型模型支持系统。一方面,我们需要构建更高效的分布式训练算法。在这方面,国内外有很多相关的探索,包括国际知名的DeepSpeed和Enlightenment团队正在开发的一些加速算法。另一方面,一旦训练和使用了一个大模型,模型的“大”会使推理过程变得非常缓慢,因此另一个前沿方向是如何尽可能高效地压缩模型以加快推理速度在维护它的同时。影响。该领域的主要技术路线包括剪枝、蒸馏、量化等。同时,我们最近发现在大型模型中存在非常强烈的稀疏分布现象,这对模型的高效压缩和计算有很大的帮助,这就需要一些专门算法的支持。04适配:大模型如何适配下游任务?第四个问题,大模型一旦训练好,如何适应下游任务?较大的模型在已知任务上表现更好,同时也显示出支持未定义的复杂任务的潜力。同时我们会发现,随着大模型越来越大,适配下游任务的计算和存储开销也会明显增加。如果你看看2020年到2021年顶会的论文,你会发现越来越多的论文在使用预训练模型,但是真正使用大模型的论文还处于很低的水平。一个很重要的原因是,尽管全球已经开源了很多大模型,但是对于很多研究机构来说,他们仍然没有办法让大模型适配下游任务。这是大型模型的一个非常重要的方面。一个重要的研究前沿,一个很重要的方向其实就是刚才唐杰老师提到的PromptTuning。通过在预训练过程中将下游任务的形式改为类似于所谓的掩码语言模型的形式,适配过程变得更加顺畅和容易。另一个非常重要的前沿实际上是参数有效学习或DeltaTuning。基本思路是只调整大模型中的一些非常小的参数,让模型可以非常快速的适配下游任务,这会让适配过程变得困难。它将变得如此困难。这方面是大模型如何快速适配下游任务的关键问题。这是一个非常前沿的方向。刚才唐总也提到了,我们其实已经开源了OpenPrompt和OpenDelta两个工具来支持这方面的快速研究。欢迎大家使用,提出相关意见和建议,甚至投稿。05可控性:如何实现大模型的可控生成?第五个问题是大模型的可控生成。目前,大型模型已经可以生成一些新的文本或图像,但是如何在生成过程中准确地加入我们想要的条件或约束,是大型模型非常重要的研究方向。这个方向的技术方案也有很多,包括唐老师提到的思路,加入一些提示,让生成进程接受我们提供的条件。这方面也有一些未解决的问题,比如如何建立一个统一可控的生成框架,如何实施更好的评估方法,对生成的文本进行概念甚至事实自洽测试,以及如何关联新数据.一代。06安全:大车型安全伦理如何提升?第六个问题,目前的大模型本身在安全伦理方面的考虑比较少。其实大模型很容易被攻击,稍微改变一下输入可能就不行了。此外,大模型的使用也存在一定的伦理问题,这些问题需要我们对大模型进行有针对性的约束。对此,包括黄敏烈老师在内的团队也在做一些工作。我们发现大模型特别容易被有意识地植入一些后门(backdoor),从而使大模型在某些特定场景下做出特定的反应。这是非常重要的安全问题。此外,之前的研究表明,随着模型变大,它会变得越来越有偏见和不可信。这种信任度下降的趋势是我们需要探讨的问题。07认知:如何让大模型获得高级认知能力?第七个问题,人类的高级认知能力可以被大模型学习到吗?可以制作大型模型来像人类一样执行某些任务吗?为了完成一个任务,人们通常会做几件事:首先,我们会尝试将这个任务拆分成几个简单的任务;其次,我们会获取一些与这些任务相关的信息;高级推理来完成更复杂的任务。这也是一个值得探索的前沿方向。WebGPT等国际尝试已经开始让大模型学习使用搜索引擎等。我们甚至会问,大模型能否像人一样学会上网,有针对性地获取一些相关信息,然后完成任务。08应用:大模型有哪些创新应用?第八个问题是大模型在多领域的创新应用。近年来,《Nature》封面文章出现在各种应用中,大模型开始在其中扮演着至关重要的角色。这方面比较著名的工作是AlphaFold,它对整个蛋白质结构的预测产生了巨大的影响。未来在这个方向上,关键问题是如何将领域知识加入到AI擅长的大规模数据建模和大规模模型生成过程中。这是将大规模模型用于创新应用的重要命题。09评估:如何评估大模型的性能?第九个问题,大模型越来越大,结构、数据源、训练目标的种类越来越多。这些模型的性能提升有多大?我们还有哪些工作要做?关于大模型的性能评价,我们需要一个科学的标准来判断大模型的优劣。致远在这方面也做出了相应的努力,所以我们提出了“致远指数”的概念。10易用性:如何降低大模型的使用门槛?最后,我们认为大模型在统一框架和模型的支持下已经展现出非常强大的实力,未来有望在各种场景中得到广泛应用。为了更广泛的应用,需要解决的问题是如何降低其使用门槛。在这方面,我们应该从历史数据库系统和大数据分析系统中得到启发。构建大型模型系统,在底层计算设备、系统支撑、用户界面、应用普适性等方面统一考虑。.对此,在清华大学和致远研究院的支持下,我们目前正在研发大模型支撑系统,可以在训练、微调、推理、后置等各个环节提供全流程的高效计算支持。加工。该系统预计将于3月底正式发布。现在可以在Internet上获得单独的套件。欢迎使用大模型系统,更好地畅游大模型时代,进行前沿探索与应用。综上所述,以上十个问题是我认为非常重要和值得探索的方向。希望更多的学生和研究者发现大模型时代值得研究的问题。这是一个全新的时代。一些老问题消失了,更多的新问题出现了。我们期待着一起探索它们。
