当前位置: 首页 > 科技观察

ChatGPT成功背后的技术原因及其对生命科学领域的启示

时间:2023-03-15 22:09:42 科技观察

早在20世纪50年代,就有学者提出人工智能(ArtificialIntelligence)的概念,其目的是让计算机拥有人类智能(或部分人类智能)。这个领域经过多年的发展,直到2012年深度学习技术的出现,仍然没有突破。深度学习主要是解决模型表示能力的瓶颈。我们面临的建模问题,如图像理解、语言翻译、语音识别、分子-蛋白质结合构象预测等技术,都是非常复杂的非线性问题。这些复杂的问题得到了准确的表述。深度学习技术理论上可以通过模型的层层堆叠构建任意深度的模型,突破模型表示能力的瓶颈,从而在语音识别、计算机视觉、自然语言理解等领域取得突破。深度学习技术的出现,标志着人工智能进入了一个新的阶段。让我们把2012年左右由深度学习驱动的人工智能浪潮称为新一代人工智能时代(其实在语音识别领域,深度学习的应用可以追溯到最早,但是鉴于现在很多深度学习的后续进展均来自计算机视觉领域,我们以2012年AlexNet的出现为起点)。这一时期可以认为是深度学习驱动的新一代人工智能的第一阶段,即标记数据驱动的深度学习模型,大大提高了模型的表示能力,从而推动人工智能技术的显着提升,以及计算机视觉和语音。领域的认可已经取得了产品和商业上的成功。这个阶段的主要限制是它非常依赖于标记数据的数量。由于模型参数较多,求解如此多的模型参数需要大量的训练数据作为约束。获取大量标注数据的成本非常高,达到亿级后很难提升,数据支持的有效模型规模也有限。2012-2015年期间,计算机视觉是最活跃的领域,出现了包括ResNet在内的各种深度网络模型。2017年,一个重要的基础作品Transformer出现了。2019年,在一直未能取得重大突破的自然语言处理(NLP)领域,一项名为BERT的工作脱颖而出,在十多个不同的自然语言处理(NLP)任务中取得了最好的成绩。这些任务之间的差异非常大,因此BERT的工作发表后,立即引起了整个领域的关注。BERT采用了一种叫做self-supervisedpre-training的思想,可以在不标注数据的情况下,只利用文本语料本身的约束来训练模型(比如句子的某个位置只能使用某些有限的词),这样就可以利用互联网上现有的优质语料进行训练,无需人工标定,使得可用的训练数据量一下子得到了极大的提升,再加上大模型,BERT模型的效果远超与过去的模型相比,它在不同任务之间具有良好的通用性,已成为NLP领域的里程碑之一。其实在BERT出现之前的2018年,还有一个叫GPT(即GPT1.0)的工作,早前使用了自监督预训练的思想来进行文本生成,即输入前面的文本,并且模型预测了以下文本的输出,无需标注即可训练出领域内高质量的语料。BERT和GPT都是在Transformer的基础上发展起来的,Transformer逐渐发展成为AI领域的通用模型。GPT1.0的效果并不惊人。BERT出现后不久,GPT迅速发布了GPT2.0,模型大小和训练数据量都有了很大的提升,作为通用模型(即不使用下游任务进行训练,直接测试结果)在大多数任务中。有模型。但是由于BERT模型在特征表示上比GPT2.0模型更有优势,更容易训练,所以这个阶段最受关注的工作还是BERT。但在2020年7月,GPT3.0横空出世,1700亿的参数让大家惊叹。更重要的是,从效果上来说,GPT3.0是一个通用的语言模型。你只需要给它提供一个简单的描述,表明你要生成根据提示,它可以生成可执行代码,生成网页或图标,完成一篇文章或新闻,写诗作曲,无需再训练。GPT3.0出现后受到了业界的广泛关注,很多开发者基于GPT3.0做出了很多有趣的应用。GPT3.0成为最好最受关注的文本生成模型。自监督预训练技术出现后,我们可以认为新一代人工智能已经发展到第二阶段,即自监督预训练技术使可用的训练数据提高了几个数量级震级。在训练数据大幅增加的支持下,模型的规模也提升了几个数量级(有效模型达到千亿规模),并且在模型效果上,这些模型不再依赖关于下游任务域数据的再训练,所以该领域已经进入了基于自监督预测的领域。训练的通用大型模型时代。此后,GPT3.0和该领域的其他工作引发了一波模型规模的军备竞赛,但真正具有突破性的技术却鲜有出现。大家意识到仅仅增加模型尺寸并不能从根本上解决问题。就在大家期待GPT4.0等后续工作的时候,GPT已经整整两年没有更新了。这一时期人工智能领域最活跃的工作主要集中在多模态统一模型和内容生成两个方面。多模态统一模型,希望构建多模态或跨模态统一模型,试图在一个模型中统一表示文本、图像、语音等不同模态数据,包括最早的跨模态表示模型CLIP,以及随后的一系列多模态统一表示模型。在内容生成领域,一方面,在技术层面,已经出现了DiffusionModel这样的基础模型,DiffusionModel和一系列变体模型的发展使得AI生成内容领域(AIGC)变得炙手可热,从图像生成领域扩展到自然语言处理和生命科学领域;另一方面,在应用层面,基于文本的图像生成领域取得了很多实质性进展,其中最具代表性的工作是DALLE2,模型可以按照输入文本的描述输出看起来逼真,甚至当文字描述超出现实时,它仍然可以生成看起来与文字描述合理契合的图像,如下图所示。DALLE2等一系列工作的成功,一方面得益于大量的文本-图像对应数据(约数亿对),对文本和图像语义之间的对应关系进行建模,另一方面另一方面,这是由于扩散模型。GAN、VAE等模型训练难度大,生成效果细节不足以保留缺陷。图像生成的惊人效果甚至让很多人相信人工智能已经可以创造内容。数字。DALLE2代生效时间来到2022年11月末,OpenAI发布ChatGPT。ChatGPT发布后,大家发现这个聊天机器人很不一般,经常给出惊人的答案。对话机器人领域出现过很多对话机器人,比如苹果的Siri,微软的小冰小娜等,这些通用对话系统的体验都不是很理想,大家拿来调侃一下,扔到一边。对于智能音箱等产品中使用的执行命令的问答机器人,系统框架是基于规则驱动的对话管理系统,存在大量的人工规则,导致这些系统无法扩展一方面针对一般领域,只能提供简单和程式化的答案,另一方面,无法处理多轮对话的环境语义信息(Context)。从技术角度来看,ChatGPT与原来的主流对话系统完全不同。整个系统基于一个大的深度模型。对于给定的输入,经过深度模型的处理后,直接输出一个抽象的摘要答案。在产品体验上,ChatGPT也远超以往的聊天系统。作为一个通用的聊天机器人,几乎可以回答任何领域的问题,准确率达到了人类愿意继续使用的要求,在多轮对话的场景下依然保持着非常好的体验.当然,ChatGPT并不完美。ChatGPT作为深度学习模型,存在不能100%准确的缺陷。对于一些需要精确回答的问题(如数学计算、逻辑推理或人名等),会出现一些可察觉的、明显的错误。后来,出现了一些改进工作。例如,一些工作会提供参考网页链接以获取信息。在Facebook的最新作品ToolFormer中,它试图将特定的任务分配给特定的API在生成模型中进行计算,而不是使用通用模型。这有望克服模型不是100%准确的问题。如果这条路走得顺利,深度生成模型有望成为AGI的核心框架,想到将其他技能API与插件整合起来,也是一件令人兴奋的事情。在商业上,一方面,ChatGPT引发了人们对谷歌等搜索引擎挑战的想象,另一方面,大家也看到了各种与自然语言理解相关的垂直产品应用机会。毋庸置疑,ChatGPT正在自然语言理解领域掀起一个或可与搜索推荐相媲美的新商机。为什么ChatGPT会有如此惊人的效果?其中一个核心原因是ChatGPT是基于大规模生成模型GPT3.5构建的,这应该是自然语言理解领域文本生成最好的模型(GPT3.5比GPT3.5使用的数据更多,模型更大)GPT3.0,效果更好)。第二个核心原因是基于人类反馈的强化学习技术,即ReinforcementLearningfromHumanFeedback(简称RLHF)。由于OpenAI没有发表关于ChatGPT的论文,也没有公开代码,一般认为它最接近于之前一篇文章InstructGPT(https://arxiv.org/pdf/2203.02155.pdf)中披露的技术).如下图所示,根据InstructGPT中的描述,第一步是收集用户对同一问题不同答案的偏好数据;第二步是使用这个偏好数据重新训练GPT模型,这是基于监管信息的微调;第三步,根据用户对不同答案的偏好,训练一个打分函数,给ChatGPT的答案打分,反映用户对不同答案的偏好;第四步是使用这个评分函数作为强化学习方法。反馈(Reward)训练强化学习模型,使ChatGPT的最终输出更倾向于用户喜欢的答案。通过以上过程,ChatGPT在GPT3.5的基础上,为用户输入输出更加人性化的答案。ChatGPT第一阶段训练GPT生成模型使用了大量的训练数据,大约几十TB,训练一个模型需要花费数千万美元,而第二阶段基于少量高质量的数据反馈在强化学习上只需要几万。好数据。我们可以看到ChatGPT技术是在自监督预训练大模型的基础上结合基于人类反馈的强化学习技术,取得了非常显着的进步。这种新范式可能成为人工智能第三阶段的核心驱动技术,即首先基于大模型的自监督预训练,结合基于少量高质量数据反馈的强化学习技术形成模型和数据的闭环反馈,获得进一步的技术突破。关于ChatGPT,我们的观点如下:(1)ChatGPT确实是这个时代最伟大的作品之一,让我们看到了基于自监督预训练和基于强化学习反馈策略结果生成大型模型后惊人的AI对少量高质量数据的影响,从某种意义上说,改变了我们的认知。(2)ChatGPT相关技术具有巨大的商业价值,使得包括搜索引擎在内的众多产品面临被重构或颠覆的机会,这无疑会带来很多新的商机,整个NLP领域都将从中受益。(3)基于自监督预训练生成大型模型的学习范式和基于少量高质量数据的强化学习反馈策略有望成为未来各领域进步的驱动力。除了NLP领域,它有望应用于生命科学、机器人和自动驾驶等领域。新一轮的人工智能热潮已在各个领域引发。(4)ChatGPT并不能证明人工智能已经拥有了人类的心智。ChatGPT表现出的一些创意和心思,是因为自然语言理解语料库包含语义和逻辑,基于自然语言语料库训练的生成模型具有统计显着性。学会了这些对应关系,它似乎有智慧,但并不是真正的人类思维。ChatGPT很厉害,但是说他的智力和几岁小孩的智力相当,还不够严谨。因为从根本上说,AI目前还不具备学习新知识、进行逻辑推理、想象和运动反馈的能力。对ChatGPT的智能和能力的过度投机将驱逐好钱并损害整个行业。(5)在这一领域,我国技术还存在差距。在过去的两年里,我们还没有看到真正复制GPT3.0效果的文本生成模型。没有GPT3.0和3.5,就没有ChatGPT。GPT3、GPT3.5、ChatGPT等作品不开源,连API都被中国屏蔽,这是复制作品面临的实际困难。悲观地说,大多数团队想要复制ChatGPT的效果都不会成功。(6)ChatGPT不是一两个研究人员做出的算法突破,而是一个非常复杂的算法工程体系在先进理念指导下的结果,需要在团队和组织中进行匹配(类比OpenAI和DeepMind)。一个纯研究型的团队不一定能成功,对深度学习了解不够或过于工程化的团队也不会成功。这个团队需要:首先,要有足够的资源支持来支持昂贵的深度学习培训和人才招聘;第二,必须有在行业内实际领导过工程大型模型团队的专家带头人。ChatGPT不仅有算法的创新,更是工程系统的创新;第三,可能也是最重要的,需要一个团结协作的组织,统一领导,不追求发表论文(松散的组织有利于算法创新,但不利于工程算法的突破),并配备够优秀的工程和算法人才了。(7)我们不仅追求做一个ChatGPT,更继续追求背后的技术创新,即大力发展自监督预训练生成大模型和基于少量的强化学习反馈策略技术高质量数据,这是下一代ChatGPT的核心技术,也是推动人工智能领域全面进步的技术。最令人担忧的是,由于炒作导致权力分散,大量资源将被浪费,或者过度推广ChatGPT会损害行业。(8)ChatGPT仍有提升空间,并不是唯一值得关注和期待的技术。关于AI最常见的误解是高估其短期表现而低估其长期表现。这是一个AI成为核心驱动力的伟大时代,但AI不会这么快就无所不能,需要我们长期的努力。在此,我们简单总结一下自2012年以来深度学习引发的新一代人工智能浪潮中的关键技术演进:(1)第一阶段,关键进展是标记数据驱动的有监督深度学习模型,大大提高了模型表示。能力,从而推动人工智能技术的重大进步。这个阶段最活跃的领域是计算机视觉和语音识别。主要的限制是标记数据相对昂贵,这限制了可以获取的数据量,进而限制了数据可以支持的有效模型。尺寸。(2)第二阶段,重点进展是自监督预训练大数据驱动的通用大模型。自监督预训练技术将可用的训练数据提高了几个数量级,从而支持模型尺寸也增加了几个数量级。改进成为通用模型,不需要依赖下游任务领域的数据再训练。自然语言理解领域在这一阶段取得的进展最大,最为活跃;主要局限是需要海量数据训练,模型非常庞大,训练和使用成本非常高,重新训练垂直场景模型也很不方便。(3)第三阶段,虽然目前还不能定论,但呈现出一定的趋势。未来非常重要的关键技术在于,能否在大模型的基础上采用强化学习、提示等方法,仅用少量高质量的数据,就能显着影响大模型的输出。如果这项技术奏效,它将大大有利于无人驾驶、机器人和生命科学等数据采集成本高昂的领域。过去,如果要改进AI模型的问题,就必须收集大量数据来重新训练模型。如果说,在需要离线交互的机器人领域,在预训练好的大模型的基础上,只有告诉机器人一些真实场景中正确和错误的动作选择,才能影响机器人的决策,那么无人驾驶领域驾驶和机器人技术将对技术产生重大影响。迭代会更有效率。在生命科学领域,如果只有少量的实验数据反馈就能显着影响模型的预测结果,那么生命科学与计算融合的革命就会来得更快。在这一点上,ChatGPT是一个非常重要的里程碑,相信未来会有很多工作要做。让我们回到我们比较关心的生命科学领域。由于ChatGPT带来的技术进步改善了大部分NLP相关领域,因此生命科学领域的信息查询检索和提取相关的技术和产品将首先受益。比如未来有没有可能在生命科学领域有一个对话式的垂直搜索引擎?专家可以向它提出任何问题(比如关于疾病、靶点、蛋白质等的问题),一方面,它可以给出全面的趋势。判断(也许不是那么精确,但大概是正确的,有助于我们快速理解一个领域),另一方面,它可以给出关于一个主题的相关且有价值的信息,这无疑会显着提高专家的信息处理效率。另一个例子是是否可以建立一个人工智能医生。患者可以咨询疾病和治疗方法方面的知识(受限于技术限制,AI无法给出准确答案,更不能代替医生),但可以给出很多信息供参考和跟进。怎么办,体验肯定会明显好于现在的搜索引擎。生命科学领域还有许多重要的任务没有解决,如小分子-蛋白质结合构象和亲和力预测、蛋白质-蛋白质相互作用预测、小分子表征和性质预测、蛋白质性质预测、小分子生成、蛋白质设计、逆合成路线设计等任务。目前,这些问题还没有得到完美解决。如果这些任务取得突破,药物发现乃至整个生命科学领域都将迎来翻天覆地的变化。基于大模型的AIGC领域,以及基于专家或实验反馈的RLHF领域,都将受益于ChatGPT的推动,必将引领新一轮的技术进步。其中,AIGC(人工智能内容生成)技术在过去一年中在小分子生成和蛋白质设计领域取得了不错的进展。我们预测在不久的将来,以下任务将显着受益于AIGC生成技术的发展,从而产生技术进步:(1)小分子生成和优化技术,即如何不依赖活性配体信息,而是基于蛋白质口袋的结构信息生成考虑了配体小分子的活性、成药性和合成等各种条件。这部分技术将显着受益于AIGC领域的发展;问题、小分子和蛋白质结合构象预测任务也将受益于AIGC相关技术的发展;(3)蛋白质、多肽、AAVs等序列设计领域必将受益于AIGC技术的发展。上述AIGC相关任务,以及几乎所有需要实验验证反馈的任务,包括但不限于活性预测、性质预测、合成路线设计等,都将有机会受益于RLHF带来的红利技术。当然也有很多挑战。受限于可用数据量,目前在生命科学领域使用的生成模型还比较浅,主要使用GNN等浅层深度学习模型(GNN受限于消息传递的流畅性,层数可以只用到3层左右),虽然生成效果体现出不错的潜力,但还是不如ChatGPT那么惊艳。然而,基于专家或实验反馈的强化学习技术受实验数据生成速度和生成模型表示能力不足的限制,需要一定的时间才能呈现出令人惊叹的结果。但是,从ChatGPT技术的演进趋势推导出,如果我们能够训练出一个足够深度、足够表现力的大规模模型,并利用强化学习进一步提升基于少量高阶生成的大规模生成效果。无论是优质的实验数据还是专家的反馈,我们都可以期待AIDD领域必将迎来一场革命。总之,ChatGPT不仅是自然语言理解领域的一次技术进步,还将引发信息服务和内容生成领域的新一轮商业趋势。强化学习技术是更长期的进步驱动力,将在生命科学等领域带来长足发展。我们将迎来又一波人工智能技术进步和产业落地。