当前位置: 首页 > 科技观察

展望2022年前的大车型未来,周志华、唐杰、杨红霞等大咖怎么看?

时间:2023-03-18 16:53:13 科技观察

岁末年初,让我们一起回顾大模的过去,展望大模的未来。28日,阿里巴巴达摩院发布了2022年十大技术趋势。其中,“大模型参数竞争进入冷静期,大模型和小模型将在云端和边缘共同进化”的论断》在人工智能领域备受关注。2021年是大机型爆发的一年。我们见证了大模型的惊艳,但也明白了当前大模型的一些局限性,比如显着的高能耗等问题。达摩院认为,超大规模预训练模型是从弱人工智能到通用人工智能的突破性探索,解决了传统深度学习的应用碎片化问题,但性能与能耗不成比例的效率问题限制了参数规模继续扩大。下一步,人工智能研究将从大模型参数竞争走向大小模型协同进化。大模型向边缘和末端的小模型输出模型能力。小模型负责实际的推理和执行。同时,小模型反馈的算法和执行结果将不断强化大模型的能力,形成智能系统的有机循环。周志华、唐杰、杨红霞等多位学术界和产业界具有代表性的专家就此发表了评论。大模型的下一步是什么?岁末年初,让我们回顾大模的过去,展望大模的未来。大模型和小模型将扮演不同的角色。南京大学计算机科学与技术系主任、人工智能学院院长周志华一方面在诸多问题上取得了意想不到的成功。另一方面,其巨大的训练能耗和碳排放也是不容忽视的问题。个人认为,未来大模型会在一些关乎国计民生的重大任务中发挥作用,而在其他场景中,小模型可能会通过类似集成学习的方式来使用,尤其是通过“复用”少量训练并整合现有的小模型以获得良好的性能。我们提出了一个叫“learningware”的想法,目前正在这方面做一些探索。大意是,假设很多人已经做出模型,愿意在某个市场上分享。市场通过制定法规来组织和管理学习软件。当人们在未来制作新的应用程序时,他们可以训练模型而无需从头开始收集数据。可以先用法规去市场看看有没有更贴近需求的车型,然后带回家用自己的数据打磨使用。还有一些技术挑战需要解决,我们正在朝这个方向努力。另一方面,可以利用人类常识和领域专业知识使模型精益化,这需要逻辑推理和机器学习的结合。逻辑推理更擅长利用人类知识,而机器学习更擅长利用数据事实。如何将两者有机结合,一直是人工智能的一大挑战。麻烦的是,逻辑推理是一个严谨的基于数理逻辑的“从一般到特殊”的演绎过程,而机器学习是一个不太严谨的“从特殊到一般”的概率近似正确的归纳过程,这在方法论上有很大的不同.现有的探索一般依赖于其中之一,并引入另一个的一些元素。近期,我们正在探索如何使双方相对平衡地相互利用。站在2022年,展望大模型的未来清华大学计算机系教授、北京致远人工智能研究院学术副院长唐杰认为,快速发展也面临着一系列挑战。新发布的《达摩院 2022 十大科技趋势》将“大小模型协同进化”列为AI模型发展的新方向,并提出“大规模模型参数竞争进入冷静期,大模型和小模型协同进化”。小模型将在云、边、端共同进化”,值得业界关注。站在岁末年初,让我们回顾2021年的大车型,展望它的2022年及以后。1.超大规模预训练模型在快速发展的同时也面临着一系列的挑战。2021年8月,斯坦福大学成立了基础模型研究中心(ResearchCenterforBasicModels,简称CRFM),基于大规模数据训练了BERT、GPT-3和CLIP,能够适应广泛的下游任务的模型统称为作为“基础模型”。尽管这一概念在学术界引起了很大争议,也有学者质疑该模型是否“基础”,但应该看到,这些模型更好地处理现实世界复杂性的能力使得它们变得更加和更重要。行业持续推进大车型研发,不断将车型规模和性能推向新的高度。1月,OpenAI发布大规模多模态预训练模型DALLE和CLIP,谷歌发布1.6万亿规模预训练语言模型SwitchTransformer。10月,微软联合英伟达发布了5300亿规模的Megatron-Turing自然语言生成模型MT-NLG。此外,大型模型应用也在不断丰富。目前,全球已有数百个基于GPT-3的商业应用。随着近期API应用的全面开放和GPT-3功能的微调,GPT-3应用生态也将加速形成。2021年也是我国超大规模预训练模型发展的“元年”。目前,致远研究院、鹏程实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业先后发布了《启蒙》、《盘古》、《紫动太初》、M6、PLUG、ERNIE3.0等大型号。尽管国内外在超大规模预训练模型方面取得了长足的进步,但也应该认识到,大规模模型的发展还存在许多重要的问题需要解决。例如,预训练模型的理论基础尚未明确(如大规模模型智能是否有参数规模限制),如何高效低成本地将大规模模型应用到实际系统中;其次,构建大规模模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍;最后,目前大多数大型模型普遍缺乏认知能力,这也是一些学者质疑此类模型是否可以称为“基本模型”的原因之一。能否通过大模型实现更通用的智能?如何实现?这些都需要学术界和工业界不断探索。2.大规模模型创造由数据和知识两个轮子驱动的认知智能。经过几十年的发展,人工智能经历了符号智能和感知智能两个时代。目前,已经走到了第三代人工智能即认知智能的大门。认知智能不仅需要基于大数据的深度学习和相应的感知识别,还需要机器具备认知和推理能力。为了让机器拥有接近人类的常识和逻辑,这就提出了数据和知识融合的迫切需求。需要。回顾人工智能的发展历程,1968年图灵奖获得者爱德华费根鲍姆开发了世界上第一个专家系统DENDRAL;互联网的发明者、图灵奖获得者蒂姆·伯纳斯-李爵士于1999年提出语义网的概念;图灵奖获得者YoshuaBengio在2019年NeurIPS大会的主题报告中指出,深度学习应该从基于感知发展到基于认知的逻辑推理和知识表达。巧合的是。与此同时,美国国防高级研究计划局(DARPA)发布了AINEXT计划。核心思想是促进数据计算与知识推理的融合计算。它还委托伯克利等机构开展SYMBOLIC-NEURALNEWORK(符号加神经网络计算)研究,目的是加快这一进程。总的来说,研究数据和知识融合的双轮驱动人工智能时代已经到来。核心是运用知识、数据、算法、算力四大要素。、常识知识和认知,主动“学习”和创造。致远研究院研发的“启蒙”大规模模型是我国具有代表性的超大规模预训练模型。它为大型模型的发展探索了另一条路径。灵测的通用机器认知能力,让机器像人一样“思考”。在开发大模型的过程中,我们初步定义了大模型需要的9种机器认知能力(T9标准):1.适应和学习能力:机器具有一定的模仿能力,可以通过模仿和反馈学习人类语言,行为;2、定义和语境化能力:机器可以根据感知到的语境场景做出反应(语言和行为反馈),并保证反应的一致性;3、自我系统接入能力:机器具有稳定的人性化设计(如:稳定的心理大五人格),在对事物产生看法时,不会随意改变看法和情绪倾向;4、优先级和访问控制能力:机器有能力发现自己观点中的矛盾和纠葛,但最终可以做出选择,并在后续行为中保持一致;5、召集和控制能力:机器可以主动搜索符合自己性格或符合自己兴趣的内容(新闻),并对其进行正面评价;反过来也可以搜索到与自己性格相悖的内容,进行反驳;6、决策和执行能力:机器可以主动搜索内容信息,统计其他机器和人类的意见和倾向,根据自己的个性做出决策。有利的决策和执行;7.错误检测和编辑能力:机器可以自动对无法判断的事物进行假设并跟踪。如果发现假设错误或不完整,它可以自动编辑和更正;8、反思和自我监控能力:机器具有自动检查的能力,如果发现执行的操作不正确,具有自我监控和纠正的能力;9.有序性和灵活性之间的能力:机器可以自动计划并确保操作执行之间的顺序;同时,如果发现组织不端正,有一定的灵活性,可以纠正自己的行为。完全实现以上九种机器认知能力还有很长的路要走,但我们坚信下一波人工智能的兴起必然伴随着认知智能的实现,让机器能够推理、解释,并认识。在多项人类感知和认知任务中超越图灵测试。大模型探索认知智能发展一年,取得了阶段性进展。3.大模型的未来《达摩院 2022 十大科技趋势》提出,大模型和小模型将在云、边、端共同进化。大模型向边缘和端部的小模型输出模型能力,小模型负责实际的推理和执行。同时,小模型将算法和执行结果反馈给大模型,使大模型的能力不断增强,形成智能系统的有机循环。这种观点具有指导意义,有助于大型模型从实验室走向大规模工业应用。在我看来,未来大规模的研究会更加注重原始创新,注重认知智能和高效应用。在认知智能方面,模型参数不排除进一步增加的可能,甚至达到万亿、千万亿的规模,但参数比拼本身并不是目的,而是探索性能进一步提升的可能性。大规模模型研究还注重结构的原始创新,通过持续模型学习、加入记忆机制、突破三重知识表示方法等方式,进一步提升万亿级模型的认知智能能力。就模型本身而言,多模态、多语言、面向编程的新模型也将成为研究的重点。在高效应用方面,将大大降低大模型的使用门槛,让大模型用起来,推动中小企业形成“大模型+小数据精细化”的人工智能产业化发展模式。调”。主要实现:1)降低成本:降低模型在预训练、适配下游任务、推理中的算力消耗;2)提速:通过模型蒸馏、模型裁剪等方式,提升千亿级以上模型的推理速度23)搭建平台:通过搭建一站式开发应用平台,提供全流程预处理从在线模型构建、在线模型部署、应用发布的培训服务,可支持数十万应用的开发和部署。相信后续大模型的广泛应用,将成为我国经济高质量发展的关键助推器。快慢思维,下一代人工智能阿里巴巴达摩院人工智能科学家杨红霞一直试图从大脑的工作模式中汲取灵感,但大脑如何思考是一个非常复杂的课题。诺贝尔经济学奖得主丹尼尔·卡尼曼教授指出,人类的思维方式有两种。很多时候我们下意识地以快速模式做出反应。比如每天从家到公司的路线都是一模一样的,不用想太多,按原路走就行了,这就是思维快。什么是慢思考?突然有一天,公司到家的路正在修,需要重新规划路线。这个时候,我得慢慢想了。基于大脑的思维模式,解决下一代人工智能的核心认知推理问题是我们团队近年来最重要的目标。GPT-3激起了人们对大型模型开发的极大热情。但是,由于大型模型的能耗和效率问题,学术界提出了是否必须使用大型模型的问题。通过大量实践探索,我们认为大模型和小模型可以共同发展,分别承担慢思考和快思考的任务。云上的大模型可以容纳海量的知识,就像一个可以慢速思考的超级大脑,而小模型与端部的大模型协作,可以进行快速思考。近年来,随着深度学习领域预训练技术的快速发展,预训练大模型(bigmodels)逐渐进入人们的视野,成为人工智能领域关注的焦点。大模型在文本、图像处理、视频、语音等多个人工智能领域取得重大突破,逐渐成为人工智能的基础模型。同时,大模型也在积极与生命科学领域融合,包括在蛋白质、基因等方面,在细胞分类、基因调控关系发现、细菌耐药性分析等任务中具有广阔前景.可以认为大模型是目前解决推理和认知问题的最先进的工具。但是,预训练大模型还有几个问题需要突破。例如:1、目前主流的做法是先训练大模型(PretrainedModel),得到参数规模大、精度高的模型后,基于下游的任务数据,通过剪枝和细化来压缩模型的体积——调整方法(Finetune),以在不损失准确性的情况下减轻部署压力。目前业界还没有找到直接训练小模型获得满意准确率的通用方法;2、训练千亿、万亿模型动不动就需要几千块GPU卡,这给大模型的推广和普惠带来了极大的挑战;3.预训练模型的Pretraining阶段,参数较多。目前,大量的非结构化数据主要用于训练。如何将其与知识等结构化数据相结合,使模型更有效地实现认知推理,也是一个非常大的挑战。我们在解决大模型需要突破的问题上做了很多尝试,可以作为业界的参考。今年11月,我们发布了全球首个10万亿参数的多模态大模型M6。与去年发布的GPT-3相比,相同参数的模型能耗仅为1%,降低了大模型的实现门槛。推动普惠人工智能的发展。我们今年10月份对外开放的云服务平台是目前业界覆盖下游任务最广泛的平台,涵盖了各种单模态和跨模态的理解和生成任务。目前,M6已应用于阿里巴巴50多个不同的业务场景。未来,除了通过低碳化发展绿色人工智能,通过平台化应用推动普惠人工智能,突破认知推理,我们更希望大模型积极探索与科学应用的结合。潜在的科学应用方向可能包括脑神经连接图绘制、脑机接口、透明海洋等领域。在形成更高效、更广泛的智能体系方面,云、边、端的大小模型协同演化带来新的可能。我们也积极探索并大规模实施快速思考在边缘与大模型协作的小模型。大模型可以输出到小模型的侧端和端部,让小模型更容易获得通用知识和能力。小模型侧重于特定场景下的极致优化,提升性能和效率;同时,小模型将执行结果反馈给大模型。解决了以往大型模型数据集过于单一的问题。最终整个社会不需要重复训练类似的大模型。模型可以共享,计算能力和能源使用效率可以最大化。该模型有望构建下一代人工智能的基础设施,进一步提升人工智能的通用能力。在经历了符号主义的衰落和深度学习的繁荣之后,我们来到了一个新的交汇点。科技的进程往往是靠天才般的灵感和大量的实践来推动的,人工智能的演进也是如此,不断在趋同和发散之间寻找突破口。大型模型是一个激动人心的里程碑。我们接下来应该去哪里?我们或许会不断追问自己,在快思与慢思中获得新的启迪。