当前位置: 首页 > 科技观察

2022,大模型还能走多远_0

时间:2023-03-13 07:37:28 科技观察

2022年,大机型还能走多远?2021年是大牌层出不穷的一年。自去年OpenAIGPT-3发布以来,华为、谷歌、致远、快手、阿里、英伟达等厂商在今年相继推出了自己的大规模模型。人工智能行业已经开始了新一轮的激烈竞争,而且愈演愈烈。.AI大模型作为通用人工智能的探索路径之一,不仅是可能产生原始创新和长期影响的领域,更是催生更多世界级成果的平台。概述自2018年BERT模型问世以来,华为、阿里、腾讯、谷歌、微软、英伟达等国内外巨头纷纷投入巨资打造自己的大模型,并将其视为下一个AI的必争之地场地。高地。百家争鸣必有深层次的必然原因。众所周知,“落地难”已经成为制约人工智能“技术水平”、“应用规模”、“产业进步”的最大瓶颈。进一步研究表明,高昂的开发成本和技术壁垒形成了无形的壁垒,使得技术链和产业链严重脱节。这种生态脱节必然导致“小作坊式”的人工智能开发模式。这意味着需要重新做耗时耗力、复杂繁琐的数据采集、标注、训练等工作,这无疑会加重开发者的负担,增加企业的应用成本。大机型的出现,意味着“产业化”发展模式的到来。得益于大模型的高泛化能力和高通用性,可以重新整合AI开发,建立通用的“预训练大模型+下游任务微调”的流水线。面对不同的应用场景,这套pipeline可以得到有效的复用。开发者只需要少量的行业数据,就能快速开发出精度更高、泛化能力更强的AI模型。大规模模型开发现状在某种程度上,大规模模型开发的规模似乎已经超越了摩尔定律。据统计,其参数规模每年至少增加10倍。2021年,我们可以看到各大学术机构和科技公司都在大力投入建设自己的大模型,大大拓展自己的能力和技术路径。今年1月,谷歌发布了人类历史上第一个万亿级模型SwitchTransformer。3月,北京致远研究院发布启蒙1.0,6月发布启蒙2.0,参数规模突破100亿。4月,华为云盘古机型发布。这是业界首个千亿参数的中文预训练模型。它不局限于自然语言处理(NLP)等人工智能的单一领域。一个全能人工智能,多个热门方向。7月,中科院自动化所还推出了全球首款三模态大模型:紫动太初。兼具跨模态理解和生成能力,可以同时处理文本、视觉、语音三个方向的问题。8月,实验室宣布将自主研发的深度学习框架“河图”融入Angel生态,北大与腾讯团队将共同打造Angel4.0——面向人工智能领域的新一代分布式深度学习平台。海量训练数据、超大模型参数的深度学习训练场景,为业界带来全新的大规模深度学习解决方案。9月,浪潮发布巨型模型“元1.0”,参数量2457亿,训练中文数据集5000GB。与美国的GPT-3模型相比,元1.0的参数规模领先40%,训练数据集规模领先近10倍。11月,英伟达和微软联合发布了拥有5300亿参数的“MT-NLG”。近日,阿里达摩院宣布其多模态大模型M6最新参数从万亿级跃升至10万亿级,超越谷歌和微软此前发布的万亿级模型,成为全球最大的AI预训练模型。如果说直观的参数对比就像外行看热闹,那么落地能力才是真正考验大机型实力的。目前,在落地层面,各大科技巨头都在进行相关的落地探索。在各行业应用方面,华为云盘古模型已应用于能源、零售、金融、工业、医疗、环境、物流等行业100多个场景,提升了AI应用开发效率。企业平均减少90%。此外,阿里达摩院研发的M6具备多模态和多任务能力,认知和创造能力超越传统AI。已应用于支付宝、淘宝、天猫业务,尤其擅长设计、写作、问答。在电子商务、制造、文艺、科研等领域具有广阔的应用前景。值得注意的是,目前大模型多为线下应用。对于线上应用,需要考虑知识蒸馏、低精度量化等模型压缩技术、项目实时性等一系列复杂的项目问题。大型模型的分类1.按模型架构分:单一模型和混合模型。其中比较著名的单体模型有:OpenAI推出的“GPT-3”、微软-英伟达推出的“MT-NLG”模型、浪潮推出的“Source1.0”等。混合模型有谷歌的“SwitchTransformer”、致远研究院研究院的“启蒙”、阿里的“M6”、华为云的“盘古”等。其中,谷歌“SwitchTransformer”采用MixtureofExperts(MoE)模式对模型进行拆分,得到的结果是稀疏激活模型,大大节省了计算资源。致远《启蒙2.0》1.75万亿参数再次打破万亿参数记录。值得注意的是,它不再专注于单一领域的模型开发,而是各个领域的综合体系。2、按应用领域分:目前大模型的热门方向有NLP(中文)大模型、CV(视觉)大模型、多模态大模型、科学计算大模型。目前自然语言处理领域比较流行的单体大模型有:“GPT-3”、“MT-NLG”和“Source1.0”。令人惊讶的是,研究表明在NLP领域取得成功的自监督预训练模型也可以用在CV任务上,而且效果非常突出。大模型卡点在大模型性能取得一系列突破的同时,其背后的卡点也开始引起社会关注。首先,构建大型模型并不容易,需要消耗大量的数据、计算能力、算法等软硬件资源。从短期来看,这种巨大的资源消耗不仅是企业和科研机构的沉重负担,而且符合全球节能环保和我国双碳(碳达峰、碳中和)目标,在一定程度上矛盾的。如何在资源有限的情况下实现大型模型的低能耗进化,是一个不小的挑战。其次,大模型还缺乏统一的评价标准和模块化的流程。大尺寸模型的研发还处于起步探索阶段。市场中有资质的企业和机构在竞相竞争的同时,必然导致优质中心化资源的重新分化,产生各种烟囱式的评价标准、去中心化的算法模型结构,进而可能导致碎片化评价体系的探讨。再次,创新不足。一个大模型的应用价值取决于它的泛化能力,而不是参数规模越大越好。大模型的优秀与否,不仅取决于数据的准确性和网络结构,更取决于其软硬件结合能力与行业的较量。目前,业界过分强调高参数集、强大算力模型的研发,而忽视了网络模型的创新和与业界的协同创新。最后就是登陆应用慢。业内人士普遍认为,AI大模型最大的挑战在于如何让更多的行业和场景真正落地。目前应用还是以企业内部项目为主。如何改变这种闭门造车的局面,如何快速适配应用场景,是大车型最大的价值和难点。大模型去哪儿了?1、大模型的参数红利还是从百万、千万、亿到千亿、万亿。随着参数规模的增加,大模型的表现也符合研究人员的预期,已经接近人类水平。.可以预见的是,未来一段时间内,大机型的规模化还有待提升。可能的变化是,人们不再只是增加计算能力,而是更多地得到并行计算、软硬件协同等技术的支持。值得注意的是,出于实际实现的考虑,一些小参数模型也在悄然出现。2.大模型走向多领域通用大模型的初衷是让训练出来的模型具备不同领域的认知,兼具泛化能力和自我进化能力。例如,NLP领域的大模型在CV领域复用时,已经被证明是极其有效的;GPT-3还展示了从大量未标记数据中学习的一般能力,并且不限于特定任务。最近出现的多模态预训练大模型就是最好的证明。大模型的未来需要创新,大模型将致力于构建通用的人工智能算法底层架构,将模型的认知从单一领域泛化到多领域融合,在不同场景下自我成长,并成为可持续、可进化的发展方向。3.更易于使用的开源平台。大模型的开源是大势所趋,这也是很多机构都在努力推动的。微软、IDEA、致远研究院等大部分机构的开源还处于浅层,只能调用算法包,排队等候训练。未来大模型要走出实验室,需要在算法体系、标准体系、基础平台、数据集、工程测试等各个方面进行开放。4、“预训练大模型+微调”的标准易用工作流程确实加快了AI开发者的步伐,但如果建立合适的工作流程,大模型将被用在更多场景中。闪耀。此外,未来大模型的评估将采用标准化、成熟的体系进行衡量。该系统也将成为行业公认的标准,以规范模型的通用性和易用性。同时,用这个标准来衡量大机型的优劣,而不是今天的自吹自擂。5、大模型能力的端到端未来大模型的一些计算和存储能力会固化在一些端侧的硬件设备中,比如芯片,这样就不需要再花时间去调用算力和资源了在使用过程中重新安装的模型。数据可以随时调用和使用。目前的模型大多是重装的大型模型,需要巨大的计算能力和运行时间才能使用。未来的大机型会逐渐改变这种模式。大牌会有哪些商业模式?更多人关心的是,大牌未来会有什么样的商业模式。可以从三个层面来想象:1、以大模型为基础。基地可以出售或出租给国家创新中心和政府机构,也可以与它们共同合作向上发展。2.做开源。大模型涉及的很多技术问题,很难靠一家公司解决。它们可以通过开放技术和社区的力量、共享IP和互惠互利来解决。3.提供给一般ISV(独立软件供应商)。让大模型走出实验室,直接面对各行各业的客户,是行不通的。通过向ISV开放能力,他们可以接触到更多的下游客户。联系方式有两种:一种是按流量计费或按项目计费;另一种是让用户免费使用,通过流量广告变现。总结与展望今天,大模型盛况与深度学习时代非常相似。然而,作为通向认知智能的高层次探索,大模型还有很长的路要走。能否持续提升自身的创新能力、泛化能力、执行能力,将成为突破性变革的关键。或许在未来几年,这样的状态会逐渐形成:以大模型为基础的产业生态,用大算力培养最高层次的智能,为各种AI应用提供源源不断的智能服务。而这一切都需要时间来证明。会议推荐如今,人们对人工智能的期待不仅仅局限于感知智能。新一代人工智能在多模态大模型的支持下,正逐步踏上认知智能之旅。未来人工智能热潮能否进一步打开天花板,形成更大的产业规模,认知智能的突破是关键。在2022年5月14-15日的WOT全球科技创新大会上,以“认知智能发展新趋势”为主题,多位来自产学界的人工智能技术专家将聚焦多模态多语言大模型和智能搜索并推荐方向,为您带来深入的技术分享。感兴趣的同学点击链接:http://wot.51cto.com/act/wot2021/dev?www1。