3月20日,北京致远人工智能研究院召开“致远五道1.0人工智能研究成果发布会”北京市科委、中关村管委会副主任许心超出席会议并致辞。
中国人民大学、中科院等高校,美团、快手、搜狗、一等科技、智浦华章、易网智、循环智能等AI企业,以及新华社代表通讯社等应用机构出席会议,致远研究院发布了超大规模智能模型“启蒙1.0”。
“启蒙1.0”是我国首个超大规模智能模型系统。
由致远研究院、清华大学学术副院长唐杰·教授领衔,以及来自北京大学、清华大学、中国人民大学、中国科学院等单位的人工智能研究人员。
科学家团队联合攻关,取得了多项国际领先的人工智能技术突破,形成了超大规模的智能模型训练技术体系,训练了中文、多模态、认知、蛋白质预测等一系列模型,并勇于探索。
着手发展通用智能。
走在前列,建设我国人工智能应用基础设施。
同时,我们将与领先企业联合开发工业级示范应用,加快构建大规模智能模型应用生态系统。
“启蒙”模式:北京推进通用智能发展的重要举措 图片:北京市科委、中关村管委会党组成员、副主任许心超 北京市科委副主任许心超国家科技委、中关村管委会在讲话中指出,“十四五期间,北京国际科技创新中心建设将走新路径,关键是能力建设和创新能力建设”。
北京将依托人工智能领域的科技资源和产业发展优势,支持建设致远研究院等一批世界一流的新型研发机构,积极布局人工智能基础研究,加强人工智能基础研究。
研究关键核心技术,推动人工智能走在前列。
此外,北京将充分发挥中关村国家自主创新示范区和中国(北京)自由贸易试验区的政策优势,为高校等创新主体打造更好的科研生态、技术生态、产业生态人工智能领域的机构、企业。
。
北京正在超前部署通用智能发展,支持致远研究院牵头建设“超大规模人工智能模型训练平台”。
今天发布的“启蒙1.0”就是这个平台的重要组成部分。
通过超大规模信息智能模型、生命模型发展,推动电子信息、生物医学等基础科学研究范式转变,加快科研进程。
同时,鼓励创新企业和个人开发者基于大模型构建更多智能场景应用,赋能实体经济智能化升级,推动经济高质量发展。
“启蒙”模型:旨在从更本质的角度进一步探索通用智能。
会上,智源研究院院长黄铁军教授介绍了开发“启蒙”模式的初衷。
他认为,这波人工智能浪潮的基本特征是“数据+算力+算法=模型”。
模型凝聚了训练数据的内在规律,是实现人工智能应用的载体。
近年来,人工智能的发展逐渐从“细化大模型”阶段转向“细化大模型”阶段。
通过设计先进的算法,整合尽可能多的数据,聚集大量的计算能力,集中训练大型模型,被大量企业使用,这是必然趋势。
图片:致远研究院院长黄铁军表示,一个智能模型不仅要规模大(主要体现在参数数量上),还要有高智商才能满足各种应用需求,这就需要克服很大的困难。
技术挑战的数量。
例如:如何让预训练的模型具有与人类相同的逻辑、意识、推理的认知能力?如何统一对图像、文本、视频等多模态数据和信息的理解和建模?如何将中文融入到预训练模型中,推动人工智能在中文应用背景下的发展?预训练模型如何深度融入自然科学研究,在现有基础上进一步实现超长/复杂蛋白质序列的建模和预测?作为一家以创新人工智能源头为使命的新型研究机构,致远研究院于今年10月正式启动超大规模智能模型“启蒙”项目,开发既是人工智能又是超大规模训练模型。
博大精深,从更本质的角度进一步探讨普遍应用。
人工智能。
同时,构建大规模智能模型应用生态系统,推动相关机构和个人开发者基于模型开发各类新型智能应用,服务我国实体经济产业升级。
成立“启蒙”模型技术委员会:汇聚国内大模型研发顶尖人才,指导大模型战略布局和关键技术研究 图片:致远大模型技术委员会(部分),从左至右依次为黄铁军、唐杰、南鄂伟、文继荣、万晓军、刘志远、杨志林为更好地推进“启蒙”大模型的研发工作,保持研发过程中的技术领先,在本次发布中,还设立了9名学术界人士。
由业内顶尖科学家组成的“启蒙”大型模型技术委员会。
该委员会主席是清华大学的唐杰·教授。
委员会成员包括:北京大学院士鄂维南、清华大学鲁白·教授、中国人民大学人工智能与信息学院院长文吉荣·教授、教授系常务副主任刘志远清华大学计算机系教授黄敏烈,清华大学计算机系常务副教授,北京大学王选计算机研究所研究员万晓军,一流技术创始人袁金辉,杨志林,循环智能联合创始人。
未来,技术委员会将对大模型开发的技术方案和路线选择提供指导和把控。
“启蒙1.0”:我国首届超大规模智能模型大会,“启蒙”模型技术委员会主任、致远研究院学术副院长唐杰·教授介绍了“启蒙”的战略布局和阶段性成果模型。
据介绍,《启蒙1.0》已提前启动四款大型车型的开发。
图:致远学术副院长唐杰介绍“五道”大型模型团队 1、五道·文渊:针对中文的预训练语言模型 “五道·文渊”是一个“以中文为基础的大规模预训练模型”核”。
目标是构建全球最大的以中文为核心的预训练语言模型,实现中文、英文等多种主流语言的最佳处理能力,并在文本分类、情感分析、自然语言推理等方面实现最佳处理能力在多项任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,开展类脑语言模型研究。
目前,“五道·文渊”模型拥有26亿个参数,具备记忆、理解、检索、数值计算、多语言等多种能力,覆盖开放域答题、中文问答等20种主流中文语言。
语法错误纠正和情感分析。
对于自然语言处理任务,技术能力与GPT-3相当,达到现有中文生成模型的领先效果。
2、无道·闻澜:中国第一个公开的图文并茂的通用多模态预训练模型“无道·闻澜”是一个“超大规模多模态预训练模型”。
目标是突破基于图文视频结合的预训练模型。
解决了预训练多模态数据的理论问题,最终生成工业级中文图文预训练模型及应用,并在多项评估应用中超越国际最高表现。
目前,“五道·文澜”模型拥有10亿个参数,并基于从公共来源收集的10,000个图文对进行训练。
它是第一个公开的中文通用图文多模态预训练模型。
目前,该机型的性能已达到国际领先水平。
在中国公共多模态测试集AIC-ICC的图像生成和描述任务中,成绩比冠军队伍高出5%;在图像和文本互检任务中,得分比目前最好的流行的 UNITER 模型高出 20%。
“五道·文澜”模型已对外开放API。
发布会上,为了演示如何使用“悟·文澜”模型,致远研究院联合中国人民大学高瓴人工智能研究院、宜兰群智公司推出了两款基于该模型的小应用。
其中,“启魂”AI小程序可以为用户上传的照片添加文字。
“AI心情电台”小程序可以利用图片和歌词的相关性,为用户上传的照片搭配最合适的音乐。
图:“五道·文澜”模型根据图片自动匹配歌曲 3、五道·文慧:我国首个具有认知能力的超大规模预训练模型“五道·文慧”是“新型超大规模” “认知规模预训练”“训练模型”致力于从认知角度研究通用人工智能中的一系列更本质的问题,重点是进一步完善和发展基于逻辑、意识的预训练模型的认知能力和推理。
目标是发展千亿到万亿级参数的预训练模型体系,构建性能超过国际水平的更通用的预训练模型,同时形成认知智能生态系统时间。
目前,“五道·文慧”模型参数规模达到1亿。
在多项任务中,“无道·文慧”的表现已经接近突破图灵测试。
通过简单的微调,实现了AI诗歌、AI绘画、AI视频制作、图文生成、图文检索、复杂推理等。
例如,“五道·文慧”模型可以应用于电商行业自动撰写产品文案等场景。
可以在阿里巴巴电商场景进行微调,输入如下图片。
“五道·文慧”模型可以生成如下文字:旗袍是一种古典款式,不仅展现女性优雅气质,而且还有很好的修饰身材的效果。
这款旗袍采用经典的圆领设计,穿着舒适自在。
同时还能凸显出女性的颈部线条,让你更加迷人。
精湛的刺绣工艺让整件衣服看起来更加精致,凸显出女性的魅力。
图片:“五道·文汇”模型根据图片自动撰写产品文案。
此外,《无道·文慧》在图灵测试中达到了接近人类诗歌写作水平。
图:“悟·文慧”模式实现的自动诗歌创作。
“悟·文慧”模型还可以实现“图文并茂”,自动制作动画。
图:“无道·文慧”模型实现“无道·文宿” 4、无道·文宿:超大规模蛋白质序列预测预训练模型“无道·文宿”是一个“超大规模——规模蛋白质序列预测预训练模型”,最终目标是以遗传领域的认知图谱为指导,开发出规模达十亿参数、可处理超大规模的预训练模型。
长蛋白序列,在基本性能、可解释性、鲁棒性等方面达到世界领先水平。
。
目前,“五道·问速”在蛋白质方面已完成基于GB UniParc数据库训练的BERT模型,并完成基于50,000-100,000个人外周血免疫细胞(25-30种细胞类型)和10,000个耐药细胞的BERT模型就基因而言。
对药用细菌进行数据训练,同时构建训练软件框架并验证其可扩展性。
据唐杰·教授介绍,本次发布的“启蒙”大模型1.0版本已完成百亿、千亿参数的预训练,在多项国际评测中排名全球第一,在一些领域具有一定的认知度。
任务。
能力。
今年,后续迭代版本将陆续发布并向业界开放。
“启蒙1.0”:构建超大规模预训练模型技术体系,实现多项国际领先的AI技术突破。
在科研方面,“启蒙1.0”模型正在逐步构建和完善超大规模预训练模型技术体系,并取得了多项成果。
全球领先的人工智能技术的突破。
1、基础性能方面,在自然语言理解与生成、跨视觉和文本理解与检索等多项任务中取得了较好的表现(1)《五道·文慧》提出了一种新的预训练范式GLM,生成成为核心,突破BERT和GPT的瓶颈。
历史上第一次,单个模型可以在三个任务上取得最佳结果:理解、生成和 seq2seq。
相同训练量下,超越BERT、RoBERTa、T5等常见预训练模型。
(2)“五道·文澜”发布首个公开的中文通用图文多模态预训练模型,能够基于图文弱相关性理解“内涵信息”。
2、为了有效利用预训练模型,提出了高效的算法(1)《五道·文汇》提出了一种基于连续向量的微调方法,P-Tuning。
自回归模型历史上首次在理解任务上超越自编码模型,并在知识提取(LAMA)和少样本学习(Superglue Fewshot)等10多项任务中排名全球第一,性能提高20%以上; (2)“五道·文慧”提出了逆提示算法,显着改进了语言模型,对生成结果的控制大大超越了目前最好的方法,在问答和诗歌生成任务中首次接近人类水平实现基于现代题材的古诗词创作; (3)“五道·文渊”发布开源中文预训练模型CPM,并进一步开源微调算法代码。
基于此的模型蒸馏技术CPM-Distill可以减少38%的语言混乱,在下游任务中取得更好的效果; (4)“五道·文澜”与OpenAI的CLIP模型不同,采用了更先进的跨模态对比学习算法:给定一定的图文对,基于MoCo思想,针对每种模态扩展负样本数量尤其是难以区分的负样本,进一步提高神经网络的表达能力。
3、进一步实现规模和性能扩展面临的挑战(1)“五道·文宿”发布并开源万亿参数模型训练基石FastMoE,是第一个支持高性能MoE(混合专家模型) PyTorch框架)系统不再受Google软件和硬件的限制,支持多种硬件。
只需要一行代码即可完成MoE改造。
与传统PyTorch实现相比,模型训练速度提升47倍; (2)“启蒙·文澜”图像和文本编码器可以轻松替换为最先进的单模态预训练模型,立即达到增加模型表达能力的目的。
在预测阶段,速度是UNTER模型的20倍,并且易于部署。
4、全球最大的中文语料库WuDaoCorpora建成并开放。
WuDaoCorpora数据集的数据规模达到2TB,比之前全球最大的中文语料库CLUECorpus大十倍以上。
同时,重点去除数据中包含的隐私信息,防止隐私泄露。
此外,WuDaoCorpora拥有丰富的数据源,包括新闻咨询、评论、百科全书、论坛、博客、学术论文等,使得数据集适用于不同类型的自然语言处理任务,训练出来的模型具有更强的泛化性。
此外,WuDaoCorpora的数据标签非常完整。
该语料库包含医疗、法律、金融等领域的标签。
可以根据需要提取特定领域的数据,用于训练该领域的模型。
它还可以用于训练大型模型。
微调和构建特定领域的应用程序。
该数据集不仅为“启蒙”项目提供数据支持,还可用于训练中文自然语言处理领域的各类任务模型,包括文本生成模型、词嵌入模型、问答对话模型等.,对于国际自然语言处理领域的发展将产生积极的推动作用。
应用生态“三步走”:探索“启蒙”大模式的生态发展 在发展模型的同时,致远研究院也在同步探索“启蒙”模式的应用生态建设模式。
按照唐杰·教授的说法,后续的“启蒙”模式将以开放API(应用程序编程接口)的形式提供服务。
用户申请并获得授权后,可以基于模型API开发各种智能应用。
此外,社区版模型将开源,服务我国AI科学研究的发展。
图片:致远研究院学术副院长唐杰。
唐杰·教授表示,下一步,“启蒙”模式的应用生态建设将分为三个主要阶段,重点关注示范应用、API生态、社区运维。
第一阶段是构建演示应用程序。
它将建设电子商务、智能文本服务、垂直领域和多个独立的示范应用。
将开放多款优质应用demo,支持用户在平台页面使用和测试。
第二阶段是API和平台生态建设。
将设计多种API来支持模型的不同请求方式,并构建支持高并发和高速推理的API接口,分别支持企业级用户和个人独立开发者对模型或特定功能的需求。
要求。
第三阶段是社区运营和迭代,将逐步扩大在线评测,构建开发者和用户的社区,建立完整的使用反馈机制,并作为模型迭代的参考标准。
同时加强社区维护和管理,加速模型迭代。
。
目前,致远研究院已启动第一期示范应用建设,正在与快手、搜狗、阿里巴巴、智浦华章、依兰群智、循环智能、新华社等机构就模型的应用进行洽谈。
共同建设一批工业级示范应用。
下一步,致远研究院将加强用户开发,做好用户服务,与领先的AI企业共同开发更多工业级示范应用。
还将加快API生态建设和社区运营迭代,并组织学术交流、技术挑战等活动,增加“启蒙”模式的影响力,吸引更多AI企业、研究机构、个人开发者等开展开展基于模型的应用开发工作,推动建设国际领先的超大规模智能模型应用生态系统。