当前位置: 首页 > 科技赋能

面向认知,致远研究院联手多单位发布超大规模新预训练模型“启蒙·文汇”

时间:2024-05-20 02:32:55 科技赋能

1月11日,北京致远人工智能研究院发布超大规模新预训练模型“启蒙·文汇”面向认知的预训练模型“文汇”模型旨在探索并解决当前大规模自监督预训练模型不具备认知能力的问题。

该项目由致远研究院发起的“启蒙”研究团队完成。

团队由来自致远研究院、阿里巴巴、清华大学、中国人民大学、中科院、搜狗、智普.AI、循环智能等单位的科研人员骨干组成。

“文汇”模型不仅采用数据驱动的方法构建预训练模型,还将用户行为、常识知识和认知联系起来,主动“学习”和创造。

此次发布的“文汇”模型与OpenAI 1月初刚刚发布的两个连接文本和图像的大型预训练模型“DALLE”和“CLIP”类似。

“文汇”模型可以学习不同的模态(文本和视野是主要之间的概念),可以用来实现“用图片写文本”等任务,并具有一定的认知能力。

“文汇”模型的参数规模达到1亿,仅次于DALLE模型的1亿参数。

是目前我国最大的预训练模型,并实现了与世界领先的预训练技术的平价。

自2019年5月OpenAI发布迄今为止全球最大的预训练模型GPT-3以来,超大规模预训练模型已成为人工智能研究领域的热门话题。

OpenAI、Google、Facebook等国际IT公司不断推动大规模预训练模型的进一步发展。

可以预测,未来GPT-4的参数将增加至少10倍,处理的数据将更加多模态(文本、图像、视觉、声音)。

尽管GPT-3在多项任务中表现良好,但其最大的问题是没有常识,没有认知能力。

例如,向 GPT-3 询问第一个问题“长颈鹿有多少只眼睛?” GPT-3回答“两只眼睛”,然后问第二个问题“我的脚有几只眼睛?” GPT-3的回答结果也是两只眼睛,这与人类的常识不符。

智能源研究院学术副院长、清华大学计算机科学系教授唐杰教授认为,GPT-3等超大型预训练模型可以处理复杂的认知推理任务,例如开放式对话、基于知识的推理等。

问答以及可控文本生成。

等等,结果仍然远远落后于人类的智力。

为推动我国自主大规模预训练模型的发展,解决当前国际主流模型存在的问题,2020年10月,致远研究院启动了新型超大规模预训练模型研究与开发。

开发项目“启蒙”。

此次发布的是“文汇”(新型超大规模认知预训练模型)第一阶段研发成果,用于自动生成图片、文字和视频,可具有初级认知能力。

致远研究院、北京大学信息技术学院院长黄铁军教授指出,“文汇”模型专门设计了多任务预训练方法,可以学习文本→文本、图片→文本、图片和文本→文本同时。

实现对多种不同模式的概念理解的任务。

预训练的“文汇”模型无需微调即可完成“用图片写文字”等任务。

微调模型可以灵活接入视觉问答、视觉推理等任务。

1、面向认知的大规模预训练模型“文汇”的基本情况 “文汇”是一种面向认知的大规模预训练模型。

项目研究团队提出了一种用于多模态认知生成M6的大规模预训练架构:MultiModality-to-MultiModality Multi-task Mega-Transformer。

模型的整体架构基于Transformer,将图像切割成块,并使用ResNet-50从块中提取特征。

这些特征和相应的位置嵌入允许将图像和文本组合起来并输入到模型中。

该团队专门设计了多任务预训练方法,通过灵活的掩模技术实现多任务学习。

“文汇”模型可以完成多种图像和文本生成任务,比如输入下面的图像: 在阿里巴巴产品场景中微调的模型会给出描述: 旗袍是一种古典服装,不仅展现了女性的优雅,知性又美丽。

这款旗袍采用经典的圆领设计,穿着舒适自在;精湛的刺绣工艺,展现出奢华、大气的感觉;中长版型遮肉显瘦,修身剪裁勾勒出曼妙曲线;下摆有荷叶边点缀,增添几分可爱;袖口收紧腰部,凸显纤细手臂。

模型还可以同时接受文字提示(Prompt)和图像,例如: 提示:走进平定县宋家庄村,映入眼帘的是文汇(M6建筑):古色古香的明清建筑,富有浓郁的文化气息。

这里历史文化底蕴深厚,民俗风情独特。

走进村庄,就像走进童话里的世外桃源。

村里的房屋依山而建,各种古建筑错落有致。

古朴典雅的建筑风格令人耳目一新。

与 GPT 不同的是,研究人员使用 Transformer-XL 来替代 GPT 中原始的 Transformer 模型,从而能够生成超出 Transformer 窗口长度(一般为 )的文本。

如下图所示,GPT-XL架构可以生成基于字符的文本并很好地保持内容一致性。

在系统工程方面,采用阿里巴巴高性能、灵活、易用的分布式框架Whale来统一多种并行策略。

它采用模型并行+管道并行+数据并行训练进行分布式训练。

卡训练速度是8GPU的29.4倍。

加速比接近线性。

数据来源于中国百科、知乎、问答,由搜狗提供。

2、“文汇”模型应用即将上线。

目前,“文汇”已支持多种基于认知推理的自然语言和跨模态应用任务。

部分应用即将与搜狗、阿里巴巴、学堂在线、智浦AI、Loop集成。

智能等机构合作上线。

目前有四个示例应用程序可用于演示模型效果。

(1)基于上传图片的开放领域问答 该应用采用基于图片文本的多模态认知预训练百亿模型,可以支持用户针对图片内容提出问题或生成一句话图片上传后的图片描述。

例如,上传图片后询问“水杯上图片中的电脑在哪里?”或“生成与产品图片相对应的一句话描述。

”未来将广泛应用于阿里巴巴的电商场景。

(2)与数据对话,用语言操控数据可视化。

该应用基于数据可视化技术,通过将自然语言转换为可视化查询语句,实现“上传图表、输入指令、输出可视化图像”的功能目标。

只需一句自然语言,即可实现数据的可视化自动统计和查询。

(3)基于预训练语言模型的诗歌创作应用该应用可以根据输入的诗名、朝代、作者生成古诗词。

与传统的基于规则或监督学习的诗歌生成不同,该应用创建的诗歌来自自然语言生成,并且在没有注释数据的情况下进行微调,并且可以模仿任何诗人创作任何小说标题的诗歌。

以下是基于模型自动诗歌创作的结果:献给抗疫英雄,一首王歌,献给英雄,百万大军劈毒烟。

更重要的是,人民群众更加努力工作,更加团结,为国家做出贡献。

团结、团结、再团结,同心抗疫。

绵水桥边香雾升腾,暗送瘟神过汉阳。

智利日全食的第六天,一道奇异的光芒袭来,撼动大地,西部海国出现了一面旗帜。

水之心永远不会有底,火之心永远不会完全被灰烬覆盖。

地轴绕八极曲折转动,天球下沉永不后移。

明朝大海变桑田,我却要吹牛,成灰。

科举颂(输入的创作背景) 这首诗的作者是高中时的状元,为自己的成功感到自豪。

青云有办法成为第一状元,一步就能登上国子监。

金榜上的诗人气质高贵,以学者的身份微笑着看世界。

宰相叶挺挂帘大喜,尚书升朗则忙着进试。

顶级明星闪耀榜首,不愧是万户之人。

科举颂(输入创作背景) 这首诗是屡次失败、名声扫地的作者孙山所写。

金榜上的无名之人发誓不再回来。

他只问他是哪一年排名第一的。

若教九品目,则学为神人中之最。

世界的经纬度很难用,但诗书万卷,可以帮助周游世界。

到翰林前一日,谈九仙楼十年。

(4)开放领域问答,人物可控。

该应用程序支持用户上传问题并生成带有字符样式的自定义文本答案。

与传统的开放式问答不同,“文汇”模型生成的答案具有个人语言特征,问答内容充满趣味性。

该应用目前计划用于搜狗问答场景。

3、“启蒙”项目下一步研发计划。

目前,“启蒙”项目研究团队正在更广泛的视觉等领域进行大规模自监督预训练方法的探索性研究,并已启动四类大规模预训练模型的开发。

,包括“文渊”(一个以中文为核心的超大规模预训练语言模型)、“文汇”(一个超大规模新型认知预训练模型)、“文澜”(一个超大规模预训练模型)多模态预训练模型)和“文素”(超大规模蛋白质序列预训练模型)。

2020年11月14日,致远研究院发布了第一期“文远”(以中文为核心的超大规模预训练语言模型),参数规模达26亿。

下一步,致远研究院将联合上级单位,加快四类大规模预训练模型的研发。

特别是,“文汇”模型未来将重点提升其在多语言、多模态条件下完成开放对话、知识问答、可控文本生成等复杂认知推理任务的能力,使得更接近人类水平。

计划于今年6月实施“汉语自然语言应用系统”、“基于图文增强和知识融合的图文应用系统”等多个独特的超大规模预训练模型, “基于认知的复杂认知系统”等,为尽快赶上国际领先的人工智能技术,实现我国在国际人工智能前沿技术研究上的领先地位。