本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。仅用10亿参数就进入中文自然语言理解CLUE榜单前三的孟子模型,现已开源!其建设团队兰州科技创新工场近日宣布将开源4个基于孟子通用模型的模型。可用于文本分类、财经新闻分类、文案生成、图片描述等场景。今年7月,这款由人工智能专家周明带领的团队打造的轻量级模型一经发布就让大家大吃一惊。以10亿参数,完成了此前100亿、1000亿参数模型创下的记录,打破了近年来腾讯、搜狗、华为、阿里达摩院轮番称霸CLUE榜单的格局。截至目前,孟子模式仍然是榜单前五中唯一一家非巨头公司推出的模式,位列第三。在下游任务中表现出色CLUE列表是自然语言理解玩家的必备。腾讯、搜狗、华为、阿里巴巴达摩院轮番称霸榜单,刷新纪录。而且他们的大模型往往有几百亿或者几千亿的参数。只有10亿参数的孟子模型是如何突围的?我们来看看孟子模型。孟子模型是兰州科技基于语言信息整合、训练加速等方法开发的一系列模型。由于与BERT一致的模型结构(Transformer),Mencius模型可以快速替代现有的预训练模型。它可以处理多语言和多模态数据,同时支持多种文本理解和文本生成任务,在文本分类、阅读理解等多种任务中表现出色。具体来说,四种开源模型的架构如下:对应各种场景,Mencius模型在金融任务中表现良好:在生成营销文案方面,Mencius模型相比GPT可以生成更明显的语言,更丰富。对图片内容的描述也更加准确细致,几乎看不到AI的痕迹。与其他汉语语言模型相比,孟子模型最大的特点就是小而精。采用轻量级训练策略,致力于构建十亿参数的小型模型,在现有参数下充分发挥模型的潜力,有利于在真实业务场景中快速低成本落地。同时,孟子还利用人类先验知识来指导模型训练,让模型更高效地获取知识。孟子模型具有一流的语言理解能力。在权威的CLUE汉语理解测评总排行榜中,得分超过84分,逼近人类基准分数(85.61)。此外,基于T5风格的端到端生成训练范式,同时适配BERT风格的决策架构,使得Mencius模型易于适应行业应用,覆盖广泛的业务场景.在模型架构方面,《孟子》也进行了全方位的改进。具体有四个方面:在模型结构方面,将语义角色、词性标注等语言特征融入Embedding表示,在attention机制中引入句法约束,从而提高模型对语言建模的能力知识。在训练策略上,引入基于实体知识和Discourse的Mask机制,加强模型对语言成分和话语关系的表示。为了进一步提高训练效率,采用大模型蒸馏和小模型初始化的策略。为了更好地将Mencius模型适配到金融、营销等垂直领域,利用领域数据继续训练构建相应的提示模板(Prompt),取得了显着的性能提升。周明:未来十年将孕育认知智能的大机遇。最后介绍一下孟子模式背后的团队——兰州科技。是创新工场孵化的认知智能公司。公司创始人——周明博士。在AI领域,周明不需要过多介绍。他是公认的世界级人工智能科学家,也是自然语言处理领域的代表人物。周明博士于2020年加入创新工场,担任创新工场首席科学家。在刚刚开幕的2021杭州云栖大会上,我们还见到了周明博士。他结合自己多年的产学研知识,分享了自己对认知智能的一些思考。周明博士提到,目前的神经网络方法依赖于大规模标记数据进行端到端训练。这个黑箱系统缺乏解释力,也不具备常识性推理。当我们的人脑处理熟悉的任务时,它依赖于直觉,这对应于预训练模型或深度学习;人脑在处理新事物时,必须静下心来,用自己的知识进行推理,这更像是符号计算。他认为,目前的深度学习应该思考如何用一个模型来结合两者的优势,即整合数据和知识来解决问题。此外,周明博士还指出,现在针对新任务的深度学习训练需要学习所有能力。然而,人类在应对新任务时,往往只是在基本能力的基础上进行小幅调整。因此,如何模拟人脑,设计一系列基础能力和相应的微调机制,是深度学习需要考虑的问题。谈及人工智能产业前景,周明博士表示:人工智能正在从感知智能向认知智能快速迈进,未来十年将孕育认知智能发展创新的巨大机遇。同时,他还在分享中透露,兰州科技从开源起家,正在向SaaS、定制化、App转型。目前已与国内外数十所著名高校及相关领域的十余家龙头企业建立了稳定的合作关系。目前兰舟科技已经发布了项目开源地址和技术报告,地址如下:项目地址:https://github.com/Langboat/Mengzi技术报告:https://arxiv.org/abs/2110.06696
