自然语言处理(NLP),被誉为AI皇冠上的明珠。传统的NLP模型制作复杂,耗时耗力,而且用途单一,难以复用,像一个手工作坊。近年来出现的预训练语言模型正在改变这一局面,有望将语言AI带入可大规模复制的工业时代。因此,“预训练+微调”成为NLP任务的新范式。作为最早投入预训练语言模型研究的团队之一,阿里巴巴达摩院历时三年研发出深度语言模型系统AliceMind。基于通用语言模型StructBERT,向多语言、生成式、多模态、结构化、知识驱动等方向扩展,能力全面。其中,模型先后登顶GLUE、CLUE、XTREME、VQAChallenge、DocVQA、MSMARCO等自然语言处理领域六大权威榜单,处于行业领先地位。入选2021世界人工智能大会最高奖项SAIL奖TOP30榜单。上周,AliceMind再次登顶VQAChallenge2021视觉问答挑战赛多模态权威榜首。%显着提高到79.78%,接近人类水平(80.78%)。就在近日,阿里巴巴达摩院宣布正式开源AliceMind。达摩院相关负责人表示,希望通过开源降低行业研究和创新应用的门槛,助力语言AI进入大产业时代。据介绍,达摩院深度语言模型系统AliceMind包括通用语言模型StructBERT、多语言VECO、生成式PALM、多模态StructVBERT、结构化StructuralLM、知识驱动的LatticeBERT、机器阅读理解UED、超大模型PLUG等,其中大部分是开源的。此外,AliceMind还将围绕“预训练+微调”语言模型持续开源生态技术。AliceMind开源地址:https://github.com/alibaba/AliceMindAliceMind体验入口:https://nlp.aliyun.com/portal#/aliceAliceMind的创新点1、通用语言模型StructBERT谷歌最后推出的BERT模型2018年是业界广泛使用的自然语言预训练模型,达摩团队在BERT的基础上提出了优化模型StructBERT,让机器更好地掌握人类语法,理解自然语言。2020年,屡获自然语言处理领域顶级赛事GLUEBenchmark。赢。StructBERT在句子级别和单词级别引入了两个新的目标函数,就像为机器内置了一个“语法识别器”,让机器仍然可以准确理解并给出正确的表达和反应,大大提高了机器对单词的理解,句子和整个语言。相关论文被ICLR2020接收。2.多语言语言模型VECO跨语言预训练的初衷是为多种语言建立统一的语义表示。AliceMind系统中的跨语言预训练模型VECO一经提出,在国际权威多语言榜单XTREME中名列第一,远超Facebook、微软等行业代表模型。VECO目前支持100种语言的理解和生成任务。VECO的骄人成绩主要归功于两项创新:一是它可以更“显式”地对跨语言信息进行建模(图1);另一种是VECO在语言理解(NLU)和生成(NLG)任务的预训练过程中充分学习,让两者相互学习,相互提高(图2)。因此,VECO模型成为多语言领域第一个在多语言理解(NLU)和语言生成(NLG)任务上均取得最好成绩的模型,相关论文已被顶级会议ACL2021录用。图1图23.生成语言模型PALMPALM采用了不同于以往生成模型的预训练方式,以预测后续文本为预训练目标,而不是重构输入文本。PALM在一个模型中使用自动编码器对输入文本进行编码,并使用自回归方法生成后续文本。这种预测后续文本的预训练可以推动模型提高对输入文本的理解,从而在各种下游语言生成(NLG)任务中取得更好的性能。PALM在MARCONLG自然语言生成的公开评价中名列第一,也在摘要生成标准数据集CNN/DailyMail和Gigaword上超越了现有的预训练生成语言模型。PALM可用于问答生成、文本释义、回复生成、文本摘要、数据到文本和其他生成应用程序。相关文章已被顶级会议ACL2020录用。4.多模态语言模型StructVBERTStructVBERT在通用StructBERT模型的基础上,同时引入文本和图像模态,在统一的多模态语义空间进行联合建模,同时引入图像-文本的基础上asingle-streamarchitecture对描述数据和图像问答数据进行多任务预训练,对多尺度图像特征进行分阶段预训练。此外,该模型使用attentionmask矩阵控制实现了双流架构,从而提高了跨模态双流建模能力,结合单流和双流结构的优势进一步提升了模型的能力理解文本和图像的两种形式。相关文章已被顶级会议ACL2021录用。5.结构化语言模型StructuralLMStructuralLM将语言模型StructBERT扩展为结构化语言模型,充分利用图像文档数据的二维位置信息,引入框位置预测的预训练任务,帮助模型感知不同语言之间的单词图像中的位置,这对于理解真实场景中的图像文档非常重要。StructuralLM模型在DocVQA榜单中排名第一,在形式理解FUNSD数据集和文档图像分类RVL-CDIP数据集上也超越了所有现有的预训练模型。相关文章已被顶级会议ACL2021录用。6.机器阅读理解模型UED从第一个著名的SQuAD榜单开始,阿里就围绕着机器阅读理解的发展路线:单段抽取->多文档抽取/检索->多文档生成->开放阅读理解,获得了系列榜单题目:2018年在单段机器阅读理解领域顶级赛事SQuAD中首次超越人类答题准确率;2019年在信息检索国际顶级评测TREC2019DeepLearningTrack中,段落检索和文档检索任务均获得第一名;2019年在段落排序、多文档答案抽取和多文档答案生成三项任务中均获得第一,并在多文档答案任务中首次超越人类水平萃取。相关论文已被AAAI2021录用。7.超大规模中文理解和生成统一模型PLUGPLUG是中文社区最大的开放API的纯文本预训练语言模型。它集成了语言理解和生成能力。PLUG可以针对目标任务进行优化。通过利用下游的训练数据微调模型,使其在该特定任务上达到最佳生成质量,可以弥补其他大规模生成模型少样本推理生成效果的不足,适用于应用.实际生成任务。同时PLUG采用encoder-decoder双向建模方式。因此,就传统零样本生成的性能而言,无论是生成的多样性、领域的广度,还是生成长文本的性能,都优于之前的模型。有明显的优势。8.知识驱动的语言模型LatticeBERTatticeBERT在预训练模型的训练中有效地融合了词典等知识,使其能够同时对词和词结构进行建模,以线性表示这种混合粒度的输入。第一步是用Lattice表示覆盖多粒度词信息的中文文本,然后将Lattice线性化作为BERT的输入。LatticeBERT在2020年9月中文语义理解评估基准CLUE榜单的基础模型中排名第一,称霸榜单的背后是AliceMind的不断创新和进化。达摩团队提出了基于BERT的优化模型StructBERT,并在2020年多次获得顶级NLP竞赛GLUEBenchmark。通过在句子和单词层面引入两个新的目标函数,该模型就像是在AI上安装了一个“语法识别器”.面对语法障碍,AI依然可以准确理解并给出正确的回应,大大提高了机器对语言的理解能力。整体理解能力,相关文章被NAACL2021录用。此次登顶VQAChallenge2021的多模态模型StrucVBERT,将通用模型StructBERT和结构化模型StructuralLM相结合,同时引入文本和图像模态,使用更高效的视觉特征和创新的注意力机制在统一的联合建模中多模态语义空间。AliceMind的应用AliceMind具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力。已落地跨境电商、客服、广告等数十个核心业务应用。AliceMind已经在内部平台上线,开箱即用。目前支持训练、微调、蒸馏、测试、部署五大功能。只需要简单的操作就可以完成语言模型从训练到部署的完整环节。在阿里之外,AliceMind被广泛应用于医疗、能源、金融等众多行业。其中,浙江电网公司以AliceMind为基础,为员工搭建智能运维平台,应用于变压器检修、供电抢修等业务,并开始在国家电网公司统一推广中国。阿里巴巴达摩院深度语言模型团队负责人黄松芳表示:“预训练语言模型已经成为NLP领域的基石和原材料,AliceMind的开源将降低NLP领域研究和应用创新的门槛。NLP领域,助推行业从手工业时代走向大工业时代。”
