AI可以理解40种语言，在15种语言的22个项目中获得第一名，背后是中国队22年的坚持

时间：2023-03-13 08:07:07 科技观察

，获得15种语言22个项目的第一名！不，还有更厉害的：40多种语言全方位阅读，打破语言世界的天花板。科大讯飞两次获奖，取得了多语种大满贯的成绩。首先，在全球权威的多语言理解能力测评XTREME中，哈工大讯飞联合实验室（HFL）团队以84.1分的总平均分排名第一，刷新了世界纪录。随后，在OpenASR国际低资源多语言语音识别大赛中，科大讯飞-中科大联合团队参加了全部15门语言限制课程和7门语言非限制课程，全部获得第一名。这一切，都得益于讯飞背后根深蒂固的技术，以及坚守阵地的一贯初心，让讯飞能够称霸多语种语音语言领域。那么，机器的多语言理解能在多大程度上实现呢？例如，下面的句子混合了英语、德语和西班牙语。煮沸水和提供蒸汽所需的热量可以从各种来源获得，最常见的是在封闭空间（称为不同的燃烧室，燃烧室）中燃烧可燃材料并适当供应空气。Atomreaktor、Erdw?rme、Solarenergie或Abw?rmevoneinemVerbrennungsmotor或einemIndustrieprozess。Enelcasodemodelosomotoresdevapordejuguete，lafuentedecalorpuedeseruncalentadoreléctrico。各种来源，最常见的是在封闭空间（又名火箱）中供应空气以燃烧可燃材料。在某些情况下，热源是核反应堆、地热能、太阳能或内燃机或工业过程的废气。在模型或玩具蒸汽机的情况下，电加热元件也可以用作热源。说到多语言自然语言理解，谷歌的XTREME（多语言编码器的跨语言迁移评估）评测可谓极具代表性。https://arxiv.org/pdf/2003.11080.pdf不同于以往的单一语言自然语言理解评估任务，XTREME中的每个任务都涵盖了多种语言，其中很多缺乏相关研究，比如DaraviTamil、Telugu和Malayalam是语言茶语系，斯瓦希里语和约鲁巴语同属非洲尼日尔-刚果语系。评估结果是模型多语言理解能力的平均指标，因此对系统模型的多语言理解和跨语言迁移能力的要求大大提高。具体来说，XTREME涵盖了12个语系40种语言，包括4大类9个任务，对不同层次的句法或语义进行推理：句对分类：XNLI、PAWS-X（自然语言推理）序列标注：UDPOS（part-of-speechtagging）、PANX（命名实体识别）阅读理解：XQuAD、MLQA、TyDiQA（片段抽取式阅读理解）句子检索：BUCC、Tatoeba（跨语言文本检索）今年9月，微软依托最新的图灵通用语言表示模型（T-ULRv5）成功刷新了XTREME榜单的总分和4项单项任务的SOTA。为取得这一最新成果，微软在大规模多语言数据集上的并行文本语料库上训练模型，同时结合最新的XLM-E研究和XTune微调技术。由此产生的T-ULRv5XL有48个transformer层，1536个隐藏维度，24个注意力头，500,000个多语言词汇，总共22亿个参数，以及处理94种不同语言的能力。不过，在上个月的最新排名中，哈工大讯飞联合实验室（HFL）团队以84.1的总平均分再次打破了这一纪录。HFL的CoFe模型在四项任务中的三项中超过了微软T-ULRv5XL模型创下的记录，并追平了一项。对此，哈工大讯飞联合实验室提出了三项技术，使模型具备多语言理解和跨语言迁移能力。首先，加入自主研发的跨语言比较学习技术，鼓励模型学习不同语言的语义相似性。CoFe使用多语言同义句对作为正样本，混淆和反义句对作为高难度负样本，以对比学习和分类任务作为训练目标，让模型比较和学习不同语言文本背后的语义。上例中，对于源语言（中文）中的A句“Alleyesturnedtohim”，取英文同义句B“Alleyesturnedtohim”作为正样本，法语中的反义句C“Iln'apasattirél'attention”为高难度负样本，其他句子作为普通负样本训练模型，达到让模型学习句子语义的跨语言理解的目的。其次，利用知识蒸馏技术进行自监督学习和知识迁移，进一步提高了模型在各语言中的稳定性。知识蒸馏技术除了用于模型压缩和加速之外，对于提高模型的性能和稳定性也有很大的帮助。因此，CoFe从多个角度对其进行了开发和利用：通过自监督训练，可以对模型进行自蒸馏，提高稳定性；多语言-单语言多对一的知识转移。所谓三人行必有我师，让多语言学生模型从多个单语言教师模型中学习知识，向他人学习；多语言和多模型蒸馏。将多位多语种教师提炼成单一模型可提供更好的教师指导信号。第三，融合细粒度的语言特征，帮助模型克服训练不足的困难，解决低资源语言学习不足的问题，同时使其适应不同语言的词法特征。例如，对于一些具有特殊书写系统的低资源语言，CoFe引入了额外的分词系统，以帮助模型通过少量微调数据更快地获得理解语言的能力。这样，机器就可以用少量的其他语言语料，通过“类比”来学习语言，减少了大量收集语料、语音标注等工作。在另一场更关注小语种语音技术的OpenASR比赛中，科大讯飞-中国科学技术大学语音与语言信息处理国家工程实验室（USTC-NELSLIP）联合团队参加了全部15个语言限制赛道和7个语言非语言比赛。限制赛道，全部取得第一名的成绩。小语种语音数据的获取难度不仅仅体现在语音数据量上，还体现在语料库的丰富程度、发音词典的规模、标注的准确性等方面。对于很多低资源语言来说，连100小时的标注数据都很难获得，更不用说数万小时的语音数据了。为此，2020年底，全球语音科学领域的权威机构美国国家标准技术研究院（NIST）举办了OpenASR（开放式自动语音识别）竞赛。今年语言增加到15种语言，涵盖Constrainedcondition、ConstrainedPlus和Unconstrainedcondition。此外，比赛中各语言的数据主要来自电话渠道，口语化特征非常明显，对话风格非常自由，这也让语音识别难度加大。语言：粤语、普什图语、他加禄语、瓜拉尼语、索马里语、格鲁吉亚语、爪哇语、泰米尔语、哈萨克语、库尔德语、越南语、阿姆哈拉语、蒙古语、斯瓦希里语、波斯语半监督语音识别框架（UnifiedSpatialRepresentationSemi-supervisedASR、USRS-ASR)基于语音和文本的统一空间表达，这一成功也验证了该算法良好的泛化性。15种语言在restrictedtrack上的结果在restrictedtrack上，由于每种语言只有10个小时的语音数据，如何利用少量的文本数据，使用无监督的方法来增加语音训练数据的多样性是非常有必要的重要的。团队使用Flow-TTS语音合成进行训练数据放大，并使用语音属性解耦技术保证合成语音的多样性。结果表明，使用上述无监督数据增强方案可以稳定且显着地提高低资源语音识别任务的性能。在自由赛道上，虽然可以使用公共语音数据，但总数据量仍然只有几百小时，语音数据与文字数据的量级差距十分明显。对于端到端的识别框架，缺点更加明显。为了在端到端的统一框架下充分利用少量语音数据和海量文本数据，团队提出了基于语音和文本统一空间表示的半监督语音识别框架USRS-ASR：textmask语言模型任务，合成数据语音识别两个目标，联合训练两个任务充分利用海量无监督文本；共享语言解码模块，实现了语音和文本隐藏层表达空间的统一，大大缓解了低资源语言的数据稀疏问题。22年来，科大讯飞一直在让机器能听、会说、能理解、能思考的道路上，22年一直在攀登。一次获得15种语言22个一等奖、让机器能听懂40种语言等重大成就，无一不体现着科大讯飞在人工智能领域不懈的追求与坚持。那么，科大讯飞为何担此重任？人工智能的发展，不仅仅局限于如何将人工智能的一项技能训练到炉火纯青的程度，而是如何让它变得更加智能，即能够达到通用人工智能的水平。目前，人机交互是大势所趋。随着万物互联，语音成为人机交互的关键入口。语音输入、语音搜索、语音交互等技术已经成为手机、汽车、玩具等智能产品的标配。据统计，即使在2020年疫情下，我国电子和汽车出口总额也将超过3000亿美元。这些出口的智能设备对多语言技术有着强烈的需求。此外，“一带一路”建设依托语言互通，多语言翻译技术的价值凸显。近年来，多语言语音和语言技术涉及国家安全信心等重大方向，成为Nuance、谷歌等科技巨头竞相竞争的重点技术方向。加之国际形势不明朗，技术竞争激烈，亟待解决国内自主研发问题，打破多语种技术瓶颈问题。在此背景下，科大讯飞担当此重任，投入大量精力研发大规模多语言语音和语言技术，希望解决多语言技术难题。在过去的一年里，讯飞在重点语言上进行了持续的迭代进化，在语音识别、语音合成、图形识别、机器翻译等方面取得了一系列新进展。例如24种语言的合成自然度MOS分数超过4.0，35种语言的听写场景语音识别准确率超过90%，18种语言的证件摄影场景准确率超过90%，以及36种语言口语场景的人工评分保真度超过4.0。领先的多语言语音和语言技术有力支撑了科大讯飞智能硬件产品的创新和应用。以多语言翻译为例。2016年发布的讯飞翻译机开创了人工智能翻译的新品类。已推出4代，覆盖全球近200个国家和地区。2019年，为超过5亿人次提供翻译服务。今年5月，一款双屏翻译机发布，可以实现精准实时翻译，语言选择多。可翻译多达60种中外语言，5种中国方言和英语，2种难懂的民族语言（藏语和维语）和普通话。用户边说边翻译，只需按下说话，松开翻译，即可实现0.5秒的快速响应。此外，讯飞智能录音笔还可以支持10种语言的语音转录分离。以SR302为例，它不仅支持粤语、重庆话、贵州话等12种方言的转写，还可以对英语、日语、法语等10大语种进行转写。在多语种语言服务方面，科大讯飞的同声传译系统已经能够支持9种语言的字幕实时转录和翻译。前段时间，在中国驻欧盟使团与欧盟农业总司联合举办的中欧地理标志产品推介视频交流会上，讯飞听说同声传译全程提供转录技术服务，可见其令人印象深刻力量。目前，科大讯飞在多语言技术和应用方面也得到了国家领导人和社会各界的广泛认可。并成为北京2022年冬奥会和冬残奥会官方自动语音转换翻译独家供应商，助力打造人类历史上第一届信息沟通无障碍的奥运会。一路走来，正是对源头技术的不懈努力，让讯飞在语音合成、语音识别、机器阅读理解等多项国际核心技术大赛中获得冠军，树立了诸多历史里程碑的人工智能发展。正如科大讯飞董事长刘庆峰所说，人工智能的发展必须一往无前。现在，讯飞继续践行着这种“立正”的理念，未来的路还很长，还有更高的山有待攀登。

上一篇：AMD推出首款针对数据中心的64位ARM服务器芯片

下一篇：Facebook面临高达50亿美元的罚款

AI可以理解40种语言，在15种语言的22个项目中获得第一名，背后是中国队22年的坚持相关文章