同时理解40种语言人工智能助力跨语言交流平均分84.1高居榜首,刷新世界纪录。XTREME评测旨在全面考察模型的多语言理解和跨语言迁移能力。不同于以往单一语言的自然语言理解评估任务,XTREME中的每项任务都涵盖多种语言,包括句对分类、序列标注、阅读理解和句子检索轨迹。有四类九项任务。那么,机器是如何实现多语言理解的呢?竞赛负责人、哈工大讯飞联合实验室核心技术研究员杨子清介绍,他们利用自主研发的跨语言比较学习技术和知识蒸馏技术进行自监督学习和知识迁移,以鼓励模型学习不同语言的语义相似性。同时,它还创新性地融入了细粒度的语言特征,帮助模型克服训练不足的困难,解决低资源语言学习不足的问题。适应不同语言的词法特点。“这意味着,通过母语学习,机器可以通过类比少量的其他语言语料来学习这种语言,减少收集语料、语音标注等大量工作。”杨子清补充道。除了多语种,科大讯飞还在少数民族语言处理方面推出了预训练模型CINO(ChinesemINOritypre-trainedlanguagemodel)。杨子清介绍,“少数民族语言处理是汉语信息处理中不可或缺的一部分,也是汉语信息处理多样性的体现。这项技术的进步将大大提高我国少数民族语言的学习。”“由于语料库稀少且获取困难,相关技术研究相对匮乏,主流的多语言模型无法很好地处理国内小语种。“希望未来能在行业内进一步推进小语种相关技术研究,推动小语种相关技术的应用。未来,支持各种语言的多语种搜索引擎等文本应用工具少数民族语言可能成为可能。”杨子清说道。
