IT之家10月12日消息,微软翻译今天宣布新增支持12种语言和方言。有了这个支持,微软翻译现在总共支持103种语言,覆盖了全球72%的人口。有了这个版本,MicrosoftTranslator可以将文本和文档翻译成全球56.6亿人使用的母语。IT之家了解到,微软翻译新增的语种有巴什基尔语、迪维希语、格鲁吉亚语、吉尔吉斯语、马其顿语、蒙古语(西里尔文)、蒙古语(繁体)、鞑靼语、藏语、土库曼语、维吾尔语和乌兹别克语(拉丁语)。8460万人使用这些新语言。微软技术研究员兼AzureAI首席技术官黄学东说:“一百种语言是我们实现让每个人无论说什么语言都能交流的雄心壮志的一个伟大里程碑。”微软翻译的演变20多年前,微软研究院首先开发了机器翻译系统。2003年,一个机器翻译系统将整个微软知识库从英语翻译成西班牙语、法语、德语和日语,并将译文发布在其网站上,成为当时互联网上最大的面向公众的原始机器翻译应用程序。Microsoft基于统计机器翻译(SMT)模型进一步开发了这些系统,并通过WindowsLiveTranslator、TranslatorAPI和MicrosoftOffice应用程序中的内置功能将它们提供给公众。多年来,我们为世界上许多使用最广泛的语言添加了翻译系统。随着人工智能(AI)技术的发展,微软采用神经机器翻译(NMT)技术,将所有机器翻译系统迁移到基于Transformer技术的神经模型,实现了翻译流畅度和准确度的巨大提升。虽然NMT技术显着提高了整体翻译质量,但Transformer架构的出现为创建机器翻译模型铺平了道路,这些模型可以用比以前少得多的材料进行训练。使用多语言Transformer架构,现在可以用其他语言的材料来扩充训练数据,通常是相同或相关的语言家族,为数据量小的语言制作模型,通常被称为低资源语言。即使使用这些技术,也必须有一组目标语言的数字文件,以及已经包含的另一种语言的翻译——通常称为并行文件。▲MicrosoftTranslator翻译的语言数量折线图,从2007年的7种增加到2021年的100多种。该系统从2007年到2016年使用统计机器翻译(SMT)。采用神经机器翻译(NMT)技术2016年帮助提高了翻译质量,2019年采用Transformer架构使微软团队能够用更少的数据量为低资源语言构建模型。微软表示,在添加新语言时,最大的挑战之一是获得足够的双语数据来训练和生成机器翻译模型。此数据包含高质量的人工翻译内容,既有您要添加的语言,也有服务已支持的语言之一。对于许多语言来说,这种双语数据很难获得,尤其是对于数字资源不足或濒临灭绝的语言。微软表示,很幸运能与语言社区的合作伙伴合作,他们可以访问人工翻译的文本,并可以帮助收集资源贫乏语言的数据。这些社区合作伙伴通常是与各自社区合作的志愿者,他们通过咨询社区成员煞费苦心地收集双语句子。然后他们评估了生成的机器翻译模型的质量。Azure认知服务翻译在Microsoft产品中公开NMT模型,并通过文本翻译和文档翻译API向翻译客户公开。这些API将纯文本和复杂文件从一种语言翻译成另一种语言。Azure认知服务转换器API在公共云和安全的MicrosoftAzure政府云中可用。此外,Docker容器中提供了一个文本翻译API,允许客户在本地处理内容以满足特定的监管要求。Azure认知服务翻译还包括自定义翻译服务,使用户能够使用自己的翻译记忆库构建自定义机器翻译模型,以翻译其业务和相关行业中使用的特定领域术语。这些自定义机器翻译模型可通过文本和文档翻译API获得。为了翻译音频或语音内容,AzureCognitiveServicesTranslator与AzureCognitiveServicesSpeech紧密集成,后者通过AzureSpeechSDK支持语音翻译和多设备对话。AzureCognitiveServicesTranslator及其支持的产品被客户广泛采用。该服务已无缝集成到许多Microsoft产品中,可供每个人以他们选择的语言使用和创建内容。一些Microsoft产品集成包括用于翻译文本和文档的Microsoft365、用于翻译整个网页的MicrosoftEdge、用于翻译消息的SwiftKey、用于翻译用户提交的内容的LinkedIn以及移动中的多任务处理。用于语言对话等的翻译应用程序。
