当前位置: 首页 > 科技观察

AI文本翻译系统质量提升44%,利用超500亿参数翻译200种语言

时间:2023-03-19 17:13:41 科技观察

AI文本翻译系统质量提升44%,翻译200种语言超500亿参数语言文本。Meta还宣布了一套旨在帮助研究人员更轻松地将NLLB-200应用于软件项目的工具。据Meta介绍,NLLB-200可以理解的200种语言中,有许多其他AI翻译系统无法很好地支持。虽然目前广泛使用的翻译工具支持的非洲语言不到25种,但NLLB-200支持多达55种非洲语言。Meta表示,翻译准确性是NLLB-200优于其他工具的另一个领域。Meta使用BLEU评估系统的准确性标准,这是一种用于衡量机器翻译文本质量的算法。根据Meta,NLLB-200的BLEU分数比之前的平均水平高出44%。Meta首席执行官马克扎克伯格表示:“我们刚刚开源了一个自主研发的AI模型,可以翻译200种不同的语言——其中许多是当前翻译系统不支持的。我们称这个项目为No.LanguageLeftBehind,我们使用的人工智能建模技术正在为全球数十亿人使用的语言提供高质量的翻译。”NLLB-200拥有超过500亿个参数,这些配置决定了AI系统处理数据的方式。人工智能系统拥有的参数越多,其准确性就越高。NLLB-200拥有如此多的参数并不是其能够高精度支持200种语言的唯一因素,因为NLLB-200系统还借鉴了Meta工程师开发的许多其他AI创新。Meta使用内部开发的LASER工具包支持机器学习相关研究。使用该工具包,研究人员可以训练神经网络以一种语言执行特定任务,然后相对轻松地将其适应其他语言,这对于翻译目的很有用。Meta开发了一种新的NLLB-200系统,支持激光的改进版本-LASER3。LASER的原始版本包括一个称为LSTM的神经网络,这是一个专门的组件,可将文本转换为AI系统可以理解的数学表示形式。这种数学表示有助于生成更准确的翻译结果。在LASER3中,Meta用Transformer取代了LSTM神经网络,这是一种先进的自然语言处理模型,可以更高效地执行同样的任务。Meta还使用了其他几种方法来提高NLLB-200的能力,例如Meta升级了用于收集训练数据的系统,并对AI训练工作流程进行了更改。Meta使用内部开发的ResearchSuperCluster超级计算机(如图)来训练NLLB-200。当Meta在1月份首次推出ResearchSuperCluster时,它表示该系统配备了6,080个Nvidia最新的A100数据中心GPU,最终将升级到16,000个GPU。Meta计划利用NLLB-200在Facebook、Instagram等平台上提供更好的自动翻译能力,该系统预计每天可支持超过250亿次翻译。在Meta致力于在内部推广NLLB-200的同时,它还计划帮助其他组织将该系统实施到他们自己的软件项目中。除了NLLB-200之外,Meta还拥有可用于训练AI的开源代码,以及一个名为FLORES-200的数据集,用于评估翻译准确性。Meta将提供高达200,000美元的资金来帮助非营利组织采用NLLB-200。此外,Meta还将与维基媒体基金会合作,将自动翻译技术应用于维基百科文章。