通过使用人工和机器生成的翻译将关键的健康短语翻译成世界各地的当地语言。你可能不知道,目前世界上有7117种语言,不是方言,是口语!然而,世界上很多数字媒体只能使用几十种语言,而像谷歌翻译这样的翻译平台只支持100种左右的语言。这一现实意味着全世界有数十亿人由于无法及时获取信息而被边缘化。当前的冠状病毒(COVID-19)大流行让人们痛苦地意识到这一点,凸显了将“洗手”或“保持距离”等与健康相关的短语即时、快速翻译成多种语言的必要性。为此,我应用了最先进的AI技术来构建和计算544种语言中类似于“洗手”的短语(我的GPU仍在运行)。MultilingualUnsupervisedandSupervisedEmbeddingsMultilingualUnsupervisedandSupervisedEmbeddings(MUSE)方法用于训练这544种语言和英语之间的跨语言词嵌入。然后,这些嵌入方法可以从现有文档中提取与目标短语相似的短语。我与SILInternational的同事合作完成了这项工作,他们收集了更多该短语的人工翻译。这些人工翻译和我的一些机器翻译的组合可以在此ethnoguide页面上搜索(机器生成的短语由一个小机器人图标指示),更多翻译将在生成/收集时添加。利用现有的语料库,SILInternational已经完成了2000多种语言的语言工作,目前管理着1600多个语言项目。因此,当我解决这个特定问题时,我知道我们可能已经将“请洗手”和/或类似短语翻译成数百种语言多次,并且猜测得到了回报。我从我们的档案中快速收集了900多种语言的文档(主要是完成的shell书模板、教科书和圣经)。这些文件中的每一个都有一个英文副本,其中必然包含诸如“请洗手”和/或“请洗脸”之类的短语。此外,这些文件质量很高,是与当地语言社区合作翻译和检查的。这是一个相当多语言的数据集。然而,有两个问题需要克服。首先,该数据包含大多数语言的数千个示例,与用于训练机器翻译模型的数百万个示例形成对比。其次,即使文档包含目标语言中的短语“请洗手”,我们也不知道该短语在周围文本中的确切位置。我们当然可以利用低资源语言机器翻译的一些最新技巧,但需要一些时间来微调自动化方法以快速适应每种语言对的翻译模型。此外,我们针对的许多语言都没有现成的基线来比较评估指标(例如BLEU分数)。鉴于对冠状病毒大流行的紧迫担忧,我们希望能比这更快一点(尽管我们计划在未来回到这个问题上)。我选择尝试通过在现有文档中查找短语本身或短语的组成部分(例如“洗手”或“您的手”)来构建短语“洗手”。为了找到这些组件,我使用FacebookResearch的多语言无监督和监督嵌入(MUSE)为每个{英语,目标语言}对训练了一个跨语言的跨语言嵌入。MUSE将单语词嵌入(我使用fasttext生成这些词)作为输入,并使用对抗性方法学习从英语到目标嵌入空间的映射。这个过程的输出是跨语言词嵌入。一旦生成了跨语言嵌入,我们就可以开始在目标语言文档中寻找短语成分。事实证明,“请洗脸”这个短语在整个文件中都清楚地与“手”和“洗脸”这两个词一起使用。对于每种语言,我都会在我希望出现该短语的地方进行n-gram搜索(基于它在英语对应语言中的用法)。使用跨语言嵌入对n-gram进行矢量化,并使用各种距离度量与英语短语的矢量化版本进行比较。在嵌入空间中,“最接近”英语短语的n-gram被确定为匹配目标语言。最后,将对应于英语的组成短语组合起来,生成目标语言中的“washyourhands”短语。这种组合再次利用跨语言嵌入来确保组件以适当的方式组合。例如,如果我们匹配目标语言中的短语“Pleasewashyourfeet”,我们必须将“feet”对应的n-gram替换为“hand”对应的n-gram。下面是伯利兹克里奥尔英语的例子:当然,在这个匹配过程中做了一些假设,这个过程完全有可能不会产生语法上正确的预测。例如,我假设在大多数语言中,“手”这个词和“脚”这个词都是一个字符的标记(字符由空格和标点符号分隔)。当然不总是。这可能会导致有缺陷的条目,例如“andwashandhandyou”或类似的条目。希望我们可以克服其中的一些限制并在未来扩展这个系统,但是,现在,我们选择用图形来强化这个想法。我们已将世界卫生组织的洗手说明改编为PNG图像模板。然后,我们使用Bash和Go脚本的组合将翻译和生成的短语呈现为洗手图像。这样,在文本和图像中都强调了正确洗手的想法(以防我们生成令人尴尬的翻译)。结果到目前为止,我已经能够为544种语言训练跨语言嵌入。我尝试使用上面讨论的方法为所有这些语言构造短语“Pleasewashyourhands”。因为我没有很多语言对的对齐数据,所以我使用一个单独的holdout文档,其中还包含“washyourhands”组件来帮助验证构建的短语中的字符。这让我们对公开发布的翻译有一定的信心(至少它们包含意思是“洗手”和/或“手”的信息)。此外,我将这种方法与谷歌翻译支持的语言对和/或人工翻译可用的语言对进行了比较。下面是来自Ethnologue的带有语言统计数据的示例翻译。语言:意大利语[Ita]地点:意大利人口:68,000,000我们的系统:làvatilamani谷歌翻译:Lavatilemani语言:保加利亚语[bul]地点:保加利亚人口:8,000,000我们的系统:умийръцете谷歌翻译:Измийсиръцете语言:荷兰语[nld]地点:荷兰人口:24,000,000,000我们的系统:wastuwhanden谷歌翻译:Wasjehanden语言:Pijin[pis]地点:所罗门群岛人口:550,000我们的系统:wasimhan谷歌翻译:无支持的语言:Tikar[tik]地点:喀麦隆人口:110,000我们的系统:??sifyà?谷歌翻译:不支持语言:Waffa[waj]地点:巴布亚新几内亚人口:1,300我们的系统:yaakuuvaitanannikiiyauvaafini谷歌翻译:不支持构建的短语类似于参考翻译,或这似乎是“请洗手”的另一种说法。例如,在保加利亚语中,我预测“умийръцете”,而谷歌翻译预测“Измийсиръцете”。但是,如果我使用谷歌翻译将我的预测翻译回来,我仍然得到“请洗手”。有一些不确定性,我无法与参考翻译(例如所罗门群岛的Pijin[pis])或人类注释的跨度进行比较,但我仍然可以分别验证“wash”(wasim)和“hand”(han)在其他必须谈论洗手或手的参考资料中使用。大约15%的译文可以通过这种方法进行验证,希望在参考词典的收集过程中多做一些验证。请注意,我在每种语言中使用了大约7000个句子来获得上述翻译,即使对于像意大利语这样的高资源语言也是如此。我也不依赖语言对之间对齐的句子。尽管数据非常稀缺、不受监督,但我仍然能够为两个系统支持的语言获得类似于谷歌翻译的短语。这证明了这种“混合”方法(无监督词嵌入+基于规则的匹配)在将短语翻译成数据很少的语言时的潜在用途。注意:我绝对不是说这是解决有关冠状病毒和其他健康相关问题的信息传播问题的方法。这里还有很多需要探索和正式评估的地方,我们正在努力。在许多情况下,这种方法无法帮助构建数百种语言的重要信息材料。然而,我相信我们都应该努力为与当前危机相关的问题制定创造性的解决方案。也许这只是一个非常大的拼图的一小部分。您可以在本民族语言指南中查看经过验证的翻译和人工翻译的完整列表。另外,我们即将以论文的形式对这个系统进行更深入的描述和分析。我们欢迎公众对翻译的反馈,以帮助微调系统,最重要的是,确保健康信息到达世界各地的边缘化语言社区。制作您自己的洗手海报我们已经开源了用于渲染合成的脚本和生成洗手海报的代码。这种做法应该能够处理几乎所有的语言和文字。您可以在海报上添加您自己对“请洗手”的翻译,以帮助传播这个词,或根据您当地的情况对其进行调整。请务必使用#WashYourHands标签在社交媒体上分享您生成的海报。培养您的AI技能有许多令人兴奋的AI问题会对世界产生巨大影响。如果你想使用AI来解决上述问题,或者你认为你的企业可能需要开始利用AI来做其他事情(供应链优化、推荐、客户服务自动化等),那么不要错过这个May的AI课堂培训活动。AI课堂是一项为期三天的沉浸式虚拟培训活动,适合至少具有一定编程经验和数学基础知识的任何人。该培训为使用Python和开源框架(如TensorFlow和PyTorch)进行现实世界的AI开发提供了实用的基础知识。完成课程后,学生将有信心开始开发和部署自己的人工智能解决方案。
