当前位置: 首页 > 科技观察

AI可自行学习翻译地球上任何语言

时间:2023-03-15 01:25:05 科技观察

据fastcompany报道,最新的两款机器翻译系统取得了新的突破——无需人工翻译的文本学习资料,即可自主学习翻译地球上任何语言.机器翻译发展迅猛,但地球上仍有数亿人无法享受到它的好处——因为他们的语言根本无法在翻译器的下拉菜单中找到。现在,两个新的人工智能系统——一个来自西班牙国家瓦斯科大学(UPV),另一个来自卡内基梅隆大学(CMU)——有望改变这一切,帮助研究人员像《星际迷航》(StarTrek)通用翻译器,如.要了解这些新系统的潜力,了解当前机器翻译的工作原理很重要。目前机器翻译的事实上的基准是谷歌翻译,这个系统涵盖了从南非荷兰语到祖鲁语的103种语言,包括世界排名前10位的语言——顺序是汉语、西班牙语、英语、印度语、孟加拉语、葡萄牙语、俄语、日语、德语和爪哇语。谷歌的系统使用人类监督的神经网络来比较平行文本——以前由人类翻译过的书籍和文章。通过比较这些平行文本中的大量数据,谷歌翻译可以学习任意两种给定语言之间的等价关系,从而获得快速翻译它们的能力。有时翻译结果很有趣,可能并不能真正反映原文的意思,但总的来说,翻译是有用的,并且随着时间的推移会变得更好。Google的方法很好,而且行之有效。但不幸的是,它在全球范围内不可用。这是因为监督培训需要很长时间,而且监督人员很多——因为人数太多,谷歌使用众包——而且因为在世界上所有语言之间没有足够的文本平行翻译。考虑一下:根据世界语言民族学目录,地球上有6,909种现存语言。其中414个被94%的人口使用。由于谷歌翻译覆盖了103种语言,因此还有6,806种语言没有机器翻译——其中311种语言的使用者超过一百万。总体而言,至少有8亿人无法享受自动机器翻译带来的好处。这两个新系统——可以在任何语言之间翻译单词和句子——在没有比较人类翻译的大量平行文本的情况下学习。他们也不需要监督。相反,他们使用无监督机器学习并比较不同语言的随机文本。这是如何运作的?由于语言中单词的分类相似,系统会猜测单词是否相等,并使用此信息构建翻译词典。他们弄清楚了句子结构,并通过在不同语言之间来回翻译来评估他们的猜测。正如UPV的研究员MikelArtetxe所描述的那样:“想象一下,你给了一个人很多中文和阿拉伯语的书——这些书没有重叠——然后这个人必须学会将中文翻译成阿拉伯语。”似乎不可能,对吧?”事实上,微软人工智能专家何迪(他启发了这两个研究项目)告诉科学界,他了解到“即使没有人工监控,计算机也能学会翻译”,整个人都震惊了。需要注意的是,该系统不如当前的平行文本深度学习系统准确——但正如DiHe指出的那样,计算机可以在没有任何人类指导的情况下猜测所有这些事实本身就是疯狂的。我们只有触及了这种新的学习方法的表面。看起来可能很快就会有一个真正的通用翻译器,它可以让我们用他们的母语与任何人交谈,而这不再只是科幻小说中的东西。