当前位置: 首页 > 科技观察

MIT 推出机器翻译新算法,破译已消失的古语言

时间:2023-03-16 14:52:07 科技观察

麻省理工学院推出了机器翻译破译失传古语的新算法,可以帮助语言学家自动破译已经消失在历史上的失传已久的古语。官方指出,该系统可以自动破译已灭绝的语言,无需深入了解该语言与其他语言的关系。他们还表明,该系统可以自行确定语言之间的关系,并可以用它来证实最近的一项学术研究,该研究表明伊比利亚语言实际上与巴斯克语言无关。据CSAIL称,最近的研究表明,大多数曾经存在的语言都不再使用了。这些已灭绝的语言中有数十种也被认为是“未破译”的。这意味着普通大众对其语法、词汇或句法的了解不够,无法理解其文本的含义。研究这些“未破译”的语言,不仅仅是出于学术上的好奇。此外,如果不了解语言,我们就会错过关于使用这些语言的人的全部知识。不幸的是,大多数已灭绝语言的记录非常稀少,以至于科学家无法使用谷歌翻译等机器翻译工具或人工智能算法来破译它们。因此,本次CSAIL团队推出的新算法的最终目标是,只用几千个单词,破译语言学家几十年来努力理解的失传语言。这项由麻省理工学院教授ReginaBarzilay领导的研究依赖于基于历史语言学见解的几项原则。例如,语言一般只会以某些可预测的方式发展。具体来说:一种给定的语言很少直接添加或删除整个音节,但可能会发生某些声音近似值的替换。一个在母语中发音像“p”的词,在其后代中可能变成“b”,但由于明显的发音差异而变成“k”的可能性较小。通过结合这些原则和其他语言限制,Barzilay和麻省理工学院博士生JiamingLuo开发了一种解密算法,可以处理可能转换的巨大空间和输入中引导信号的稀缺性。该算法学习将语言声音嵌入到多维空间中,其中相应向量之间的距离反映了不同发音之间的差异。这种设计使他们能够捕获相关的语言变化模式并将它们表示为计算约束。生成的模型可以对古代语言中的词进行分割,并将其映射到相关语言中的相应词。该项目基于Barzilay和Luo去年撰写的一篇论文,该论文破译了已灭绝的乌加里特语和线性B语言,后者以前需要数十年才能被人类解码。然而,这两个项目的主要区别在于,该团队此前已经知道这些语言分别与希伯来语和希腊语的早期形式有关。新算法可以推断语言之间的关系,这是语言破译中最大的挑战之一。该算法可以评估两种语言之间的相似性,并且在针对已知语言进行测试时,它甚至可以准确识别该语言属于哪些语系。不仅如此,算法生成的模型还能对古语中的词进行细分,并将它们一一映射到“相关”语言中的对应词。在未来的工作中,该团队希望扩展到将文本与已知语言中的相关词相关联之外,这种方法被称为“基于同源的解密”。“例如,我们可以识别文本中提到的人或地点的信息,然后可以根据已知的历史证据进一步调查这些信息。这些实体识别方法如今广泛应用于各个领域,”他说。在高精度的文本处理应用程序中。但关键的研究问题是,在没有任何古语言训练数据的情况下,这项任务是否可行?”本文转自OSCHINA。本文标题:麻省理工学院推出机器翻译新算法破译消失的古语言