本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处.在最新一期《自然》杂志的封面上,人工智能再次登上舞台中央,这一次在破译古文字方面立下了汗马功劳。这是一种基于Transformer架构的方法,由DeepMind、谷歌、牛津大学等研究机构联合开发。当单独修复损坏的文本时,该方法达到了62%的准确率。在实际应用中,历史学家单独破译某块古希腊石碑的准确率只有25%,但采用这种方法后,一下子提高了近三倍,达到了72%。不仅可以还原文字,这种方法在地理归属任务上的准确率也达到了71%,还可以将古文字的书写时间准确到30年以内。目前这种方法已经引起了不小的讨论热度:现在有网页版可以在线解析古希腊字符,架构方法也已经开源。变形金刚破译古代文字这是一座名为伊萨卡的建筑,以荷马史诗《奥德赛》中的希腊岛屿命名。伊萨卡架构中的注意力机制可以通过拼接单个字符的输入、完整单词的表示以及顺序位置来理解输入文本各部分的位置,最终权衡不同输入对模型的影响做决定的过程。完整的架构由多个Transformer块组成,每个块输出一个处理后的表示序列(SequenceofProcessedRepresentations),其长度为输入字符的个数。然后将其输入传递给负责文本恢复、地理归因和时间归因的三个任务负责人,每个任务负责人都由专门针对各自任务训练的前馈神经网络组成。在文本复原任务中,Ithaca会提供20个按概率排列的分析结果预测:对于地理归属的判定,输入文本会按照古史中的84个区域进行分类,并通过可能的区域预测类别地图和直方图表示:日期归因任务也由分布预测的直方图表示。如下图所示,公元前300-250年的10年一组日期以相同概率表示为5个区间,公元前305年的铭文将以100%的概率分配到公元前300-310年。10年组:历史学家的AI助手研究人员将Ithaca与历史学家进行了比较,一种类似的AI方法Pythia,以及Ithaca与历史学家合作破译古代文本的不同方法。错误率(CER)越低越好。在文本恢复任务上,Ithaca的错误率和准确率最好。如果与历史学家合作,效果会再次增加。在论文的最后,研究人员表示,该研究方法适用于与古代文本相关的所有学科,如手稿、钱币学和纸币学,也适用于任何语言,无论是古代的还是现代的。这种方法现在已投入实际使用,例如用于对雅典时期一项重要法令的铭文进行年代测定,历史学家此前认为该法令是在公元前446/5年之前写成的。而伊萨卡与历史学家一起,将这个日期更新为公元前424/3:伊萨卡现在提供在线试用,登录官网,在方框内输入古希腊铭文,将缺失的字符标记为破折号(-)),将预测字符标记为问号(?)。每个查询最多可以预测10个连续或不连续的问号。点击查询后,下方会显示文中缺失的字符,并归于原文地点和时间:作者介绍ResearchbyDeepMind,威尼斯卡佛斯卡里大学(Ca'FoscariUniversityofVenice),哈佛大学雅典经济与商业大学(AthensUniversityofEconomicsandBusiness),以及谷歌的几个AI团队。论文有两位共同作者。其中,annisAssael是DeepMind人工智能部门的研究员。两人均毕业于牛津大学,获得硕士学位。历史学家,现任威尼斯福斯卡里大学人文学院,哈佛大学希腊研究中心研究员,主要研究领域为机器学习在古地中海文字文化研究中的应用。论文:https://www.nature.com/articles/s41586-022-04448-z开源链接:https://github.com/DeepMind/ithaca在线试用:https://ithaca。DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D
