当前位置: 首页 > 科技观察

人工智能技术助力国家语言保护潜力巨大

时间:2023-03-14 13:48:52 科技观察

当前,随着经济文化互动全球化,主流或通用语言日益强大,弱势语言濒临灭绝.目前世界上大约有7000种语言,语言学家预测,到本世纪末,其中大部分将消失。如果一种语言消失了,那么与之对应的整个文明也将随之灭亡;如果不及时针对弱势语言采取措施,我们将失去完整记录人类文化遗产的机会。众所周知,语言是人类交流的主要表达手段,是文化的载体和重要表现形式,是一个民族的血脉和精神家园。因此,民族语言(母语)尤其是少数民族语言的保护已成为一项重要而紧迫的任务,这方面的工作潜力巨大。我国著名学者周海中先生曾指出:今天的弱国语面临强语、全球化、互联网等冲击,其社会使用功能有逐渐弱化或消失的危险;保护民族语言文字有利于人类文明的传承和发展,也有利于民族团结和社会稳定。保护语言多样性就是保护文化多样性,保护文化多样性就是保护人类命运共同体的多样性。可以说,民族语言不仅是民族存在最重要的特征之一,也是民族文化传承、发展和繁荣的重要载体,是人类文明进步和社会和谐稳定的重要标志。今天,人工智能(AI)对人们来说已经不再陌生,每个人都亲身感受到它对我们日常生活的影响:人脸识别、语音控制、无人驾驶、智能家居、智能机器服务等;但事实上,人工智能的使命不仅是为人类提供便利,更重要的是保护地球文明。就濒危语言而言,语言记录很大程度上依赖于人类。然而,它们的结构复杂多变。仅靠人力总结完整的语音变化、语义分析、语法分析等是不现实的。此外,所研究语言的收集和文本转录缺乏标准化也存在许多具体困难。目前,人们正在利用人工智能技术对濒危语言进行系统研究,实现对它们的完整记录。人工智能技术可以建立完整的语料库,记录内容包括:确定语言的语音结构、分析语言的句法结构、基本意义单位与主流语言的对应关系等。利用语音等人工智能技术识别、语音转录、语音合成,口音和文本可以更好的结合,实现濒危语言的语音输入。这样,即使是没有文字的濒危语言,也可以转化为主流语言文字,记录下来,传承下去。不久前,美国著名未来学家托马斯·弗雷先生提出了“全球语言档案馆”的设想。在那里,他利用人工智能技术,将不同民族的语言以视频、音频和书面文件的形式存档。他收集了近4000种语言的资料,其中有许多是濒临灭绝的语言,与来自世界各地的学者合作。弗雷先生将收集到的语言数据输入人工智能语言重建引擎,生成功能性三维虚拟形象,将语言传授给想学的人。他表示,人工智能引擎会更进一步,填补任何语言空白,在需要时创建一种语言的书面形式,并提供语言之间的翻译。在中国,科大讯飞利用人工智能技术寻找濒危语言中不同尺度的音节和语义之间的关联和模式。在超强算力服务器的配合下,最终形成语音库,实现濒危语言的保存。凭借先进的智能语音技术,公司覆盖多种少数民族语言和方言的语音系统已投入实际应用。中国阿里巴巴人工智能实验室近日宣布,正式成立方言保护专项小组,投入1亿元用于保护和发展汉语方言。他们将以人工智能为技术手段,逐步在全国开展方言语音识别和语音合成,用科技手段永久保存方言。维护数字语言数据并使其可供原住民社区访问是许多机构面临的挑战。加拿大原住民文化委员会(FPCC)最近通过其FirstVoice平台保存语言数据并制作教学计划和应用程序,支持不列颠哥伦比亚省土著语言、艺术、文化和遗产的复兴。另外,FirstVoice的最新创新是一个键盘应用程序,使用户能够在移动设备上输入100多种本地语言,包括社交媒体、电子邮件和文字处理。FirstVoices将其语言数据存储在Nuxeo中,这是一个集成了人工智能和机器学习的开源云原生内容服务引擎。澳大利亚ARC语言动力学卓越中心(CoEDL)还开发了Opie,这是一种低成本、易于运输的智能机器人,旨在向生活在偏远社区的儿童教授澳大利亚土著语言。当孩子们通过故事、游戏和课程学习时,Opie的眼睛会与他们互动,机器人会记录他们的语言技能,供老师跟踪他们的学习情况。此外,CoEDL还与美国谷歌合作,为土著语言转录和构建人工智能模型。他们目前已经为20多种澳大利亚土著语言建立了人工智能模型。这要归功于Google的开源人工智能平台TensorFlow;这种机器学习技术为语言学家在转录CoEDL超过40,000小时的录音时节省了数百万小时。由于人工智能技术在语言存储和学习方面的优势,现在在拯救濒危语言的过程中显得更加重要。但是,通过这项技术来保护这些语言仍然存在很大的挑战。例如,很多土著语言一般都是口口相传,如果转换成文字,可能会改变原本的意思,或者无法完整表达。.我们完全可以相信,在现代科技尤其是人工智能技术的帮助下,国家语言保护问题将得到解决。最后,笔者希望越来越多的人和机构参与到民族语言的保护中来,为世界语言生态文明建设和文化多样性保护贡献智慧和力量。