当前位置: 首页 > 科技观察

语言学家回来了!从“发音”开始学习:这次AI模型要自学

时间:2023-03-21 14:57:51 科技观察

试图让计算机听懂人类语言,一直是人工智能领域的难点。早期的自然语言处理模型通常使用人工设计的特征,需要专门的语言学家手动编写模式,但最终的结果并不理想,甚至人工智能研究也陷入了寒冬。每次我解雇一名语言学家,语音识别系统都会变得更加准确。每次我开除一个语言学家,语音识别器的性能都会上去。——FrederickJelinek有了统计模型和大规模预训练模型,特征提取就不需要了,但是指定任务的数据标注还是需要的,而且最关键问题是:经过训练的模型仍然无法理解人类语言。那么,我们是不是应该从语言的原始形态重新来研究:人类是如何获得语言能力的呢?近日,来自康奈尔大学、麻省理工学院和麦吉尔大学的研究人员在NatureCommunications上发表论文,提出了一个算法合成模型的框架,在人类语言最基本的部分,即词汇音位学(morpho-phonology)开始教AI学习语言,直接从声音构建语言词汇。论文链接:https://www.nature.com/articles/s41467-022-32012-w形态音位学是语言学的分支之一,主要研究语素(即最小的意义单位)组合时会发生什么转化为单词的音变,试图给出一系列的规则来预测语言中音素的有规律的音变。例如,英语中的复数语素写作-s或-es,但有[s]、[z]和[?z]三种发音。例如,猫读作/k?ts/,狗读作/dagz/,马读作/h?rs?z/。人类在学习复数读音转换时,首先根据形态学(morphology)认识到复数后缀其实是/z/;然后根据音系学(phonology),后缀根据词干中的发音进行转换,如清辅音等。其他构成/s/或/?z/的语言也具有相同的音位和词法规则。研究人员从58种语言的音素教科书中收集了70个数据集,每个数据集只包含几十到几百个单词。,且仅包含少数语法现象,实验表明,寻找自然语言中语法结构的方法也能模拟婴儿学习语言的过程。通过对这些语言数据集进行分层贝叶斯推理,研究人员发现该模型可以仅从一个或几个示例中学习新的词汇音素规则,并且能够提取一般的跨语言模式并以紧凑的、人类可理解的方式表达它们形式。让AI模型成为“语言学家”人类智能主要体现在建立认知世界理论的能力。例如,自然语言形成后,语言学家总结出一套规则,帮助孩子更快地学习特定语言,而目前的AI模型却无法总结规则,形成其他人无法理解的理论框架可以理解。在建立模型之前,必须解决一个核心问题:“如何描述一个词”。例如,单词的学习过程包括理解单词的概念、意图、用法、发音和含义。在构建词汇表时,研究者将每个词表示为<音标、语义集>对,例如open表示为,过去时表示为,combinedopening表示为有了数据集,研究人员建立了一个模型来解释Grammaticalrulesaregeneratedon一组对来解释单词的变化。在声音的表示中,将音素(原子音)表示为二进制特征的向量,例如/m/、/n/,即鼻音,然后根据这个特征空间定义语音规则。研究人员使用了经典的规则表达方法,即上下文相关记忆(context-dependent),有时也称为SPE-style规则,广泛用于英语的发音模式(SoundPatternofEnglish)表示。每条规则写成(focus)→(structural_change)/(left_trigger)_(right_trigger),意思是只要left/righttrigger环境靠近focus的left/right,focusphoneme就会被转换根据结构变化。触发环境指定特征的连接(音素的集合)。比如英语,只要左边的音位是[-sonorant],词尾的读音就会从/d/变成/t/,写法是[-sonorant]→[-voice]/[-voice-sonorant]_#,例如walking应用此规则后,发音由/w?kd/转为/w?kt/。当这些规则被限制为不能递归地应用于它们自己的输出时,规则和词汇对应于2向有理函数,而后者又对应于有限状态转换。有人认为,有限状态开关的空间具有足够的表现力,足以涵盖形态语音学中已知的经验现象,并且代表了语音理论在实际应用中的描述能力的限制。为了学习这种语法,研究人员使用了贝叶斯程序学习(BPL)的方法。每个语法规则T都被建模为编程语言中的程序,该程序捕获问题空间的特定领域约束。所有语言共有的语言结构称为通用语法。该方法可以被视为语言学长期方法的现代实例,并采用人类可理解的生成表示来形式化通用语法。在定义了BPL需要解决的问题之后,所有程序中的搜索空间都是无限大的,没有给出如何解决这个问题的任何指导,也缺乏梯度下降或马尔可夫链蒙特卡洛等局部优化算法。在利用局部平稳性的情况下,研究人员采用基于约束的程序综合策略,将优化问题转化为组合约束满足问题,并使用布尔可满足性(SAT)求解器求解。这些求解器实施详尽但相对有效的搜索,并保证在给定足够时间的情况下,将找到最佳解决方案。与某些数据一致的最小语法可以使用Sketch程序合成器解决,但必须满足语法大小的上限。但在实践中,SAT求解器采用的详尽搜索技术无法扩展以解释大型语料库所需的大量规则。为了将求解器扩展到大型和复杂的理论,研究人员从儿童获得语言技能和科学家理论构建的基本特征中汲取灵感。孩子不是一夜之间学会语言,而是通过语言发展的中间阶段逐渐丰富他们对语法和词汇的掌握。同样,一个复杂的科学理论可能从一个简单的概念核心开始,逐渐发展到涵盖越来越多的语言现象。基于以上思路,研究人员设计了程序综合算法,从一个小程序开始,然后反复使用SAT求解器寻找小的修改点,使其能够解释越来越多的数据。具体来说,找到当前理论的一个反例,然后使用求解器穷尽地探索所有能够容纳这个反例的理论小修改的空间。但这种启发式方法缺乏SAT求解的完整性保证:尽管反复调用一个完整准确的SAT求解器,但不能保证找到最优解,但每次重复调用都比直接评估整个数据更难优化.因为将每个新理论限制在理论空间中接近其前身会导致约束满足问题的多项式收缩,从而在最坏情况下SAT求解器的搜索时间呈指数增长。在实验评估阶段,研究人员从语言学教科书中收集了70个问题,每个问题都要求对某种自然语言中的某种形式的理论进行综合分析。这些问题的难度范围很大,涵盖了各种各样的自然语言现象。自然语言也各不相同,包括声调语言,例如在Kerewe(坦桑尼亚的一种班图语)中,要数是/kubala/,但要数是/kukíbála/,重音表示高音。也有元音和声的语言,例如土耳其有/el/、/t∫an/分别代表hand和bell,/el-ler/、/t∫an-lar/分别代表hand和bell的复数;以及许多其他语言现象,例如同化和外延。在评估中,我们首先衡量模型发现正确词汇的能力。与真实词汇表相比,该模型在60%的基准测试中找到了正确匹配问题的全部词汇表的语法,并在79%的问题中正确解释了大部分词汇表。通常,每个问题的正确词典比正确规则更具体,并且从正确词典中产生完整数据的任何规则必须与模型可能提出的任何基本规则具有观察等价性。因此,与groundtruth词典的一致性应该作为衡量同步规则对数据是否正确表现的指标,而这种评价与规则的质量有关。为了验证这一假设,研究人员随机抽取了15个问题,并在咨询专业语言学家后对发现的规则进行评分。召回率(正确恢复的实际语音规则的比例)和精度(实际出现的恢复规则的比例)都被测量。在precision和recall指标下可以发现,规则准确率与词库准确率正相关。当系统获得所有词库正确时,它很少引入不相关的规则(高精度),并且几乎总是获得所有正确的规则(高召回率)。