当前位置: 首页 > 科技观察

机器学习仍在努力从语言中提取意义

时间:2023-03-16 17:24:42 科技观察

我们从婴儿期就开始吸收语言。简单的单词出现在第一年或第二年。到6岁时,我们的词汇量增加了数千个单词,到青少年时期,已学习了超过100,000个单词。但是,尽管语言是人类与生俱来的能力,但机器却发现它非常困难。这是Moravec悖论的一个典型例子,它指出对机器来说容易的事情对人类来说很难,反之亦然。软件可以快速、完美地计算大量数学运算,但它在处理日常人类活动时遇到了困难,例如识别周围的物体或理解语音。尽管在开发以与人类相同的方式理解自然语言的软件方面已经开展了大量活动,但这仍然是一个重大挑战。文字不是数字在过去的20年里,生成和捕获的各种形式的数据量呈爆炸式增长。从广义上讲,这些数据分为两类:结构化和非结构化。结构化数据是数字化的和有组织的,根据定义是数学运算的基本输入。得益于机器学习(ML)和数据处理能力的整体增长,AI在从结构化数据生成预测性洞察力方面取得了长足的进步,从潜在的机器故障到欺诈检测。如果您能够以数字方式表示和构建数据,那么您就有可能获得机器学习驱动的洞察力。但数字技术也导致非结构化数据的大量增加,包括图像、视频和语言数据。这就是传统的基于机器学习的自然语言处理(NLP)技术的不足之处。语言是数据密集型的——它携带着大量的潜在信息,这取决于它的使用方式。作为思维练习,只需列出任何常用词(如“蝙蝠”)的含义和用法的数量。这些含义来自上下文。语言学家RJFirth写道,“你应该通过它所拥有的公司来了解一个词。”语言的这些内在元素使得应用数学技术真正理解自然语言的含义变得非常具有挑战性。然而,“一刀切”的语言机器学习方法有一个更根本的缺点:知识问题。知识问题当您进入支持众多业务且在其领域独有的复杂语言文档的现实世界时,语言挑战会变得更加复杂。根据定义,这些是使语言更加复杂的边缘情况。机器学习模型仅从它们所训练的数据中了解世界,并且它们通过在许多情况下复杂且不透明的算法得出结果——许多人工智能方法的著名“黑匣子”特征。提供实用解决方案的大部分工作取决于确保数据集足够大且具有足够的代表性,以捕获主题专家只有在多年经验和培训后才能识别的信息。在许多情况下,无法获得如此大量的训练数据。这也是一项持续的练习,因为现实世界会随着时间的推移而变化,并且需要重新训练模型。即使是像GPT-3这样广为人知的大型语言模型的进步,也没有理由对这种复杂性感到乐观。这些模型依赖海量数据集进行训练,可以处理相对简单的语言案例。但由于缺乏特定领域的任何真正基础,它们与经验丰富、知识渊博的人用来理解意图、上下文和意义的方法相去甚远。整体大于部分之和。人们越来越认识到需要将机器学习方法的力量与建立在商业专家多年来开发的知识基础上的方法结合起来。这些基于知识的方法被称为符号人工智能,依赖于嵌入知识的技术,类似于人类如何建立自己对学科的掌握。符号方法提供了可解释性的额外好处,因为结果与知识的明确表示相关联。事实上,符号方法是人工智能中用于自然语言理解的第一种技术,并且越来越被视为对最近机器学习方法的必要补充。学习和知识方法的结合提供了大规模深入理解的能力,以及与可解释领域和结果相关的见解。这种“混合”方法确保以可扩展的方式捕获和传递语言中嵌入的相关信息,从而做出更快、更明智和更一致的决策,使人们能够更好地完成工作(变得更专业)。这最终是企业竞争和提供最佳技术的舞台。