当前位置: 首页 > 科技观察

遗憾的是,自然语言理解是AI尚未攻克的领域

时间:2023-03-19 01:15:34 科技观察

在短短几年时间里,深度学习算法取得了长足的进步,不仅在国际象棋比赛中击败了世界上最好的棋手,甚至能够超越人脸识别的准确性。但事实证明,人类语言仍然是一个独特而深刻的问题,也是人工智能技术面临的最困难的挑战之一。但突破能否如期而至?一旦计算机能够有效地理解人类语言的内容,它将彻底改变全球品牌、企业和组织的互动方式。今天,大多数企业没有资源为每个客户提供一对一的答案。但在语言AI真正成熟之后,企业将能够随时随地通过任何渠道倾听、理解和回应每一个问题。这是一个令人振奋的发展愿景,但距离实现目标还有很长的路要走。直到2015年,人们才建立了一种在准确性方面可以与其他算法相媲美的人脸识别算法。Facebook的DeepFace准确率为97.4%,仅略低于人类的97.5%。作为参考,FBI此前的人脸识别算法准确率仅为85%,这意味着它的判断有超过七分之一的概率是错误的。FBI算法是由一组工程师手工开发的。这些特征中的每一个,例如鼻子的大小和眼睛的相对位置,都是手动编程的。Facebook算法真正实现了特征学习,它使用一种称为卷积神经网络的特殊深度学习架构,通过复杂的多层结构模拟人类视觉皮层处理图像内容。事实上,我们并不知道这些皮质是如何连接起来的,所以所有的“谜团”都是由算法独立探索的。Facebook之所以能够取得这一成就,是依靠两个基本思路来实现人类级别的人工智能:首先建立一套可以学习特征的架构,然后使用数以百万计的带标签的高质量图像作为训练材料他们学习。语言障碍就在这里视觉的诞生是艰难的,但数以百万计的物种在进化过程中克服了它。相比之下,语言似乎更复杂。据我们所知,人类是目前唯一能够使用复杂语言交流思想的物种。不到十年前,AI算法可以仅根据单词的出现频率粗略推断出某些单词的含义。但是,这种方法明显忽略了同义成分的存在,无法处理某些表达在不同语境中有不同含义的问题。2013年,TomasMikolov和他在谷歌的团队创建了一个能够学习单词含义的架构。他们的word2vec算法可以将同义词相互映射,从而对大小、性别、速度等语义进行建模,甚至可以关联国家和首都等特征。但是仍然缺少一个关键部分——理解上下文。语言理解领域真正的突破诞生于2018年,当时谷歌推出了BERT模型。JacobDevlin和他的团队仍然使用传统机器翻译中的架构,但引入了在句子中学习上下文信息的能力。通过训练模型填充维基百科文章中缺失的单词,该团队能够将语言结构嵌入到BERT模型中。他们仅使用有限数量的高质量标记数据,成功地调整了BERT以执行从找到问题的正确答案到真正理解句子含义的任务。凭借这一壮举,他们成为破解语言理解之谜的先驱:正确的架构,以及大量可供学习的高质量数据。2019年,Facebook的研究人员更进了一步。他们同时使用100种语言训练了一个类似的BERT模型。该模型可以学习一种语言(例如英语)的特征,并将结果应用于任何其他语言(例如阿拉伯语、中文和印地语)。这种语言中立的模型可以在实际训练选择的语言中实现与BERT完全相同的性能,并且在迁移到另一种语言时将影响控制在较低程度。这些技术本身确实令人印象深刻。但在2020年初,谷歌研究人员终于能够在广泛的语言理解任务上超越人类。Google引入了更大的网络架构和更多的训练数据,最终将BERT架构推向了极限。今天,这个被称为T5的架构在标记句子和寻找答案方面优于人类。去年10月发布的多语种mT5模型已经能够在双语翻译方面实现与人类相似的性能,更可怕的是它最多可以支持100种语言。谷歌本周公布了全新的万亿级参数模型,整体架构规模更上一层楼,性能进一步提升。可能性想象一下未来,聊天机器人可能能够理解您用任何语言写的内容,真正理解上下文并记住他们之前谈论过的内容。这意味着我们得到的不再只是一些简单粗暴的预定义回复,而是真实的关切和答案。搜索引擎也将能够理解你的问题并给出正确的答案,无论你的话是否严格准确。您可能还会欢迎一位对业务流程了如指掌的AI同事。更重要的是,如果使用了正确的术语,仅使用Google搜索就可以解决客户的特定问题。繁琐的内部文档终将成为过去,留给AI模型快速浏览。一个新的数据库时代即将到来。我们将告别构建数据的繁琐工作——所有备忘录、电子邮件和报告都将由AI模型自动解释、存储和索引。由于数据库理解人类表达,您可以直接查询和创建报告,而无需求助于您的IT部门。而这一切只是冰山一角。当前依赖于理解人类语言能力的所有过程都有可能被自动化完全破坏。这不是那么简单,但这里仍然存在问题。既然这么好,为什么这些算法没有得到广泛应用呢?因为仅在云计算资源上训练T5算法,谷歌就花费了大约130万美元。幸运的是,谷歌研究人员慷慨地分享了这些模型。但是,如果要对当前任务进行调优,则需要承担大量额外的资源开销,再加上较长的训练周期。不过,随着时间的推移,企业也在不断探索调优工作,相信未来会涌现出更多的应用解决方案。另外,如果大家都相信摩尔定律,那么在五年左右的时间里,我们将迎来更复杂语言的AI应用,将会出现完全超越T5算法的新模型。2021年,我们离人工智能技术的转折点还很远。但只要能攻克这个难关,人工智能技术必将释放无限可能。