Zhidixcom(公众号:zhidxcom)|渔阳年是以智能音箱为代表的语音交互蓬勃发展的一年。
今年全球智能音箱销量预计突破1万台,我国智能音箱销量今年也突破100万台。
这背后是从芯片、方案商、技术提供商、平台内容提供商、整车厂的全产业链的快速发展。
语音交互已经演变成下一代人机交互界面指日可待。
在语音交互中,最难的部分是语义理解,这也是为什么目前很多人称智能音箱为“弱智音箱”。
为了在语音交互尤其是语义理解方面取得更大的积累和突破,阿里巴巴人工智能实验室(以下简称AI实验室)成立了北京研发中心,并聘请微软亚洲研究院首席研究员聂再清博士担任研发中心负责人。
近日,智熙来到阿里巴巴北京绿地中心,在会议室会见了北京研发中心负责人聂再清。
会议室名为“华阳阁”,指的是三国时期嵇康学习广陵散的地方。
它一定是阿里“花名”文化的延伸。
我们与聂再庆就AI Labs北京研发中心、知识图谱、自然语言处理等问题进行了深入沟通。
1、正在开发语音交互后端的北京研发中心,第一次见到聂再清博士是在华阳亭会议室。
他穿着蓝色条纹毛衣和白色休闲裤,露出真诚的笑容。
随着进一步的交流,聂再清给我们留下了一个热情、善良、务实、健谈的研究员形象。
(阿里巴巴人工智能实验室北京研发中心负责人 聂再清) 聂再清分别于 2011 年和 2015 年在清华大学计算机系获得学士和硕士学位,并于 2017 年在美国亚利桑那州立大学获得计算机科学博士学位。
2015年赴美,主要研究方向为机器学习、数据挖掘等。
之后加入微软亚洲研究院,一待13年。
主要负责微软自然语言理解和实体挖掘的研发。
微软学术搜索、Human Cube、自然语言理解平台LUIS等都是他负责过的项目。
今年9月,阿里巴巴人工智能实验室在北京设立研发中心。
后来,聂再清离开微软亚洲研究院加盟阿里巴巴,担任AI Labs北京研发中心负责人,重点研究语音交互、知识图谱和自然语言理解(NLU)等难点。
)。
谈及加入阿里巴巴的原因时,聂再清笑称,在微软亚洲研究院呆了13年多了,应该去外面的世界体验一下。
具体来说,微软虽然不错,但更注重研究,他希望将技术落实到产品中,打造出有影响力的产品。
显然,在阿里巴巴比在研究院更容易做到这一点。
此外,他还表示,自己和阿里巴巴AI实验室负责人千雪聊得很好,要做的事情和想法非常契合。
由于阿里巴巴AI实验室的定位是消费级AI产品,这也决定了北京研究中心的发展方向。
但不同的是,北京研发中心将负责更多的基础算法研究和创新研究,也就是语音交互的后端环节。
具体研发方向包括自然语言理解、知识图谱、机器学习、数据挖掘、计算机视觉、语音识别与合成等。
聂再庆的重点研发方向是知识图谱和自然语言理解。
可以看出,阿里AI实验室正试图围绕智能音箱等产品,基于阿里云现有技术构建和完善一整套语音交互技术,从而提升语音交互体验。
不过,聂再清并未透露阿里巴巴AI Labs北京研发中心的更多信息,例如团队数量、成员规模等。
2.打造知识图谱生态系统。
所谓自然语言理解(NLU),就像你与智能音箱交互时,如何将自然语言的句子构造成可执行的命令。
其中的关键需要意图识别和实体提取。
例如,“明天北京的天气怎么样?”机器首先要识别出意图是天气预报,然后提取相关实体“北京”和“明天”并将其映射到知识图谱上。
机器能够理解的ID(唯一标识号),以便机器能够执行命令并正确响应。
知识图谱对于 NLU 具有很大的价值。
一方面,任何没有知识图谱的语言交互都很难变成机器可以具体执行的东西。
另一方面,知识图谱可以帮助你理解很多东西。
聂再清表示,在实验中,他发现利用知识图谱可以提高自然语言理解的准确性。
知识图谱是一种实体关系链,是非结构化数据转化为结构化数据的过程,也用到了很多自然语言理解方法。
知识图谱可以分为两种类型。
一个是常识图,比如苹果是一种水果,北京是一个地名。
常识的帮助是非常直接的;另一个是专业知识,比如垂直应用中的产品名称。
一般来说,知识图谱越完整越好。
如果你有良好的常识,涵盖所有专业,就能达到很好的理解效果。
通过将自然语言映射到知识图谱,它可以变成具体的、可由机器执行的东西。
例如“播放周杰伦的歌曲”。
周杰伦是歌手的常识可以帮助机器决定播放音乐,更容易理解用户的意图。
(阿里巴巴智能音箱天猫精灵X1)知识图谱的研究已经有一些年了,并且已经有了。
然而,一些常识图的发展仍处于初级阶段。
如果垂直行业有很大的商业价值,知识图谱的构建就会越来越全面,这样它在自然语言理解方面的作用就会更大。
目前,机器可以理解,但推理等能力还很弱。
智东西在之前的采访中也了解到,在限制特定的语音交互场景后,构建特定场景下的知识图谱确实可以提高自然语言理解的效果。
如何利用知识图谱来提高自然语言理解的通用性?这句话显然触动了聂再清,他提高了声音:“这就是我说的平台概念,所以现在迫切需要一个生态系统。
大家都在这个平台上编译知识图谱,无论是常识还是知识图谱?”或者专业的话,就会达到1>2的效果。
”知识图谱也是一个“体力活”,涉及到各行各业、共同知识。
一般情况下,具有明显商业价值的领域会首先被编译成知识图谱。
但更多领域仍需要行业共同建设和贡献。
尽管业界也围绕通用知识图谱标准做出了一些努力,但目前各公司的标准仍然不一致,这阻碍了知识图谱的进一步发展。
对此,聂再清表示,修改各公司的知识图谱标准并不困难。
关键在于大家愿不愿意打开。
现在大家都更愿意分享了。
3、提高语义理解的四大策略。
随着深度学习的发展,自然语言处理(NLP)也取得了一些进展。
聂再清主要介绍了三个方面的进展。
一是语言生成的应用,比如稿件写作机器人、微软小冰的诗歌写作等;另一个是神经机器翻译,利用深度学习方法也取得了很多进展;另一种是最常用的语义理解,主要用在语音交互上,比如天猫精灵中的语音交互。
如果把NLP放到发展线上,聂再清认为目前还处于中早期阶段。
如果说人工智能很难,那么自然语言理解和知识图谱就是最难的部分。
目前,人工智能的大部分进展发生在感知方面,包括视觉识别和语音识别,但认知智能仍处于早期阶段。
开始商业化阶段。
目前,自然语言理解和对话管理是NLP中的难题。
聂再清表示,自然语言理解最困难的问题在于自然语言的多样性和歧义性。
例如,询问明天天气怎么样,比如明天会下雨,明天气温是多少等等,这就是自然的语言多样性。
歧义意味着有时一个词在不同的上下文中具有不同的含义,从而很难将其转化为意图或ID。
对话管理也是如此。
即使自然语言理解很好,机器也可能不知道下一步要做什么,或者如何与用户进行自然对话,这又涉及到对话策略的问题。
智东西之前也了解到,自然语言的多样性和歧义性很难在一般场景下直接使用。
更多的商业应用会采用场景限定的方式,通过垂直细分场景(比如家庭场景)来保证语音交互体验。
汽车场景中的“餐厅”可能是叫外卖,而汽车场景中的“餐厅”可能是导航。
针对目前NLP的发展现状,我们如何才能进一步突破呢?聂再清总结了以下四点对策:一是从公共大数据中积累更多可替换的词典和语义模板。
以“请帮我打车”为例。
“Please help me”有很多种说法,比如“Please help me”、“Give me”等。
“Take a Taxi”可以称为“Ride a Taxi”等。
这些相似词(或同义词)被称为可替换词典,可以增强自然语言的通用性,可以很好地解决语言歧义问题。
语义模板重点关注这句话中的语义顺序。
不同顺序的问题和答案的积累也可以解决自然语言歧义和多样性的一些问题。
其次,他希望建立一个知识图谱的生态平台,让大量的开发者在上面构建知识图谱,利用积累的知识图谱,不断扩大知识图谱的常识和专业的积累,即,共同构建知识图谱,产生1>2的效果;第三,随着语音交互进入千家万户用户,通过强化学习、深度学习等不同策略,让机器在与人交流的同时判断用户的喜好,并进行持续的自主学习和迭代。
当用户数量多、数据量大时,自然语言理解会更加准确。
和个性化;第四,利用知识库和知识图谱,让这些结构化数据促进自然语言理解。
此外,在NLP应用场景方面,聂再庆谈到了机器翻译、语言生成、语言交互等,但他认为最大的商机在于语音入口,这也是很多企业热衷的原因。
然而,目前流行的语音交互产品——智能音箱,却常常被称为“智障音箱”。
他认为,一方面,需要聚焦NLP的一个垂直领域,建立更全面的知识图谱,增强对用户画像的理解;一方面,还需要管理用户的期望,或者先实现用户不太挑剔的场景。
结语:布局语音交互门户的一年,也是国内语音交互蓬勃发展的一年。
BAT等建立了语音交互平台,并加紧技术落地。
阿里巴巴的天猫精灵销量已达数百万,百度DuerOS也加紧落地。
目前,已有多家合作伙伴,腾讯叮当近期也宣布推出八大场景。
语音交互平台竞争的加剧将需要后端语音交互技术的积累和储备。
阿里巴巴AI实验室成立了北京研发中心,直接瞄准知识图谱、自然语言理解等领域,并加紧布局打造语音交互入口,以便在未来竞争中占据更多主动。