文章 |于洋7月5日,百度推出DuerOS语音交互平台和Apollo自动驾驶平台,成为百度AI两大核心落地平台。
这一天,百度还宣布收购专注于唤醒和自然语言处理的AI初创公司KITT.AI,这与其“唤醒万物”的使命不谋而合。
凭借“All in AI”和“从连接信息到唤醒一切”,百度7月份市值增加约1亿美元。
截至北京时间8月2日,百度总市值已达300亿美元。
看来,突破千亿大关已经不远了。
从移动互联网服务和应用到AI时代的底层技术,百度也在实现自己的转型,而这种转型无疑受到市场和资本的青睐。
近日,智东西偶然遇见了KITT.AI创始人姚旭晨,并与他就语音技术以及百度语音入口的布局进行了交谈。
1. KITT.AI,度米新成员。
KITT.AI是一家来自美国西雅图的人工智能初创公司。
主要关注唤醒和自然语言理解技术。
目前拥有两个核心产品:热词检测器和对话系统ChatFlow。
热词识别是一款快速训练唤醒词的产品。
开发者利用软件平台Snowboy为硬件设备添加唤醒词功能,例如亚马逊Echo的“Alexa”和叮咚音箱的“叮咚叮咚”。
对话系统ChatFlow拥有基于自有NLP(自然语言处理)技术的自然语言理解引擎NLU(自然语言理解)。
是开发者开发对话系统、帮助开发者解决问题的工具。
基于上下文的多轮对话问题。
(KITT.AI 创始人团队及成员) KITT.AI 原本是今年 9 月诞生的,作为艾伦人工智能研究院(AI2)内部孵化项目,但真正转型为“热词”(即叫醒)唤醒词)和对话引擎,相关产品也经过了近一年半的打磨,目前其热词技术可实现95%~98%的唤醒率,已获得包括等5家机构的投资。
微软联合创始人保罗·艾伦和亚马逊Alexa,并入选CB Insights人工智能初创公司100强,令人惊讶的是,这样的明星团队迄今为止只有三名员工。
被百度收购后,KITT.AI保留原有品牌和产品,作为独立团队加入杜米事业部,并将继续在西雅图发展。
目前,KITT.AI的热词识别正在集成到DuerOS中,DuerOS旗下的很多产品都将使用其热词技术。
据姚旭晨透露,热词识别及其对话系统ChatFlow(NLP技术)将在今年内集成到DuerOS中,但具体收费情况尚未确定。
2、唤醒一切先从“唤醒”开始。
唤醒词是人与语音设备交互的第一步。
能否顺利实现唤醒、减少误唤醒对于用户体验非常重要。
还记得KITT.AI联合创始人兼CTO陈果果在今年百度AI开发者大会上的演讲吗?即通过Snowboy平台快速训练一个唤醒词。
这是KITT.AI的热词识别,也是DuerOS平台人机交互体验的关键部分。
(KITT.AI联合创始人、CTO陈果果唤醒词训练演示)具体来说,热词识别的原理是:用户说出3次唤醒词,会形成3个音频文件,传输到云端。
这是一个端到端的深度学习分类器,它将对文件执行音频建模并仅针对这三个音频构建分类器。
它可以从能量、音调等中提取参数形成特征。
下次使用唤醒词时,这个分类器会判断是否与这三个音频的特征相似,以决定是否唤醒。
据姚旭辰介绍,KITT.AI的热词识别采用了数十万到数百万次的特征提取。
唤醒设备固然重要,但如何减少误唤醒也同样重要。
姚旭辰表示,造成误醒的因素有很多,其中包括噪音和能量。
比如,针对一些与唤醒词类似的音节,小鱼家庭机器人利用电视剧《小鱼儿与花无缺》进行了测试,发现剧中很多“小鱼儿”的词语有时会引起误醒。
此外,他还提到,不相关的声音有时会导致设备意外唤醒。
原因是机器没有像人类那样的上下文。
只能从很多特征参数来判断。
也许你的一个爆破音会导致分类器的每个权重都很大,从而造成假唤醒。
纵观目前火热的智能音箱,噪声环境下的唤醒和误唤醒仍然是亟待解决的问题。
只有打磨技术,实现高精度和容错性,才能获得更好的用户体验。
3.自然语言处理的进展如何? KITT.AI的另一项核心技术是NLP,应用于其产品对话系统ChatFlow中,帮助开发者开发对话系统,实现人机对话。
姚旭晨和首席科学家曹普林是美国约翰霍普金斯大学CLSP实验室(语言与语音处理中心)的博士,主要研究方向是NLP。
最近大家都在抱怨智能音箱的“智商”问题,而智商背后的关键在于NLP。
尽管BAT等互联网公司拥有海量数据资源,可以实现97%以上的语音识别,但他们在NLP方面的进展并不明显,各种语音助手仍然受到诟病。
(KITT.AI官网对对话系统ChatFlow的介绍)那么NLP在语音应用方面的进展如何呢?姚旭辰说,“凡是无法衡量的事情,都很难改进。
”比如语音识别和图像识别就很容易衡量,而语音识别的识别率可以通过看错别字来衡量。
但自然语言则不然。
这是一个开放式问题。
如果你问它一句话,它可能有一个答案,所以很难衡量这一表现的结果。
如果无法测量这种性能,就很难对其进行优化。
NLP 是人工智能中最困难的问题之一。
在人机交互中,机器距离理解人类语音还很遥远。
以智能音箱中的多轮对话为例。
目前,通用语言的多轮对话还很难实现。
更重要的是在特定任务中多轮对话的能力,比如叫出租车、叫外卖、订电影票等。
目前NLP还没有取得什么大的突破。
它距离像人类一样思考和推理还有很长的路要走。
因此,NLP在智能音箱、儿童玩具等方面可以作为简单便捷的助手,但在其他应用中仍难以实现。
另一方面,这也解释了为什么目前智能音箱大多处于“one shot”(一次唤醒、一次问答)模式。
4、从收购KITT.AI看百度的语音布局。
DuerOS语音交互平台是百度“All in AI”的重要一步。
景坤指出,DuerOS的核心理念是“唤醒万物”,而唤醒万物的三个基本要素是:听得清楚、听得懂、满足——可以理解为语音识别、语义理解、响应。
(图为度米事业部总经理景坤)百度在语音识别和内容服务方面已经拥有大量资源。
收购KITT.AI正是因为其在语音唤醒和自然语言处理方面的优势,从而使其在“理解”方面拥有更多优势,完善整个语音生态。
在收购之前,KITT.AI已经拥有近2万名免费开发者和来自四大洲的众多付费客户,其公司已于今年4月和5月实现盈利。
在谈到选择百度的原因时,姚旭晨表示,确实有很多公司想收购KITT.AI。
选择百度的核心原因是KITT本身定位为平台,即成为一家成功的SaaS(Software as a Service,软件即服务)公司,而百度可以为他们提供更大的平台和更多的开发者。
另外,百度更加认可技术,给予团队很大的自由度,让团队在西雅图独立开发。
百度需要唤醒和自然语言技术来强化底层技术基础,KITT.AI也需要更大的平台。
两人可谓是一拍即合。
除了语音领域的两大平台产品DuerOS和Apollo以及KITT.AI外,百度还在今年2月收购了人工智能初创公司Raven Technology,并于4月收购了硅谷专注机器视觉的AI公司xPerception 。
在百度内部,搜索部门为AI提供知识库和文本解决方案,地图团队为自动驾驶提供导航,百度云提供基础设施,百度医疗大脑提供人工智能诊断。
可以说,百度的“All in AI”绝不是一句空话。
结论:语音——人机交互的未来。
DuerOS的核心是唤醒万物,而人机交互的第一步就是唤醒词。
可以说,由三位尖子生组成的明星团队KITT.AI完成了百度唤醒万物的使命。
第一步。
不过,姚旭晨也承认,自然语言处理尚未取得突破性进展。
如何让机器听懂、理解人类,仍将是我们长期面临的问题。