文章|宇阳 在人工智能的舞台上,微软小冰是明星人物。
以其温柔可人的“邻家女孩”“形象”,可以说受到了万千少男少女的喜爱。
自今年诞生以来,小冰在微软亚洲互联网工程院“父辈”的培养下,不断提升自己。
如今,他已发展到第五代。
除了写诗、当主持人,小冰也开始与硬件结合,在米家生态链中实现Yeelight。
小冰也开始从最初的情感陪伴,转变为家庭导向的生活助手。
近日,微软亚洲互联网工程院副院长、微软小冰全球负责人李迪与微软小冰全球研发负责人、首席架构师周力首次公布了会话式AI的最新框架——Session-Oriented(面向会话)。
整个对话)。
智动智印象最深的一个观点是,在小冰团队看来,国内会话式人工智能的整体发展就像是在堆砌积木,没有对底层框架的设计进行更多的探索,这极大地限制了对话式人工智能的发展。
对话式人工智能。
。
微软小冰正在尝试采用新的底层框架来改善现有的交互体验。
(左为微软亚洲互联网工程院副院长、微软小冰全球负责人李迪,右为微软小冰全球研发负责人、首席架构师周力) 1、“十字路口”的陷阱微软小冰正在做的是“全双工语音交互”。
所谓全双工可以理解为实时交互、双向交互、持续交互。
就像人们打电话一样,它可以实时监听并与您沟通。
这样做的好处是会话式人机交互更加自然,更符合人与人交互的体验。
李迪表示,目前国内的对话式AI还不能算是全双工,顶多是半双工,核心原因在于底层框架的限制。
他将基本框架的概念分为两??种类型:面向回合(面向单个任务)和面向会话(面向整个会话)。
所谓Turn-orient,就是面向单一任务的编程。
简单的表现就是提出问题并回答问题,通过最少的多轮对话帮助你完成任务。
目前国内的对话式人工智能大多遵循这个思路。
面向会话的情况并非如此。
它首先注重更大规模、全程对话,更注重整个互动过程的质量。
这也是微软小冰目前采用的基本框架。
为了更好地理解,李迪用日常生活中的事物形象地对比了这两个框架的区别。
他将回合导向比作“十字路口的对话”。
就像十字路口的“警察”。
当你发出指令时,它会快速引导你一个方向,并在完成任务后拉你。
回到十字路口,然后一切归零,如此循环。
当无法引导您到达某个地点时,搜索引擎会提供一些搜索信息。
这样做的好处是可以快速完成任务,但缺点是你总是处于十字路口,忽略了过程中的经验。
相比之下,面向Session的对话就像一条“河流”。
它从一项任务转移到另一项任务。
这项任务可能会导致进一步的沟通甚至闲聊。
由于进一步的沟通可能会带来新的任务,所以会一直这样下去。
在这样的“河流”中,整个过程中的对话质量比单个任务的完成要好,因此对话体验更好。
此前,Facebook、亚马逊、苹果等使用的交互框架都是面向单一任务的。
比如,当你和Siri说话时,你每次可能只能说一两句话,否则就不能很好地完成。
从前端来看,我们认为它不够机械。
如果系统不够好,其实是底层框架的问题。
最近的迹象表明他们正在探索面向会话的技术。
李迪表示,这将是未来1到2年对话式AI的重要发展方向。
李迪进一步强调,Turn-Oriented这种面向单任务的框架的上限决定了其未来的发展空间。
起初,面向Session的框架下的交互或许可以用惨不忍睹来形容,但一旦经过某个节点,就会有很大的发展空间。
2、公开了全双工交互的四大技术细节。
微软小冰的全双工语音交互是基于面向Session的框架,更加注重整个对话过程中的交互。
但要实现这样的全双工、自然交互,还需要突破很多技术。
微软小冰全球研发负责人、首席架构师周力分享了四大技术进展。
第一个技术表现是“倾听和思考”,通过预测模型和动态响应来实现。
所谓预测模型,是指小冰不再等待用户说完一句话才进行语音识别。
相反,每次听到一个单词时,它都会提前预测用户整个句子的完整含义。
动态响应并不意味着用户输入一个项目,AI就会做出响应。
相反,它会根据提前预测的用户意图进行“思考”和响应,并根据获得的最新信息调整输出结果。
这有两个好处。
一方面,它可以让对话式AI的回答速度更快。
另一方面,在处理一些复杂的情况时,不能拘泥于“我要回复消息”,可以使用更好的对话。
战略。
例如,在“开灯”命令下,它识别出这个意图后可以先说“收到”,然后等到灯真正打开时才说它已经为你开灯了,体验一下会好很多。
第二个技术表现是“节奏控制器”。
在全双工对话中,节奏感会变得非常重要。
例如,用户说出的第一句话非常重要,或者第一句话需要很长时间才能说出。
这时,AI不仅需要与自身协调,还需要与人类协调,通过不同的响应策略来选择重复、跳过、甚至打断用户。
再比如,如果用户突然停止说话,AI是否可以提出具有更多上下文的新主题,或者维持现有主题,从而打破沉默。
这意味着AI将拥有更多的主动权,这是目前的语音助手所不具备的。
第三点是全双工语音交互可以通过分类器、环境处理、物体判断等实现对声音场景的理解。
首先,语音身份识别是对话的基础。
首先,人工智能需要识别男性、女性和儿童。
如果你想对一个男人说“姐姐,你真漂亮”,那是不合适的。
通过识别用户的喜怒哀乐,还可以采取不同的对话策略来增强用户体验。
环境处理也非常重要。
通过环境识别,如果AI处于嘈杂的环境中,自然需要放大声音,但如果是在谈论一些私人问题,则应该降低声音,以体现说话的艺术。
另外,对对象的判断也很重要。
在家庭环境中,AI需要通过声纹识别来识别祖父、祖母、父亲、母亲等不同人的身份,以选择不同的对话。
第四点在于自然语言理解和生成模型。
在对话过程中,AI首先需要了解自己在做什么,以便能够根据场景调整对话策略。
周力形象地解释道,比如在播放故事的场景中,如果要调节音量,可能只是点亮来显示音量调节,而不影响用户听故事。
生成模型意味着小冰的每一句话都是“自创”的,每一个答案都可能根据场景而改变,而不是之前通过数据库检索得到的。
在连续流是对话基石的时代,生成模型作为对话技术变得越来越重要。
3、底层框架决定发展潜力。
正如微软亚洲互联网工程院副院长李迪所言,目前国内的对话式AI大多是设置在单一任务的框架内。
智东西此前采访过很多从事NLP(自然语言处理)的公司,比如三角兽、筑剑智能、苏然认知、海智智能等。
NLP一直是人机交互尤其是通用NLP的瓶颈。
在这种情况下,出于务实的考虑,通过限制边界场景,NLP开始实现特定的场景。
最初,为了让AI显得更有用,国内大多采用任务导向的问答对话,尽可能完成用户的任务。
微软小冰面向整个流程的面向会话的“河”式对话听起来非常优美。
基于现有的NLP技术可以实现吗?支东西向周离提出了这个问题。
周力坦言,NLP的问题,包括学术界,仍然是一个没有得到很好解决的问题。
在小兵看来,他们采用的方法是多种技术的结合,包括深度学习技术、搜索技术、决策树等,共同达到更好的效果。
此外,他从全双工的角度继续解释,自然语言处理能力其实只是小冰实现良好对话能力的一小部分,还包括场景识别、结构控制等。
虽然整个行业可能在NLP方面还有很长的路要走,在客户体验方面,只要找到正确的方向和正确的路径,我们可以在未来一两年内取得很大的突破。
李迪还补充说,截至今天,他们还不能说小冰对话很好,但框架起着决定性的价值。
当我们着眼于大局、一个“地方”的得失时,无论是我们还是用户,我们都能在一定程度上理解,但无法进行“十字路口”式的对话。
可见,在他看来,并不是NLP本身变得更加重要,也不是NLP变得如何,小冰的对话就会很好。
他强调的重点是底层框架。
只有面向整个对话过程的对话机制才会产生更大的影响。
潜在空间。