当前位置: 首页 > 科技赋能

对话微软小兵李迪!如何让小冰与人互动顺畅?

时间:2024-05-22 15:24:45 科技赋能

文章|宇阳 在人工智能的舞台上,微软小冰是明星人物。

以其温柔可人的“邻家女孩”“形象”,可以说受到了万千少男少女的喜爱。

自今年诞生以来,小冰在微软亚洲互联网工程院“父辈”的培养下,不断提升自己。

如今,他已发展到第五代。

除了写诗、当主持人,小冰也开始与硬件结合,在米家生态链中实现Yeelight。

小冰也开始从最初的情感陪伴,转变为家庭导向的生活助手。

近日,微软亚洲互联网工程院副院长、微软小冰全球负责人李迪与微软小冰全球研发负责人、首席架构师周力首次公布了会话式AI的最新框架——Session-Oriented(面向会话)。

整个对话)。

智动智印象最深的一个观点是,在小冰团队看来,国内会话式人工智能的整体发展就像是在堆砌积木,没有对底层框架的设计进行更多的探索,这极大地限制了对话式人工智能的发展。

对话式人工智能。

微软小冰正在尝试采用新的底层框架来改善现有的交互体验。

(左为微软亚洲互联网工程院副院长、微软小冰全球负责人李迪,右为微软小冰全球研发负责人、首席架构师周力) 1、“十字路口”的陷阱微软小冰正在做的是“全双工语音交互”。

所谓全双工可以理解为实时交互、双向交互、持续交互。

就像人们打电话一样,它可以实时监听并与您沟通。

这样做的好处是会话式人机交互更加自然,更符合人与人交互的体验。

李迪表示,目前国内的对话式AI还不能算是全双工,顶多是半双工,核心原因在于底层框架的限制。

他将基本框架的概念分为两??种类型:面向回合(面向单个任务)和面向会话(面向整个会话)。

所谓Turn-orient,就是面向单一任务的编程。

简单的表现就是提出问题并回答问题,通过最少的多轮对话帮助你完成任务。

目前国内的对话式人工智能大多遵循这个思路。

面向会话的情况并非如此。

它首先注重更大规模、全程对话,更注重整个互动过程的质量。

这也是微软小冰目前采用的基本框架。

为了更好地理解,李迪用日常生活中的事物形象地对比了这两个框架的区别。

他将回合导向比作“十字路口的对话”。

就像十字路口的“警察”。

当你发出指令时,它会快速引导你一个方向,并在完成任务后拉你。

回到十字路口,然后一切归零,如此循环。

当无法引导您到达某个地点时,搜索引擎会提供一些搜索信息。

这样做的好处是可以快速完成任务,但缺点是你总是处于十字路口,忽略了过程中的经验。

相比之下,面向Session的对话就像一条“河流”。

它从一项任务转移到另一项任务。

这项任务可能会导致进一步的沟通甚至闲聊。

由于进一步的沟通可能会带来新的任务,所以会一直这样下去。

在这样的“河流”中,整个过程中的对话质量比单个任务的完成要好,因此对话体验更好。

此前,Facebook、亚马逊、苹果等使用的交互框架都是面向单一任务的。

比如,当你和Siri说话时,你每次可能只能说一两句话,否则就不能很好地完成。

从前端来看,我们认为它不够机械。

如果系统不够好,其实是底层框架的问题。

最近的迹象表明他们正在探索面向会话的技术。

李迪表示,这将是未来1到2年对话式AI的重要发展方向。

李迪进一步强调,Turn-Oriented这种面向单任务的框架的上限决定了其未来的发展空间。

起初,面向Session的框架下的交互或许可以用惨不忍睹来形容,但一旦经过某个节点,就会有很大的发展空间。

2、公开了全双工交互的四大技术细节。

微软小冰的全双工语音交互是基于面向Session的框架,更加注重整个对话过程中的交互。

但要实现这样的全双工、自然交互,还需要突破很多技术。

微软小冰全球研发负责人、首席架构师周力分享了四大技术进展。

第一个技术表现是“倾听和思考”,通过预测模型和动态响应来实现。

所谓预测模型,是指小冰不再等待用户说完一句话才进行语音识别。

相反,每次听到一个单词时,它都会提前预测用户整个句子的完整含义。

动态响应并不意味着用户输入一个项目,AI就会做出响应。

相反,它会根据提前预测的用户意图进行“思考”和响应,并根据获得的最新信息调整输出结果。

这有两个好处。

一方面,它可以让对话式AI的回答速度更快。

另一方面,在处理一些复杂的情况时,不能拘泥于“我要回复消息”,可以使用更好的对话。

战略。

例如,在“开灯”命令下,它识别出这个意图后可以先说“收到”,然后等到灯真正打开时才说它已经为你开灯了,体验一下会好很多。

第二个技术表现是“节奏控制器”。

在全双工对话中,节奏感会变得非常重要。

例如,用户说出的第一句话非常重要,或者第一句话需要很长时间才能说出。

这时,AI不仅需要与自身协调,还需要与人类协调,通过不同的响应策略来选择重复、跳过、甚至打断用户。

再比如,如果用户突然停止说话,AI是否可以提出具有更多上下文的新主题,或者维持现有主题,从而打破沉默。

这意味着AI将拥有更多的主动权,这是目前的语音助手所不具备的。

第三点是全双工语音交互可以通过分类器、环境处理、物体判断等实现对声音场景的理解。

首先,语音身份识别是对话的基础。

首先,人工智能需要识别男性、女性和儿童。

如果你想对一个男人说“姐姐,你真漂亮”,那是不合适的。

通过识别用户的喜怒哀乐,还可以采取不同的对话策略来增强用户体验。

环境处理也非常重要。

通过环境识别,如果AI处于嘈杂的环境中,自然需要放大声音,但如果是在谈论一些私人问题,则应该降低声音,以体现说话的艺术。

另外,对对象的判断也很重要。

在家庭环境中,AI需要通过声纹识别来识别祖父、祖母、父亲、母亲等不同人的身份,以选择不同的对话。

第四点在于自然语言理解和生成模型。

在对话过程中,AI首先需要了解自己在做什么,以便能够根据场景调整对话策略。

周力形象地解释道,比如在播放故事的场景中,如果要调节音量,可能只是点亮来显示音量调节,而不影响用户听故事。

生成模型意味着小冰的每一句话都是“自创”的,每一个答案都可能根据场景而改变,而不是之前通过数据库检索得到的。

在连续流是对话基石的时代,生成模型作为对话技术变得越来越重要。

3、底层框架决定发展潜力。

正如微软亚洲互联网工程院副院长李迪所言,目前国内的对话式AI大多是设置在单一任务的框架内。

智东西此前采访过很多从事NLP(自然语言处理)的公司,比如三角兽、筑剑智能、苏然认知、海智智能等。

NLP一直是人机交互尤其是通用NLP的瓶颈。

在这种情况下,出于务实的考虑,通过限制边界场景,NLP开始实现特定的场景。

最初,为了让AI显得更有用,国内大多采用任务导向的问答对话,尽可能完成用户的任务。

微软小冰面向整个流程的面向会话的“河”式对话听起来非常优美。

基于现有的NLP技术可以实现吗?支东西向周离提出了这个问题。

周力坦言,NLP的问题,包括学术界,仍然是一个没有得到很好解决的问题。

在小兵看来,他们采用的方法是多种技术的结合,包括深度学习技术、搜索技术、决策树等,共同达到更好的效果。

此外,他从全双工的角度继续解释,自然语言处理能力其实只是小冰实现良好对话能力的一小部分,还包括场景识别、结构控制等。

虽然整个行业可能在NLP方面还有很长的路要走,在客户体验方面,只要找到正确的方向和正确的路径,我们可以在未来一两年内取得很大的突破。

李迪还补充说,截至今天,他们还不能说小冰对话很好,但框架起着决定性的价值。

当我们着眼于大局、一个“地方”的得失时,无论是我们还是用户,我们都能在一定程度上理解,但无法进行“十字路口”式的对话。

可见,在他看来,并不是NLP本身变得更加重要,也不是NLP变得如何,小冰的对话就会很好。

他强调的重点是底层框架。

只有面向整个对话过程的对话机制才会产生更大的影响。

潜在空间。