当前位置：首页 > 科技赋能

对话微软小兵李迪！如何让小冰与人互动顺畅？

时间：2024-05-22 15:24:45 科技赋能

文章|宇阳在人工智能的舞台上，微软小冰是明星人物。

以其温柔可人的“邻家女孩”“形象”，可以说受到了万千少男少女的喜爱。

自今年诞生以来，小冰在微软亚洲互联网工程院“父辈”的培养下，不断提升自己。

如今，他已发展到第五代。

除了写诗、当主持人，小冰也开始与硬件结合，在米家生态链中实现Yeelight。

小冰也开始从最初的情感陪伴，转变为家庭导向的生活助手。

近日，微软亚洲互联网工程院副院长、微软小冰全球负责人李迪与微软小冰全球研发负责人、首席架构师周力首次公布了会话式AI的最新框架——Session-Oriented（面向会话）。

整个对话）。

智动智印象最深的一个观点是，在小冰团队看来，国内会话式人工智能的整体发展就像是在堆砌积木，没有对底层框架的设计进行更多的探索，这极大地限制了对话式人工智能的发展。

对话式人工智能。

。

微软小冰正在尝试采用新的底层框架来改善现有的交互体验。

（左为微软亚洲互联网工程院副院长、微软小冰全球负责人李迪，右为微软小冰全球研发负责人、首席架构师周力） 1、“十字路口”的陷阱微软小冰正在做的是“全双工语音交互”。

所谓全双工可以理解为实时交互、双向交互、持续交互。

就像人们打电话一样，它可以实时监听并与您沟通。

这样做的好处是会话式人机交互更加自然，更符合人与人交互的体验。

李迪表示，目前国内的对话式AI还不能算是全双工，顶多是半双工，核心原因在于底层框架的限制。

他将基本框架的概念分为两??种类型：面向回合（面向单个任务）和面向会话（面向整个会话）。

所谓Turn-orient，就是面向单一任务的编程。

简单的表现就是提出问题并回答问题，通过最少的多轮对话帮助你完成任务。

目前国内的对话式人工智能大多遵循这个思路。

面向会话的情况并非如此。

它首先注重更大规模、全程对话，更注重整个互动过程的质量。

这也是微软小冰目前采用的基本框架。

为了更好地理解，李迪用日常生活中的事物形象地对比了这两个框架的区别。

他将回合导向比作“十字路口的对话”。

就像十字路口的“警察”。

当你发出指令时，它会快速引导你一个方向，并在完成任务后拉你。

回到十字路口，然后一切归零，如此循环。

当无法引导您到达某个地点时，搜索引擎会提供一些搜索信息。

这样做的好处是可以快速完成任务，但缺点是你总是处于十字路口，忽略了过程中的经验。

相比之下，面向Session的对话就像一条“河流”。

它从一项任务转移到另一项任务。

这项任务可能会导致进一步的沟通甚至闲聊。

由于进一步的沟通可能会带来新的任务，所以会一直这样下去。

在这样的“河流”中，整个过程中的对话质量比单个任务的完成要好，因此对话体验更好。

此前，Facebook、亚马逊、苹果等使用的交互框架都是面向单一任务的。

比如，当你和Siri说话时，你每次可能只能说一两句话，否则就不能很好地完成。

从前端来看，我们认为它不够机械。

如果系统不够好，其实是底层框架的问题。

最近的迹象表明他们正在探索面向会话的技术。

李迪表示，这将是未来1到2年对话式AI的重要发展方向。

李迪进一步强调，Turn-Oriented这种面向单任务的框架的上限决定了其未来的发展空间。

起初，面向Session的框架下的交互或许可以用惨不忍睹来形容，但一旦经过某个节点，就会有很大的发展空间。

2、公开了全双工交互的四大技术细节。

微软小冰的全双工语音交互是基于面向Session的框架，更加注重整个对话过程中的交互。

但要实现这样的全双工、自然交互，还需要突破很多技术。

微软小冰全球研发负责人、首席架构师周力分享了四大技术进展。

第一个技术表现是“倾听和思考”，通过预测模型和动态响应来实现。

所谓预测模型，是指小冰不再等待用户说完一句话才进行语音识别。

相反，每次听到一个单词时，它都会提前预测用户整个句子的完整含义。

动态响应并不意味着用户输入一个项目，AI就会做出响应。

相反，它会根据提前预测的用户意图进行“思考”和响应，并根据获得的最新信息调整输出结果。

这有两个好处。

一方面，它可以让对话式AI的回答速度更快。

另一方面，在处理一些复杂的情况时，不能拘泥于“我要回复消息”，可以使用更好的对话。

战略。

例如，在“开灯”命令下，它识别出这个意图后可以先说“收到”，然后等到灯真正打开时才说它已经为你开灯了，体验一下会好很多。

第二个技术表现是“节奏控制器”。

在全双工对话中，节奏感会变得非常重要。

例如，用户说出的第一句话非常重要，或者第一句话需要很长时间才能说出。

这时，AI不仅需要与自身协调，还需要与人类协调，通过不同的响应策略来选择重复、跳过、甚至打断用户。

再比如，如果用户突然停止说话，AI是否可以提出具有更多上下文的新主题，或者维持现有主题，从而打破沉默。

这意味着AI将拥有更多的主动权，这是目前的语音助手所不具备的。

第三点是全双工语音交互可以通过分类器、环境处理、物体判断等实现对声音场景的理解。

首先，语音身份识别是对话的基础。

首先，人工智能需要识别男性、女性和儿童。

如果你想对一个男人说“姐姐，你真漂亮”，那是不合适的。

通过识别用户的喜怒哀乐，还可以采取不同的对话策略来增强用户体验。

环境处理也非常重要。

通过环境识别，如果AI处于嘈杂的环境中，自然需要放大声音，但如果是在谈论一些私人问题，则应该降低声音，以体现说话的艺术。

另外，对对象的判断也很重要。

在家庭环境中，AI需要通过声纹识别来识别祖父、祖母、父亲、母亲等不同人的身份，以选择不同的对话。

第四点在于自然语言理解和生成模型。

在对话过程中，AI首先需要了解自己在做什么，以便能够根据场景调整对话策略。

周力形象地解释道，比如在播放故事的场景中，如果要调节音量，可能只是点亮来显示音量调节，而不影响用户听故事。

生成模型意味着小冰的每一句话都是“自创”的，每一个答案都可能根据场景而改变，而不是之前通过数据库检索得到的。

在连续流是对话基石的时代，生成模型作为对话技术变得越来越重要。

3、底层框架决定发展潜力。

正如微软亚洲互联网工程院副院长李迪所言，目前国内的对话式AI大多是设置在单一任务的框架内。

智东西此前采访过很多从事NLP（自然语言处理）的公司，比如三角兽、筑剑智能、苏然认知、海智智能等。

NLP一直是人机交互尤其是通用NLP的瓶颈。

在这种情况下，出于务实的考虑，通过限制边界场景，NLP开始实现特定的场景。

最初，为了让AI显得更有用，国内大多采用任务导向的问答对话，尽可能完成用户的任务。

微软小冰面向整个流程的面向会话的“河”式对话听起来非常优美。

基于现有的NLP技术可以实现吗？支东西向周离提出了这个问题。

周力坦言，NLP的问题，包括学术界，仍然是一个没有得到很好解决的问题。

在小兵看来，他们采用的方法是多种技术的结合，包括深度学习技术、搜索技术、决策树等，共同达到更好的效果。

此外，他从全双工的角度继续解释，自然语言处理能力其实只是小冰实现良好对话能力的一小部分，还包括场景识别、结构控制等。

虽然整个行业可能在NLP方面还有很长的路要走，在客户体验方面，只要找到正确的方向和正确的路径，我们可以在未来一两年内取得很大的突破。

李迪还补充说，截至今天，他们还不能说小冰对话很好，但框架起着决定性的价值。

当我们着眼于大局、一个“地方”的得失时，无论是我们还是用户，我们都能在一定程度上理解，但无法进行“十字路口”式的对话。

可见，在他看来，并不是NLP本身变得更加重要，也不是NLP变得如何，小冰的对话就会很好。

他强调的重点是底层框架。

只有面向整个对话过程的对话机制才会产生更大的影响。

潜在空间。

上一篇：360智能相机是免费的，最大的不确定性是监管

下一篇：eStar Pro团队领衔华为nova3动力挑战赛招募“隐藏王者”

对话微软小兵李迪！如何让小冰与人互动顺畅？相关文章