当前位置：首页 > 科技赋能

探索基于语音的多通道交互，DuerOS设计最舒适的人机交流方式

时间：2024-05-22 20:09:35 科技赋能

7月4日至5日，百度AI开发者大会在北京国家会议中心隆重举行。

会议上展示了多项实施成果。

在本次大会上，百度举办了首届AI设计论坛。

百度设计体验委员会主席、百度人工智能交互设计院院长、百度用户体验中心总经理关代松及设计团队分享了百度在AI设计和用户体验方面的经验和思考。

，共同交流AI智能美学与创意的最前沿动态。

百度与湖南大学的战略合作在论坛上正式启动，融合了百度在AI交互设计领域的优势和湖南大学先进的科研能力。

双方将共同建设联合创新实验室和博士后基地，在人工智能设计领域开展更多、更深入的研究。

重视合作与探索。

DuerOS是一个基于语音技术的会话式人机交互系统。

通过万物互联、本能交互、千人千面三个方面，构建人与机器的全新交互模式，使设备能够主动适应外部变化并提供更好的信息服务，使人机互动就像人与人之间的互动一样亲切友好。

情感丰富，为用户创造最舒适的人机交流方式。

以下为演讲实录：【紫轩】：大家好！我是周子轩，百度体验架构师。

今天我要跟大家分享的话题是《智慧型人机对话设计》。

你知道最早的人机对话设计是什么时候开始的吗？ 2008年，贝尔实验室刚刚开始研究语音合成。

如果你对它说出阿拉伯数字，它可以直接转换。

直到上周，我也是这么想的。

一周前的晚上，我给小杜小杜讲了一些事情，“小杜小杜，给我讲个故事吧。

”你觉得小杜说了什么？【利川】魔镜魔镜，告诉我，世界上最美丽的女人是谁？【紫轩】魔镜是最早有屏幕的音箱！但从设计角度来看，魔镜还不够智能。

王后想要听到的不仅是白雪公主美丽，而且是有人夸奖她。

反正小杜不会这么说。

为了研究这个话题，这就是我们今天要分享的关于智能人机对话设计的内容。

下面，我们邀请到了扮演女王的百度DuerOS体验架构师张利川。

【利川】我是DuerOS的设计师，想跟大家分享一下我们这几个月对于对话交互的探索。

事实上，对话有着悠久的历史。

在古代没有书籍的时候，孔子等中外哲学家就用对话来教导和传播思想。

那么今天我们致敬经典，以对话的形式来谈谈智能人机对话设计。

[紫轩]利川，你能告诉我们DuerOS是什么吗？【利川】DuerOS是一个建立在浩瀚AI技术之上的系统级系统，以对话作为统一的用户入口，能够承担多种第三方功能。

产品。

【紫轩】也就是说，变得简单了，唤醒它，然后等待你的需要。

但它仍然不够聪明。

魔镜至少可以告诉我……【沥川】是的，魔镜其实是一种可以读心术的装置。

因为声音不等于对话。

发出声音实际上只是第一步。

还需要了解环境场景的脉络，充分掌握显性和隐性的表达方式，掌握人们的心理互动，这样才能建立良好的对话关系。

作为DuerOS的设计者，在理解了对话式人机交互的深刻含义后，他将更多的真实本性还给了用户，并在设备中安装了推理计算、归纳演绎等先进的综合能力。

它让人们感觉与之交互的对象不仅是一个联网的智能设备，更是一个智能的对话伙伴。

这就是我们提出的智能人机对话的基本模型。

[紫轩]那我想先了解一下你所说的环境是什么意思？【利川】我们想要传达的是重新组织人与环境的适应性关系。

因此，我们现在要提到的一个概念是从用户主动设置到主动环境调整。

首先，传感设备技术已经得到一定程度的升级，可以检测距离、光线、体积、人脸、运动、温度、湿度等，通过传感器采集的信息形成信息空间，这是人类社会之外的第三空间和物理空间。

国务院下发的《新一代人工智能发展规划》也强调了这一空间的建设和利用。

回到家庭环境，DuerOS 与一切对话。

我们拥有有关环境的各个方面的信息。

这些是使环境适应人的基础。

【紫轩】那么适应环境的人真的能做到吗？【利川】人适应环境的程度分为高级三个等级。

一是自动调节环境，二是响应人体变化，三是学习人的习惯。

【紫轩】第一是根据干湿度来调节。

【利川】这是温湿度的自动调节。

人体最适宜的温度和适度程度已经有一个成熟的模型，并将这个模型输入到设备中。

当设备感知到有人在家时，会自动将家庭环境调整到最合适的状态。

【紫轩】第二点是如何理解人体变化的反应？【利川】随着对话交互时代的到来，我们与设备之间的距离拉开了，甚至到了可以想多远、想多近的程度。

空间范围内。

因此，我们提出了不同距离下的最佳视觉呈现方案。

他的实现形式很直观，比如字体大小、字体、排版、图文比例，以及间接的、信息性的重构。

我们来谈谈适应人们的习惯。

我们刚才展示了很多模型，但是这个模型适合大多数人。

对于个人来说，他们有自己的个人喜好。

[紫轩]这个场景我很熟悉。

我在家做家务的时候把音量调大……【利川】科技与环境场景更好的融合，人与设备的交流可以进一步细分场景。

与人的沟通方式的关系，回归人体真正自然的沟通方式。

通过认知科学研究发现，人们实际上是使用多渠道的方式来表达信息。

人类具有多种感官，每种感官都可以传达信息。

【紫轩】什么是多渠道？【利川】通俗地说，就像我们现在的对话，除了我们言语的字面内容之外，还有手势、眼神、表情、语气语调，这些结合起来，才能充分表达信息。

进一步细分，每个通道都有其传输信息的特性，也有传输信息的上限。

因此，多通道集成交互是最自然、最高效、更适合多任务并行的方式。

不过，多通道这个词已经提出很多年了，但之前的产品设计只是用来代替手指的一些指令，比如指纹支付、指纹解锁、人脸解锁等。

这是分开的。

真正的多渠道交互应该集成在一起来传递信息并完成操作任务。

[子轩]这个我同意。

人是最先适应机器的……教人学计算机还是一门职业。

现在看来，这一刻真的到来了。

【利川】信息多渠道表达的设计就是细分场景和操作任务。

经过查阅相关资料，我们发现表达的渠道和任务是有分配、互补??的。

分配具有唯一性。

是指在某些任务下，某些任务具有最好、最有利的表达渠道。

这时，可能不是言语、手指、眼神，而可能是一个动作，比如静音的手势。

对于这样的解决方案，用户只要知道设备支持此类操作，就没有学习成本或召回成本。

例如，互补性是指当单个通道不能完全表达信息时，需要补充其他通道才能更准确地表达信息。

通过多个通道同时表达，每个通道可以表达的信息更少，组合后的含义更清晰。

AI交互设计院的同事会有意识地收集这些手势集合，还原我们最自然的交互。

在东方内敛内敛的文化下，收藏这些藏品确实很有意义。

【子轩】人其实每时每刻都有心理活动，通过情绪、情绪来表达。

【利川】也有更多的网友设计了自己的表情包来表达更多难以形容的情绪。

然而，由于设备和技术的限制，只能达到这个水平。

现在小度也可以检测人的心理活动了。

这里要提到的一个概念是模式匹配。

人工智能已经发展了几十年，从来没有像现在这样给人们更多的信心。

因为大数据、深度学习、传感器、情感理论模型等的高能加持，AI从简单的仿生进化到模式匹配，这为我们做更复杂的情感识别和识别奠定了基础。

最基本的匹配模型是人类心理活动的三要素：知觉、情感、意志。

三者之间存在递进衍生关系，也存在反向影响关系。

以婴儿为例。

他们的表情很直接，情绪很明显，意图也很明确。

使用渐进的方法，您可以快速定位他们的核心意图。

作为一群老人，他们的表情很矜持，情绪很内敛，但意图却很简单。

当老人对智能设备提出请求时，所表达的不仅仅是请求的内容，更代表着他们对新技术的向往，代表着他们不落后的固执，或者是他们渴望与孩子有共同语言的愿望。

以更好的方式向老年人呈现高科技信息，是对老年人感官能力退化后的无助感的关怀。

真正聪明的人在你提出要求之前就知道你想要什么。

俗话说，他很有灵性。

通过一个人的表现，我们可以推断他的意图，然后通过情感感知提炼意图，给出更深层次的解读。

【紫轩】这话怎么说呢？有产品吗？ [利川]这个真的可以用。

我们正在设计一个自动伴奏功能。

播放歌曲时，如果它意识到你在跟着唱，就会切换到一种模式，去掉原曲，播放伴奏歌曲，一秒进入卡拉OK环节。

【紫轩】这真是一个激动人心的时代。

我们用最自然的方式与聪明人交谈，以满足我们不同的生活需求。

DuerOS的设计团队真是贴心、贴心、专业。

利川，你一定是小杜吧。

我问了你们很多问题，你们都很有条理地回答了我。

上一篇：这10个新功能应该会加入到未来的Android Wear系统中

下一篇：第二代蚂蚁TV VR头盔淘宝众筹于8月19日结束，众筹总额达1000万元

探索基于语音的多通道交互，DuerOS设计最舒适的人机交流方式相关文章