当前位置: 首页 > 科技赋能

探索基于语音的多通道交互,DuerOS设计最舒适的人机交流方式

时间:2024-05-22 20:09:35 科技赋能

7月4日至5日,百度AI开发者大会在北京国家会议中心隆重举行。

会议上展示了多项实施成果。

在本次大会上,百度举办了首届AI设计论坛。

百度设计体验委员会主席、百度人工智能交互设计院院长、百度用户体验中心总经理关代松及设计团队分享了百度在AI设计和用户体验方面的经验和思考。

,共同交流AI智能美学与创意的最前沿动态。

百度与湖南大学的战略合作在论坛上正式启动,融合了百度在AI交互设计领域的优势和湖南大学先进的科研能力。

双方将共同建设联合创新实验室和博士后基地,在人工智能设计领域开展更多、更深入的研究。

重视合作与探索。

DuerOS是一个基于语音技术的会话式人机交互系统。

通过万物互联、本能交互、千人千面三个方面,构建人与机器的全新交互模式,使设备能够主动适应外部变化并提供更好的信息服务,使人机互动就像人与人之间的互动一样亲切友好。

情感丰富,为用户创造最舒适的人机交流方式。

以下为演讲实录: 【紫轩】:大家好!我是周子轩,百度体验架构师。

今天我要跟大家分享的话题是《智慧型人机对话设计》。

你知道最早的人机对话设计是什么时候开始的吗? 2008年,贝尔实验室刚刚开始研究语音合成。

如果你对它说出阿拉伯数字,它可以直接转换。

直到上周,我也是这么想的。

一周前的晚上,我给小杜小杜讲了一些事情,“小杜小杜,给我讲个故事吧。

”你觉得小杜说了什么? 【利川】魔镜魔镜,告诉我,世界上最美丽的女人是谁? 【紫轩】魔镜是最早有屏幕的音箱!但从设计角度来看,魔镜还不够智能。

王后想要听到的不仅是白雪公主美丽,而且是有人夸奖她。

反正小杜不会这么说。

为了研究这个话题,这就是我们今天要分享的关于智能人机对话设计的内容。

下面,我们邀请到了扮演女王的百度DuerOS体验架构师张利川。

【利川】我是DuerOS的设计师,想跟大家分享一下我们这几个月对于对话交互的探索。

事实上,对话有着悠久的历史。

在古代没有书籍的时候,孔子等中外哲学家就用对话来教导和传播思想。

那么今天我们致敬经典,以对话的形式来谈谈智能人机对话设计。

[紫轩]利川,你能告诉我们DuerOS是什么吗? 【利川】DuerOS是一个建立在浩瀚AI技术之上的系统级系统,以对话作为统一的用户入口,能够承担多种第三方功能。

产品。

【紫轩】也就是说,变得简单了,唤醒它,然后等待你的需要。

但它仍然不够聪明。

魔镜至少可以告诉我……【沥川】是的,魔镜其实是一种可以读心术的装置。

因为声音不等于对话。

发出声音实际上只是第一步。

还需要了解环境场景的脉络,充分掌握显性和隐性的表达方式,掌握人们的心理互动,这样才能建立良好的对话关系。

作为DuerOS的设计者,在理解了对话式人机交互的深刻含义后,他将更多的真实本性还给了用户,并在设备中安装了推理计算、归纳演绎等先进的综合能力。

它让人们感觉与之交互的对象不仅是一个联网的智能设备,更是一个智能的对话伙伴。

这就是我们提出的智能人机对话的基本模型。

[紫轩]那我想先了解一下你所说的环境是什么意思? 【利川】我们想要传达的是重新组织人与环境的适应性关系。

因此,我们现在要提到的一个概念是从用户主动设置到主动环境调整。

首先,传感设备技术已经得到一定程度的升级,可以检测距离、光线、体积、人脸、运动、温度、湿度等,通过传感器采集的信息形成信息空间,这是人类社会之外的第三空间和物理空间。

国务院下发的《新一代人工智能发展规划》也强调了这一空间的建设和利用。

回到家庭环境,DuerOS 与一切对话。

我们拥有有关环境的各个方面的信息。

这些是使环境适应人的基础。

【紫轩】那么适应环境的人真的能做到吗? 【利川】人适应环境的程度分为高级三个等级。

一是自动调节环境,二是响应人体变化,三是学习人的习惯。

【紫轩】第一是根据干湿度来调节。

【利川】这是温湿度的自动调节。

人体最适宜的温度和适度程度已经有一个成熟的模型,并将这个模型输入到设备中。

当设备感知到有人在家时,会自动将家庭环境调整到最合适的状态。

【紫轩】第二点是如何理解人体变化的反应? 【利川】随着对话交互时代的到来,我们与设备之间的距离拉开了,甚至到了可以想多远、想多近的程度。

空间范围内。

因此,我们提出了不同距离下的最佳视觉呈现方案。

他的实现形式很直观,比如字体大小、字体、排版、图文比例,以及间接的、信息性的重构。

我们来谈谈适应人们的习惯。

我们刚才展示了很多模型,但是这个模型适合大多数人。

对于个人来说,他们有自己的个人喜好。

[紫轩]这个场景我很熟悉。

我在家做家务的时候把音量调大……【利川】科技与环境场景更好的融合,人与设备的交流可以进一步细分场景。

与人的沟通方式的关系,回归人体真正自然的沟通方式。

通过认知科学研究发现,人们实际上是使用多渠道的方式来表达信息。

人类具有多种感官,每种感官都可以传达信息。

【紫轩】什么是多渠道? 【利川】通俗地说,就像我们现在的对话,除了我们言语的字面内容之外,还有手势、眼神、表情、语气语调,这些结合起来,才能充分表达信息。

进一步细分,每个通道都有其传输信息的特性,也有传输信息的上限。

因此,多通道集成交互是最自然、最高效、更适合多任务并行的方式。

不过,多通道这个词已经提出很多年了,但之前的产品设计只是用来代替手指的一些指令,比如指纹支付、指纹解锁、人脸解锁等。

这是分开的。

真正的多渠道交互应该集成在一起来传递信息并完成操作任务。

[子轩]这个我同意。

人是最先适应机器的……教人学计算机还是一门职业。

现在看来,这一刻真的到来了。

【利川】信息多渠道表达的设计就是细分场景和操作任务。

经过查阅相关资料,我们发现表达的渠道和任务是有分配、互补??的。

分配具有唯一性。

是指在某些任务下,某些任务具有最好、最有利的表达渠道。

这时,可能不是言语、手指、眼神,而可能是一个动作,比如静音的手势。

对于这样的解决方案,用户只要知道设备支持此类操作,就没有学习成本或召回成本。

例如,互补性是指当单个通道不能完全表达信息时,需要补充其他通道才能更准确地表达信息。

通过多个通道同时表达,每个通道可以表达的信息更少,组合后的含义更清晰。

AI交互设计院的同事会有意识地收集这些手势集合,还原我们最自然的交互。

在东方内敛内敛的文化下,收藏这些藏品确实很有意义。

【子轩】人其实每时每刻都有心理活动,通过情绪、情绪来表达。

【利川】也有更多的网友设计了自己的表情包来表达更多难以形容的情绪。

然而,由于设备和技术的限制,只能达到这个水平。

现在小度也可以检测人的心理活动了。

这里要提到的一个概念是模式匹配。

人工智能已经发展了几十年,从来没有像现在这样给人们更多的信心。

因为大数据、深度学习、传感器、情感理论模型等的高能加持,AI从简单的仿生进化到模式匹配,这为我们做更复杂的情感识别和识别奠定了基础。

最基本的匹配模型是人类心理活动的三要素:知觉、情感、意志。

三者之间存在递进衍生关系,也存在反向影响关系。

以婴儿为例。

他们的表情很直接,情绪很明显,意图也很明确。

使用渐进的方法,您可以快速定位他们的核心意图。

作为一群老人,他们的表情很矜持,情绪很内敛,但意图却很简单。

当老人对智能设备提出请求时,所表达的不仅仅是请求的内容,更代表着他们对新技术的向往,代表着他们不落后的固执,或者是他们渴望与孩子有共同语言的愿望。

以更好的方式向老年人呈现高科技信息,是对老年人感官能力退化后的无助感的关怀。

真正聪明的人在你提出要求之前就知道你想要什么。

俗话说,他很有灵性。

通过一个人的表现,我们可以推断他的意图,然后通过情感感知提炼意图,给出更深层次的解读。

【紫轩】这话怎么说呢?有产品吗? [利川]这个真的可以用。

我们正在设计一个自动伴奏功能。

播放歌曲时,如果它意识到你在跟着唱,就会切换到一种模式,去掉原曲,播放伴奏歌曲,一秒进入卡拉OK环节。

【紫轩】这真是一个激动人心的时代。

我们用最自然的方式与聪明人交谈,以满足我们不同的生活需求。

DuerOS的设计团队真是贴心、贴心、专业。

利川,你一定是小杜吧。

我问了你们很多问题,你们都很有条理地回答了我。