7月4日至5日,百度AI开发者大会在北京国家会议中心隆重举行。
会议上展示了多项实施成果。
在本次大会上,百度举办了首届AI设计论坛。
百度设计体验委员会主席、百度人工智能交互设计院院长、百度用户体验中心总经理关代松及设计团队分享了百度在AI设计和用户体验方面的经验和思考。
,共同交流AI智能美学与创意的最前沿动态。
百度与湖南大学的战略合作在论坛上正式启动,融合了百度在AI交互设计领域的优势和湖南大学先进的科研能力。
双方将共同建设联合创新实验室和博士后基地,在人工智能设计领域开展更多、更深入的研究。
重视合作与探索。
DuerOS是一个基于语音技术的会话式人机交互系统。
通过万物互联、本能交互、千人千面三个方面,构建人与机器的全新交互模式,使设备能够主动适应外部变化并提供更好的信息服务,使人机互动就像人与人之间的互动一样亲切友好。
情感丰富,为用户创造最舒适的人机交流方式。
以下为演讲实录: 【紫轩】:大家好!我是周子轩,百度体验架构师。
今天我要跟大家分享的话题是《智慧型人机对话设计》。
你知道最早的人机对话设计是什么时候开始的吗? 2008年,贝尔实验室刚刚开始研究语音合成。
如果你对它说出阿拉伯数字,它可以直接转换。
直到上周,我也是这么想的。
一周前的晚上,我给小杜小杜讲了一些事情,“小杜小杜,给我讲个故事吧。
”你觉得小杜说了什么? 【利川】魔镜魔镜,告诉我,世界上最美丽的女人是谁? 【紫轩】魔镜是最早有屏幕的音箱!但从设计角度来看,魔镜还不够智能。
王后想要听到的不仅是白雪公主美丽,而且是有人夸奖她。
反正小杜不会这么说。
为了研究这个话题,这就是我们今天要分享的关于智能人机对话设计的内容。
下面,我们邀请到了扮演女王的百度DuerOS体验架构师张利川。
【利川】我是DuerOS的设计师,想跟大家分享一下我们这几个月对于对话交互的探索。
事实上,对话有着悠久的历史。
在古代没有书籍的时候,孔子等中外哲学家就用对话来教导和传播思想。
那么今天我们致敬经典,以对话的形式来谈谈智能人机对话设计。
[紫轩]利川,你能告诉我们DuerOS是什么吗? 【利川】DuerOS是一个建立在浩瀚AI技术之上的系统级系统,以对话作为统一的用户入口,能够承担多种第三方功能。
产品。
【紫轩】也就是说,变得简单了,唤醒它,然后等待你的需要。
但它仍然不够聪明。
魔镜至少可以告诉我……【沥川】是的,魔镜其实是一种可以读心术的装置。
因为声音不等于对话。
发出声音实际上只是第一步。
还需要了解环境场景的脉络,充分掌握显性和隐性的表达方式,掌握人们的心理互动,这样才能建立良好的对话关系。
作为DuerOS的设计者,在理解了对话式人机交互的深刻含义后,他将更多的真实本性还给了用户,并在设备中安装了推理计算、归纳演绎等先进的综合能力。
它让人们感觉与之交互的对象不仅是一个联网的智能设备,更是一个智能的对话伙伴。
这就是我们提出的智能人机对话的基本模型。
[紫轩]那我想先了解一下你所说的环境是什么意思? 【利川】我们想要传达的是重新组织人与环境的适应性关系。
因此,我们现在要提到的一个概念是从用户主动设置到主动环境调整。
首先,传感设备技术已经得到一定程度的升级,可以检测距离、光线、体积、人脸、运动、温度、湿度等,通过传感器采集的信息形成信息空间,这是人类社会之外的第三空间和物理空间。
国务院下发的《新一代人工智能发展规划》也强调了这一空间的建设和利用。
回到家庭环境,DuerOS 与一切对话。
我们拥有有关环境的各个方面的信息。
这些是使环境适应人的基础。
【紫轩】那么适应环境的人真的能做到吗? 【利川】人适应环境的程度分为高级三个等级。
一是自动调节环境,二是响应人体变化,三是学习人的习惯。
【紫轩】第一是根据干湿度来调节。
【利川】这是温湿度的自动调节。
人体最适宜的温度和适度程度已经有一个成熟的模型,并将这个模型输入到设备中。
当设备感知到有人在家时,会自动将家庭环境调整到最合适的状态。
【紫轩】第二点是如何理解人体变化的反应? 【利川】随着对话交互时代的到来,我们与设备之间的距离拉开了,甚至到了可以想多远、想多近的程度。
空间范围内。
因此,我们提出了不同距离下的最佳视觉呈现方案。
他的实现形式很直观,比如字体大小、字体、排版、图文比例,以及间接的、信息性的重构。
我们来谈谈适应人们的习惯。
我们刚才展示了很多模型,但是这个模型适合大多数人。
对于个人来说,他们有自己的个人喜好。
[紫轩]这个场景我很熟悉。
我在家做家务的时候把音量调大……【利川】科技与环境场景更好的融合,人与设备的交流可以进一步细分场景。
与人的沟通方式的关系,回归人体真正自然的沟通方式。
通过认知科学研究发现,人们实际上是使用多渠道的方式来表达信息。
人类具有多种感官,每种感官都可以传达信息。
【紫轩】什么是多渠道? 【利川】通俗地说,就像我们现在的对话,除了我们言语的字面内容之外,还有手势、眼神、表情、语气语调,这些结合起来,才能充分表达信息。
进一步细分,每个通道都有其传输信息的特性,也有传输信息的上限。
因此,多通道集成交互是最自然、最高效、更适合多任务并行的方式。
不过,多通道这个词已经提出很多年了,但之前的产品设计只是用来代替手指的一些指令,比如指纹支付、指纹解锁、人脸解锁等。
这是分开的。
真正的多渠道交互应该集成在一起来传递信息并完成操作任务。
[子轩]这个我同意。
人是最先适应机器的……教人学计算机还是一门职业。
现在看来,这一刻真的到来了。
【利川】信息多渠道表达的设计就是细分场景和操作任务。
经过查阅相关资料,我们发现表达的渠道和任务是有分配、互补??的。
分配具有唯一性。
是指在某些任务下,某些任务具有最好、最有利的表达渠道。
这时,可能不是言语、手指、眼神,而可能是一个动作,比如静音的手势。
对于这样的解决方案,用户只要知道设备支持此类操作,就没有学习成本或召回成本。
例如,互补性是指当单个通道不能完全表达信息时,需要补充其他通道才能更准确地表达信息。
通过多个通道同时表达,每个通道可以表达的信息更少,组合后的含义更清晰。
AI交互设计院的同事会有意识地收集这些手势集合,还原我们最自然的交互。
在东方内敛内敛的文化下,收藏这些藏品确实很有意义。
【子轩】人其实每时每刻都有心理活动,通过情绪、情绪来表达。
【利川】也有更多的网友设计了自己的表情包来表达更多难以形容的情绪。
然而,由于设备和技术的限制,只能达到这个水平。
现在小度也可以检测人的心理活动了。
这里要提到的一个概念是模式匹配。
人工智能已经发展了几十年,从来没有像现在这样给人们更多的信心。
因为大数据、深度学习、传感器、情感理论模型等的高能加持,AI从简单的仿生进化到模式匹配,这为我们做更复杂的情感识别和识别奠定了基础。
最基本的匹配模型是人类心理活动的三要素:知觉、情感、意志。
三者之间存在递进衍生关系,也存在反向影响关系。
以婴儿为例。
他们的表情很直接,情绪很明显,意图也很明确。
使用渐进的方法,您可以快速定位他们的核心意图。
作为一群老人,他们的表情很矜持,情绪很内敛,但意图却很简单。
当老人对智能设备提出请求时,所表达的不仅仅是请求的内容,更代表着他们对新技术的向往,代表着他们不落后的固执,或者是他们渴望与孩子有共同语言的愿望。
以更好的方式向老年人呈现高科技信息,是对老年人感官能力退化后的无助感的关怀。
真正聪明的人在你提出要求之前就知道你想要什么。
俗话说,他很有灵性。
通过一个人的表现,我们可以推断他的意图,然后通过情感感知提炼意图,给出更深层次的解读。
【紫轩】这话怎么说呢?有产品吗? [利川]这个真的可以用。
我们正在设计一个自动伴奏功能。
播放歌曲时,如果它意识到你在跟着唱,就会切换到一种模式,去掉原曲,播放伴奏歌曲,一秒进入卡拉OK环节。
【紫轩】这真是一个激动人心的时代。
我们用最自然的方式与聪明人交谈,以满足我们不同的生活需求。
DuerOS的设计团队真是贴心、贴心、专业。
利川,你一定是小杜吧。
我问了你们很多问题,你们都很有条理地回答了我。