本文转载自雷锋网。第一次用手机语音助手,兴奋的问了一句,总是给我失望的回答:“我好像没听懂你在说什么……”后来,随着科技的进步,我终于能够通过我的一些关键词来理解我所说的内容。但每一个字,每一个字,都充满了程式化。不可否认,人工智能正变得越来越“聪明”,越来越接近人类。未来会是什么样子?近日,清华发布了由清华大学人工智能研究院、北京致远人工智能研究院、清华-中国工程知识与智能联合研究中心联合发布的《人工智能之人机交互》报告(以下简称《报告》)。《报告》梳理了其概念定义和发展历程,重点介绍了主要技术的发展、领域专家和应用领域的现状,并探讨了未来人机交互的发展趋势。如需获取本报告pdf全文,请点击此处雷锋网)微信(leiphone-sz)回复关键字“609报告”提取。文献来源:清华大学人工智能研究所一、人机交互的历史1、概念人机交互(Human-ComputerInteraction,简称HCI),作为一个术语,最早由StuartK.Card、AllenNewell和ThomasP使用。在莫兰的《人机交互心理学》一书中,是对系统与用户交互的研究。一个系统可以是各种机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分,用户通过人机交互界面与系统进行通信,进行操作。人机交互技术是计算机用户界面设计的重要内容之一,与认知科学、人机工程学、心理学等学科密切相关。人机交互技术的发展直接关系到国民经济的发展。是信息技术融入社会、深入群体、广泛应用的技术门槛。任何一种新的交互技术的诞生,都会带来新的应用群体和新的应用领域,带来巨大的社会效益和经济效益。从企业的角度来看,改善人机交互可以提高员工的工作效率,学习人机交互可以降低产品的后续支持成本。从个人角度来说,可以帮助用户有效降低出错的概率,避免因出错造成的损失。在现代和未来社会,只要人们利用通讯、计算机等信息处理技术进行社会活动,人机交互就是一个永恒的主题。鉴于其对科学技术发展的重要性,人机交互是现代信息技术和人工智能的重要方面。一个热门的技术研究方向。2.发展历史在过去的几十年里,人机界面经历了从命令行界面到图形用户界面的两个主要演变阶段;近年来,人机界面的发展越来越强调交互的自然性,即用户的交互行为符合其生理和认知习惯,出现的主要交互界面形式是触摸交互界面和三维交互界面。命令行界面基于命令行界面(Command-lineInterface,CLI),用户使用键盘按照一定的规则输入字符,形成机器可以识别的命令和参数,触发计算机执行。优点是由于键盘输入的准确性比较高,几乎没有多余的操作,熟练的用户可以达到非常高的交互效率。同时,通过规则的设计,命令行界面还可以支持丰富灵活的指令形式。命令行界面的缺点是交互非常不直观。由于机器指令往往与自然语言的构造规则相去甚远,用户需要记忆大量的指令,有时甚至需要具备计算机领域的专业知识和技能才能达到更高的水平。使用效率。这大大增加了新手用户的学习成本,也显着影响了普通用户使用命令行界面时的体验。图形用户界面图形用户界面一般包括四个主要的交互元素:窗口(Window)、图标(Icon)、菜单(Menu)和指针(Pointer)。用户控制指针对窗口、图标、菜单等显示元素进行指向操作,从而完成交互任务。广义上的图形用户界面一般是指任何用图形来表示程序命令和数据的界面系统,而狭义上的图形用户界面一般是指个人计算机(PC)上的二维WIMP界面).这时,用户与界面交互的设备一般是键盘和鼠标。图形用户界面的一大优点是摆脱了抽象命令,利用人与物理世界交互的经验与计算机进行交互,显着降低了用户的学习和认知成本。但是,由于图形用户界面的基本操作是指向,即用户需要使用指针来选择交互目标,因此往往对用户的指向操作的精度有更高的要求。此外,由于鼠标设备所在的控制域(MotorSpace)与显示界面的显示域(VisualSpace)分离,用户需要对目标进行间接交互操作(IndirectManipulation),这进一步增加了交互的难度。触摸交互界面触摸交互界面一般包括四种主要的交互元素:页面、控件(Widget)、图标(Icon)和手势(Gesture)。用户通过触摸、长按、拖动等方式直接操作手指触摸的目标,或者通过绘制手势触发交互命令。目前,触摸界面主要出现在智能手机和智能手表等可穿戴设备上。触摸界面的优势在于充分利用了人在物理世界中触摸物体的经验,将间接交互操作转化为直接交互操作(DirectManipulation),从而进一步减少用户学习,同时保留部分触觉反馈。和认知成本。但触控操作存在著名的“胖手指问题”,即由于手指本身的柔软度以及手指点击时屏幕显示内容的遮挡,往往难以准确控制手指的位置单击触摸屏时的着陆点。信号的粒度远低于交互元素响应的粒度。同时,由于触控交互界面的形态仍然是二维界面,这限制了一些具有三维交互元素的交互操作。三维交互界面的用户一般通过身体(比如手或者身体关节)做出一些动作(比如在空中的指点行为,或者四肢的运动轨迹等)来与界面元素进行交互在三维空间中。动作和意图推理触发相应的交互功能。目前,3D交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中。三维交互界面的优势在于进一步突破了二维交互界面的局限,将交互扩展到三维空间。因此,用户可以像在物理世界中一样与虚拟三维物体进行交互,从而进一步提高交互的自然性,降低学习成本。然而,3D交互的挑战在于,由于完全没有触觉反馈,用户动作行为中的噪声比较大,很难将交互动作与身体的自然运动区分开来,所以信号——输入信号的信噪比较低,难以实现交互意图的准确推断,限制了交互输入的准确性。此外,与图形用户界面和触摸交互界面相比,动作交互的范围普遍更大,因此交互效率也较低,更容易让用户感到疲劳。2、技术发展方向目前,人机交互技术的主要发展方向包括以下几类:触摸交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互和智能交互。1、触摸交互显示器从单纯的向用户输出视觉信息,变成了交互界面设备,主要是触摸功能与显示一体化的模式,特别是在移动设备上的使用。目前有四种技术方式可以实现触控交互。电阻式触摸技术电阻式触摸屏通过压力感应原理对屏幕进行操作和控制。当手指触摸屏幕时,薄膜下层的ITO会与玻璃上层的ITO产生接触点,并在X-中的其中一个导电层上传导5V的均匀电压场轴方向。此时,采样电压从零变为正值。电压值,传感器检测到电压开启,发出相应的电信号,进行模/数转换,最后将转换后的电压值与5V进行比较,计算出触摸点的X轴坐标值。同理可以计算出Y轴的坐标值,从而完成点击的动作并显示在屏幕上。电容式触摸技术当手指触摸电容式触摸屏时,高频信号会连接到工作表面。此时手指与触摸屏的工作面形成耦合电容,相当于导体。由于工作表面存在高频信号,当手指触摸时,触摸点被吸入小电流,小电流分别从触摸屏四个角的电极流出。流过四个电极的电流与手指到四个角的直线距离成正比。计算接触点坐标。红外触摸技术当手指触摸屏幕时,红外光会被阻挡,红外发射管及其对应的红外接收管会依次被选中,在屏幕上方形成一个红外矩阵平面,从而导致红外接收端改变。接收端的电压通过A/D转换发送到控制端,控制端据此计算出触摸位置。表面声波触控技术表面声波触摸屏主要依靠安装在强化玻璃边角的超声波换能器实现触控。当手指触摸显示屏时,手指会阻挡一部分声波能量的传播。这时,接收到的波形会发生变化,从波形图上可以看出,波形在某一时刻衰减了。控制器可以通过衰减信号计算触摸信号。点位置。2、声控交互语音识别语音识别是一种将音频数据转换为计算机可以处理的文本或其他信息的技术。它主要由4部分组成:特征提取、声学模型、语言模型和解码器搜索。语音合成语音合成是将一系列输入的文本信号序列,经过适当的节奏处理后,送入合成器,产生尽可能具有表现力和高度自然的语音输出,从而使计算机或相关系统发出听起来自然而自然的技术。像“人”一样流利。语音合成的发展经历了机械语音合成、电子语音合成和计算机语音合成三个阶段。语音合成具体分为规则驱动和数据驱动。3.动作交互目标获取是人机交互过程中最基本的交互任务。用户向计算机指示要交互的目标,其他交互命令在此基础上完成。随着交互界面的发展,在许多自然交互界面上,如远距离大屏幕、虚拟现实和增强现实设备等,不能继续使用传统的交互设备(如鼠标和键盘)来完成目标获取任务。因此,在这些界面上,研究人员探索了使用运动交互来完成目标获取任务的可能方法。主要输入法分为直接输入法和间接输入法。直接动作选择需要用户通过触摸来选择目标位置。例如,在增强现实应用中,用户通过触摸手来完成对虚拟对象的选择。间接目标选择法需要用户通过身体部位的位置和姿势来控制和移动光标,然后用光标指示目标的位置进行选择。其中,一种广泛使用的光标控制方法是光线投射。手势识别手势可以定义为人的手或手与手臂的组合所产生的各种手势和动作。分为静态手势(指手势,单个手形)和动态手势(指动作,由一系列手势组成)。前者对应模型空间中的A点,后者对应一条轨迹。相应地,手势识别可以分为静态手势识别和动态手势识别。姿态识别姿态识别常用的算法有以下三种:(1)基于模板匹配的人体姿态识别方法;(2)基于状态空间的人体姿态识别方法;(3)基于语义描述的人体姿态识别方法。4、眼动交互利用人工智能技术提高眼动计算的准确性和效率,深入理解人的感知和认知状态,构建“人在环”的智能人机交互框架,实现用户-led自动化系统,基于人机共生的AI系统。常用的眼动交互方式主要有以下几种:DwelltimetriggerDwelltimetrigger是指当注视点的停留时间达到一定程度时,可以用视线代替传统的输入设备,如鼠标点击或键盘按钮。触发相应的执行动作。停留时间触发多用于控制图形界面或定位鼠标光标等,是目前比较流行的眼动交互方式,也能体现用户有意识的控制意图,更好地完成交互。Smoothfollowingmotion平滑跟随多发生在观察场景中有缓慢移动的物体或目标时,视线会产生平滑跟随运动状态。平滑的跟随运动是一种持续反馈的状态。眼睛捕捉运动目标的信号,将目标的速度、方向、角度等信息反馈给大脑,进而控制眼球跟随目标物体进行相对运动。在这个过程中,还会有一些其他的行为,比如无意识的眼球扫视。在没有移动目标的场景中,一般不会出现这种眼动行为。因此,平滑追踪触发一般不是常用的眼动交互方式。眨眼与眨眼行为交互时,需要识别有意识的眨眼,例如眨眼频率超过一定水平,或眨眼时闭眼时间超过一定阈值。眨眼触发相对简单,但当人眼长时间闭合时,由于眼动仪无法捕捉到瞳孔,可能会导致注视点丢失,从而影响眼控系统对a的准确性一定程度。眼睛姿势眼睛姿势是在扫视的基础上提出来的,但与扫视的区别在于,扫视往往是人在观察一个场景或物体时发生的一种无意识的视线转移。扫视的起点和终点是未知的,取决于人类的视觉注意力。注视被定义为一系列有序的注视行程,每次行程都是两个固定注视点或注视区域的有意注视运动。因此,眼动动作作为一种新的眼动交互方式,能够反映人有意识的触发意图。不同路径的笔画可以定义不同的眼神,不同的眼神可以对应不同的交互指令。眼势可分为单眼势和多势眼。5、虚拟现实输入文本输入作为应用中一项重要的交互技术,为应用提供了重要的交互体验。目前,已经开发出多种适用于虚拟现实的文本输入技术。现有的VR文字输入技术主要包括物理键盘技术、虚拟键盘技术和新型输入技术(手输入技术、圆形键盘输入技术、三维输入技术等)。6.多模态交互不同形式输入(例如,语音、手势、触摸、注视等)的组合称为多模态交互模式,其目标是为用户提供多种交互选择,让用户自然选择。与传统的单一界面相比,多模态界面可以定义为多种输入模态的组合,可分为6种基本类型:互补型:当两个或多个输入模态共同发出命令时,它们相互补充。重复:当两个或多个输入模态同时向应用程序发送信息时,它们的输入模态是冗余的。通过让每个模态发出相同的命令,多个消息可以帮助解决错误识别问题并加强系统需要做的事情。等效:当用户可以选择使用多个模态时,两个或多个输入模态是等效的。例如,用户可以通过发出语音命令或从虚拟调色板中选择对象来创建虚拟对象。这两种模式呈现等效的交互,最终结果是相同的。专业型:当某种模式总是用于特定的任务时,它就成为专业模式,因为它更适合任务,或者是任务所必需的。并发:当两个或多个输入模态同时发出不同的命令时,它们是并发的。例如,用户使用手势在虚拟环境中导航,同时使用语音命令询问有关环境中对象的问题。并发允许用户发出命令并执行它们,这体现在现实世界的任务中,比如同时做晚饭和打电话。Transformative:当两个输入模态相互获取信息时,它们会转换信息并使用该信息来完成给定的任务。多模态交互转换的最佳示例之一是在即按即说界面中,其中语音模态从手势中获取信息,告诉它应该激活呼叫。7、信息无障碍智能交互技术信息无障碍是一个交叉学科的技术和应用领域,旨在利用信息技术弥补残疾人身体和认知能力的不足,使他们能够顺畅地与他人交流,物理世界和信息设备进行交互。从研究和应用的角度来看,信息无障碍还处于比较初级的状态。在应用方面,具有基本功能的技术可应用于信息接入和设备使用,但有效性、效率等可用性指标不高;底层新技术仍处于原型和概念阶段。三、未来趋势分析1.技术趋势技术趋势分析描述了技术产生、变化和消亡的全过程,可以帮助研究者了解该领域的研究历史和现状,快速识别研究的前沿热点问题.通过技术趋势分析,可以发现当前该领域的研究热点TOP10为:虚拟现实、增强现实、社交媒体、社交交互、交互设计、移动设备、社交网络、普适计算、手机、交互技术.2、国家趋势国家趋势分析显示,目前在人机交互领域研究排名前10位的国家有:美国、英国、德国、加拿大、中国、日本、韩国、澳大利亚、法国、荷兰。计算机交互领域排名前10的研究机构分别是:卡耐基梅隆大学、华盛顿学院、加州大学、斯坦福大学、密歇根大学、麻省理工学院、佐治亚理工学院、康奈尔大学、首尔大学、延世大学.机机交互作为终端产品的领先技术,得到了业界的广泛认可。各种自然交互技术和新型交互终端相继推出,但图形用户界面仍然是交互的主导方式。计算无处不在,人机交互的研发空间巨大。自然高效的交互是发展趋势。需要全面探索自然交互技术的科学原理,建立明确的优化目标,结合智能技术开发高效可用的自然交互技术。.
