当前位置: 首页 > 科技观察

【大咖来袭第6期】面向交互的人工智能

时间:2023-03-16 12:31:25 科技观察

【.com原创稿件】本期参与《大咖来了》直播栏目的嘉宾是百度DuerOS首席布道者曹宏伟,并进行了《面向交互的人工智能》主题演讲分享,主要讲解语音交互中使用的AI技术,如ASR、NLU、NLG、TTS等,以及基于DuerOS构建的面向对话的人工智能操作系统DuerOS这些细分技术。通过本次分享,您可以基本掌握如何在智能语音交互平台上开发应用,进一步了解智能语音如何服务于我们的生活。语音让人机交互更便捷什么是交互?互动是指甲乙之间的一系列动作和行为。那么什么是人机交互呢?人机交互是研究系统与用户之间交互关系的学科。一个系统可以是各种机器,也可以是计算机化的系统和软件。人机交互侧重于用户和计算机之间的接口,既包括人与计算机交互的方式,也包括使人以新颖的方式与计算机交互的设计技术。人机交互和人机界面是两个密切相关又不同的概念。计算机时代,人机交互的发展过程如下图所示:从键盘+鼠标到触摸屏,再到语音交互,人机交互不断进化,从面向机器的人机交互以用户为导向进行交互。语音是一种成本非常低的通信手段和工具,给我们带来了极大的便利。语音交互的优点是:一是速度快,每分钟可以说120到150个字。二是解放双手,做饭时可以通过语音完成一些预期的事情。第三是直觉。语言是人类的天赋,是一种自然的交流方式。第四是同理心。语音包括语调、音量、语调和语速,这些特征传达了很多信息。语音交互离不开人工智能技术。语音交互涉及的人工智能技术如下图所示:今天,智能语音交互正在为我们服务,其背后有一整套技术和流程,从语音唤醒到自动语音识别,再到自然语言理解,并最终通过自然语言生成和语音合成技术形成反馈。整个过程的背后,有很多细分的AI技术做支撑,比如对话管理、深度学习、DNN、CNN、NLP、TTS等。面对如此广泛的AI技术,我们如何将其应用到工作和生活?这类似于我们有了电脑之后使用电脑的方式。计算机上的操作系统及其API为程序员打开了通往计算机世界的大门。对于智能交互AI系统,我们也需要类似的操作系统,才能方便高效的构建我们的人工智能交互应用。用于语音交互的DuerOS操作系统百度的DuerOS是一款用于语音交互的对话式人工智能操作系统。它不仅包括了语音交互的全过程,还提供了开放的能力平台,如SDK、工具、编程接口和设备等,如下图所示:DuerOS操作系统分为三层,即智能设备开放平台(应用层)、对话核心系统(核心层)和技能开放平台(能力层)。接下来,我们将从基于DuerOS的智能语音设备进一步了解DuerOS操作系统,智能语音设备的工作原理,智能语音交互的交互过程,以及智能语音应用的开发过程。了解操作系统主要是看有哪些语音设备可用。基于这些设备,可以打开特定的应用程序。DuerOS有很多智能语音设备。小度系列部分产品如下:DuerOS广泛应用于音箱、电视、冰箱、手机、机器人、车载、可穿戴、玩具等场景和设备,这些智能语音设备的工作原理是什么?与传统设备相比,智能语音设备是面向交互的,通过语音和触摸屏输入,利用TTS、麦克风、信号处理等手段将本地能力传输到云端,再利用云端ASR、TTS、NLU、NLG和其他具体先进的AI技术实现智能语音,最终将业务引擎、业务资源和技能服务进行整合,从而通过语音完成一系列的服务,如下图所示。技能开放平台包括底层基础能力、BOT-SDK、配置服务、协议开放、平台开放、周边工具等多个层面。下面介绍智能语音交互应用的交互流程。这里,我们以询问天气意图为例。当用户发出语音命令时,智能音箱会在本地识别用户的唤醒词,然后通过音箱将语音传输到DuerOS平台。DuerOS平台将进行语音识别、语义理解,并向用户发送结构化数据。技能服务器。技能服务器处理请求并将文本或可视化结果返回给DuerOS平台。DuerOS平台收到后,TTS服务器处理返回的文本,将广播流发送给智能音箱。如果是带屏幕的音箱,可视化结果也可以显示在设备上。展示中。那么,我们如何在DuerOS中开发一款智能语音交互应用呢?智能语音交互应用的开发流程一般分为六个步骤,即注册、技能创建、交互模型构建、代码部署、调试验证、技能商业化。下图说明了具体步骤。第一步是访问https://dueros.baidu.com/dbp并注册成为DuerOS的开发者。第二步,创建技能,类似于在Android或iOS上创建应用程序。转到技能控制台并选择“从头开始”以创建自定义技能。技能名称2-50个字符,呼叫名称2-15个字符。调用名是技能服务的入口,打开+调用名。不建议使用生僻字、中英文混用、数字汉字混用。技能创建后会生成一个技能ID,该ID是该技能服务在DuerOS系统中的唯一标识。第三步是建立交互模型,这可能是智能语音应用与app、小程序、web等应用最大的区别。用户查询的核心在这里称为意图,构建交互模型就是创建多个用户意图的过程。意图的识别相当于特定事件的数量。交互模型的建立实际上是一种面向界面的设计方法,交互的明确意图在一定程度上决定了技能服务的功能。第四步,编写代码并部署。DuerOS提供高效安全的百度云服务免费使用,开放平台在线编辑器提供Python和Node语言支持。编码主要是对交互模型中的意图进行匹配和处理。在线编辑器中的代码会自动部署到百度云的CFC中,这是百度云FaaSServerless架构的具体应用。当然,技能代码也可以用Java、PHP等其他语言编写,或者部署在自己的服务器或其他云服务上。第五步,对技能服务进行测试验证。DuerOS开放平台提供模拟器和真机调试两种测试方式。在真机调试时,请确保技能开发账号与设备登录账号一致。对设备说“开启技能调试模式”,即可开启“技能调试模式”功能。需要注意的是,一次只支持一项技能测试。第六部分是技术应用的在线商业化。打个比方,发布过程类似于一个App在Android市场或者AppleStore的发布过程。至此,我们可以基于DuerOS的开放平台,开发出各种满足用户需求的智能语音交互应用。同时,DuerOS还提供了零编程的智能语音交互应用实现。应用种类繁多,可以为我们的生活带来更多的便利和乐趣!基于智能语音交互服务,早上可以通过音箱起床,通过搭载DuerOS的车载导航上班,使用小度助手安排一天的工作。打电话,看电视,听故事。随着交互形式的改变,交互技术发展到今天的智能语音时代。在智能语音业务中,可以直接应用各种人工智能技术。你不需要深入关注NLU、NLG等具体的AI技术,只要使用基于DuerOS这样的对话式AI开放平台,就可以完成语音交互的各种服务。【原创稿件,合作网站转载请注明原作者和出处为.com】