【大咖来袭第6期】面向交互的人工智能

时间：2023-03-16 12:31:25 科技观察

【.com原创稿件】本期参与《大咖来了》直播栏目的嘉宾是百度DuerOS首席布道者曹宏伟，并进行了《面向交互的人工智能》主题演讲分享，主要讲解语音交互中使用的AI技术，如ASR、NLU、NLG、TTS等，以及基于DuerOS构建的面向对话的人工智能操作系统DuerOS这些细分技术。通过本次分享，您可以基本掌握如何在智能语音交互平台上开发应用，进一步了解智能语音如何服务于我们的生活。语音让人机交互更便捷什么是交互？互动是指甲乙之间的一系列动作和行为。那么什么是人机交互呢？人机交互是研究系统与用户之间交互关系的学科。一个系统可以是各种机器，也可以是计算机化的系统和软件。人机交互侧重于用户和计算机之间的接口，既包括人与计算机交互的方式，也包括使人以新颖的方式与计算机交互的设计技术。人机交互和人机界面是两个密切相关又不同的概念。计算机时代，人机交互的发展过程如下图所示：从键盘+鼠标到触摸屏，再到语音交互，人机交互不断进化，从面向机器的人机交互以用户为导向进行交互。语音是一种成本非常低的通信手段和工具，给我们带来了极大的便利。语音交互的优点是：一是速度快，每分钟可以说120到150个字。二是解放双手，做饭时可以通过语音完成一些预期的事情。第三是直觉。语言是人类的天赋，是一种自然的交流方式。第四是同理心。语音包括语调、音量、语调和语速，这些特征传达了很多信息。语音交互离不开人工智能技术。语音交互涉及的人工智能技术如下图所示：今天，智能语音交互正在为我们服务，其背后有一整套技术和流程，从语音唤醒到自动语音识别，再到自然语言理解，并最终通过自然语言生成和语音合成技术形成反馈。整个过程的背后，有很多细分的AI技术做支撑，比如对话管理、深度学习、DNN、CNN、NLP、TTS等。面对如此广泛的AI技术，我们如何将其应用到工作和生活？这类似于我们有了电脑之后使用电脑的方式。计算机上的操作系统及其API为程序员打开了通往计算机世界的大门。对于智能交互AI系统，我们也需要类似的操作系统，才能方便高效的构建我们的人工智能交互应用。用于语音交互的DuerOS操作系统百度的DuerOS是一款用于语音交互的对话式人工智能操作系统。它不仅包括了语音交互的全过程，还提供了开放的能力平台，如SDK、工具、编程接口和设备等，如下图所示：DuerOS操作系统分为三层，即智能设备开放平台（应用层）、对话核心系统（核心层）和技能开放平台（能力层）。接下来，我们将从基于DuerOS的智能语音设备进一步了解DuerOS操作系统，智能语音设备的工作原理，智能语音交互的交互过程，以及智能语音应用的开发过程。了解操作系统主要是看有哪些语音设备可用。基于这些设备，可以打开特定的应用程序。DuerOS有很多智能语音设备。小度系列部分产品如下：DuerOS广泛应用于音箱、电视、冰箱、手机、机器人、车载、可穿戴、玩具等场景和设备，这些智能语音设备的工作原理是什么？与传统设备相比，智能语音设备是面向交互的，通过语音和触摸屏输入，利用TTS、麦克风、信号处理等手段将本地能力传输到云端，再利用云端ASR、TTS、NLU、NLG和其他具体先进的AI技术实现智能语音，最终将业务引擎、业务资源和技能服务进行整合，从而通过语音完成一系列的服务，如下图所示。技能开放平台包括底层基础能力、BOT-SDK、配置服务、协议开放、平台开放、周边工具等多个层面。下面介绍智能语音交互应用的交互流程。这里，我们以询问天气意图为例。当用户发出语音命令时，智能音箱会在本地识别用户的唤醒词，然后通过音箱将语音传输到DuerOS平台。DuerOS平台将进行语音识别、语义理解，并向用户发送结构化数据。技能服务器。技能服务器处理请求并将文本或可视化结果返回给DuerOS平台。DuerOS平台收到后，TTS服务器处理返回的文本，将广播流发送给智能音箱。如果是带屏幕的音箱，可视化结果也可以显示在设备上。展示中。那么，我们如何在DuerOS中开发一款智能语音交互应用呢？智能语音交互应用的开发流程一般分为六个步骤，即注册、技能创建、交互模型构建、代码部署、调试验证、技能商业化。下图说明了具体步骤。第一步是访问https://dueros.baidu.com/dbp并注册成为DuerOS的开发者。第二步，创建技能，类似于在Android或iOS上创建应用程序。转到技能控制台并选择“从头开始”以创建自定义技能。技能名称2-50个字符，呼叫名称2-15个字符。调用名是技能服务的入口，打开+调用名。不建议使用生僻字、中英文混用、数字汉字混用。技能创建后会生成一个技能ID，该ID是该技能服务在DuerOS系统中的唯一标识。第三步是建立交互模型，这可能是智能语音应用与app、小程序、web等应用最大的区别。用户查询的核心在这里称为意图，构建交互模型就是创建多个用户意图的过程。意图的识别相当于特定事件的数量。交互模型的建立实际上是一种面向界面的设计方法，交互的明确意图在一定程度上决定了技能服务的功能。第四步，编写代码并部署。DuerOS提供高效安全的百度云服务免费使用，开放平台在线编辑器提供Python和Node语言支持。编码主要是对交互模型中的意图进行匹配和处理。在线编辑器中的代码会自动部署到百度云的CFC中，这是百度云FaaSServerless架构的具体应用。当然，技能代码也可以用Java、PHP等其他语言编写，或者部署在自己的服务器或其他云服务上。第五步，对技能服务进行测试验证。DuerOS开放平台提供模拟器和真机调试两种测试方式。在真机调试时，请确保技能开发账号与设备登录账号一致。对设备说“开启技能调试模式”，即可开启“技能调试模式”功能。需要注意的是，一次只支持一项技能测试。第六部分是技术应用的在线商业化。打个比方，发布过程类似于一个App在Android市场或者AppleStore的发布过程。至此，我们可以基于DuerOS的开放平台，开发出各种满足用户需求的智能语音交互应用。同时，DuerOS还提供了零编程的智能语音交互应用实现。应用种类繁多，可以为我们的生活带来更多的便利和乐趣！基于智能语音交互服务，早上可以通过音箱起床，通过搭载DuerOS的车载导航上班，使用小度助手安排一天的工作。打电话，看电视，听故事。随着交互形式的改变，交互技术发展到今天的智能语音时代。在智能语音业务中，可以直接应用各种人工智能技术。你不需要深入关注NLU、NLG等具体的AI技术，只要使用基于DuerOS这样的对话式AI开放平台，就可以完成语音交互的各种服务。【原创稿件，合作网站转载请注明原作者和出处为.com】

上一篇：使用消息中间件时，如何保证消息只被消费一次？

下一篇：2020年最值得你尝试的JavaScript测试框架

【大咖来袭第6期】面向交互的人工智能相关文章