虽然在普通用户看来,使用语音向天猫精灵发送指令,然后接收到后者的语音回复的过程看似简单,但实际却有ASR(语音识别)、NLP(自然语言处理)、TTS(语音合成)等自然语言处理技术在人工智能中的参与和融合。我们先来看一个典型用户通过语音与天猫精灵进行交互的流程图。用户通过语音唤醒天猫精灵,天猫精灵接收用户语音并上传至智能应用平台。平台利用ASR(audio-to-text)和NLP(自然语言处理)技术,智能分析用户语音中包含的意图(通俗地说,就是用户当前期望天猫精灵完成什么样的操作)。平台会自动将当前的用户指令与开发者创建的相应技能和意图进行匹配。具体匹配过程是将平台解析的所有参数信息通过HTTPS请求访问到开发者提供的服务接口。开发者负责实现服务(托管在自己的应用服务器或阿里云Serverless环境),接收平台发送的请求参数,执行业务逻辑(如天气预报查询、拼图、语音游戏等),并组装回复结果。智能应用平台在执行完业务逻辑后,收到开发者服务返回的响应数据后,通过TTS(text-to-audio)合成音频,推送回天猫精灵。天猫精灵通过麦克风播放接收到的音频,完成本轮与用户的交互。分析这个交互场景,不难发现需要开发者手动完成的过程包括以下两个方面:在AliGenie技能应用平台上创建新的技能和意图,接收用户的语音请求。应用程序开发人员选择是将需要在应用服务器中完成的业务逻辑编写,还是在Serveless运行环境中编写以实现新技能。
