无需额外数据和再训练,GoogleAssistant等人工智能助手如何更好地支持新服务?这是谷歌的研究研究人员在最近的一项研究中试图回答的问题,该研究引入了一种在没有特定领域参数的情况下跨服务使用模型的方法。作为其中的一部分,该团队发布了一个语料库——模式引导对话(SGD)语料库——他们声称这是最大的公开可用的面向任务的对话数据汇编。谷歌软件工程师AbhinavRastogi和研究工程主管PranavKhaitan在博客中写道:“今天的虚拟助手帮助用户完成各种任务,包括查找航班、搜索附近的活动和电影、进行预订,以及从网络获取信息等。”“尽管取得了巨大进步......适应性挑战在最先进的模型中经常被忽视。这部分是由于缺乏合适的数据集来匹配虚拟助手所面临的规模和复杂性。”为此,SGD包含超过18,000个人与虚拟助手之间的带注释的对话,涉及与17个领域的服务交互:从银行和事件到媒体、日历、旅行和天气等。对于大多数领域,数据集包含几个不同的API,其中许多具有重叠的功能,但不同的界面反映了典型的现实世界场景。评估集包含训练集中没有的服务,主要用于量化模型对API变化或新增API的鲁棒性。至于前面提到的模式引导方法,它利用每个服务或API的自然语言描述及其相关属性来学习分布式语义表示,该语义表示用作对话系统的附加输入,随后作为单个模型实现。该团队表示,统一模型是谷歌开源对话状态跟踪模型的核心,有助于不同服务中相似概念之间的共同知识表示,从而可以在训练数据中没有的新服务上运行。“我们相信这个数据集将成为构建大规模对话模型的良好基准,”Rastogi和Khaitan写道。“我们很兴奋并期待着研究界将使用它来推进对话技术的各种创新方式。”新数据集和模型的发布是继Google的CoachedConversationalPreferenceElimination(CCPE)和Taskmaster-1(两者之间的合作伙伴关系)之后开源的一对对话数据集。(前者包括与人们就他们的电影偏好进行的500次对话,总计12,000次对话。)谷歌将其描述为:朝着能够达到人类水平表现步骤的自然语言系统建模迈出的一步。
