如何让语音交互更自然？抢先掌握这6个关键知识点！

时间：2023-03-14 22:53:26 科技观察

最近看了几篇不错的机器人文章，于是想到边翻译边写自己的想法。在日常工作中沉浸在机器人平台、多轮场景和各种解析器中。你需要通过这种方式从不同的角度受到刺激，可能会冒出一些新的想法。△UnsplashToday上FranckV.的摄影文章来自AnnaPrist在Medium上发表的《How to make your Chatbot Sound Natural》。我们先总结一下Anna在设计机器人对话时提到的六大语境（机器人在对话中需要语境理解）Personality（机器人需要有自己的个性）Conciseness（机器人的话要简洁明了）Flexibility（用户的表达需要被认为是多样化的）自然（在人类对话中使用一些自然的表达方式，例如礼貌用语）主动（保持对话继续进行，不要让它中断）我们已经习惯了技术变化如此之快，以至于我们甚至无法想象一个没有它的未来。随着我们不断前进，交互设备和交互设计也在不断改进。还要感谢那些小说和电影让我们知道如何与机器交互——我们可以使用语音命令、手势和虚拟屏幕，就像汤姆克鲁斯在电影中所做的那样：（你可以在youtube上搜索“少数派报告的基于手势的用户”日常交互中，可以使用触摸、语音、手势等交互方式，这对我们来说很容易，不需要学习。使用“自然”一词是因为交互是我们人类的基本行为。来自在我们生命的第一天，我们很自然地与周围的一切事物进行交互，尝试抓取或移动事物，尝试说话和交流。这些交互方式也将很自然地体现在人机交互中。BillBuxton，校长微软研究人员曾表示，语音用户界面可能是最自然的用户界面，尤其是在驾驶汽车时。显然，当您将手放在方向盘上并注视前方道路时。通过声音，可以为你传递大量的信息，成为当前场景下最有效的沟通（交互）方式。通过技术的进步，我们可以与机器交谈和互动。语音是一种非常普遍的人类技能，可以假设您的用户已经掌握了它。VUI开发人员面临的下一个挑战是创建对话/技能/行为并训练聊天机器人/虚拟助手进行交流并使其正常工作。这个挑战相当困难，因为要让机器理解我们的意图，它还必须连接并理解上下文对话。为了听起来自然，还应该有个性等等。下面我们列出了一些可用于创建聊天机器人和虚拟助手的技巧。语境（Context）作为人类，我们如此自然地使用语境，以至于我们都不需要考虑它。我们自然会知道如何与不同的人或在不同的地方进行对话。我们以不同的语气或方式与孩子、父母、朋友和同事交谈。我们可以在家里大声坦诚地说话，但在公共场合我们要维护自己的形象，注意自己的语气和用词。聊天机器人和虚拟助手不具备这种基于场景的知识和意识。这就是为什么提到“上下文”的原因。一些基础数据信息，如用户查询记录/答案、用户授权后获得的信息、用户表达的信息等，不要问你（机器人）已经知道的东西，也不要不断地给有经验的用户提供新手指导。个性当聊天机器人或虚拟助手具有个性时，这听起来很自然。例子：Alexa很有趣，它对各种各样的事情都有自己的看法。更重要的是，它的观点和偏好因国家而异。例如，在美国询问它喜欢什么啤酒与在德国询问它是不一样的。当亚马逊的开发人员着手创建Alexa时，他们只是希望它听起来不像一台没有感情的机器。然而，谁也没想到会有这么多人爱上Alexa的个性。并且Alexa也因为其个性增加了与用户互动的信任度。该原则在一定程度上限制了自动生成响应的能力，但对用户体验至关重要。短小精悍的词减少认知负担，节省时间，听起来更自然。缩短文本以呈现真正重要的信息，省略用户已经知道的事实和解释。如果你的机器人有显示屏，你也可以在屏幕上放置一些信息来概括或隐藏等等。灵活性必须预料到用户在对话过程中会随时更改信息。甚至用户会用各种表达方式来回答你的问题。自然性机器人说话要自然，要避免与官方语言重复和比较。尽可能采用隐式确认和主动监控技术，将你获得的关键信息和内容告诉用户。并且不要忘记那些礼貌用语，例如再见、谢谢、请等。主动性为避免用户不知道下一步该做什么的情况，需要在监视对话框中考虑出路（下一步）。如通过问题或引导标记进行对话，提供相关按钮引导等。虽然对话设计会受到技术发展水平的限制，但使用这些技巧可以在一定程度上帮助对话轻松自然。这个领域还比较新，我们都需要在不断的试错中学习，所以不要害怕犯错。请记住，良好的对话是自然的对话。以上为翻译内容。其他接下来我想分几点说一下机器人的性格。当我们与机器人交谈时，一般会涉及四种不同类型的对话，开放域聊天、任务驱动对话、问答（FAQ）和推荐。但很多时候，这些不同类型的支持来自不同的团队。不同的团队赋予了这个机器人不同的功能。当机器人与用户对话时，用户会明显感到不自然。回想一下，当你和你的朋友聊天时，如果对方突然变成你朋友的男/女朋友打字聊天，你通常能感觉到。人类语言对灵活性的表达实在是太灵活太丰富了。同一个词，在不同的语境中，甚至不同的语调，代表着不同的意思，这确实增加了机器人理解人类语言的难度。.对于场景中的同一个功能，人类在不同的场景下对其有不同的要求。比如我最近和我的天猫精灵互动时的感受。有时我睡得很晚，晚上两点左右，我说“天猫精灵帮我定个早上8:00的闹钟”，天猫精灵会保持原来的音量回答我。是的，如果我白天用很大的音量听歌，我会被天猫精灵超大的声音吓一跳（我被吓过很多次）。所以我会把音量调低再调低。然而，早上7点59分左右，天猫精灵会突然用正常音量说“你的闹钟要响了”？起床……所以就这么一个设置闹钟的功能，在不同的场景下，我们也希望它可以更自然、更贴心、更智能。好了，今天就到这里吧~

上一篇：2022年全球经济将如何影响加密货币市场？

下一篇：在谷歌云计算引擎上部署移动应用后端

如何让语音交互更自然？抢先掌握这6个关键知识点！相关文章