当前位置: 首页 > 科技观察

如何让语音交互更自然?抢先掌握这6个关键知识点!

时间:2023-03-14 22:53:26 科技观察

最近看了几篇不错的机器人文章,于是想到边翻译边写自己的想法。在日常工作中沉浸在机器人平台、多轮场景和各种解析器中。你需要通过这种方式从不同的角度受到刺激,可能会冒出一些新的想法。△UnsplashToday上FranckV.的摄影文章来自AnnaPrist在Medium上发表的《How to make your Chatbot Sound Natural》。我们先总结一下Anna在设计机器人对话时提到的六大语境(机器人在对话中需要语境理解)Personality(机器人需要有自己的个性)Conciseness(机器人的话要简洁明了)Flexibility(用户的表达需要被认为是多样化的)自然(在人类对话中使用一些自然的表达方式,例如礼貌用语)主动(保持对话继续进行,不要让它中断)我们已经习惯了技术变化如此之快,以至于我们甚至无法想象一个没有它的未来。随着我们不断前进,交互设备和交互设计也在不断改进。还要感谢那些小说和电影让我们知道如何与机器交互——我们可以使用语音命令、手势和虚拟屏幕,就像汤姆克鲁斯在电影中所做的那样:(你可以在youtube上搜索“少数派报告的基于手势的用户”日常交互中,可以使用触摸、语音、手势等交互方式,这对我们来说很容易,不需要学习。使用“自然”一词是因为交互是我们人类的基本行为。来自在我们生命的第一天,我们很自然地与周围的一切事物进行交互,尝试抓取或移动事物,尝试说话和交流。这些交互方式也将很自然地体现在人机交互中。BillBuxton,校长微软研究人员曾表示,语音用户界面可能是最自然的用户界面,尤其是在驾驶汽车时。显然,当您将手放在方向盘上并注视前方道路时。通过声音,可以为你传递大量的信息,成为当前场景下最有效的沟通(交互)方式。通过技术的进步,我们可以与机器交谈和互动。语音是一种非常普遍的人类技能,可以假设您的用户已经掌握了它。VUI开发人员面临的下一个挑战是创建对话/技能/行为并训练聊天机器人/虚拟助手进行交流并使其正常工作。这个挑战相当困难,因为要让机器理解我们的意图,它还必须连接并理解上下文对话。为了听起来自然,还应该有个性等等。下面我们列出了一些可用于创建聊天机器人和虚拟助手的技巧。语境(Context)作为人类,我们如此自然地使用语境,以至于我们都不需要考虑它。我们自然会知道如何与不同的人或在不同的地方进行对话。我们以不同的语气或方式与孩子、父母、朋友和同事交谈。我们可以在家里大声坦诚地说话,但在公共场合我们要维护自己的形象,注意自己的语气和用词。聊天机器人和虚拟助手不具备这种基于场景的知识和意识。这就是为什么提到“上下文”的原因。一些基础数据信息,如用户查询记录/答案、用户授权后获得的信息、用户表达的信息等,不要问你(机器人)已经知道的东西,也不要不断地给有经验的用户提供新手指导。个性当聊天机器人或虚拟助手具有个性时,这听起来很自然。例子:Alexa很有趣,它对各种各样的事情都有自己的看法。更重要的是,它的观点和偏好因国家而异。例如,在美国询问它喜欢什么啤酒与在德国询问它是不一样的。当亚马逊的开发人员着手创建Alexa时,他们只是希望它听起来不像一台没有感情的机器。然而,谁也没想到会有这么多人爱上Alexa的个性。并且Alexa也因为其个性增加了与用户互动的信任度。该原则在一定程度上限制了自动生成响应的能力,但对用户体验至关重要。短小精悍的词减少认知负担,节省时间,听起来更自然。缩短文本以呈现真正重要的信息,省略用户已经知道的事实和解释。如果你的机器人有显示屏,你也可以在屏幕上放置一些信息来概括或隐藏等等。灵活性必须预料到用户在对话过程中会随时更改信息。甚至用户会用各种表达方式来回答你的问题。自然性机器人说话要自然,要避免与官方语言重复和比较。尽可能采用隐式确认和主动监控技术,将你获得的关键信息和内容告诉用户。并且不要忘记那些礼貌用语,例如再见、谢谢、请等。主动性为避免用户不知道下一步该做什么的情况,需要在监视对话框中考虑出路(下一步)。如通过问题或引导标记进行对话,提供相关按钮引导等。虽然对话设计会受到技术发展水平的限制,但使用这些技巧可以在一定程度上帮助对话轻松自然。这个领域还比较新,我们都需要在不断的试错中学习,所以不要害怕犯错。请记住,良好的对话是自然的对话。以上为翻译内容。其他接下来我想分几点说一下机器人的性格。当我们与机器人交谈时,一般会涉及四种不同类型的对话,开放域聊天、任务驱动对话、问答(FAQ)和推荐。但很多时候,这些不同类型的支持来自不同的团队。不同的团队赋予了这个机器人不同的功能。当机器人与用户对话时,用户会明显感到不自然。回想一下,当你和你的朋友聊天时,如果对方突然变成你朋友的男/女朋友打字聊天,你通常能感觉到。人类语言对灵活性的表达实在是太灵活太丰富了。同一个词,在不同的语境中,甚至不同的语调,代表着不同的意思,这确实增加了机器人理解人类语言的难度。.对于场景中的同一个功能,人类在不同的场景下对其有不同的要求。比如我最近和我的天猫精灵互动时的感受。有时我睡得很晚,晚上两点左右,我说“天猫精灵帮我定个早上8:00的闹钟”,天猫精灵会保持原来的音量回答我。是的,如果我白天用很大的音量听歌,我会被天猫精灵超大的声音吓一跳(我被吓过很多次)。所以我会把音量调低再调低。然而,早上7点59分左右,天猫精灵会突然用正常音量说“你的闹钟要响了”?起床……所以就这么一个设置闹钟的功能,在不同的场景下,我们也希望它可以更自然、更贴心、更智能。好了,今天就到这里吧~