当前位置: 首页 > 科技观察

语音识别不难,难的是语音合成

时间:2023-03-23 12:09:38 科技观察

相信大部分人对语音助手都不陌生。许多人还与iOS中的语音助手Siri进行过对话,无论是为了好玩还是在他们真正需要它的帮助时。Siri不难理解你在说什么,但真正与它对话会很奇怪。不管它是否能正确回答你的问题,它返回给你的声音都表明你不是在和人聊天。确实,在语音识别这件事情上,国内外最好的公司已经能够做到95%左右的准确识别率。但在语音生成方面,几乎没有一家公司能够让机器人说的话和人类说的一样。即使是一些简单的词组,你也能听出是机器合成的还是真人播报的。但随着人们越来越多地使用语音交互,如何让电脑的声音听起来更人性化,成为了很多软件公司和程序员面临的一大挑战。据《纽约时报》报道,IBM在世纪之交花了18个月的时间才让机器人沃森(Watson)能够说话,但虽然沃森已经很聪明了,但说话的能力还是很差。因为它听起来根本不像是人声。IBM实验室高级经理MichaelPicheny。图片来自《纽约时报》现在电脑语音都是机器合成的(除了一些天气预报和导航提示完全是人工录制的)。用于合成最终语音的人声数据库通常非常大。数据库中有真人对某个词的发音,以及该词不同声调的发音,甚至是该词的部分发音。一个配音员通常至少需要10个小时才能完成语音数据库的录入。虽然语音数据库已经非常庞大,但在合成语音时,仍然不可能做到接近真人的声音。最困难的部分之一是将人类情感带入合成声音。卡内基梅隆大学语言技术研究所的计算机科学家AlanBlack告诉《纽约时报》,没有办法告诉语音合成器应该用情感来阅读这段话。当然,设计师经常强调他们不想使用合成语音来欺骗人们说这是真人的声音。但他们还是希望机器和人的语音交互更加自然,更像人与人之间的交流。事实上,如果机器的发音太接近人的发音,会让人感觉很不舒服。日本机器人科学家森政博在1970年发表了一篇题为《恐怖谷》的文章,其核心是当机器人与人类的相似度过于接近时,机器人身上的一点瑕疵都会让人感到不安。根据森正弘的假设,随着人物拟人化程度的增加,人对其的情绪反应呈现出增加-减少-增加的曲线。恐怖谷是当机械人达到“接近人类”的相似度时,对人类的好感度突然下降到厌恶的范围。“活跃的类人动物”比“静止的类人动物”变化更大。图片来自维基百科ToyTalk是一家为儿童玩具制作人声的公司。其CEOBrianLangner表示,当一台机器可以做正确的事情时,人们就会认为它可以做所有正确的事情。所以在他的产品中,他故意让机器犯一点错误。他毕竟是做玩具的,犯错惹人发笑也无可厚非。现在的问题是,经过这么多科学家的努力,我们已经不用担心合成语音这件事情会出现“恐怖谷”了。为了让沃森“好好说话”,IBM招募了25位配音演员。经过大量的实验和调整,他们终于合成了一种听起来更舒服的声音——尽管人们仍然可以清楚地听到它。不是真人说话。语音交互要大发展,合成语音必须让人听起来更舒服。否则,这种交互只能说是语音输入,机器执行,没有人与机器真正的交流。