人类与AI对话的频率正在进入前所未有的大爆炸时代。
无论是智能手机中的语音助手、购买时附带的智能音箱,还是迷人的智能机器人或地图导航,总有一个声音会触动你的心。
这些生活中随处可见的声音,其实都有一个核心技术支撑:语音合成TTS(Text-To-Speech),将文本转换为声音。
总的来说,TTS 并没有受到广泛的关注。
在很多智能语音相关的产品发布会中,它甚至不超过一页PPT。
但事实上,TTS对于触发整个AI语音交互体验起着决定性的作用:用户听到的声音直接影响到他心目中AI的“三维”形象。
比如我的一个朋友,就是因为志玲姐姐的配音,成为了地图导航的铁杆粉丝。
经典AI电影《Her》中,人工智能系统OS1拥有斯嘉丽·约翰逊迷人的声音,让男主角爱上它,人类与AI之间的虐恋关系由此展开。
语音合成为机器注入了个性化的魅力,让人类更愿意与它们建立亲密的关系。
这也意味着,在必须通过留住用户来实现商业价值的当下,TTS能力将成为各种语音场景中胜败的命脉。
尽管企业对TTS的需求如此迫切,但TTS在学术界和行业应用之间仍然存在较大的技术差距。
在探索类似的技术原理和前沿算法后,各家公司的解决方案和能力差异很大。
两者的叠加使得TTS成为一个巨大的竞技场。
本文希望通过分析这个不为大众所熟知的赛道,看看是什么决定了机器说话的方式、用户耳朵的体验和舒适度,以及哪些玩家用TTS挖掘了智能语音的丰富矿藏。
那极快的柔情:让机器听起来像人类一样,是AI公司的首要方向。
最近,网络上流行一种新的搞笑方法:扮成机器。
例如,如果你在游戏中使用百度翻译的语音包与队友对话,浓烈的机械味可能会让你的队友无法抵抗,向你的头部开枪。
与此同时,少女AI形象“绊爱”也迅速走红,被粉丝亲切地称为“爱酱”。
它有着少女般的外表,能像人类一样交流,言语中时不时流露出作为AI的满足感。
对过于机械化的声音的无情嘲讽和对高度人性化声音的疯狂呼唤,可以说是普通人对TTS下限和上限最直接的反应。
由此不难看出,TTS的核心轨道在于如何让机器的声音听起来有节奏、自然、富有情感。
说白了,就是如何给机器声音注入人性。
这个听起来很模糊的要求,只有通过TTS多个技术层面的一步步过关才能实现。
纵观整个流程,目前有两方面的工作是AI公司努力的核心方向:细心的语料库正在成为TTS引擎的方式,用更少的语料合成更自然、高质量的语音,这可能是技术上的突破。
未来TTS的发展方向。
目前看来,更具情感表现力和精确节奏的声音必须通过庞大而准确的语料库的直接拼接来直接产生。
这背后隐藏的是AI企业竞相打造语料库的投入成本和产品精神。
例如,苹果聘请了专业配音演员 Susan Bennett 为 Siri 录制原创语言,而微软 Cortana 的配音则来自女演员 Jen Taylor,她曾为《光晕》游戏中的角色 Cortana 配音。
在国内,高德已邀请林志玲、郭德纲、TFBOYS、罗永浩、黄晓明、高晓松等多位流量领袖录制导航语音包。
为小米音箱、喜马拉雅音箱、美的音箱等智能硬件提供服务的AI女声“小雅”被猎户星从女声中选中。
为了让“小雅”能更流畅、自然地说中文和英文,Orion特意找了一位发音与中文音源非常相似的女孩录制了英文语料库。
从海量主讲人的甄选、语料库的精心打磨、到对用户场景的深入适配,良好的TTS前端数据处理能力是区分当今这一细分领域产业地位的核心。
仅用算法探索“舒适聆听”的边界、解决基本声源和庞大语料库的问题是远远不够的。
如今的TTS领域,大体的进步方向是基于类似的模型,在细节上优化TTS效果。
这一领域构成了AI科技公司在TTS上的算法优势,百度、微软等都在大力押注。
简单来说,系统对输入文本进行分析,获取合成语音的基本单元信息,从标记的语音库中选择最合适的语音单元,根据需要进行一定的修改和调整,然后以波形方式进行拼接以获得合成语音。
目前,DeepMind最新的深度生成模型WaveNet改变了传统的拼接方式,而是选择直接对音频信号的原始波形进行建模,一次处理一个样本,以产生更自然的声音。
目前,WaveNet能够模拟任何人类语音,并将机器语音合成性能与人类水平的差距缩小了至少50%。
在中国,百度正在研究利用说话人编码技术来生成自然语音。
简而言之,说话人编码器学会了将不同人所说的单词分别聚类,以更好地模仿说话人的声音特征。
例如,机器可以根据口音判断说话者是来自北美的男性还是来自英国的男性,从而更真实地还原原始声音。
Cheetah通过更加分层的标注系统来提取语音特征单元。
目前,合成语音可以从初始级别、音节级别、单词级别、韵律词级别、短语级别和句子级别6个级别进行制作,使得合成语音在上下文韵律信息和准确性方面更加完整,并且听起来更像一个真人。
发音习惯。
总而言之,好的TTS算法正在成为当今语音合成领域区分行业地位的核心。
培训成本之争:AI行业的另一种方法是让机器用你的声音说话。
TTS的另一个赛道是如何让机器以低成本学习用户的声音。
让更多名人甚至普通人的声音在终端设备中唤醒,这种技术能力具有广阔的市场想象空间。
然而,使用名人声音往往需要大量语料的录制和拼接。
不仅进入时间较长,还需要在专业人士的指导下完成。
联合主演们必须录制数千个句子,这往往需要 1-2 个月的时间,而且要花费很多钱。
即使做出所有这些努力,也很难覆盖所有利基应用领域。
在某些连接处,常常有一种机械拼凑的感觉。
不仅阻碍了名人的声音进入通用设备场景,也让普通人回避录制自己的声音。
因此,如何降低训练成本,用更少的语料实现良好的学习和语音生成是这个赛道的关键。
近日,百度发布了语音合成的最新成果,可以通过“语音克隆”模仿数千种不同的声音。
每个演讲者仅需不到一个半小时即可完成数据训练。
其核心方法是说话人自适应,即利用多个语音克隆样本,让机器从几秒的短句中学习说话人的语音特征,然后利用反向传播优化方法生成多说话人语音。
该模型经过微调。
说话者只需要提供少量的语料,语音再现所需的其余材料都可以通过克隆来完成。
猎豹移动猎户星语音操作系统可以让用户在20分钟内录制10段,系统可以在2周内自动合成覆盖常用区域的语音包,音色自然。
简单来说,就是利用深度学习TTS模型TACOTRON将文本分析、声学模型、音频合成等模块打包成一个大语料库进行训练。
使用这样的语音库作为基本模型,可以从10个句子中提取说话人。
语音特征,然后使用声码器合成具有相同音色的语音。
综上所述,TSS领域目前的现状是传统语料库对数据的要求太大,往往消耗大量的人力物力,且短期内无法大规模复制。
但个性化语音背后隐藏着另一个巨大的交互需求。
一旦声源采集成本能够大幅降低,普通人就可以轻松生成自己的个性化语音包。
试想,如果一个聊天机器人拥有真人的语气和生动的表情,它能训练出高模仿力的人工智能吗?它可能是一位失散多年的朋友,一位讲故事的母亲,也可能是即将去世的亲人最后的剪影。
一旦这项技术的“处女地”被开发出来,智能语音软硬件体验上的诸多问题都将得到解决。
因此,基于数据和算法优势的小语料分析能力也成为TTS领域的重要角逐技能,将仅有的少数公司推向更广阔的市场。
工程与商业入口:TTS的产业地域竞争已经说了这么多。
不难看出,TTS是一种“可甜可咸”的技术。
看似存在感不高,却让很多站在金字塔顶端的高科技企业担忧不已;只能用最前沿的科技矩阵来攻克,最终还是要在真实琐碎的人间烟火中得到锤炼。
而其最终目标是将智能设备与生活场景连接起来,建立服务市场。
因此围绕 TTS 的战斗不仅仅是一场技术竞赛。
最重要的竞争指标是公司的工程完成能力和市场信任度。
比如,如果一些新技术只停留在实验室阶段,无法应用于真正的音箱、电视产品,或者优化程度非常有限,不仅合作伙伴要承担责任,“狼来了” ”。
如果听得太多,消费者的积极性就会被耗尽。
目前,百度和科大讯飞在中国已经形影不离。
微软以其吸引人的技术表现占据了一席之地,而谷歌则是遥遥领先的“技术灯塔”。
但普通人能在哪里使用它们却是个谜。
强调技术突破,忽视应用和市场,恐怕是当前TTS升级阶段的主要矛盾。
这或许也揭示了TTS现在迫切需要的并不是“高居殿堂之巅”。
相反,它应该尽快将技术突破变为现实,与用户共舞,与行业磨合。
从整体环境来看,TTS有着非常丰富的应用场景。
旅行、购物、娱乐、育儿、智能手机等都是它大显身手的地方。
用户的耐心还处于培养阶段,如果体验不理想,也只会以友好的方式调侃。
一些技术厂商之所以无法占据这条康庄大道,一方面是产业下沉的能力。
他们习惯了技术,缺乏对工程产品的耐心和细致的打磨。
另一方面,公众的认知也存在差距。
在消费方面,企业层面缺乏强有力的品牌支撑和心理保障,导致出现“叫好不叫好”的局面。
TTS的应用价值决定了它是一种非常普遍的通用技术,但并不是所有的AI公司都能凭借TTS在泛AI交互市场成功“吃鸡”。
考验的是企业的综合能力,没有短板。
。
目前看来,想要拥有一款不尴尬的TTS,从实验室到产业化,还需要长期的应用突破和商业迭代,才能迎来真正的曙光。