当前位置：首页 > 科技赋能

用声音打造“形象”，智能语音如何加速商业应用落地？

时间：2024-05-22 17:51:20 科技赋能

对于大多数人来说，语音合成技术（TTS，Text-To-Speech）最常见的应用就是志玲姐姐在高德地图中的路况报告的语音。

机器在记录原始语音中的基本固定句子后，必须模拟人类对自然语言的理解过程，然后为合成语音规划分段特征，使合成语音能够正确表达语义，最后进行语音输出。

整个过程类似于“编码、信息匹配、解码”。

除了车载语音导航，语音合成技术现在也应用于朗读等需要声音表现力的场景。

今年1月，央视播出了第一部采用TTS技术模拟真人配音的纪录片《创新中国》，配音者是已故中国著名播音员、配音演员、语言艺术家李易，曾为《再说长江》、等多部纪录片配音。

、《美丽中国》、《人类星球》、《迁徙的鸟》等，AI通过语音合成技术，成功模拟了李毅的声音，完成了纪录片的配音解说，可见摆脱了纪录片原有的机械化语音。

机器拥有像真人一样富有表现力、起伏的声音，既是语音合成技术的发展方向，也是难点之一——也是对各种语音合成数据服务提供商的考验。

对于智能语音交互来说，场景的重要性不言而喻。

谁能让声音更具表现力和个性化，谁就能让技术适应非标准化场景，赢得智能语音市场的未来。

近年来，科技巨头纷纷推出自己“定制”的语音合成解决方案。

2020年4月，谷歌在加拿大蒙特利尔大学设立的人工智能实验室（MILA）成立了Lyerbird。

Lyerbird成立时，推出了一套“只需一分钟的语音样本就可以模仿任何人的语音”的系统。

;在今年5月的Build大会上，微软在其公有云平台上推出了定制语音合成服务产品Custom Voice，可以模拟声音并在线测试模拟效果。

在国内，科大讯飞也于去年11月推出了名为“科大讯飞语音”的测试版本。

据悉，科大讯飞只需要10句语音采集即可完成个人语音的再现，采集量仅为行业平均水平的百分之一（远低于微软的一句和行业的千句）。

积累了近千小时的语音数据，打造多元化的“声音超市”。

一些初创公司也在TTS领域做出了布局，比如今年2月成立的标贝科技。

在整个语音产业链中，标贝科技提供语音合成技术和语音数据。

技术含量较高的语音合成包括说话人选择、语料库设计、语音采集、数据处理、语音深度处理等步骤。

标贝科技联合创始人CTO李秀林在接受猎云网采访时表示，“科技巨头有能力探索先进技术，我们非常尊重他们的成就，也认可他们的学术产出。

但还有很长的路要走。

”从学术界到工业界还有很长的路要走，有些东西永远停留在论文里，初创公司的优势在于他们的工程能力和产品管理，通过我们在具体应用层面不断提升。

技术改造”。

我们先来听一段智能客服与用户的对话：这是标贝科技今年5月推出的针对智能客服的语音合成技术解决方案。

李秀林认为，客户服务领域的痛点非常明显。

“比如，很多大公司往往拥有数万名人工客服人员，有的甚至每天要接到来自全国各地的数百万个电话。

一方面，公司成本不断增加；另一方面， “由于工作性质的原因，客服人员往往承受着巨大的情绪压力。

”这也使得客服人员往往需要较长的培训周期，据统计，营销效果不佳、人员流动率较高等问题时常出现。

从中国企业数据报告来看，近年来我国中小企业数量以每月30万的速度增长，预计到了今年，我国中小企业数量将达到30万人。

全国将达到1万家随着国内中小企业数量的快速发展，国内客服市场仍呈现增长趋势，其中呼叫中心和在线客服的市场规模将达到100家。

分别为一亿和一亿。

面对如此巨大的市场规模，李秀林认为，对于企业来说，用智能客服代替体力劳动的经济回报是清晰可见的——如果语音合成技术能够“胜任”这项工作的核心内容，那么大量重复性工作将标准化的语音对话内容可以通过智能客服完成，大大降低了公司的人力成本。

此外，客户服务作为当今信息社会企业与用户沟通的重要组成部分，直接影响企业的整体形象。

对此，商家越来越重视客户服务中心的建立和培训。

“尤其是通知类内容，或者说企业通过在线客服推广来推销产品的场景，比较明确，就是‘说’、‘听’、‘答’，这为语音的实施提供了很好的机会。

合成技术。

”李秀林告诉猎云网。

由于技术相差无几，TTS的最终效果离不开准确、丰富、高质量的语音训练数据。

一般来说，从前期准备、找人、找录音场地、录音、数据筛选、标注，到最后变成“可用数据”，可能至少需要3个月的时间。

为了打造出高质量的语音，让用户喜欢，对声音形成“粘性”，标贝科技需要前期设计丰富的语料库，联系大量的配音演员，引导他们完成语音的采集。

声音，然后对语音进行深度处理。

传统的语料数据处理方法是人工精准标注，需要大量的人力。

标贝科技利用深度学习技术，通过计算机程序进行预处理，然后进行人工修正，大大提高了工作效率，保证了数据处理的准确性。

准确性。

成立近两年来，标贝科技积累了包括文本、语音等多种类型的语料数据，并为多家互联网巨头的AI产品提供了大量的数据服务。

在这套语音合成技术解决方案中，标贝团队还专门挖掘优质配音演员资源，进行优化，然后制作成demo。

“相当于我们为客服系统定制了符合客户风格的合成语音解决方案。

”，李秀林表示，客户可以根据自己的需求选择标准化或定制化的产品和场景。

标贝将利用专业语料库打造客服合成语音库，并为客户提供API接口等技术对接方式。

对接后标贝科技的智能客服系统可根据不同的使用场景，自动进行多渠道用户的外呼，可用于售后、问答、录音、主动外呼、催收、营销等行业。

商业服务、金融保险、教育培训、电商物流、互联网通讯、房地产地产等服务在固话和移动设备上的推广都有针对性的解决方案。

”和人性化。

“每个声音都有自己的形象，能够让用户产生粘性。

”李秀林说，“因此我们还推出了‘人工智能语音超市’，通过我们丰富的语料库，可以解决不同企业不同的定制化需求。

”据猎云网报道，在定制语音库方面，表贝科技已成功为用户提供了80小时中文女声情感语音库、1小时中文女声库、1小时男声库、80小时中文女声库、80小时中文女声库、80小时中文女声库、80小时中文女声库、80 1小时粤语语音库、50小时美国女声语音库、40小时ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时葡萄牙语语音库、20小时台湾国语语音库。

语音库，10小时日语、10小时韩语和20小时名人语音库等，还在不断丰富和积累中，同时标贝科技还提供了自己的语音库，中文男女语音，美式男女声、童声、粤语、台语、日语、韩语等以及个性化语音库。

客户现在可以直接使用整体解决方案。

2007年，在百度任职期间，李秀林带领团队推出了情感合成项目，专门针对百度小说频道。

仅用了半年左右的时间，他就在语音合成处理效率和合成效果上取得了重大突破。

2016年加入滴滴，担任滴滴研究院语音团队负责人、首席算法工程师，帮助滴滴发展出行领域相关语音业务。

结合自己在语音合成技术领域十几年的经验，这位行业从业者也坦言，目前智能客服的“投诉”部分是比较难通过人工智能替代的。

“一般来说，顾客的投诉都是情绪化的，语言表达也比较混乱、分散，机器识别起来还是有一定难度的。

”但李秀林认为，“核心不是TTS的限制，而是NLP的限制”。

NLP全称为Natural Language Process（自然语言处理），是指利用计算机处理自然语言的形式、发音、意义等信息，即对字符、单词、句子等进行输入、输出、识别、分析和理解。

和章节。

、生成等操作和处理过程。

一套完整的语音交互流程涉及非常复杂的技术链，包括声学处理、语音识别、语义理解、语音合成等核心技术。

基础声学和语音识别解决的是计算机“听到”的问题，而NLP解决的是计算机“理解”的问题。

李秀林提到的客服“投诉”中语言表达分散、混乱的问题，也与NLP技术中的“词义消歧”密不可分。

机器分词、标记词性并识别后，需要理解每个单词。

由于语言中的单词通常具有多种含义，人类会根据现有的知识和上下文进行理解，但这对于机器来说很难做到。

虽然系统对句子进行句法分析，可以在一定程度上帮助机器理解词义和语义，但实际情况并不理想。

这也是目前智能客服无法替代人工客服解决复杂问题以及需要多轮交互的情感安慰的原因。

此外，智能音箱产品也是标贝科技涉足的业务方向之一。

今年8月，Setaria智能科技推出了基于Gowild人工智能虚拟生命引擎（GAVE）和全息投影技术的HE Amber智能音箱。

能歌善舞、能聊天的“琥珀小姐”的声音由标贝TTS技术提供支持。

假如。

“我认为个性化语音是一个非常有价值的方向，每种语音都有自己的特点，不同的品牌、公司和服务提供商会根据不同的场景和产品特性使用不同的语音，而这种语音可以‘塑造独特的形象’。

”为了打造优质的语音，让用户喜欢并对语音形成“粘性”，标贝科技严格把控数据标注过程的每一步。

李秀林认为，“人工智能不仅能处理简单的标注，还可以利用技术手段，提高后期合成的准确性，最终接近真人说话的状态。

”推出“今日快听”，探索用“声音”实现的多场景语音交互体验。

随着知识付费的兴起，有声读物的发展进入了快车道，用户可以通过手机、智能音箱等随时随地收听各类有声读物，而不受地理位置的限制。

新闻信息、音频内容。

因此，除了语音合成服务外，为了让用户尽快体验语音合成技术，标贝科技还开发了一款基于语音合成技术的小程序——《今日快听》，用于播报科技新闻。

目前，快亭小程序已与国内多家科技媒体实时对接。

每天早上6点30分开始，实时更新当天最前沿的科技、财经、社会热点话题等新闻。

在通勤时间，用户可以充分利用碎片时间收听热点新闻。

该小程序的界面以黑色为主，搭配紫红色渐变作为装饰色。

主界面上的紫红色渐变大圆圈和底部的小圆圈在中轴上上下排列。

底部的五个按钮对称分布。

它简洁、轻便、充满科技风格。

同时，还融入了中国美学元素。

主界面底部有三个按钮，分别用于评论、分享和选择声音。

它们左右排列，允许用户用一只手操作。

其中，“建议”按钮可以根据小程序的流畅度、声音、内容、界面等提出意见或建议；通过“分享”，可以将小程序推荐给微信好友或保存为图片进行传播； ” “选择语音”按钮满足了用户播放男声或女声的习惯。

“语音行业一直是人工智能的典型技术领域。

我们已经干了十几年了，大家还是自称“自称语音技术”。

经营企业，需要专注于自己擅长的领域，而不是追热点，因为热点也是会变化的，做得好的话，还可以激发出很多新的热点。

”李秀林告诉猎云。

.com表示，团队也会在语音合成技术的场景上进行更多的探索。

“初创公司迭代技术的速度非常快，也许几个月的时间，我们就已经把行业解决方案开发得非常好。

接下来，我们需要销售来拓展商业市场，技术团队将进行下一步，比如为内容制作做一些准备。

上一篇：Research Kit想要颠覆医疗行业需要面临几个困难

下一篇：咕咚GPS运动手表预售夺同类第一咕咚“私教”系列广告再次掀起行业热潮

用声音打造“形象”，智能语音如何加速商业应用落地？相关文章