语音识别数据库和语音合成数据库是人工智能的关键技术,使机器能够像人一样听和说、学习、理解和思考,成为人类生活的核心和工作。得力的帮手,贴心的伴侣,一直是人类的梦想。近半个世纪以来,随着智能语音技术的进步和深度神经网络技术(DNN)的工程应用,人类正在不断接近这个梦想,而这个梦想也极大地带动了智能语音技术的发展。最初,人们只能让机器发出类人的声音,比如18世纪下半叶欧洲人制造的Kempelen会说话的机器,只能说出有限的单词和短句。时隔两个多世纪,现在的“聊天机器人”不仅能用非常自然的声音与人交流,还能逗人撒娇。1950年代AT&T贝尔实验室的Audry,它可以识别十个英文数字。现在,语音识别技术的自然语言识别准确率高于95%。微软发布的“小冰”和百度发布的“度米”再次在人群中掀起了人工智能和人机交互的热潮。为深入了解“小冰”和“嘟嘟”聪明听话背后的秘密,记者专访了“北京海天瑞盛科技有限公司”CEO唐迪飞先生。作为中国乃至亚洲最大的人工智能数据资源供应商,“海天AAC”在语音合成(TTS)、语音识别(ASR)、自然语言理解(NLP)和机器翻译(MT)等领域拥有领先的技术).在基础数据资源开发领域,积累了17年的专业经验。就智能语音基础数据资源而言,目前拥有覆盖116种语言、覆盖70多个国家和地区的数据资源制造能力。小冰和度米理解人类命令的能力比之前的语音助手要好很多。百度世界大会上,面对李彦宏的种种刁难,杜蜜应对自如。他不仅帮“厂长”在网上点了两杯拿铁,还订了一家允许养宠物的餐厅,还在网上买了卡通片。票。那么,“小兵”和“嘟嘟”能够准确理解人类指令的秘密到底是什么?唐迪飞先生表示,这是由于语音识别(ASR)技术和自然语言理解(NLP)技术的巨大创新和进步,从最初的DNN模型到现在的LSTM模型,从机器学习(ML)到深度学习学习(DL),每一次技术革新都给用户带来全新的体验。不仅如此,用于训练语音识别引擎的基础语音语料库也是一个至关重要的因素。在设计语料时,需要专业的语言学家根据特定语言的语言现象,充分考虑语料领域分布、应用场景分布、语料时效性等因素,同时利用相应的NLP处理技术和标注团队来确保数据库语料库规模和结构科学合理,音素覆盖均衡,句义完整,语义连贯,拼写正确易读易懂,然后按说话人分布传递,口音分布、文本分布、音素分布、场景分布等条件使用相应的算法,如DTW动态规则算法,提取说话人的文本,形成特定的发音文本。由于口音、年龄、教育背景和居住地区的不同,不同的人表达相同的意思,问相同的问题,甚至说相同的句子,都会有细微的差别。比如在智能客服的应用中,机器人不仅要听懂客户的话,还要识别客户的情绪,比如根据客户的情绪是焦虑还是平静,或者根据客户情绪的变化情绪,判断他是否生气了,还是会慢慢消散,并采取不同的处理重点和反馈方式。这涉及将情感因素引入训练语料库。但目前小冰和度米还不能完全做到这一点。据唐迪飞先生介绍,为了让“小冰”说话自然、甜美、流畅,大规模语音合成(TTS)数据库的设计和开发,从根本上决定了用户对她的体验。在设计数据库时,首先要做的是选择年龄和音质都合适的音箱。她的声音应该年轻、阳光、灵动、充满活力。其次,数据库的设计要充分考虑语言和音素的全面覆盖,语料主要来源于海量聊天对话素材。为了强调小冰是一个有情绪的女孩,她说话时既能一本正经,又能生气又可爱。所以在语料设计中加入大量口语化的句子和网络表达,甚至是网络小说中的段落都是很有必要的。同时,还需要常用英语词汇、汉英混合词汇、数字串、地名等特殊语料库。在人类的自然语言中,同一句话在不同的情况下会有不同的语调和节奏。因此,在语料库设计中,也应考虑这些因素。结果,语料库的规模往往是几万甚至几万个句子。在某种程度上,语音合成语料库设计的失败将大大抵消语音合成技术的进步。人类从小冰、度米这样的聊天机器人到真正的机器伴侣,还有很长的路要走,还有很多困难需要克服。她必须能够更准确地理解和响应向她发出的各种指令,还必须能够“理解”人们的情绪变化和情感需求,能够“思考”,从而为人们提供服务更接近真实的人,包括情感支持和安慰。在语言表达上,也应该更贴近真实的人类情感和情感的表达,更应该自然流畅。这种困难当然有很多原因。唐迪飞先生从一个方面进行了解释,那就是基础数据资源匮乏,成本高。如前所述,为了让聊天机器人尽可能多地理解,甚至真正“理解”人类的语言和情感,对基础数据资源的设计者和开发者提出了更高的要求。
