2022年6月,HMSCore机器学习服务为开发者提供全新开放能力——同声传译,降低资源成本,增强沟通通过AI语音技术,旨在帮助开发者打造多种同声传译应用。HMSCore同声传译涵盖了机器学习服务的【语音识别、翻译、语音合成】()等核心技术。它首先将输入的实时语音转换为文本,然后将文本翻译成另一种语言,最后将翻译后的文本转换为语音播放。同声传译能力可辅助各种场景下的跨语言实时交流,支持中英互译,提供多种音色的语音播报。可广泛应用于多样化领域、复杂环境、高实时性的会议和直播。语音识别+机器翻译,质量与效率并重对于同声传译,准确的源语言输入+翻译输出是重要衡量标准。面对同声传译的主要场景——会议发言、字幕直播、会议采访、智慧教育……往往伴随着长时间连续输入的音频,设备端识别使用语音能量检测、静音检测、心跳检测和其他算法。实现长音频的有效分句,从而将有效的语音片段送入语音识别模块,提高语音识别效率,降低同声传译时延,降低噪声对识别效果的影响。另一方面,语音转为文本后,存在部分识别错误、口语化、语气词多、部分内容重复表达等问题,导致文本不流畅,识别文本时没有进行详细的分句.针对这些情况,机器学习服务在文本处理模块中使用NLP语义理解、同音歧义处理、环境音处理、口语化处理等纠错技术,实现文本平滑、自动分句等功能,确保高-返回优质翻译,从而实现语音识别和翻译功能的增强,提高同声传译的效果。多种场景全面覆盖,中英文字幕同声传译不仅适用于面对面的跨语言交流场景,也适用于远程交流。无论是面对面的多语种会议、远程会议,还是观看外语视频,同声传译能力都能实时生成双语字幕,降低理解成本,提高工作和学习效率。自定义语音播报,边听边看。同声传译能力通过先进的深度神经合成技术,实时输出音频流数据,提供中英文多种男女语音,让发音更逼真。自然效果。通过实时语音播报减少延迟,结合实时字幕内容,为与会者提供身临其境的视听一体化同声传译体验。HMSCore机器学习服务通过语音识别、机器翻译、语音合成的有机融合,为开发者提供低时延、高准确率的同声传译能力,帮助用户更流畅地进行国际交流。为同声传译创造一个新的“声音”状态。欢迎广大开发者登录机器学习服务首页,获取更详细的产品介绍和接入准备。更多详情>>访问华为开发者联盟官网获取开发指导文档华为移动服务开源仓库地址:GitHub、Gitee关注我们,第一时间了解HMSCore最新技术资讯~
