文字 | 11月21日消息,近日,在第三届世界互联网大会乌镇峰会上,搜狗在会上表演的实时演讲翻译“表演”引发关注。
11月21日,搜狗正式推出了这项基于语音交互引擎“知音”的实时翻译技术。
据介绍,搜狗实时语音翻译技术是搜狗自主研发的机器同声传译技术。
该技术基于大数据和深度学习,涵盖了搜狗自主研发的语音识别和机器翻译两项重要技术。
其准确率可达97%,支持每秒最快单词的高速听写,每日语音输入频率可高达19亿次。
搜狗机器翻译集成了端到端神经机器翻译技术和基于实例的翻译技术。
使用的端到端神经网络翻译模型通过编码端获得源句子的分布式表示,利用注意力模型关注源端,并使用循环神经网络生成翻译结果。
在搜狗的整个翻译系统中,第一个系统功能就是语音切分。
当接收到特别长的语音信号时,系统通过机器学习自动判断静音和有效声音;语音 (1) 和非语音 (0)。
判断方法有两种。
第一个是基于能量检测。
小的能量是无声的,很大的能量是有效的声音。
二是基于深度学习模型的判断,通过大量数据建模。
建模后,可以通过模型自动检测。
当检测到这个地方是非语音的概率较高时,系统就会认为它是非语音。
当语音的概率较高时,将其判定为语音。
第二个系统功能是语音识别,旨在将语音信号转换为文本。
语音和文本之间的映射由概率目标来描述。
这个概率目标希望在给定当前语音信号的情况下最大化输出W的概率。
输出的差值对应的W就是最优的语音识别结果。
语音识别的整体框架涉及到两个非常重要的模型。
一是声学模型,就是人发音每个单元时的模型与声音信号的相似度;另一个是语言模型,它描述了识别结果中词与词之间连接的可能性,可以更好地规范整个输出结果,使其更加流畅。
整个翻译操作结构如下。
第一部分是编码端技术。
该系统基于神经网络技术,将收集到的语音信号输入编码器。
编码器具有语言翻译功能,可以提取语音中的特征句子并进行翻译。
成一个完整的句子。
然后输入对齐模型。
模型决定哪些词可以对应哪些词,并将这些词的特征贡献给解码端得到文本,起到端到端的映射作用。
第二部分是Decoder技术。
从实际评估精度来看,GRU的结构会更轻,计算速度会更快。
在目前的同声传译技术中,搜狗采用双向GRU技术共同构建编码端结构。
解码端联合抽象后连接Softmax输出结果。
这就是搜狗实时翻译的整个运行过程。
搜狗实时语音翻译技术有效地将语音识别和机器翻译结合起来。
未来,科技改变生活,我们也希望更多的语音翻译软件能够优化实时语音翻译的性能和效果,持续为用户带来更完整、更实用的语音技术和产品,同时推动整个语音行业乃至人工智能。
智能化领域科技创新进步。