当前位置: 首页 > 科技赋能

微软推出Hierarchical Transformer,实现更高精度的言语评估

时间:2024-05-19 16:32:48 科技赋能

对于语言学习者来说,练习发音并获得及时准确的反馈是提高口语能力的重要一环。

多年来,微软深耕基于Azure认知服务的语音功能,不断优化语音评估功能底层技术,在准确性、流畅性、完整性、语调等方面提供更实用的反馈,为教育赋能行业。

提高教学和学习标准。

微软致力于发展“负责任的人工智能”,因此在设计和开发人工智能产品的过程中始终坚持这一原则。

本文将介绍微软语音评估模型的整体架构,并对底层的 Hierarchical Transformer 技术进行深入分析。

语音评估底层技术分析微软的语音评估功能使用Azure神经网络语音合成(Azure Neural TTS)、Transformer、有序回归和Hierarchical架构来提高评估的准确性,实现词级准确度的提升。

同时,基于神经网络的GOP(发音优度)方法,在高质量声学模型的支持下,表现非常接近真人专业评估水平。

Azure 语音识别 (STT) 经过大规模真实数据的训练,使 Microsoft 能够利用高质量的 GOP 功能来训练发音错误检测模型。

模型整体架构:克服了数据稀缺的问题,模型PPC系数显着提升。

语音错误检测面临的主要挑战之一是难以获得高质量的注释数据。

为了克服数据稀缺问题,包括正负样本不平衡,微软使用 Azure Neural TTS 生成训练数据,模拟人类识别错误发音的过程。

在此基础上,利用增强数据进行预训练得到源模型,然后利用标注数据对源模型进行微调。

此外,在数据标注阶段,聘请了多位语言专家(LE,Langurage Experts)基于同一评估体系对数据进行单独标注。

两个独立 LE 之间的皮尔逊相关系数 (PCC) 必须大于给定阈值以确保注释质量。

对于一些资源匮乏的地区,这种两阶段建模方法也可用于利用 Azure Neural TTS 强大的数据生成功能提供支持。

结合这些创新,模型在 SpeechOcean 数据集上的 PCC 从 0.0 提高到 0.0。

图1:语音错误检测系统架构构建 Hierarchical Transformer:兼顾全文和词级语音评估 微软使用Azure STT系统声学模型中的Senone、音素和词特征作为Hierarchical Transformer模型的输入特征。

Senone信息用于检测细粒度的发音模式,自注意力机制侧重于Senone和音素,单词级特征为当前单词分数提供全局视角(鸟瞰图)。

对齐块用于显式连接 Senone 和 Phoneme 信息,让 Transformer 能够理解它们之间的隐式关系。

对于词级特征,模型使用词后验得分、句子级信噪比(SNR)、时长、辅音和元音属性以及统计信息等指标进行评估。

音素特征比单词特征简单得多,仅包括音素分数和持续时间。

而对于 Senone 特征,仅使用 Senone 分数和状态。

通过这种精心设计的特征和模型架构,粗粒度和细粒度的特征都将有助于 Transformer 对发音分数进行建模。

图2:用于发音错误检测的Hierarchical Transformer整体框架 (a) Hierarchical Transformer模型的结构 (b) Transformer块的详细信息 (c) 连接senone和音素信息的对齐块引入有序回归,进一步提高句子级别的流畅性和准确性 Microsoft在语音评估的准确性评估中引入序数回归(OR),并在SpeechOcean数据集上验证了结果。

OR 已在之前的研究工作中用于句子级别流畅性和准确性的语音评估。

与传统的机器学习任务相比,OR 表现更好,因为它没有将语音评估任务视为分类或回归任务。

OR 旨在预测比较样本之间的排名信息 - 也就是说,它比较两个样本并决定哪一个更好。

这种二元偏好测试比传统方法更容易、更快、更准确。

另外,评分本身就是分数的自然排名,这种二元偏好测试理论上更符合人类的行为习惯。

为了与其他系统进行公平的比较,微软在SpeechOcean公共数据集上训练了一些模型,其中分别包含注释良好的训练样本和评估样本。

评估指标 PCC 被分配一个介于 -1 和 1 之间的值,其中 0 表示没有相关性。

负值表示预测与目标相反,正值表示预测与目标一致。

用于衡量机器生成的评价分数与真人专家评分分数之间的相关性。

值接近1表示相关性很强。

在 SpeechOcean 数据集中,每个样本都由 5 个 LE 单独标记。

之后,对于所有评估样本,对每两个LE之间的PCC进行平均,作为真人分数的检查。

实验结果如图3所示。

通过使用OR,微软语音评测模型在与领先厂商的商用语音评测服务的横向比较中取得了最好的成绩,并在PCC指标上进一步缩小了与真人评测的差距。

图 3:SpeechOcean 数据集的实验结果。

语音评价功能辅助教与学,满足多样化教学场景。

目前,微软语音评估支持十七种语言和口音,包括英语(美国)、英语(英国)、英语(澳大利亚)、法语(法国)、西班牙语(西班牙)、西班牙语(墨西哥)、德语(德国)、中文(普通话)和日语(日本),以及多种其他语言口音的预览版本。

同时,语音评估已融入微软Immersive Reader的阅读教练中,可以充当教师的助手,提高教学效率;在Microsoft Teams的Speaker Progress功能中,语音评估可以成为学生的训练伙伴,帮助学生提高外语阅读流畅度; PowerPoint 教练可以在练习过程中向演讲者提供有关口语单词正确发音的建议。

全球领先的语言培训公司贝立兹提供了利用Azure语音识别和语音评估功能的平台产品,用户可以实时收到有关发音准确性和流利度的详细反馈,并可以随时随地灵活练习和提高发音。

HelloTalk 是一个全球语言学习社区,将学习者与来自世界各地的母语人士联系起来。

通过语音评估功能,学习者可以提高发音准确性,在此过程中结交新朋友,并更加沉浸在目标语言的文化中。

此外,培生朗文英语插件通过语音评估为不同水平的学生提供个性化的水平测试功能和学习材料建议;印度教育技术公司 BYJU 使用语音评估开发英语语言应用程序 (ELA),帮助学生以个性化方式学习。

以标准化的方式学习英语。

随着以ChatGPT为代表的大语言模型等前沿技术的逐渐成熟,将为外语教学场景带来更多可能。

未来,在保证隐私安全、合法合规和道德的前提下,学生将有机会获得更加个性化、沉浸式的陪练体验,教育机构将可以为教师配备助教,按照规定对学生进行教学。

他们的才能。

图4:ChatGPT与多种应用程序集成,这将为教学方式带来更多可能性。

测试你的发音水平。

您可以尝试使用Microsoft Azure云账号和语音服务账号登录Microsoft Speech Studio,无需编写程序即可体验口语。

评估功能采用更直观的交互界面来评估语音流畅度和发音准确性。

如果您没有帐户,可以免费注册 Microsoft 语音服务。