当前位置: 首页 > 科技赋能

百度推出AI输入法8.0,一分钟可识别426个语音字符

时间:2024-05-22 11:04:56 科技赋能

文字| CJ智东西1月17日报道,百度输入法推出8.0版本。

该版本的更新包括核心技术突破的“深峰2”模型以及“语音速记”和“AI表达”等两项新的AI功能。

发布会一开始,百度副总裁王海峰在演讲中表示,百度在做输入法的早期就使用了深度学习算法。

未来,百度还将在AI技术上取得更大突破,让AI在更多领域改善人们的生活。

计算机交互体验。

1、语音识别技术突破 据百度语音技术总监高亮介绍,新版百度输入法采用了最新技术突破的“深峰2”模型。

该技术的全称是“基于LSTM(Long Short-Term Memory,长短期记忆网络)和CTC(Connectionisttemporalclassification,连接主义时序分类器)上下文无关的音素组合建模”。

该技术与传统语音技术“上下文相关建模”的区别在于,在“上下文相关建模”中,同一音素会因左右两侧连接的音素不同而被定义为不同的建模单元。

在Deep Peak 2模型中,相同的音素,无论左右音素是否相同,都会被定义为唯一的建模单元。

得益于这一技术突破,建模单元减少了10倍,路径解码部分的消耗减少了10倍,解码速度也提高了10倍。

此外,由于这一技术突破允许将口语和正式语言结合起来进行深度学习训练,因此新的语音识别模型可以识别多种语音内容,包括中英文混合语音,以及各种口音较重的混合语音。

整个场景使用的“实时语音识别同屏技术”也应用了最新的Deep Peak 2模型。

与此同时,主持人华少在一分钟内快速播报“人物”。

百度输入法的语音识别几乎与华少同时完成,识别内容与华少现场所说的几乎相同。

2、新增两项AI功能 百度输入法负责人蔡宇廷表示,此次百度输入法8.0版本在此前已有的AI功能上,新增了“语音速记”和“AR表情”两项AI新功能。

其中,“语音速记”功能应用了“声纹识别”技术。

该技术针对2-3人的小型会议场景,可以根据声纹区分不同发言者的语音信息。

由于超过60%的百度输入法用户使用表情符号进行输入,百度输入法此次还推出了全新的“AR表情符号”功能,该功能采用了人脸识别技术和AR技术。

用户可以通过相机或相册进行输入。

人脸识别,制作表情包,用自己的表情控制虚拟人物的形象。

用户创建的AR表情可以通过输入法搜索、语音输入和键盘输入直接显示。

百度输入法工作人员还在现场演示了该功能的玩法。

百度输入法8.0的发布是对百度输入法的进一步优化。

它通过AI技术的突破,强化了语音识别功能。

AR技术的加入也呈现了输入法的不同表现形式,增加了输入内容的个性化和娱乐性。