当前位置: 首页 > 科技观察

无需发出声音即可命令Siri!清华校友研发“无声语音识别”项链

时间:2023-03-19 16:51:30 科技观察

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。这也许是目前与Siri交流的最流行方式——你只需动动嘴唇,让它在你的控制之下。没错,就是不需要出声的那种。这是SpeeChin,康奈尔中国团队的最新研究成果,无声语音识别。像这样:你能猜出他在没有声音的情况下说的是什么(答案在文末揭晓)吗?不过有了SpeeChin的加持,现在可以识别Siri、Alexa等,而且还支持国语和英语!有一种“此时无声胜有声”的感觉。不说话怎么控制语音助手?康奈尔团队开发的SpeeChin其实是一条神奇的项链。佩戴这条项链打开了无声语音控制的大门。比如对着电脑默念“下一首”,音乐会自动切换到下一首:可能你说的词太简单了,别着急,我们现在加大难度:“切换到泰勒·斯威夫特。”可见,即使是一个完整的句子,SpeeChin也能准确识别。这条“无声识别”项链的关键在于安装在项链下方的红外摄像头。它可以捕捉到人的颈部和面部皮肤的变形图像,从而对其进行分析和识别,确定从“口”中传达出什么指令。而且,这条项链不仅可以无声认英文,还可以装中文(普通话)。在最初的实验中,有20人参加了测试,其中10人说英语,10人说普通话。研究人员要求测试人员发出数十条中英文指令,包括数字、交互指令、语音助手指令、标点符号指令和导航指令。最终实验结果,“无声识别”的准确率分别达到了90.5%和91.6%。康奈尔大学中国团队本研究来自康奈尔大学,第一作者为张瑞东。其中,张成为本研究的通讯作者。他是康奈尔大学信息科学系的助理教授,他的研究重点是如何获取有关人体及其周围环境的信息,以应对交互、健康感知和活动等各个应用领域的现实世界挑战。认出。第一个研究的是张瑞东,他是张成教授的博士生,毕业于清华大学。他的研究兴趣在于人机交互和普适计算,尤其是构建新颖的可穿戴设备以促进交互体验并加深我们对人类行为的理解。至于为什么做SpeeChin的工作,据张瑞东解释:主要是因为人在某些特定场合可能不适合发声;一些不会说话的人也被考虑在内。最后揭晓开场动图的答案:你猜对了吗?