1882年,一场突如其来的疾病带走了年仅19个月大的海伦凯勒生活中的所有色彩、声音和动作。就像她的生活一样,这个塔斯坎比亚小镇的家庭从此进入了一个黑暗和寂静的世界。直到6年后,沙利文先生出现在海伦的生活中,事情才出现了转机。在沙利文的帮助下,海伦凯勒不仅学会了阅读盲文,而且成年后还写下了“只有聋子才会重视听力”这句话。这个故事几乎每个人在小学都耳熟能详,因为语文老师布置的作文都是《读<假如给我三天光明>有感》。但并非所有听障人士都像海伦凯勒那样幸运地得到沙利文独特的帮助。目前,全球4.66亿聋哑人中只有极少数人能够负担得起与他人即时交流所需的人工转录服务,例如美国的CART、英国的Palantypist或其他国家/地区的STTR。更多的人在默默的议论着。为改变这一现状,谷歌于2019年2月4日推出了一款基于应用程序的新测试版——LiveTranscribe,该应用程序仅使用手机的麦克风即可即时转录真实世界的语音,将其转换为实时字幕。3月,正式登陆Play商店。LiveTranscribe用户界面|设计背后的YouTube截图:使用ARS进行实时转录Dimitri是一名俄罗斯人,一岁时失聪,现在是Google的一名科学家。他说话很吃力,当他对店员说“今天过得不错”时,话语之间有明显的停顿。不过现在,他不需要任何人的帮助。手机上的LiveTranscribe正在黑色背景上实时同步店员说的每一句话:你想喝什么?右上角的小圆圈大小不断变化,表示周围环境的噪音水平。“LiveTranscribe的转录延迟小于200毫秒,接近实时。”该应用程序的产品经理SagarSalva告诉极客公园。这种延迟就像50HZ交流电方向的改变,难以察觉,保证了双方的交互。同时,据Salva介绍,它可以支持70多种语言和方言,覆盖全球80%的人口。对于双语家庭,App中还有一个按钮可以快速切换两种语言。两年前,当他带着30年的语音识别经验加入谷歌的AI研究组时,产品甚至还没有诞生。每次开会,他都需要提前预约CART服务,靠字幕员虚拟入会,敲屏幕上的语音对话进行转录。Salva和他的同事设想了他如何通过使用谷歌现有的技术来减少他的准备过程。他正在用LiveTranscribe与服务员交流|YouTubeNow,从山景城到台北,这种模式不断完善,最终演变为LiveTranscribe。一个新APP在短时间内的开发,还是得益于谷歌自身的技术积累。根据Salva的说法,LiveTranscribe背后的核心技术是Google的各种语音搜索应用一直在使用的自动语音识别(ASR)技术。ASR主要包括四个部分:特征提取、声学模型、语言模型、词典和解码。简而言之,它的任务就是将语音信号准确高效地转换为文本信息。目前,YouTube上极其准确的实时字幕转录,得益于谷歌技术的支持。现场实录:大家的Mr.Sullivan但发展过程并非一帆风顺。萨尔瓦表示,一是用户实际使用场景的选择。他们可以选择在电脑、平板、手机等硬件设备上展示转录结果,也可以有更大胆的设计。比如,他还尝试用一个小型投影设备,将转录好的字幕投射到萨尔瓦的T恤上。但对于听障人士来说,劳动回报和收入都比较低。据中国残联发布的《2018 年残疾人事业发展统计公报》,全国城乡持证残疾人948.4万人,其中灵活就业(含社区和居家就业)254.6万人,480.1万人是残疾人。从事农业养殖的,几乎占了绝大多数。最多。残疾家庭人均可支配收入与社会平均水平也存在较大差距。考虑到这些原因,在所有智能设备中,萨尔瓦和团队最终选择了智能手机:“全球已经有20亿人在使用安卓手机,这样的硬件平台选择是低成本的。”SagarSalva|采访作者提供,为了让相对低端的手机也能使用LiveTranscribe,Salva和团队选择在App背后使用两种不同的神经网络。一种是在设备上跑一个神经网络,主要完成声音分类的工作,比如婴儿的哭声、玻璃破碎的声音等等。在这些声音的实时转录中,可以快速地对它们进行分类和辨别。第二个是用于语音到文本转录的基于云的神经网络模型。“事实上,在云端,在谷歌的服务器上,使用机器学习和这些神经网络模型进行语音识别是非常重要的,这意味着这个产品也可以在一些低端手机上运行。”萨尔瓦说。“运行时只占用4M左右的内存空间,我们对耗电量进行了优化,一次充电可以使用10小时左右。”谷歌想做的是让每个听障人士都能真正负担得起这款免费应用。其实这个想法早有追溯。可追溯:20%的创新项目2016年3月,Google推出了AccessibilityScanner,这是一种评估应用程序并为视障和听障用户提供改进方法的自动化工具,例如,通过放大小触摸目标或更改对比度。2018年8月,谷歌发布了一项新的开放规范,旨在启动能够在蓝牙低功耗(LE)Android手机上运行的助听器的开发,并且具有足够低的延迟和对电池寿命的影响。最小的影响。这些进化痕迹的来源是一个意外。Salva表示,最初Livetranscript只是一个20%的创新项目。20%是Google内部著名的鼓励文化:鼓励员工将20%的时间花在创新上。例如,在5天的工作周内,员工可以利用1天的时间研究自己工作之外的其他有趣的项目。如果这些创新被进一步证明,他们将有机会推广和改进它们。比如大家熟悉的GoogleNews和Gmail就是创新诞生的产物。当LiveTranscribe诞生时,它受到了谷歌团队中其他听障同事的欢迎。因此,它逐渐走向了Play商店。Salva在介绍LiveTranscribe的诞生过程|受访者提供的是,在研发过程中,为了降低环境噪音的影响,让转录效果更好,谷歌还推出了另一款相关App:SoundAmplifier。该应用程序能够使用声音放大器使音频更清晰,更容易听到。带有线耳机的声音放大器可用于Android智能手机,以过滤、增强和放大环境中的声音。世界卫生组织估计,到2055年,全世界将有9亿人听力受损。虽然不确定当时的医疗是否已经能够让人们不再遭受听力损失,但可以肯定的是,至少在今天,正如谷歌所希望的,LiveTranscribe和SoundAmplifier正在帮助数亿聋人人们更好地沟通。更清楚。
