当前位置：首页 > 科技赋能

深度！语音技术革命正在改变人类沟通的方式

时间：2024-05-22 17:10:06 科技赋能

语言是我们日常沟通的主要方式，让我们能够快速了解??对方的意图并做出适当的回应。

但对于很多语言障碍者来说，说话这个看似简单的动作却是难以想象的困难。

语言是一件极其复杂的事情。

它不仅仅是表面上单词的发音，还与音量、音调、语速、说话环境等诸多因素密切相关。

同一个单词或句子在不同的场合、不同的音量和语速表达不同的意思。

比如“吃饭了吗？”，可以是两个人见面时的问候语；也可以是我准备吃饭了，你还没吃饭，我们可以一起去吃；也可以是恋人之间关心的表现；它甚至可以是来自孩子的消息，孩子和洋娃娃在玩游戏时的对话。

语言环境如此复杂，我们如何才能更好地理解那些因伤或病而无法说话的人的想法呢？他们如何才能更快、更有效地表达自己的意图？新技术正在迅速推动语音生成设备的进步。

自 20 世纪 60 年代以来，语音技术的一些先驱一直在开发语音生成设备 (SGD) 来帮助有语言障碍的人。

2000年，英国人马林和克拉克森开发了POSSUM，这是一种专为身体严重残疾者设计的个人通讯工具，它是一台带有开关控制扫描装置的打字机。

此后，随着语音合成算法的进步和微处理器技术的发展，电子辅助和替代通信系统（AAC）迅速普及。

通讯辅助工具也变得越来越小，功能却越来越强大。

目前，电子辅助和替代通信系统（AAC）、语音生成设备（SGD）和语音输出通信辅助设备（VOCA）已经帮助了美国数万人。

患有肌萎缩侧索硬化症（ALS）、脑瘫、闭锁综合症、多发性硬化症、帕金森病、中风、脑外伤等沟通障碍或残疾的人都可以使用此类语音生成设备。

著名物理学家史蒂芬·霍金使用语音生成设备与他人交流。

过去几年，随着人工智能和语音技术的突破，以及数字设备能力的指数级增长，数字语音正在改变人们的沟通方式，特别是在翻译和医疗等领域。

相关数据显示，2018年语音生成设备市场规模为1.9亿美元，预计今年将达到3.3亿美元。

谷歌、微软等各类科技创新公司和科技巨头正在努力通过辅助应用程序、语音生成设备和脑机接口技术帮助有语言障碍的人更有效地与他人沟通。

1）辅助应用APP智能手机、平板电脑和数字触摸屏为患者提供了更直接的沟通方式。

例如，自闭症患者可以通过触摸屏上的物体图像、活动图片或符号来表达自己的需求。

Proloquo2Go就是这样一款针对语言障碍患者的辅助沟通工具。

适用于自闭症、唐氏综合症、脑瘫等诊断患者。

目前拥有超过20万用户。

此外，还有很多可以帮助用户“说话”的应用程序，比如SayIt！和Predictable是两款文字处理应用程序，可以将用户输入的文本转换为语音，并具有智能联想和自动纠错功能。

MyTalkTools Mobile 是由一位父亲开发的，旨在帮助他的儿子克服沟通困难，他的儿子出生时患有纳格综合症，这是一种影响听力、言语和其他能力的罕见疾病。

该软件目前拥有超过10万用户。

今年年初，微软推出了 GazeSpeak 应用程序，帮助肌萎缩侧索硬化症 (ALS) 患者利用眼球运动进行交流。

该应用程序通过手机摄像头跟踪患者的眼球运动，并使用人工智能进行单词预测。

2）语音生成设备机器学习、自然语言处理和文本预测技术极大地推动了辅助通信技术的发展，语音合成应用可以为用户提供定制化、个性化的服务。

语音生成设备可以将文字或图片转换为语音，这比辅助应用程序更先进。

有些产品允许用户从几种不同的声音中进行选择，例如男性或女性、儿童或成人，甚至一些地区口音。

某些算法模型可以跟踪患者的眼球运动或头部运动，以进行单词选择和合成语音。

Pocket Go Talk 是一款小型便携式 AAC 设备，可穿戴，也可在桌面上使用，具有五种可调扫描速度。

通过 5 个易于操作的按钮生成 25 条语音消息，每条语音消息最长可达 12 秒。

便携式辅助书写平板电脑 MegaBee 是在英国斯托克曼德维尔医院闭锁综合症患者的帮助下开发的。

它使用眼球运动和闪光作为选择字母或短语的方法，然后将其显示在屏幕上，帮助患有中风、多发性硬化症、运动神经元疾病和其他语言障碍的人进行交流。

还有许多新兴科技公司正在利用机器人技术来提高患者的社交技能。

卢森堡机器人公司LuxAI推出了QTrobot，一款适合自闭症儿童的社交机器人。

实验证明，机器人可以显着提高自闭症儿童的注意力和参与度，同时减少他们的焦虑和破坏性行为。

VocalID 是一家总部位于波士顿的公司，利用众包和语音混合技术为言语障碍患者提供个性化的合成声音。

目前已有多个国家的0多人为公司语音库The Human Voicebank提供了10000多个句子。

2019年，谷歌宣布神经网络模型WaveNet在Google Assistant中正式商业化，其效率是初始模型的两倍，可以更好地模拟自然语音。

该模型可以根据真实的人类语音对音频波形进行建模和分析，从中学习并创建您自己的声音。

3）脑机接口，代表着心灵交流的未来，是很多科幻小说和电影中的场景，但现在研究人员正在通过脑机接口技术将其变为现实。

早在2007年，英国雷丁大学研究员凯文·沃里克博士就在手臂上植入了发射器，用于控制门和其他设备。

2006年，他将电极插入自己的神经系统，用意念控制轮椅，并让远程机械臂模仿他的手臂动作。

沃里克博士的目标是帮助患有言语障碍的人进行交流。

他将芯片植入妻子的手臂，通过互联网连接他们的大脑，创造了世界上第一个脑对脑的电子通讯。

2017年，美国中风瘫痪患者Cathy Hutchinson利用脑部植入芯片，成功用意念控制机械臂拿起一杯咖啡，用吸管喝了一口。

今年年初，法国公司Axilum Robotics联合西班牙巴塞罗那大学、Starlab和哈佛医学院进行了首次脑对脑通讯，实现了相隔数公里的两个人的大脑直接通讯。

埃隆·马斯克 (Elon Musk) 于 2011 年创立了 Neuralink，致力于脑机接口研究，以帮助治疗人类大脑疾病。

2020年5月，俄罗斯新西伯利亚国立技术大学声称研发出一种由意念控制的越野轮椅。

颈部以下瘫痪的人可以使用这款轮椅在室内甚至城市街道上独立移动。

今年6月，美国麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员开发出一种新型接口系统，可以读取人类操作员的脑电波，通过思想指挥机器执行任务。

目前，脑控技术已成为各国研究人员竞相研究的前沿课题。

虽然大部分研究还处于实验室阶段，但一旦技术成功商业化，瘫痪、言语障碍、盲人等群体将迎来人生的第二春。

语音2.0：语音接口技术和实时翻译未来，技术创新将把人类的沟通提升到另一个层次。

它不仅可以帮助语言障碍患者无障碍沟通；机器之间的信息交换。

由于人类语言的多样性，人与人之间的交流是有限的，尤其是跨国、跨语言的交流。

近年来，随着实时翻译技术的成熟，语言鸿沟正在慢慢被消除。

2020 年 10 月，谷歌推出 Pixel Buds 蓝牙耳机，可以使用 Pixel 智能手机在 40 种不同语言之间即时翻译。

微软的Skype翻译器可以实现8种语言之间50种语言的语音、视频和文本内容的实时翻译。

各种便携式翻译设备可以帮助游客在几秒内完成语言翻译。

未来，小型耳机设备将打破旅行的语言限制，传统翻译职业也将被新技术取代。

在新的语言技术革命中，手语也正在被技术所取代。

2016年，美国德州农工大学开发出一款可穿戴设备，可以通过感知用户手臂动作将手语翻译成英语。

该设备可以识别大约 40 个美国标准手语动作，准确率为 96%。

得益于人工智能技术的快速发展，机器不仅可以充当翻译者，还可以成为沟通伙伴。

Gartner 预测，到今年年底，我们与新技术的交互中有 30% 将通过智能机器进行。

目前，六分之一的美国成年人拥有智能扬声器或相关设备。

除了控制智能家居之外，亚马逊的AI助手Alexa已经可以帮助用户在线购物。

未来，AI助手将能够实现更多功能。

无论是在医疗、旅游还是商业活动中，以人工智能为代表的新技术正在彻底改变人们的沟通方式，将打破身体、地域、国家、语言的各种限制。

未来，我们的通讯伙伴将不再局限于人类，可以是机器，也可以是动物。

这些都是科技带来的好处。

技术本应如此。

上一篇：智能手环的乌云即将来临，行业巨头将退居二线？

下一篇：想法和策略！微软为何要干掉诺基亚智能手表？

深度！语音技术革命正在改变人类沟通的方式相关文章