当前位置: 首页 > 科技观察

AI进入无障碍时代:手语识别与翻译的应用意味着什么?

时间:2023-03-18 13:08:56 科技观察

相信在人们的心目中,AI是属于“多数”的技术范畴。所谓多数,是指相关数据量大,容易积累,适合AI对海量数据的极度依赖;二是应用场景广泛,变现和回收成本容易,适合人工智能研发的高门槛投资。目前,经常出现在我们身边的人脸识别、语音交互等其实都符合上述特点。然而,这并不意味着属于“少数派”的AI一片空白。昨天是“全球无障碍意识日”,我们把注意力集中在那些可以消除“少数与多数”区别的技术发展上。例如,针对听障人士的手语识别就是一个典型的例子。为什么AI很难理解你我不懂的手语?手语是用手势来比喻动作,根据手势的变化模拟图像或音节,形成一定的意思或文字。它是一种独特的听障人士交流方式。.然而,这种交流方式虽然可以让听障人士相互交流,或让懂手语的普通人与他们交流,但仍不能满足听障人士与公众之间的交流需求。这意味着在一些社会公共场所,比如政务场景或者服务行业场景,听障人士可能会遇到一些不便。而人工智能恰好是一种解决方案。在一些软件中,我们已经开始应用AI的手势识别能力,比如拍照时“心连心”触发一些AR特效。将手势的捕捉与手势的语义对应起来,能否实现手语的翻译和生成?这个逻辑是对的,但是逻辑正确和应用可行性距离还有很长一段时间。首先,手语的表达方式具有一定的特殊性,不易捕捉。我们知道,“手势”的行为没有绝对的精确性。另外,一些手语词汇的表达非常接近,而且手语的表达通常以句子为单位,词与词之间没有明显的空隙。以往在手势识别中使用前置摄像头捕捉手势的方式基本行不通。因此很多技术和团队给出的解决方案是增加外设,比如中科大和微软推出的基于Kinect的手语翻译系统,加州大学推出的手语识别手套.但是,这些外设要么便携性差,要么成本高,推广难度很大。同时,手语表达也具有民族性和地域性,模式的普适性存在困难。手语中有“语法手语”和“自然手语”两个概念。语法手语不仅是普通话,自然手语就像方言一样,在国家、地区乃至城市之间存在着相当大的差异。这也使得手语数据收集和标记成为一项成本高昂且劳动密集型的任务。例如,亚马逊曾经提出改造智能音箱Alex,可以让它翻译一些简单的信号。但由于缺乏大规模的训练数据集,该功能目前只能识别一些简单的美国手语,还停留在实验室阶段。解决手语问题没有秘诀。AI行业应该有平等的权利。尽管探索困难重重,但科技公司和学术界在手语AI方面不断取得成果。比如腾讯优图实验室推出的“优图AI手语翻译器”、爱奇艺推出的AI手语主播等,都在手语AI的应用上取得了长足的进步。手语AI的突破可以分为两条路线。一方面是手语AI技术本身的进步,另一方面是应用场景的突破。就手语AI技术本身而言,可以分为两种解决方案:识别模型和数据集。在数据集方面,可以像优图一样,通过与相关社会组织和听障人士的接触,建立自己的手语识别数据集,针对各地手语差异,在表达习惯、速度多样性等方面进行扩展表达。在识别模型上,业界也出现了新的算法构建概念,比如通过2D卷积神经网络和3D卷积神经网络提取手势中的静态和动态信息,通过综合处理提升视频识别效果,完全摆脱其他传感器。镣铐。同时,针对手语表达完整句子的现象,在视频帧底部加入词级信息挖掘,对特征提取器提出的信息进行验证,进一步确定手势与手势之间的边界。词,除了提高识别准确率,还可以提高用自然手语概括地域表达的能力。在此基础上,还可以在算法模型中引入上下文理解能力,以应对更复杂的手语识别和翻译需求。不过,虽然技术有所提升,但应用场景还是会受到一些限制。比如手语识别可能依赖比较强大的计算能力,短时间内难以便携化和消费化。但通过与政府的合作,手语识别可以应用于一些公共服务场景。或者像爱奇艺一样,从手语生成入手,也可以帮助听障人士。其实我们不难发现,但是如果我们分开看技术,我们可以发现,手语AI的进步并不是因为某个基础科学有了一些惊人的突破,而是因为越来越多的企业只有通过学者学者的长期研发投入和数据积累,才能摆脱过去手语语料库的匮乏,不断迭代算法。换句话说,企业和学术界在几乎与“多数”人工智能技术相匹配的“少数”人工智能技术上投入了精力和财力。对于AI行业来说,这无疑是一种平等的精神。从以人为本到科技向善:我们为何要更积极地引领科技海洋?腾讯优图投资手语AI,其实是AI行业逐渐兴起的趋势。日前,在福州数字中国峰会上,马化腾董事长提到“科技向善”的理念,提出“我们相信科技可以造福人类;人类应该善用科技,避免滥用,杜绝恶用;技术应努力解决自身发展带来的社会问题。”无独有偶,回到斯坦福后,李飞飞开始筹建HAI研究所(Human-OrientedStanfordInstituteforArtificialIntelligence),并于今年开始担任所长。HAI的研究目标是推动AI技术在中国的发展造福人类的方向,预测人工智能对人类生活的真正影响,科技巨头和学术界都把目光投向了同一个方向,因为人们逐渐发现,人工智能、5G、工业数字化等科技力量如此强大,以至于他们不得不被引导,甚至被约束。正如上文所说,科技公司对这波技术发展的推动作用很大,而逐利自然是企业的本能和本性,所以企业会带头投入。那些满足大多数人,应用场景广泛,研发成本相对较低的技术。行为本身无可厚非,但AI等新技术带来的效率提升实在是太显着了。是否会挤压甚至边缘化那些暂时无法接触到新技术的领域和群体,是很多人都在思考的问题。一个问题。比如,随着英、中、日、法、俄等主流语言的机器翻译能力不断提升,那些语料库不足、用户较少的小语种,是否会因为无法被赋能而进一步边缘化?技术?同样,当公共事务越来越多地被语音交互、图像识别等人工智能技术所取代,听障人士和视障人士在获取服务时是否会遇到更多的麻烦?类似的情况其实已经发生过:2018年底,联合国发布了英国政府数字化成果报告。结果显示,在英格兰,自2010年以来,无家可归者的人数增加了60%,有120万人在等待用于救济穷人的经济适用房。对银行的需求翻了近四倍——因为很多贫困人口不知道如何在网上申请扶贫补贴,甚至在家里也无法上网,只能越陷越深.很多时候,即使是良性技术也会发生不可预知的转变。或许我们应该更积极主动地引导技术向善。结语***,让我们来看看这样一组数字:根据北京市听力协会2017年的估算数据,我国听力障碍人口达到7200万左右。在全球范围内,根据世界卫生组织公布的最新数据,全球共有约4.66亿人患有残疾性听力损失。——你看,这个世界上所谓的“多数”和“少数”本来就是相对的概念,并没有什么黑白分明之分。尤其是人工智能这种擅长模仿人类能力的技术,它的存在本可以打破阻碍不同群体交流的空气屏障,而不是让这种趋势愈演愈烈。我们的目标是利用技术建设一个更美好的世界,既然我们不能让任何人掉队,我们就不应该让任何人掉队。幸运的是,我们已经从服务于听障人群的手语识别和翻译中看到了这一趋势——计算大脑并不是AI唯一的模拟对象,也是人类火热的心脏。我们相信,在学术界和巨头的引领下,未来会有越来越多的企业关注无障碍AI技术的发展,不断打破各种壁垒。爱是无声的,却有回声。AI虽然无声,但也有回声。