当前位置: 首页 > 科技观察

YOLOv5的神奇之处:学手语帮助听障人

时间:2023-03-14 17:19:21 科技观察

计算机视觉能学美国手语帮助听障人吗?数据科学家DavidLee通过一个项目找到了答案。如果你听不见,你会怎么做?如果我们只能用手语交流怎么办?即使像点餐、讨论财务问题、甚至与朋友和家人交谈这样简单的事情,当对方不理解你时,也会让人望而生畏。对普通人来说容易的事情,对听障人士来说可能就很难了,甚至可能会受到歧视。在许多情况下,他们无法获得合格的翻译服务,导致失业、社会孤立和公共卫生问题。为了让听障人士更容易听到声音,数据科学家DavidLee尝试使用数据科学项目来解决以下问题:计算机视觉能否学习美国手语以帮助听障人士?如果美国手语可以通过机器学习应用程序准确翻译,即使是最基本的字母表,我们也可以更接近于为听障人士提供更易于访问和教育的资源。数据和项目介绍DavidLee出于多种原因决定创建原始图像数据集。首先,根据移动设备或相机设置所需的环境,一般要求分辨率为720p或1080p。一些现有的数据集分辨率很低,许多不包括字母“J”和“Z”,因为这两个字母需要一些动作才能完成。为此,DavidLee在社交平台上发出了手语图像数据采集请求,介绍了该项目以及如何提交手语图像的说明,希望提高认识并收集数据。项目地址:https://github.com/insigh1/GA_Data_Science_CapstoneDataWarpingandOversamplingDavidLee为这个项目收集了720张图像,其中有几张是他自己的手部图像。由于该数据集较小,David使用labelImg软件手动进行边界框标注,设置变换函数的概率以基于同一图像创建多个实例,每个实例上具有不同的边界框。下图展示了一个数据扩充示例:数据扩充后,数据集的大小从720张图像扩展到18,000张图像。建模David选择使用YOLOv5进行建模。使用数据集中90%的图像作为训练数据,10%作为验证集。使用迁移学习和YOLOv5m预训练权重训练300个时期。在验证集上成功创建了带有标签和预测置信度的新边界框。由于损失值没有增加,模型没有过拟合,所以模型可能可以训练更多的epochs。该模型最终取得了85.27%的mAP@.5:.95分数。图像推理测试David额外收集了他儿子的手部图像数据作为测试集。事实上,并没有使用儿童手的图像来训练模型。理想情况下,多几张图片将有助于展示模型的性能,但这仅仅是个开始。在26个字母中,有4个没有预测(G、H、J和Z)。四个没有准确预测:D被预测为F;E被预测为T;P被预测为Q;R被预测为U。VideoInferenceTest?即使只使用少量的手部图像进行训练,该模型在如此小的数据集上仍然可以表现出良好的性能,并且在一定速度下也能提供出色的预测结果。巨大的潜力。更多数据有助于创建可用于各种新环境的模型。如上面的视频所示,即使字母部分出框,该模型仍然可以给出良好的预测。最令人惊讶的是,字母J和Z也被准确识别。?其他测试David进行了一些其他测试,例如:左手手语测试用户进行水平翻转。?儿童手语测试?训练集中没有使用大卫儿子的手语数据,但模型仍然预测得很好。?多个实例?虽然手语的使用与视频中不同,但这个例子表明当屏幕上出现多个人时,模型可以区分多个手语实例。模型局限性David发现该模型还有一些改进空间。距离?很多原图是用手机拍的,手到相机的距离比较近,对长距离推理有一定的负面影响。新环境??本视频来自志愿者,不用于模型训练。尽管该模型已经看到很多字母,但它对它们的预测置信度较低并且存在一些错误分类。?BackgroundInference本次测试旨在验证不同背景对模型性能的影响。结论该项目表明计算机视觉可用于增加听障人士的可访问性和教育资源!该模型仅使用小数据集仍能取得不错的性能。即使对于不同环境下的不同手,该模型也能取得良好的检测效果。一些限制可以通过更多的训练数据来解决。通过调整和更大的数据集,该模型可以扩展到美国手语字母表之外。资源?Yolov5GitHub项目:https://github.com/ultralytics/yolov5