在开发AI模型时,数据的数量和质量直接影响模型的效果。实地数据采集后,企业往往需要从大量数据中筛选出符合训练要求的相关数据,剔除质量较差或不相关的数据。此步骤称为数据清理。一般来说,在清洗数据的时候,主要是清洗那些对训练任务没有用的数据。比如在训练工厂工人佩戴头盔识别模型时,希望只提取视频帧后大量图片中出现的工人的照片做进一步处理。标签训练。在这一步,传统的方法是人工筛选,需要大量的人力,容易出现遗漏;随着人工智能的发展,很多平台,比如百度大脑AI开放平台,都提供了人脸检测和人体检测的通用接口,用户可以先调用接口对数据进行处理,筛选出采集到的人像数据,然后进入具体的检测识别步骤。那么,有没有一种解决方案,可以集成各种数据处理能力,最大限度减少人工干预,自动完成视频数据采集、帧提取、数据清洗、智能标注,从而高效提取高质量的训练数据呢?关注到越来越多的用户对数据处理的强烈需求,今年4月,百度推出了全新的智能数据服务平台EasyData,集数据采集、数据清洗、数据标签等功能于一体。完成以上数据处理工作后,即可在EasyDL平台上进行模型训练和模型部署。针对数据清洗的具体功能,EasyData目前有五个基本的数据清洗功能:去相似、去模糊、旋转、裁剪和镜像。那么除了常规能力,易数达还有哪些业内独有的终极秘技呢?从应用出发,先进的清洗功能让数据处理更高效。在园区智能化管理等场景中,需要监控工厂园区或林区是否有人闯入,或检查作业人员是否佩戴安全头盔。为了满足此类场景下的图片清洗需求,EasyData推出了高级清洗功能,过滤掉人脸和人体的数据。EasyData配合百度大脑AI开放平台提供的前沿技术能力。用户只需要在百度智能云上开通相应的服务(人脸检测和人体检测可以免费试用),然后通过简单的配置,就可以直接使用这些功能进行数据自动化清洗。1.过滤没有人脸的图像。如果您之前没有使用过百度智能云的人脸检测服务,首次使用高级清扫功能时会提示“申请免费试用”。点击链接进入百度智能云人脸检测页面。根据提示,开通服务后,即可返回EasyData页面正常使用。和基础的数据清洗服务一样,过滤没有人脸的图片也是基于数据集。在数据清洗页面,选择过滤没有人脸的图片,点击保存,提交清洗任务。如果勾选“KeepLabels”,不仅没有人脸的图片会被过滤掉,人脸框也会同步到清理后的数据集中。提交任务时勾选保留人脸图片框,如下图。除了人脸图片,清洗前的数据集还有一些风景、车辆等物体的图片。人脸过滤将过滤掉这些没有人脸的图片。保留的包含人脸的图片,包括戴口罩的人脸和被遮挡的人脸,也可以识别出来。清洗前的数据集中,有人脸照片、风景照片、静物照片。在清理后的数据集中,只保存人脸照片。戴口罩的人脸图片2.过滤无人体图像过滤无人体图像也将使用百度智能云人体检测功能需要在百度智能云上激活相应的服务才能使用。两个接口用于过滤无人体图像,人体检测及属性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/体/段)。模板为图像分类和目标检测的数据集将调用人体检测和属性分析接口,模板为图像分割的数据集将调用人像分割接口。百度智能云上的人像分割接口返回人像图片对应的二值图(人像为1,背景为0),后端会进行相应的标签转换,将返回的二值图进行转换到相应的标签中。在清洗前的数据集中,有风景图片、静物图片和人体图片。数据清洗过滤后保留的5个人体图像模板为图像检测数据集。清理后的标签模板是图像分割数据集。清洗标签关注广泛需求,提供各种基础数据清洗功能1.去除相似图片使用相机自动抓拍图片时,由于长时间处于同一场景,仍然会有大量即使在帧提取处理后,也有相似的图片。大量相似图片数据价值低,占用存储空间大,人工筛选费时费力,容易出错。EasyData平台推出的图片去相似度,利用图片的相似度检索特征,计算图片的两两相关性,可以自动判断相似图片,保留不相似图片,具体操作也非常简单。如下图,去相似前数据集中有8张图片。根据图片的相似度,图片可以分为3类。清洗后的数据集中有3张图片,是清洗前的3种图片之一。去相似前的8张图片去相似,去相似后保留3张图片。拖放点以修改相似度分数。2.去模糊的图片。相机抖动和快速移动的物体会导致拍摄的画面不清晰,产生低质量的画面。人工选择去除模糊图片没有统一标准,容易遗漏或删多。使用EasyData的去模糊图像,您可以轻松去除模糊图像。以示例图片为例。清理前,有5张不同画质的图片。清理后,留下了两张高质量的图片。另外,如果用户认为有些模糊的图片没有去除,或者没有保留高质量的图片,可以考虑调整清晰度得分,重新清洗。去模糊前,5张不同质量的图片去模糊后保持清晰。拖放点以修改清晰度分数。相似度和去模糊功能可以同时去除相似和模糊的图片。当前的数据清洗服务可以支持最大50,000张图像的数据集大小。基于EasyData平台大数据处理平台,针对基础清洗服务,仅需1小时清洗2万张图片数据集;50,000张图片的数据集可以在2小时内清洗。对于高级清洁服务,还可以通过配置QPS灵活调整清洁效率,更加方便快捷。考虑到在智慧园区管理等场景中,有视频帧抓取和自动上传的需求,EasyData平台还提供了SDK免费供用户下载,SDK可以连接到业务现场的数据采集端,并可在平台设置抓帧时间和间隔,将原始视频数据自动裁剪成图像数据上传至EasyData平台进行后续处理。EasyData是百度大脑推出的业界首款软硬件一体化、端云协同的智能数据采集处理平台。一站式处理,涵盖模型开发中的各种数据管理需求。EasyData处理后的数据可以直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制,可以高效开发AI模型。立即体验EasyData:https://ai.baidu.com/easydata/
