当前位置: 首页 > 科技观察

本文揭示了智能标注的原理,了解人工智能如何解决标注问题

时间:2023-03-21 17:50:44 科技观察

无论是在传统的机器学习领域,还是当下炙手可热的深度学习领域,基于具有明确标签或结果的训练样本的监督学习,仍然是一种主要的模型训练方式。特别是在深度学习领域,需要更多的数据来提升模型的效果。目前已经有一些大规模的公共数据集,如ImageNet、COCO等,对于深度学习的初学者来说,这些公共数据集可以提供很大的帮助;但对于大多数企业开发者来说,尤其是医学影像、自动驾驶、工业质检等领域,需要利用专业领域的实际业务数据定制AI模型的应用,以确保其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是实际AI模型开发过程中必不可少的重要环节。数据标注的质量和规模通常是提升AI模型应用效果的重要因素。然而,通过人工标注数据建立高质量、大规模的专业领域数据集并非易事:标注人员的培训和人工标注成本高、耗时长。为解决这一问题,我们可以采用主动学习的方法,利用“Human-in-the-loop”交互框架(图1)进行数据标注,有效减少人工数据标注量。图1基于主动学习的“Human-in-the-loop”交互式数据标注框架主动学习(ActiveLearning,AL)是一种选择高信息量数据的有效方法,它将数据标注过程表现为一种学习算法交互用户。其中,算法负责选择价值较高的样本用于训练AI模型,用户对选择的样本进行标记。比如“Human-in-the-loop”交互式数据标注框架,通过用户已经标注的一部分数据,训练AI模型,用这个模型标注剩余的数据,然后选择需要标注的数据AI模型很难进行人工标注,然后利用这些数据来优化模型。几轮下来,用于数据标注的AI模型,准确率会更高,数据标注也会更好。以图像分类问题为例,首先人工选择并标记一部分图像数据,训练初始模型,然后用训练好的模型预测剩余未标记的数据,再通过“查询法”选择模型在“主动学习”中,难以区分的类别数据,然后人为修正这些“困难”数据的标签,并将其添加到训练集中,再次对训练模型进行微调。“查询法”是主动学习的核心之一。最常见的“查询方法”包括基于不确定性的样本查询策略和基于多样性的样本查询策略。基于不确定性的样本查询策略可以查询深度学习模型预测时距离决策边界较近的样本。以二分类问题为例,当未标记样本被预测为任意标记的概率为50%时,该样本对于预测模型来说是“不确定”的,极有可能被误分类。需要注意的是,主动学习是一个迭代的过程。在每次迭代中,模型将接收经过校正的标记数据以微调模型。通过这个过程,可以直接改变模型决策的边界,提高分类的准确率。基于多样性查询策略,可以实现当前深度学习模型下状态未知样本的查询。将通过多样性查询选择的数据加入到训练集中,可以丰富训练集的特征组合,提高模型的泛化能力。模型学习到的数据特征越丰富,泛化能力越强,预测模型的应用场景越广。为了解决海量数据标注的痛点,基于主动学习,融合多种查询策略的智能标注AI解决方案应运而生。通过EasyDL平台使用智能标注后,开发者只需要对数据集中30%左右的数据进行标注,然后启动智能标注,在EasyDL后台自动标注剩余数据,然后返回少量数据后台难以确定的数据再次进行人工标注,同时提高自动标注的准确性,经过几轮,在实际项目测试中,智能标注功能可以帮助用户节省70%的数据标注体积,大大降低了数据标注的人工成本和时间成本。EasyDL零门槛AI开发平台为企业开发者提供智能标注、模型训练、服务部署等全流程功能,为AI模型开发过程中的复杂任务提供便捷高效的平台化解决方案。EasyDL针对不同人群提供经典版、专业版、行业版三种产品形态。其中,EasyDL专业版支持高精度业务模型的深度开发,内置丰富的大规模预训练模型,仅需少量数据即可取得优异的效果。模型效应。目前EasyDL的智能标注功能已经支持两个方向的数据标注:计算机视觉CV方向的物体检测模型和自然语言处理NLP方向的文本分类模型。选择EasyDL专业版模型定制,点击“智能标注”进入。使用方法也很简单,一共三步:Step1开始智能标注在“数据管理/标注”中上传训练数据集后,即可激活“创建智能标注任务”按钮(图2)。单击此按钮后,进入数据集选择。需要注意的是,系统会自动验证选择的数据集。验证规则如下:图像数据集:确保每个标签的标注框数超过10个。文本数据集:数据集中标注数据量超过600个;每个标签的数据量超过50;未标注数据量超过600。以上图像和文本数据集之所以采用不同的验证规则,是因为在实际场景中,文本和图像数据集的获取方式和数据规模有较大差异,智能化的启动样本数量标注后端AI模型训练则不同。一。点击“开始智能标注”,进入数据校验阶段。如果验证失败,会提示“智能标签启动失败”;如果验证通过,则进入数据筛选阶段,用户需要等待一段时间。图2创建智能标注任务Step2标注部分数据系统会自动从未标注的数据集中筛选出最具代表性的需要先标注的样本数据。用户需要手动标注推荐的样本数据。为提高标注效率,系统还将提供预标注,供用户修改确认。在图像智能标注中,用户勾选右上角的“显示预标注”开启辅助功能(图3),点击“对预标注结果满意”确认预标注结果;在文本智能标注中,系统会自动显示预标注标签,点击每段文本右侧的“确认”或右上角的“确认本页全部”即可确认预标注(图4).在确认所有推荐数据的预标注后,用户可以选择是否进行下一轮数据筛选。在图片智能标注中,如果用户没有停止智能标注,系统会自动进行下一轮;在文本智能标注中,由于文本数据集规模庞大,确认数据预标注的人力成本较高。为了提升用户体验,系统默认不进入下一轮迭代,用户可以点击右上角“优化智能标注结果”进入下一轮筛选(图5)。通过多轮筛选,数据预标注的准确率将不断提升。为了保证智能数据标注,建议用户至少进行一轮数据筛选或“优化智能标注”。图3图像智能标注图4文本智能标注图5文本智能标注进入数据筛选优化迭代Step3结束智能标注当自动判断当前标注数据充足时,进入结束智能标注阶段标签。在图片智能标注时,系统会弹出提示(图6)。选择“一键标注”,系统会自动标注剩余未标注的数据。选择“Trainnow”停止智能标注,即可使用确认好的标注??数据进行训练。模型;在文本智能标注中,如果不勾选“优化标注结果”,则视为停止智能标注,系统会自动标注所有未标注的数据,归类到“已标注·智能”数据集中,不同于“labeled·manual”数据集。”可用于模型训练。图6结束图像智能标注图7EasyDL智能标注使用流程图在智能标注功能的支持下,将重复枯燥的标注功能全部交给AI模型,大大减少在数据方面,EasyDL中的EasyData智能数据服务平台提供采集、清洗、标注、处理一站式数据处理功能,与模型训练环节无缝对接,支持模型高效迭代通过数据闭环功能,百度搜索“EasyDL”或直接访问:https://ai.baidu.com/easydl/体验智能标签,打造您的高精度商业模式!