在AI加速落地的大背景下,作为人工智能产业落地的重要环节,AI数据标注越来越受到业界的关注,并正在很大的变化。不久前的服贸会上,数据标注领域龙头企业云测数据首次发布标准,其AI数据项目交付准确率最高达到99.99%,为行业新锐记录。对此,自媒体“曾环”评论称,AI数据标注已经从“劳动密集型”进入“技能密集型”时代。在AI数据行业,数据准确率=接受量/总量,也就是说极高的准确率不仅需要满足一些客观标准,还需要深度兼容AI项目方的需求,并通过基于需求的接受过程。事实上,对于AI数据标注这个在很多地方都类似于制造业的行业来说,更高精度的制造过程,就像制造业的“精益制造”一样,有着多方面契合的发展模式,但是一个提供数据服务,另一个提供物理产品。这种契合,从行业龙头企业的动作来看,包括四个方面。业务平台:针对复杂的AI数据传输和操作,在线自动化“流水线”制造精益制造首先是对“流水线”的自动化、智能化升级,引入更精密的工具或机械来提炼产品。生产环境的基础。数据标注也类似。广泛的业务平台越来越无法承担复杂的人工智能数据传输和操作。在此背景下,线上自动化“流水线”开始出现。以往,数据标注过程“离线”痕迹强烈,尤其是数据导入导出、硬盘拷贝、交接等“原始模式”时有出现。为了提高效率和安全性,在短时间内实现无缝对接,以云测数据为代表的企业探索了线上“流水线”业务平台模式。具体来说,根据AI公司自身的数据处理流程,完成标准化API接口的流程嵌入,在线接入数据,完成作业后在线输出。中间有模板化的任务创建和职责安排,支持不同的注解。类型和标记方法。这个过程,对应制造业,其实就是“输入物料,在众多生产线中寻找合适的一条,安排生产工人,产品输出”的过程。在线上,数据标注实现了数据录入、标注、云端传递的无缝对接过程。其中,“精益制造”在数据标注上最明显的价值可能就是“生产工具”的优化。工具能力的提升大大提高了数据标注的效率和准确性,就像流水线上功能丰富的自动化机械臂。可以帮助企业大大提高效率和质量。以云测数据为代表的企业开发的工具为例。目前数据标注的工具价值有三种表现:一是直接的操作辅助,比如人脸26点、54点、96点,206点人脸关键点标注,任务特定关键点跟踪等。3像素的贴合度,让贴标机的操作更加精细化,效率也不错。二是专项数据的运营助力。例如,自动驾驶中激光雷达形成的3D点云数据与摄像头形成的2D图像数据是不一样的。云数据和二维图像数据结合起来比较)价值体现出来。三是数据标注的纠错保证,类似于“精益制造”先机器自动质检再人工质检。在数据标注过程中,工具会根据AI项目要求设置错误校验规则,保证标注的准确性(比如将三米高的物体标注为人体是错误的)当然,工具质检只是辅助,人工质检(抽检)在数据标注的“精益制造”过程中也是必不可少的。云测数据不仅在标注流程上实现了标准化、科学化,还设计了从创建、分配、标注流程的任务,完善了从质检/抽检到最终验收的管理流程。数据化运营:针对AI落地的深度需求,“数据化技术”类精细化运营生产技术的出现是“精益制造”的核心之一。技术越好,产品质量越好,在市场上的话语权就越大。在“流水线”生产环境的基础上,随着人工智能落地需求的深入,人工智能数据标注开始出现类似精细化操作流程,可以称之为“数据技术”。99.99%的准确率本身就是“数据技术”的结果。.在云测数据的日常工作中,可以发现很多这样的“数据手艺”做法,比如更加丰富的数据标注类型,看似简单标注对象的“线段”也被拆分成了折线、曲线、和贝壳。塞尔曲线等此外,正如制造业不断积累工艺经验,逐步提升工艺水平,生产出更高层次的产品一样,数据标注也有一个经验积累的过程,以提升“数据工艺”水平。例如,行业内大量外观相似的产品零件的标注,需要更细致的层次来区分两个型号相似的螺丝;零售行业中大量相似的SKU需要从品牌、标签等多个角度进行标注,以帮助算法识别。总的来说,AI数据的复杂需求是数据标注向“数据技术”方向发展的直接原因。目前的人工智能数据呈现出三个特点。第一,由于AI产品落地场景复杂,数据场景需求多样化,如光照强度、拍摄角度、噪声需求、室内室外等;第二,相似的数据显示样本多样性,仅语音数据可能包括年龄、性别、口音等差异;三是同一应用对象的多维数据。例如,智能驾驶可能需要摄像头、激光雷达、超声波雷达等不同传感器同时产生的数据。显然,在此背景下,在人工智能发展初期直接申请或购买成品“数据集”的做法已经行不通了。它们可以帮助算法快速成型,但难以支撑更多样化的AI实现需求。因此,像“数据技术”这样的精细化运营对数据标注的需求,自然就超出了简单数据标注的业务范围,必须整合上游数据采集的关键环节。可以看出,以云测数据为代表的企业正在大力提升场景化数据采集能力。帮助客户还原落地场景所需的AI数据,从源头上保证AI数据质量,从而更好的应用于AI产业化的深度落地。或许正因如此,可以看出,在云测数据发布99.99%的最高项目交付准确率的同时,为了贴合实际场景,帮助更多行业实现“更快更好地落地AI产品”,云结合自身服务能力积累和行业专业性,还推出了智慧城市、智能家居、智能驾驶、智慧金融四大场景的“AI训练数据服务解决方案”。在这些集数据采集与标注为一体的场景AI数据解决方案中,更能发现“数据匠人”的痕迹。例如,在室外场景中,摄像头包含大量的行人、机动车、自行车等道路场景数据,而智慧城市中的AI应用可能需要识别人群检测、突发事件等长尾场景数据。在云测数据的智慧城市解决方案中,采用业界首创的数据场景实验室,对真实场景进行还原构建,用于采集长尾场景数据,如各种不同灯光下的人员检测、危险动作检测等.类似于智能驾驶场景。智能驾驶对外界环境的感知需要大量的真实场景数据进行算法训练。为了保障行车安全,需要覆盖大量的长尾场景数据,比如打伞的行人、突然出现的宠物等。疫情过后,戴口罩的行人也是另一种“场景AI”车外环境感知所需的数据”。详细满足更复杂、更深入的AI数据需求,提供独特且不可替代的AI数据采集能力,将助力数据标注不断获得更高的产业地位。人力建设:应对高度精细化的“数据技术”,在专业的“人工智能培训师”和“流水线”生产基地出现后加上更高的生产技术,“精益制造”考验的是产业工人能否具备实现工匠精神,在产业升级的浪潮下,产业工人的素质成为“精益制造”的关键因素之一。映射到数据标注上,为了应对高度精细化的“数据技艺”,专业的“人工智能训练师”开始出现,表现在三个方面。一是系统的人才培养,综合技能专业化、领域知识专业化、人员素质都在提升。以云测数据为例,云测数据不仅提供岗前培训,还提供员工技能培训、职能培训、行业领域知识、责任培训、标签内容培训、一对一持续沟通提高员工能力;同时,配备在线化、系统化的评分系统,对员工能力进行考核。过去那种在街上或学校里随机招募一些人,只要能认得图片,懂基本语法和拼写就开始工作的数据标注方式,已经没有任何竞争力了。二是出现匹配不同需求的“人才梯队”。这一点,就像“精益制造”中产品更复杂、技术工人更多一样,在数据标注领域,数据需求也出现了一些差异化,倒逼企业培养某种意义上的“人才梯队”。在医疗、法律、金融、家居等典型的高度专业化领域,无论是CV还是NLP,人工智能训练师都需要非常专业,才能进行正确的数据标注和解读,这甚至不是单独训练解决。的。在NLP领域,云测数据吸纳了金融、家居行业的一些专家,提升了相应领域的数据标注能力,这也意味着数据标注行业开始对人才来源有了一些要求,并且不再是广义的一群人。三是不断叠加大量操作细节和专业性。产业工人成为“老师”,一方面来自苛刻的工作要求,另一方面来自职业经验的不断积累。数据标签也是如此。粗放管理下,传统的数据标注行业有一种“乱”的气质,基层团队在茫然中完成了大量的数据标注工作。而现在,打着高精度的旗号,对数据服务团队的专业能力提出了更高的要求。在云测数据中,将智能客服单个场景的意图标注分为10-20大类和数百个子类(同一个表达一个意图,算法面对的用户可能有不同的表达,所以越多越细分越好),根据业务需要还可以进一步细分。这迫使数据注释者提高他们判断对话意图的能力。需要在不同的描述中归纳句子,重组或扩展句型和标签(例如,如果用户只是口误,或者夹杂着方言,数据需要标注)清晰,对于AI学习算法)。在综合素质不断提升的基础上,人工智能训练师呈现更加多元的梯度,更多优质标注人才将脱颖而出。需求交互:针对项目的深度需求,深度交互的专业服务模式应运而生最后,“精益制造”阶段的制造业往往伴随着订货方与生产方的深度沟通,以及需求方深度参与制造,以生产更多符合要求的产品。这其实是一种支持“精益制造”的专业服务模式,在数据标注领域也是如此。为明确AI数据标准,云测数据等追求高精度的公司??,已经要求项目经理和AI项目方在项目启动前反复沟通,并配合行业培训师进行对贴标人员进行预培训,并在贴标过程中保持实时沟通和反馈。这种反复的沟通涉及到很多细节,影响最终数据结果的准确性。比如在CV项目中,什么样的光应该标注定义为“强光”?不同需求方的理解可能不同。除了明确数据标准的沟通,数据标注在操作方式上也更加灵活。通常,在金融场景下,由于行业的特殊性,尤其是对数据安全性的极高要求,数据标签企业不仅为金融行业提供一套与企业自身业务流程深度融合的AI数据服务解决方案,但有时也必须改变部署和运营的物理方式,例如云测数据提供的私有化部署和现场运营服务。在这种服务方式中,数据标注“企业服务”的本质也更加明显。值得强调的是,在数据隐私和安全方面,云测数据制定了一系列严格措施。核心原则之一是数据永远不会被重复使用。数据合格交付后,将永不保留,相关数据将被销毁。二、所有使用云测数据采集数据的用户都会签署数据授权协议,确保企业用于培训的数据合法合规;同时,云测数据内部还设置了数据隔离、质量保证等一系列数据安全流程和技术。总而言之,AI的加速落地导致了更复杂的AI数据需求,使得有些类似于制造过程的AI数据标注也进入了属于行业本身的“精益制造”流程。在生产环境、运营标准、人才建设和服务模式等方面都发生了很大变化。云测数据带来的变革,不仅带来了更高精度、更高质量的AI数据,也让数据标注行业在AI时代的产业链中更加突出。数据标签就像信息世界的新基础设施。只有基石构建得当,AI产业的高楼才能拔地而起,加速人工智能的到来。
