资料图:市民用手机体验最新产品。尹丽琴摄“目前,我国拥有庞大的数据处理队伍,仅北京就有100多家专门从事数据标注的公司,全国大概有超过1000万人从事这项工作。很多领头羊互联网科技公司都有自己的数据标签公司。”当前,人工智能的应用场景不断丰富,智能化应用正在改变我们的生活。在AI行业高速发展的背后,数据标注员这一新兴职业的从业者数量也在不断增长。有一个数据标注界流行一句话,“有多少智能,就有多少人工。”目前,AI算法能够学习到的数据,都必须由人力来一一标注,这些人力为AI提供养料产业,打造AI金字塔的根基。近日,支付宝公益基金会、阿里巴巴人工智能实验室和中国妇女发展基金会在贵州省铜仁市万山区启动“AI斗计划”,这是首个试点计划区域在全国启动。作为“人工智能+扶贫”的新型公益模式,该计划旨在培养相关专业人才,孵化社会企业。贫困地区的企业通过人工智能产业释放的大量就业机会,让贫困人口在家门口实现就业、脱贫。这些大法弟子不需要离开家乡。他们可以被训练为AI机器学习对数据进行分类和标注,让机器快速学习和识别文字、图片、视频等内容,成为“AI训练师”。机器学习必备数据标注AI数据标注者被称为“人工智能背后的人类”。“数据是人工智能的血液。目前,基于大数据的人工智能是数据智能深度学习的时代,可以说,谁掌握了数据,谁就能做好。”中科院自动化研究所研究员、视域科技创始人王金桥告诉科技日报记者。他解释说,现在的人工智能也叫数据智能。在这个发展阶段,神经网络的层数越多,神经网络越深,训练所需的数据量就越大。好的是中青年人脸识别系统,因为年轻人住车、住酒店,收集的数据量比较大,而儿童和老人的数据比较少。”但与此同时,只有数据是没有用的。对于深度学习,数据只有被标记才有意义,可以用于机器学习和进化。“标记是必须的,”王金桥说。在王金桥看来,人工工作离不开数据的采集、清洗、标注和验证。最基本的数据标签是图片框。例如检测目标是汽车,labeler需要在一张图片上标记所有的汽车。相框必须完全挡住汽车的外接矩形。如果框不准,机器可能“学不好”。再比如人体手势识别,包括18个关键点。只有训练有素的标注者才能掌握这些关键点的标注,标注的数据也能满足机器学习的标准,不同的数据类型对标注者的要求是不同的,除了一般比较简单的标注可以通过训练掌握,还有一些标注是需要专业背景的,比如医学数据标注,标注者需要对医学图像进行分割,标记肿瘤区域,类似的任务需要懂电影的医生来完成,再比如当地方言或者外语,也需要掌握该语言的标注者,人工标注帮助AI快速完成随着人工智能的发展,数据训练量非常大,数据标注公司应运而生关于。这些公司以网络的形式运作。一个平台有产品经理和项目经理,接到任务就找人。为此,每个人都通过在线小组进行注册,并由产品经理进行培训。之后,各自接到自己的任务,登录账号进行标记,待验货经理审核通过后付款。如果不合格,则需要进行更正。“目前,已经形成了庞大的数据处理团队。仅在北京,就有100多家专门从事数据标注的公司。全国大概有超过1000万人从事这项工作。许多领先的互联网科技公司已经他们自己的数据标签。公司。”王金桥表示,“现阶段,数据对性能的贡献最大。数据越多越丰富,代表性越强,模型的效果越好,算法的鲁棒性和鲁棒性也越强。目前的情况大多数人工智能公司还没有实现盈利,除了标签公司。”据王金桥介绍,国外也是如此,无人零售、无人驾驶等需要大量人力,基于人力成本,除了私有数据外,他们会在第三世界国家完成标注工作。马来西亚、泰国、印度等国家设有数据标注分支机构,在常见的报道中,数据标注总是被描述为“血汗工厂”,这项工作和从业人员被描述为廉价低质,人们被重复的机械劳动所疏远。在王金桥的解释下,这种刻板印象逐渐被打破,他直言目前大量的人工标注是有价值的,因为理论上很难解决问题,但是有了大量的数据,可以利用深度学习网络的设计在特定场景、特定应用中用数据训练神经网络,在场景中,AI可以快速落地占领市场,带动行业应用,促进行业升级和升级。d迭代。“比如在检测手机玻璃缺陷、高铁轨道缺陷、电网高压线路绝缘体破损等方面,无人机拍照后,由人工进行检测。作为量数据增加,机器的训练越来越充分,慢可以自动检测,类似的任务很大程度上可以由机器完成。王金桥表示,虽然目前人工智能的智能化程度还比较薄弱,但它将给各行各业带来变革,这是人工智能推动产业革命的契机,数据标注的需求不断增加。“现在,科研界正在研究无监督和小样本的深度学习。通过三维合成数据,以虚实相结合的数据生成方式训练机器,最大限度地减少数据收集和标注,让机器自主学习,自主进化。”王金桥表示,但由于缺乏理论上的突破性技术,虽然技术发展迅速,但总体水平还比较低,而且目前的深度学习仍然依赖于基于统计显着性的大数据模型,这就需要数据是足够,足够平衡,基本满足现实世界的分布。因此,标注工作将一直存在。但王金桥也表示,随着无监督和小样本深度学习的推进,重复标注的工作量会越来越少。“机器识别和人类一样,经过几千年的进化,人类用语言来记录和储存几千年的文明,所以看到一张桌子就知道是桌子,看到灵芝就知道是桌子。”灵芝,他们知道是灵芝。机器也需要不断地理解更多的内容,有了数据标签,才能学习,才能智能。数据处理是一个长期的过程,从相框到基本词汇,逐渐形成自己的知识地图,以便它能够自己推理和思考。”目前的数据标注公司基本采用“按件付费”的模式。贴标师的工资与任务量和难度直接相关。熟练工一天可以标注上千张图片,月收入可达万元以上。这项工作也具有一定的专业性。只有经过培训,才能知道如何标记和标记清楚,而且人必须认真仔细。“每天产生的数据量太大,数据量不断增加,标签需求不断增加。”王金桥说道。在阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟看来,贵州万山只是一个起点。未来项目统筹将聚焦贫困地区,寻找更多更适合“AI标注”产业发展的区域。降落。同时,也希望更多的人工智能企业加入进来,有针对性地向贫困地区发送带有AI标识的订单,为贫困人口提供更多的就业机会。陈丽娟说。延伸阅读人工智能数据服务发展新方向:细分化、多模态化、专业化数据显示,当前人工智能发展具有三大特征:细分化、多模态化、专业化。相应地,新的变化也对AI数据服务行业形成了一定的影响和方向。目前,人工智能已经进入技术落地阶段,其应用场景涉及安防、金融、家居、交通等各个行业。未来,在数据标注行业,从业者也将与AI行业一起进入追逐细分市场的阶段。同时,多模态也成为人工智能技术发展的一个特点。所谓多模态是指对多维时间、空间、环境数据的感知和融合。比如现在的自动驾驶需要雷达+摄像头才能运行的更稳定,安防行业需要摄像头+雷达红外RFID才能感知的更精准真实。在数据服务行业,企业也需要适应AI技术发展的多模态特点,掌握多维度传感器融合的数据采集与标注。此外,虽然当前AI技术已经进入落地阶段,但相比传统行业的AI落地场景,AI头部企业的落地场景在技术上会更加前沿。而这些企业的一些前沿技术研究也很有可能成为未来数据服务行业的一个主要发展方向,因此数据服务企业也需要在这些前沿场景中不断探索,才能获得长远的发展在行业竞争中。
