这两天刷屏“猜小曲”,这背后的AI黑科技靠的就是最基础的机器学习方法▼监督学习这种方法依靠大量的人工对海量数据进行标注和分类,然后将数据“喂”给机器进行训练。我们看到的“猜小曲”只是最后的结果,AI可以举一反三。但在此之前,离不开艰苦的“体力劳动”。今天我们就来聊一聊这些数据标注者的生存状态。他们被称为“第一批被AI累死的人”。这是AI进化必经的过程。一双眼睛的局部细节出现在电脑屏幕上,小灰一步步标记放大的眼睛。一眼望去,有一排排类似图片的电脑屏幕。或许是窗帘的遮光效果太好了,略显昏暗的办公环境和电脑屏幕上各种物体的放大细节,相当吓人。在一家人工智能研究所看到这一幕,我很惊讶,即使是最顶尖的人工智能初创公司,最关键的部分还是从数据标注器开始。而这群人被称为第一批被AI累死的人。AI的老师画框里的这些人伴随AI兴起的最关键的技术就是深度学习。神经网络作为深度学习的基础,是一种面向输入的算法,其结果的准确性取决于接近“无穷大”。“数据的量级。因此,除去那些复杂的中间环节,深度学习最重要的是它需要大量的数据训练,这也是AI能够在互联网大数据时代崛起的原因。在数据训练之前,需要标注大量的数据作为机器学习的试点经验,因此诞生了大量的数据标注师,简单来说,数据标注师类似于AI老师。举个形象的例子,我们要教一个机器识别一个苹果,如果你直接给它一张苹果的图片,它根本就听不懂。我们得先有一张苹果的图片,然后标记“苹果”这个词机器学习了图片中的大量特征,然后给它任意一张苹果图片,它都能识别出来。据了解,目前标注员的工作内容通常包括画框标点、标注、分割、标注等。其中,分类是最常见的标注,如在屏幕上标注动物毛发的颜色、动物耳朵等;框选是在画面中标记相应的对象;还有一个点标记,一般用于比较细的人。人脸标注:眉毛、眼睛、鼻子、嘴巴等关键点需要标注20多个标记点。从他们的基本工作内容可以看出,数据标注是一项非常枯燥、考验耐力的工作,而且与以AI为代表的高科技相比,标注似乎没有什么技术含量。在一条产业链的起点,聪明女人难做无米之炊。AI算法的训练离不开这些大量的数据标注,与之相伴的数据标注外包业务也成为热门行业。在IT橘子的大数据标注公司画册中,一共收录了6家公司,其中5家在2017-2018年的时间段内获得千万级融资:2017年7月,BasicFinder完成1000万元Pre-A轮融资;2017年11月,龙猫数据获得3370万元A轮融资;2018年1月,星尘数据获得千万人民币Pre-A轮融资;2018年3月,爱书获得A轮融资融资;2018年5月,周通科技完成2000万元A轮融资。同时,他们的业务方向也有一定的细分和差异。有的擅长处理图片,有的数据标注公司更擅长做一些视频标注。这些公司的服务公司包括百度、小米、京东、今日头条等互联网公司,以及出门问问、深鉴等AI公司。另外,京东、百度、腾讯、阿里其实都有自己的标注平台和工具。在国外,亚马逊推出了众包数据平台AmazonMechanicalTurk,创业公司包括CrowdFlower、MightyAI等,这些已经是该领域的佼佼者,而在它们之下,还有数百家小型数据标注公司。据悉,数据标注行业实行这样的分工流程:上游科技巨头将任务交给中游数据标注企业,中游再众包给下游小企业和小作坊,部分小作坊会进一步众包给“分散者”,例如学生或家庭主妇。在这个产业链中,分包现象越严重,数据服务公司的价格就越低,最终跌到最低点,层层“数据黄牛”压缩利润空间,所以有些任务分包给几个人手,报酬低得惊人。目前数据标注工作主要集中在河北、河南、山东、山西等劳动密集型地区。这样的位置也能够以较低的人力成本完成大量的数据标注工作。在众多数据标注报告中,出现频率最高的学生是职业技术学校毕业的学生。他们身处三四线城市,只需要会操作电脑就可以做数据标注工作。然而,枯燥乏味的重复性工作导致数据标注人员的流失非常大。此前,一家数据标注公司的创始人在接受澎湃新闻的视频采访时表示,他们有大约500名员工,但只有11、12人是全职的。在一些大的数据服务公司,他们声称有超过20万的平台用户(数据标注者),其中很多是兼职人员。然而,快速的人口流动依然无法阻止低门槛的数据标注业务的蓬勃发展。有多少人就有多少智慧。即使一些数据服务平台开发了人工智能工具来辅助人工标注,但仍然需要数据标注者进行校对和纠错。在一些专业的数据标注公司,机器标注占30%,人工标注占70%左右。梳理数据标注者的工作逻辑,就像一个悖论。人工智能能否进化到更智能,在某种程度上取决于做标注工作的人,而这个工作是最不智能和技术含量最低的。记得在一次采访中,管理贴标机的负责人用特斯拉(Tesla)的自动驾驶事故给员工“打了血”。他提到,2016年,一辆处于自动驾驶模式的特斯拉发生车祸。事故。事后,特斯拉发表声明称,在蓝天背景下无法识别白色卡车,因此特斯拉没有启动刹车。“我一直告诉他们:‘你打磨的每一个数据都会对人工智能做出巨大的贡献。未来,自动驾驶汽车将能够识别蓝天中的白色卡车,因为你当时给它做了标记。’”这种看似毫无意义、效率低下的工作,应该由AI来完成,才符合我们对技术的理解,因为我们发展人工智能的初衷是为了解放生产力,提高生产效率。最需要AI做的,AI是无能为力的,要让AI代替劳动密集型工作,首先要为AI服务,付出高强度、高强度的工作,这让数据标注看起来有点赛博朋克、反乌托邦“魔幻”的感觉.然而,更令人沮丧的是,人工训练AI还存在很多问题。此前,清华大学人工智能学院院长张博院士提到,纯数据驱动的系统也存在很大的问题——鲁棒性差,易受大干扰。即使训练出的系统模型准确率高达99%,在实际应用中,仍然会出现很多“***”错误。这就陷入了死循环。人类不可能像AI那样严格按照数据程序完成工作而没有破绽。技术本身的错误或问题会导致人工智能的不准确。最后就是在这个***循环里不断优化。并且考虑到数据的隐私和公司的商业利益,同类型的数据之间是不能互通的。就像一位数据标注资深从业者说的,“以自动驾驶领域的数据标注为例,我用A公司的数据模型在B公司的设备上是不行的,即使换个摄像头也不行角度、位置或分辨率。”“有多少智能,就会有多少人工。”这似乎是AI进化必经的过程结语当然,最好的情况应该是:AI可以自己消化大量数据,学习成才,目前不需要标注数据的无监督学习已经从实验室走向应用,类似的迁移学习算法也可以减少数据标注的工作量。Facebook人工智能研究部门负责人YannLeCun曾表示,AI的核心在于预测,AI的下一次革命是无监督学习和常识学习。研究人员正在努力让AI独立于人类训练,观察世界如何运作并学会预测。因此,在理想的环境下,我们讨论的悖论可能会在几年或更长时间内完全解决十年以上,而这些为AI服务的人,终将被AI取代,也将“功成身退”。
