做人工智能的都是靠脑力劳动的高级程序员吗?事实并非如此。
当前人工智能的深度学习算法是基于大数据的。
人工智能工作过程中,首先要挖掘大数据,然后利用大数据来训练人工智能模型。
对于图像数据来说,这项工作看似非常简单,但实际上整个工作过程并不智能。
这背后隐藏着一个赚钱非常难、工作内容非常枯燥的劳动密集型行业。
人工智能女神李菲菲开创了“数据标注”行业。
当时尚未出名的李飞飞进入斯坦福大学人工智能实验室,选择了当时还不热门的研究方向——计算机视觉图像识别。
计算机视觉图像识别的主要目的是让计算机能够理解图像——对于计算机来说,每张图片都是三个不同权重的矩阵叠加的结果。
这三个数学矩阵称为 RGB 颜色矩阵。
对于自动驾驶来说,计算机从这三个矩阵中找到红绿灯和斑马线的位置实际上是非常困难的。
人工智能安防监控也是如此。
基本的人脸识别需要使用非常复杂的算法。
这些事情看起来都非常困难。
因为要求计算机识别“斑马线”、“红绿灯”、“人脸”,其实就像训练小狗过马路时走斑马线,看懂红绿灯标志,记住路上的行人。
外观是一样的。
但事实上,小狗的智商比计算机高得多,所以训练计算机做机器视觉远比训练小狗困难。
在 2000 年,计算机可识别的物体非常罕见。
李飞飞和她的研究团队从互联网上下载了近10亿张图片,然后尝试对这些图片进行分类和标签,为计算机提供学习的“题库”。
这个“题库”后来发展成为著名的ImageNet。
那么,我们如何对10亿张图片进行分类和标注呢?工作量是根据一个人每天可以分类多少张图片来计算的。
10亿张照片需要一个人工作数万天,即数年。
这是一项巨大的工作量。
李飞飞曾经想过雇用大学生来完成这项工作,并预计支付每人每小时 10 美元的费用来进行手工分类。
然而,仅靠她能找到的大学生手工完成这个项目,需要90年的时间,而且成本将是一个天文数字。
所以,最后李菲菲只能寻找一种更便宜、更快的方法。
后来,李飞飞找到了更快的办法,那就是亚马逊的众包平台。
通过众包平台,李飞飞在网上雇佣了5万人,要求他们对10亿张图像进行分类和标注。
到2020年,李飞飞领导的ImageNet数据库包含了10000张带标签的照片,这是一笔非常宝贵的数据财富。
李飞飞将这个图像数据库免费开放使用,让全球所有致力于计算机视觉识别的研究团队受益匪浅。
李飞飞创办的行业后来被称为人工智能领域的“数据标注”。
目前,该行业在我国已形成劳动密集型产业。
数据标注行业是人工智能的“富士康”。
人工智能光环的背后,数据标注行业实际上是由类似于“富士康”的劳动密集型工厂组成。
这些工厂通常摆满了成排的计算机。
这些计算机屏幕上显示了每个放大的物体图像以及每个标记框的详细信息。
数据标注者的工作内容包括绘图标记、标注、分割、标注等,其中,最常见的图片分类就是标注。
例如,一种标记方法是点标记,一般用于详细的面部标记:这需要对眉毛、眼睛、鼻子、嘴巴等面部关键部位进行二十五个步骤。
多个标记点——这个过程很类似于微软KINECT的骨架图,也类似于数学中的“三角测量”。
硅谷动力在网上查找了一家做数据标注的公司——“北京博雅图表数据服务有限公司”。
公司是这样介绍自己的:博雅数据先后成立了“博雅上海”、“博雅北京”、“博雅温哥华”三个子公司。
同时在衡水、济南、武汉、西安等城市建立了自己的数据处理中心。
,目前是国内大型数据录入服务企业,拥有专职录入人员100余人。
博雅的管理人员均从事入门行业五年以上,具有良好的专业精神和团队精神。
从“博雅图表数据服务”的相关介绍来看,该公司在河北、山东、山西、湖北等地建立了自己的数据处理中心。
这些数据处理中心的部分业务就是为人工智能公司提供“数据标注”服务。
。
据《财经》了解,耀数据也是一家类似的数据标注公司,在河南十几个县市建立了类似的数据标注工厂。
为什么要在河南的一个县城建这样一个工厂呢?事实证明,“以下地方的场地租金更便宜,员工的工资也更低,更划算”。
因此,这也使得这些工厂看起来像“富士康”,服务于“高科技”,但实际上却是“劳动密集型产业”。
因为数据标注其实没有什么技术难度,只要初中学历会使用电脑的学生就可以做这样的工作,整个工作流程比较简单,只需要识别图片中的东西,然后在图片上进行标记即可,但是这项工作需要一个工人处理数千张图片。
一天的工作内容比较简单,眼睛很疲劳,因此很多人因为无法承受如此高强度的视力劳动而选择跳槽。
但也有很多工人坚持了下来。
尽管他们可能不了解自己处理的图像如何在人工智能行业中使用,但毫无疑问,这些工人是人工智能产业链中的“沉默的大多数”。
他们为人工智能产业提供了源源不断的原材料。
数据标注众包模式正在创造一个新的行业。
数据标注众包模式最早出现在美国。
前面提到的人工智能女神李飞飞在亚马逊刚刚推出劳动力众包平台(Amazon Mechanical Turk)时就发现了这批数据标注者。
。
截至年底,亚马逊数据劳动力众包平台注册用户数已突破50万。
这其实类似于美团连接了很多送外卖的快递员。
亚马逊的数据劳动力众包平台也将众多数据标注者连接起来。
目前,在中国,还没有针对个人的众包数据标注平台,但已经出现了一批做数据标注的公司。
这些公司比个人更专业,工作效率更高,服务质量也更好,因此受到了很多人工智能公司的好评。
由于很多人工智能公司位于一二线城市,很难承担这种劳动密集型工作的工资。
因此,将数据标注工作外包给数据标注公司可以节省大量的人力成本。
因此,有人傲慢地概括这个行业:没有“人工智能”,就没有“智能”。
这一幕很可能是人工智能产业发展史上最隐秘、最壮观的一幕。
数据标注的工作内容非常枯燥,需要很大的耐心。
处于人工智能高科技产业链的低端。
这个工作内容看起来基本没有什么技术含量。
那么,国内有哪些公司在从事数据标注呢?除了上面提到的博雅海图和耀数据两家公司外,其他相关公司还包括BasicFinder、龙猫数据、星尘数据、爱数智慧、舟通科技等。
除了图像标注之外,语音标注、视频标注相关的业务方向也已上线。
出现了。
从原理上讲,它们与图像标注没有太大区别,都是依靠大量的人力来工作。
此外,京东、百度、腾讯、阿里巴巴等大公司都有自己的标注平台和工具。
数据标注行业的分包现象及未来数据标注行业是劳动密集型行业,很容易出现层层分包的情况。
上游的人工智能公司会将任务交给中游的数据标注公司,而这些中游公司又会分包给下游的小公司和小作坊,而一些小作坊还会进一步分包给个人,比如学校学生或者家庭主妇。
中间环节的转包,产生了大量赚取差价的“中间商”,使得整个行业的利润空间越来越小,不利于整个行业的发展。
因此,硅谷动力认为,应该采取一定的措施来防止这种分包的情况发生。
另一方面,我们需要展望未来。
目前看来,数据标注员的工作是最不智能、最不技术性的。
对于未来的人工智能,科学家们还必须研究如何让人工智能自主学习和标注,而不依赖于人类对人工智能的标注和训练。
这种更先进的人工智能是未来的发展方向之一。