当前位置: 首页 > 科技赋能

快三倍解决大数据标注项目,Google AI“数据标注助手”大放异彩

时间:2024-05-22 17:11:06 科技赋能

随着智能系统的普及,深度学习和人工智能的不断崛起,科学界看到了让万物智能化的可能性。

人工智能技术被用来处理各种复杂的事情。

然而,要完成机器的智能训练,我们需要依赖极其庞大的数据集。

在将这些数据用于机器学习训练之前,需要对它们进行清晰的标记。

只有在学习了大量具有明确名称的数据后,机器才能独立识别并做出进一步的决策。

数据标注:机器的“导师” 机器学习分为监督学习和无监督学习。

无监督学习的效果常常用于探索性实验,并且是不可控的。

在实际产品应用中,通常采用监督学习,即使用标记数据作为先验经验。

在某种程度上,大量的标记数据是机器学习的导师。

每个标记的图像数据都会影响最终的算法结果。

数据标注的类型有很多种,比如类别、框架、标注、标签等。

在进行数据标注之前,首先要对数据进行清洗,以获得符合要求的数据。

数据清理包括去除无效数据、组织成规则格式等。

常见的几种数据标注类型包括:分类标注、框标注、区域标注、点标注等。

还有一些根据不同的需求需要不同的标注。

有多少体力劳动就有多少智力。

随着数据需求的日益增加,完成数据标注工作所需的劳动力也随之增加。

许多知名科技公司雇佣大量人力来完成如此详细的任务来支持机器学习。

亚马逊、苹果、谷歌、微软等,他们要么有自己的劳动力众包平台,比如亚马逊劳动力众包平台“Amazon MechanicalTurk”;或者他们使用第三方服务,例如 AMT。

在国内,除了百度类似众包的数据平台百度公测,还有这样的分工流程:上游科技巨头将任务交给中游数据标注公司,然后中游众包任务给下游公司。

小公司、小作坊,一些小作坊还会进一步众包兼职自由职业者。

在这个产业链中,随着层层转包,最终跌落到最底层的数据标注员的薪资低得惊人。

目前的数据标注工厂大多集中在河北、河南、山东、山西等传统劳动密集型企业所在地。

然而,这些数据标注工厂却被称为“人工智能行业的富士康”。

为了应对数据标注的巨大需求,标注者必须加班加点,盯着电脑屏幕,日夜重复着枯燥的工作。

这些人力为AI产业提供滋养,是AI金字塔的基础,处于最底层。

北京和贵阳是数据标注界的两个“双星”城市。

北京拥有大量人工智能企业,不断产生数据需求;而贵阳则着力制定“大数据战略”,支撑以较低劳动力成本聚集在首都的人工智能底层数据需求。

没有任何经验的标注员经过半天的培训就可以开始工作。

一两个月后,他就可以成为一名熟练工人,一天就能完成图片标注。

这些数据随后将应用于自动驾驶、AI+安全、智能身份认证等人工智能应用领域。

某种程度上,这意味着AI算法的优化取决于数据标注的质量,而掌控这个质量的人是一群根本不懂AI技术的人。

谷歌AI辅助数据标注,效率提升三倍。

前段时间,谷歌在其AI博客上介绍了一种基于AI和深度学习的图像标注方法——“Fluid Annotation”,利用机器学习来标注类标签并勾勒出轮廓。

提取图片中的每个对象和背景区域。

它可以作为人类注释者的强大辅助工具。

谷歌声称可以将标记数据集的速度提高三倍,有望缓解当前机器学习研究中难以获得高质量训练数据的瓶颈。

流体注释从预训练语义分割模型 (Mask R-CNN) 的输出开始,该模型生成大约 1 个带有类标签和置信度分数的图像片段,其中置信度最高的片段将传递给人类工作人员进行标记。

注释者可以通过仪表板修改图像,选择要纠正的内容和顺序,将现有片段的标签与自动生成的候选列表交换,添加片段以覆盖丢失的对象,删除现有片段或更改重叠细分的深度顺序。

谷歌机器感知小组的高级研究科学家 Jasper Uijlings 和 Vittorio Ferrari 在博客文章中写道:“流体注释是使图像注释更快、更容易的第一步探索性步骤。

” “在未来的工作中,我们的目标是改进对象边界的注释,通过包含更多机器智能来使界面更快,并最终扩展界面以处理最需要高效数据收集的以前未见过的类。

”虽然这种方法还没有在具体工作中得到实现,但它仍然是一项值得期待的技术。

而在国外,谷歌并不是唯一一家将AI应用于数据标注的公司。

旧金山初创公司 Scale 结合使用人类数据标记器和机器学习算法,为 Lyft、通用汽车等客户对未标记数据进行分类。

总部位于瑞典的 Mapillary 创建了街道图像数据库,并使用计算机视觉技术来分析这些图像中包含的数据。

用人力辅助人工智能,实际上是本末倒置。

“有多少人工智能,就有多少人类。

“其实这是一种本末倒置的现象。

本来人工智能是为了方便人们的生活,辅助人们的工作,提高工作效率,但是现在却形成了一个大的局面,用大量廉价劳动力支撑人工智能。

永远不能称为真正的人工智能。