苹果公司有人花费数亿美元收集标注数据,但仍然没有好的结果。人们意识到人工智能非常强大。但要实现它,必须获得大量的训练数据。看到这种需求,诞生了很多专业的贴标公司。比如Datasaur,这是一个自动化数据标注的软件。当然,数据标注首先需要手动启动,尤其是在人工智能项目的初期。在项目的中期或末期,机器学习本身可用于自动标记数据或生成合成数据。Datasaur软件的主要目标是简化人工数据标注的操作,引导他们以最低的成本创造更高质量的训练数据。由于它针对需要整天标记数据的高级用户,因此创建了功能键以加快标记过程,以及适用于专用数据标记系统的其他功能。但在这个过程中,Datasaur还有其他几个目标,包括消除偏见。还提供项目管理功能,以清楚地阐明标签指南,以确保标签标准随着时间的推移继续得到维护。数据标记的主观性是使该学科充满陷阱的原因之一。例如,想出一种方法来自动将文章标记为适合家庭或不适合。平时大家可以参考一下电影分级系统,类似PG、PG13、R。自然而然地认为这会是一个很简单的任务。然后事实证明,科技公司认为正确的事情与电影业认为正确的事情截然不同。还有许多灰色地带的例子,不同的社会对什么是合适的和什么不合适的看法会有很大不同。解决此类问题没有捷径可走。但是,有一些方法可以帮助公司自动化这些业务流程,包括提供决策沿袭来回答这些数据标签问题。这就是创建Datasaur软件的原因。您不会让您的团队为您的设计师创建Photoshop。只需购买现成的Photoshop。当你只需要做数据标注的时候,我们也可以找这样的专业公司。起初,很多客户认为计算机视觉是最热门的人工智能技术。但是最近,NLP用例很火,尤其是那些依赖大模型的,比如BERT和GPT-3。于是Datasaur产品开始受到关注,每周被用来标注100万条数据,包括Netflix、Zoom、Heroku等知名公司。Datasaur也被专业的数据标注机构使用,比如iMerit。iMerit在全球拥有5,000名员工,已发展成为数据标签行业的一股强大力量。该公司的100家客户,包括许多家喻户晓的名字,使用其数据注释网络将深度学习模型与高质量注释数据对齐。数据标签的主观性使其不仅仅是交易。通常,您需要坐下来弄清楚数据在哪里以及需要什么。不仅仅是工具、人员或流程。它是三者的结合。上下文对于数据标记过程绝对至关重要。这大概是由于机器对上下文的理解很差。也可能是因为人工智能用例在不断变化。不管是什么原因,这种需求是显而易见的。分享一个卡车上的建筑工人的例子,展示了上下文在开发高质量训练数据中的重要性。想象一下,一名工人坐在卡车上,下车去每个维修区工作,然后回到卡车上。所以数据标注问题是:工人是行人吗?他是卡车的一部分吗?或者他是第三种人?如果你在计算车辆,你不关心上下车的工人。您只会对工程车辆感兴趣;但是如果你试图操纵其他东西(比如自动驾驶或交通流量控制)来避免撞到垃圾工,你会对垃圾工的动作很感兴趣;如果您正在寻找可疑行为,您将希望从一组类似的行为中排除garbageman。但很明显,工人有不同的存在状态,这取决于AI应用程序的视角。对于数据标签,证明一个事实:在不同的时间,一条数据可以有不同的标签。有时,没有单一的答案。数据标注过程的精细程度对于提高数据质量至关重要,直接影响机器学习模型的预测推理质量。数据可以使预测准确率达到60%到70%,也可以使预测准确率达到95%。根据用例,准确性至关重要。如果您正在构建一个模型来识别视频中的盗窃行为,则漏报(未发现盗窃)和误报(无辜客户的指控)的后果可能会大不相同。
