当前位置: 首页 > 科技观察

为什么说数据是人工智能的基础

时间:2023-03-13 02:30:08 科技观察

什么是数据标注?大多数数据没有被标注为非结构化数据,而人工智能训练则需要计算机可以理解的结构化数据。标注数据是指对目标模型的数据进行标注或标注,使其能够进行训练和预测。通常,数据标记包括数据标记、注释、审查、分类、转录和处理。标注数据用于突出某些特征,根据这些特征对它们进行分类,并通过模型分析它们的模式来预测新的对象。数据在AI项目中占用多少时间?训练机器学习和深度学习模型需要大量数据,以便可以使用这些数据来部署、训练和调整模型。训练机器学习和深度学习模型需要大量经过仔细标记的数据。标记原始数据并准备将其应用于机器学习模型和其他AI工作流称为数据标记。据相关统计,在AI项目中,数据整理消耗了80%以上的时间。通常在一个人工智能项目中,数据需求也分为3倍左右。第一次是项目初期的验证阶段,需求量比较少,需要确定可行性和规则;大量数据用于训练模型;第三次是在训练和验证完成后,针对一些不理想的地方补充训练集,以达到预期的目的。下图展示了人工智能机器学习项目中各个任务的时间比例。人工智能中数据标签的成本是多少?机器学习与数据相关的成本主要体现在数据集上,包括数据集收集、清洗、数据标注等。DimensionalResearch代表Alegion最近进行的一项研究表明,96%的组织都遇到与培训数据质量和数量相关的问题。同一项研究表明,大多数项目需要超过100,000个数据样本才能表现良好。这张来自DimensionalResearch的图表说明了公司面临的一些最常见的数据问题。如果您还没有数据,您可以假设您可以在大约一个小时内收集5-10个样本并标记它们。使用像亚马逊的MechanicalTurk这样的服务来验证整个项目过程将花费大约70,000美元来生成包含100,000个合格样本的数据集。如果收集了大量的数据,可以找专业的数据标注服务公司进行标注。在这种情况下,获得100,000个标记数据样本可能需要8,000到80,000美元,具体取决于标记的复杂程度。此外,检查和纠正数据样本与生成和标记它们一样耗时。根据DimensionalResearch的一份报告,66%的公司在其数据集中存在偏差和错误。一些公司选择采用完全内部方法(自己做所有标签),而其他公司则选择外包和内部混合。第二种最常见的情况是将大部分工作外包,并让公司中的个人负责验证和清理工作。外包100,000个数据样本的初始成本可能会增加大约2,500到5,000美元。除了数据成本,还有算法人工成本、算力设备成本、项目落地成本。在扣除附加成本和一系列功耗成本后,一个机器学习项目可能会使公司花费51,750至136,750美元(不包括其他难以确定的成本)。价格差异主要由数据决定。这是一个非常乐观的估计。如果企业位于美国并使用高质量数据(自由职业者不使用),与人才相关的费用可能会激增,使人工智能机器学习项目的成本超过108,500美元。如此高的价格使人们想要解决新问题或自动化他们的流程。决策者、小团队和初创企业都负担不起。数据处理中最难的是什么?最难的一步是第一步:获取数据。没有数据,在研究阶段几乎不可能验证机器学习解决方案,使项目几乎无法推进。随着工业、医疗、安防、教育、金融等领域意识到人工智能对于未来行业变革的重要性,都纷纷入局开发自己的人工智能应用。但是,随着这些领域越来越重视数据的保密性和数据的安全性,这些因素可能会导致人工智能研究的私有化。诚然,人工智能正在逐渐私有化。在这种环境下,数据标签服务、训练模型平台、算力设备都各自制定了私有化部署的解决方案。