当前位置: 首页 > 科技观察

研究表明:数据源仍然是人工智能的主要瓶颈

时间:2023-03-19 11:56:57 科技观察

数据是机器的命脉。没有它,你就无法构建任何与AI相关的东西。根据Appen本周发布的AI和机器学习状况报告,许多组织仍在努力获取良好、干净的数据以维持其AI和机器学习计划。根据Appen对AI的调查,在AI的四个阶段——datasourcing、datapreparation、modeltraininganddeployment、human-guidedmodelevaluation中,datasourcing是消耗资源最多、耗时最多、最具挑战性的环节.504位商业领袖和技术专家。根据包括IT决策制定在内的哈里斯民意调查,数据采购平均占组织AI预算的34%,而数据准备、模型测试和部署各占24%,模型评估各占15%,来自美国、英国、爱尔兰和德国的商业领袖和经理以及技术从业者。从时间上看,数据采购约占组织时间的26%,而数据准备和模型测试、部署和模型评估分别占24%和23%。最后,与模型评估(41%)、模型测试和部署(38%)和数据准备(34%)相比,42%的技术人员认为数据采购是AI生命周期中最具挑战性的阶段。据技术专家称,数据来源是人工智能面临的最大挑战。但企业领导者的看法不同......尽管面临挑战,但组织正在努力使其发挥作用。根据Appen的说法,五分之四(81%)的受访者表示他们相信他们有足够的数据来支持他们的人工智能计划。这一成功的关键可能在于绝大多数(88%)正在通过使用Appen等外部人工智能培训数据提供商来扩充他们的数据。但是,数据的准确性值得怀疑。Appen发现只有20%的受访者报告数据准确度超过80%。只有6%,即大约十分之一的人表示,他们的数据准确率为90%或更高。换句话说,超过80%的组织有五分之一的数据包含错误。考虑到这一点,Appen调查的近一半(46%)受访者同意数据准确性很重要,“但我们可以解决这个问题”,这也许并不奇怪。只有2%的人表示数据准确性不是很大的需求,而51%的人认为这是一个关键需求。看来澳鹏CTOWilsonPang对数据质量重要性的看法,与48%认为数据质量不重要的客户是一致的。“数据准确性对于AI和ML模型的成功至关重要,因为高质量的数据可以带来更好的模型输出以及一致的处理和决策制定,”Pang在报告中说。“为了获得好的结果,数据集必须准确、全面和可扩展。”超过90%的Appen受访者表示他们使用预先标记的数据。深度学习和以数据为中心AI的兴起已将AI成功的驱动力从良好的数据科学和机器学习建模转变为良好的数据收集、管理和标记。对于今天的迁移学习技术来说尤其如此,在这种技术中,人工智能从业者跳到一个大型预训练语言或计算机视觉模型之上,并用他们自己的数据重新训练一小部分层。更好的数据还可以帮助防止不必要的偏见蔓延到AI模型中,并通常可以防止不良的AI结果。Appen人工智能专家高级主管IliaShifrin说,对于大型语言模型来说尤其如此。“随着基于多语言网络爬虫数据训练的大型语言模型(LLM)的兴起,公司面临着另一个挑战,”Shifrin在报告中说。“由于训练语料库中存在大量有毒语言以及种族、性别和宗教偏见,这些模型经常表现出不良行为。”Web数据中的偏差引发了一些棘手的问题,尽管有变通方法(改变训练方案、过滤训练数据和模型输出,以及从人类反馈和测试中学习),但需要更多的研究来建立一个良好的“人类-centric”LLM基准和模型评估方法,Shifrin说。根据Appen的说法,数据管理仍然是人工智能的最大障碍。调查发现,AI循环中41%的人认为数据管理是最大的瓶颈。缺乏数据排在第四位,30%的人认为这是AI成功的最大障碍。但也有一些好消息:组织花在管理和准备数据上的时间正在减少。Appen说,今年这一比例刚刚超过47%,而去年的报告中为53%。数据准确性水平可能不如某些组织希望的那么高“大多数受访者使用外部数据提供商,可以推断,通过外包数据采购和准备,数据科学家正在节省正确管理、清理和标记数据所需的时间,”说数据标签公司。然而,从数据中相对较高的错误率来看,也许组织不应该缩减其数据采购和准备流程(无论是内部还是外部)。在构建和维护AI流程方面存在许多相互竞争的需求——聘请合格的数据专业人员是Appen确定的另一个首要需求。然而,在数据管理取得重大进展之前,组织应继续向其团队施加压力,以继续提高数据质量的重要性。调查还发现,93%的组织强烈或有点同意道德人工智能应该是人工智能项目的“基础”。Appen首席执行官MarkBrayan表示,这是一个良好的开端,但仍有许多工作要做。Brayan在一份新闻稿中说:“问题在于,许多人都面临着试图用糟糕的数据集构建伟大的AI的挑战,这在实现他们的目标方面造成了重大障碍。”根据Appen的报告,内部定制收集的数据仍然是组织用于AI的数据集的大部分,占数据的38%到42%。合成数据表现出奇的强劲,占组织数据的24%到38%,而预先标记的数据(通常来自数据服务提供商)占数据的23%到31%。特别是,合成数据有可能减少敏感人工智能项目中的偏见发生率,97%的Appen受访者表示他们使用合成数据“开发包容性训练数据集”。该报告的其他有趣发现包括:77%的组织每月或每季度重新训练他们的模型;55%的美国组织声称他们领先于竞争对手,而欧洲的这一比例为44%;42%的组织报告称“广泛”部署了人工智能,高于2021年人工智能状况报告中的51%;7%的组织表示其AI预算超过500万美元,高于去年的9%。