当前位置: 首页 > 科技观察

数据源仍然是AI的主要瓶颈

时间:2023-03-17 19:46:13 科技观察

根据Appen本周发布的《人工智能和机器学习状况》报告,各机构仍在努力获取良好、干净的数据以维持其AI和机器学习计划。根据Appen对504位商业领袖和技术专家的调查,在人工智能的四个阶段中,数据采购;数据准备;模型训练和部署;和以人为主导的模型评估阶段——数据采购消耗的资源最多,时间最长,最具挑战性。根据Appen的调查,数据源平均消耗了组织AI预算的34%,其中数据准备、模型测试和部署各占24%,模型评估占15%。HarrisPoll进行的这项调查的受访者包括来自美国、英国、爱尔兰和德国的IT决策者、商业领袖和经理以及技术从业者。在时间方面,大约26%的时间用于数据采购,24%用于数据准备,模型测试、部署和模型评估各占23%。最后,42%的技术人员认为数据来源是AI生命周期中最具挑战性的阶段,其次是模型评估(41%)、模型测试和部署(38%)以及数据准备(34%)。尽管面临挑战,但所有组织都在努力使其发挥作用。根据Appen的说法,五分之四(81%)的受访者表示他们有足够的数据来支持他们的人工智能计划。成功的关键可能在于:绝大多数(88%)的公司通过使用Appen等外部AI培训数据提供商来丰富他们的数据。然而,数据的准确性值得商榷。Appen发现只有20%的受访者报告数据准确度超过80%。只有6%(大约二十分之一)的人表示他们的数据准确率达到90%或更高。考虑到这一点,根据Appen的调查,近一半(46%)的受访者认为数据的准确性很重要。只有2%的人认为数据准确性不是很大的需求,而51%的人表示这是一个关键需求。Appen的CTOWilsonPang对于数据质量的重要性持有不同的看法,48%的客户表示数据质量并不重要。“数据准确性对于AI和ML模型的成功至关重要,因为质量丰富的数据会产生更好的模型输出以及一致的处理和决策,”报告称。“为了获得好的结果,数据集必须是准确的、全面的和可扩展的。”深度学习和以数据为中心的AI的兴起将AI成功的驱动力从良好的数据科学和机器学习建模转变为良好的数据收集、管理和标记。这在当今的迁移学习技术中尤为明显。人工智能的从业者会放弃一个庞大的预训练语言或计算机视觉模型,用自己的数据重新训练其中的一小部分。更好的数据还有助于防止不必要的偏见渗入AI模型,从而防止AI可能产生的不良结果。对于大型语言模型尤其如此。报告称:“随着针对多语言网络抓取数据训练的大型语言模型(LLM)的兴起,企业正面临另一项挑战。”“由于训练语料库充斥着有毒语言,以及种族、性别和宗教偏见,这些模型经常表现出不良行为。”网络数据中的偏差引发了棘手的问题,尽管有变通方法(改变训练方案、过滤训练数据和模型输出、从人类反馈和测试中学习),但需要更多的研究来创建“以人为中心的LLM”基准和模型评估方法的良好标准。数据管理仍然是AI的最大障碍,Appen说。调查发现,41%的人将数据管理列为AI循环中的最大瓶颈。排在第四位的是缺乏数据,30%的受访者认为这是AI成功的最大障碍。但也有一些好消息:企业花在管理和准备数据上的时间正在减少。今年的数字刚刚超过47%,Appen说,而去年是53%年度报告。“由于大多数受访者使用外部数据提供商,因此可以推断,通过外包数据采购和准备,数据科学家节省了适当管理、清理和标记数据所需的时间ta,”DataLabelingInc.说。但是,从数据中相对较高的错误率来看,也许组织不应该缩减其数据源和准备过程(无论是内部还是外部)。在构建和维护AI流程时,存在许多相互竞争的需求——聘请合格的数据专业人员的需求是Appen确定的另一个首要需求。但在数据管理取得重大进展之前,组织应继续向其团队施加压力,以不断推动数据质量的重要性。调查还发现,93%的组织强烈或部分同意人工智能伦理应该是人工智能项目的“基础”。Appen首席执行官MarkBrayan表示,这是一个良好的开端,但仍有许多工作要做。Brayan在新闻稿中说:“问题在于,许多人都面临着试图用糟糕的数据集构建伟大的AI的挑战,这为实现他们的目标制造了巨大的障碍。”根据Appen的报告,企业内部定制收集的数据仍然是用于AI的主要数据集,占数据的38%至42%。合成数据显示出惊人的力量,占组织数据的24%到38%,而预先标记的数据(通常来自数据服务提供商)占数据的23%到31%。特别是,合成数据有可能减少敏感人工智能项目中的偏见发生率,97%的Appen调查参与者表示他们在“开发包容性训练数据集”中使用了合成数据。报告中其他有趣的发现包括:77%的组织每月或每季度重新训练他们的模型;(人工智能时代前沿解读:人工智能不是一劳永逸的,需要根据应用需求不断更新。)55%的美国公司声称自己领先于竞争对手,而欧洲这一比例为44%;其中《2021年人工智能状态报告》,该比例为51%;(人工智能时代前沿解读:人工智能应用越来越广泛。)7%的机构表示人工智能预算超过500万美元,而去年这一比例为9%。(AI时代前沿解读:一方面可能是因为人工智能的逐渐成熟降低了成本,同时也说明人工智能不再是“奢侈品”,正在逐渐成为企业“必备”。)