当前位置: 首页 > 科技观察

90%的论文都是以模型为中心的,在AI领域,数据和模型哪个更重要?

时间:2023-03-16 10:38:17 科技观察

模型和数据是人工智能系统的基础,这两个组成部分在模型的开发中起着重要的作用。人工智能领域最权威的学者之一吴恩达曾提出“80%数据+20%模型=更好的机器学习”。他认为一个团队80%的研究工作应该放在数据准备上,数据质量很重要。是的,但很少有人关心。如果更加强调以数据为中心而不是以模型为中心,机器学习会发展得更快。我们不禁要问,机器学习的进步到底是模型带来的,还是数据带来的?目前还没有明确的答案。在本文中,Android开发人员和机器学习爱好者HarshilPatel介绍了“机器学习:以数据为中心与以模型为中心”,比较了两者以确定哪个更重要,并解释了如何使用以数据为中心的基础设施。Data-CentricApproachVSModel-CentricApproachModel-CentricApproach意味着需要通过实验来提高机器学习模型的性能,这涉及到模型架构的选择、训练过程。而在以模型为中心的方法中,您需要保持数据不变,通过改进代码和模型架构来提高性能。此外,对代码的改进基本上是以模型为中心的。目前,大多数人工智能应用都是以模型为中心的,其中一个可能的原因是学术研究对人工智能领域的高度重视。据AndrewNg介绍,AI领域超过90%的研究论文都是以模型为中心的,因为我们很难创建大数据集使其成为公认的标准。因此,AI界认为以模型为中心的机器学习更有前途。当研究人员专注于模型时,他们往往会忽略数据的重要性。对于研究人员来说,数据是每个决策过程的核心,通过使用其运营产生的信息,以数据为中心的公司可以获得更准确、更有条理和更透明的结果,从而帮助公司组织起来更顺利地运行。以数据为中心的方法涉及系统地改进、改进数据集以提高ML应用程序的准确性,而处理数据是以数据为中心的核心目标。Data-drivenvsdata-centric许多人经常混淆“以数据为中心”和“数据驱动”的概念。数据驱动是一种从数据中收集、分析和提取见解的方法,有时也称为“分析”。另一方面,以数据为中心的方法侧重于使用数据来定义首先应该创建的内容;而以数据为中心的架构是指数据是主要和永久资产的系统。数据驱动架构意味着通过利用大量数据来创建技术、技能和环境。对于数据科学家和机器学习工程师来说,以模型为中心的方法似乎更受欢迎。这是因为从业者可以使用自己的知识库来解决具体问题。另一方面,没有人愿意花大量时间标记数据。然而,数据在当今的机器学习中至关重要,但在人工智能的发展中却常常被忽视和处理不当。由于数据错误,研究人员可能会花费大量时间进行故障排除。模型精度低的根本原因可能不是来自模型本身,而是来自错误的数据集。除了关注数据,模型和代码也很重要。但是研究人员在关注模型时往往会忽略数据的重要性。最好的方法是同时关注数据和模型的混合方法。根据应用,研究人员应同时考虑数据和模型。以数据为中心的基础设施以模型为中心的机器学习系统侧重于模型架构优化及其参数优化。以模型为中心的ML应用程序上图中描述的以模型为中心的工作流适用于少数几个行业,例如媒体、广告、医疗保健或制造业。但也可能存在挑战,例如:需要高级定制系统:与媒体和广告行业不同,许多企业无法使用单一的机器学习系统来检测其产品中的生产故障。虽然媒体公司可以负担得起整个ML部门来处理优化问题,但需要多个ML解决方案的制造企业无法遵循这样的模板;大数据集的重要性:在大多数情况下,公司没有很多数据可用。相反,他们经常被迫处理微小的数据集,如果他们的方法是以模型为中心的话,这些数据集很容易产生令人失望的结果。在他的AI演讲中,AndrewNg解释了他如何相信以数据为中心的ML更有价值,并倡导社区朝着以数据为中心的方向发展。他曾经举过一个“钢材缺陷检测”的例子,以模型为中心的方法未能提高模型的准确率,而以数据为中心的方法提高了16%的准确率。在实施以数据为中心的架构时,以数据为中心的ML应用程序可以将数据视为比应用程序和基础设施更持久的基础资产。以数据为中心的ML使共享和移动数据变得简单。那么,以数据为中心的机器学习到底涉及什么?在实施以数据为中心的方法时,我们应该考虑以下因素:数据标注质量:当大量图像被错误标注时,会出现意想不到的错误,因此需要提高数据标注的质量;产生更多的数据,增加训练样本(噪声数据)的数量和多样性,提高模型的鲁棒性;特征工程:通过改变输入数据、先验知识或算法为模型添加特征,常用于机器学习,以帮助提高预测模型的准确性;数据版本控制:开发人员通过比较两个版本来跟踪错误并查看什么没有意义,数据版本控制是维护数据中最不可或缺的步骤之一,它可以帮助研究人员跟踪数据集的更改(添加和删除),版本控制使代码协作和数据集管理更容易;领域知识:在以数据为中心的方法中,领域知识非常有价值。领域专家通常可以检测到ML工程师、数据科学家和注释者无法检测到的细微差异,并且在涉及领域专家的ML系统中仍然缺少一些东西。如果有额外的领域知识可用,ML系统可能会表现得更好。应该优先考虑哪个:数据数量还是数据质量?需要强调的是,数据量大并不等于数据质量好。当然,神经网络的训练不是几张图片就能搞定的,数据量是一方面,但现在更注重质量而不是数量。如上图所示,大多数Kaggle数据集都没有那么大。在以数据为中心的方法中,数据集的大小并不那么重要,可以使用质量较低的数据集来完成更多的工作。但是,请务必注意,数据质量高且标记正确。上图是另一种标记数据的方式,可以单独使用,也可以组合使用。例如,如果数据科学家1单独标记菠萝,而数据科学家2将它们组合标记,则两个标记的数据不兼容,从而混淆了学习算法。因此,您需要保持数据标签的一致性;如果您需要单独标记它们,请确保它们都以相同的方式完成。上图为吴恩达讲解小数据集一致性的重要性。需要多少数据?数据质量不容忽视,但数据量也至关重要。研究人员必须有足够的数据支持才能解决问题。深度网络具有低偏差和高方差的特性,我们可以预见更多的数据可以解决方差问题。但是多少数据就足够了?这个问题目前很难回答,但我们可以考虑将拥有大量数据作为优势,而不是要求。如果您采用以数据为中心的方法,请记住以下几点:确保您的数据在整个ML项目周期中保持一致;始终如一地标记您的数据;对结果作出反应;做错误分析;并消除噪声样本。那么,我们在哪里可以找到高质量的数据集呢?这里推荐几个网站,第一个是Kaggle:在Kaggle中,你会找到做数据科学工作所需要的所有代码和数据,Kaggle拥有超过50,000个公共数据集和400,000个公共笔记本,你可以快速完成任务。其次是Datahub.io:Datahub是一个主要专注于商业和金融的数据集平台。DataHub目前提供许多数据集,例如国家、人口和地理边界的列表。最后,GravitiOpenDatasets:Graviti是一个新的数据平台,为计算机视觉提供高质量的数据集。个人开发人员或组织可以轻松访问、共享和更好地管理开放数据。