在接受IEEESpectrum采访时,他谈到了对基本模型、大数据、小数据和数据工程的一些见解,并给出了发起“以数据为中心的AI”运动的原因。“过去十年,代码-神经网络架构已经非常成熟,保持神经网络架构固定不变,想办法改进数据,效率会更高。”吴恩达表示,他以数据为中心的思想受到了很多人的批评,批评与他发起谷歌大脑项目、支持构建大规模神经网络动作时一样:想法不新,方向不对。据吴教授介绍,批评者中不乏业内资深人士。对于小数据,吴教授认为它也可以很强大:“只要你有50个好的数据(例子),就足以向神经网络解释你想让它学习什么。”改变编译的本意。IEEE:过去十年,深度学习的成功来自大数据和大模型,但有人认为这是一条不可持续的道路。你同意这个观点吗?吴恩达:好问题。我们已经看到了基础模型在自然语言处理(NLP)领域的威力。老实说,我对更大的NLP模型以及在计算机视觉(CV)中构建基本模型感到兴奋。视频数据中有很多信息可以利用,但由于计算性能和视频数据处理成本的限制,目前还无法建立相关的基础模型。大数据和大模型作为深度学习引擎已经成功运行了15年,至今依然生机勃勃。话虽如此,在某些场景下,我们也看到了大数据并不适用,“小数据”才是更好的解决方案。IEEE:您提到的CV基础模型是什么意思?吴恩达:指的是在大数据上训练出来的非常大规模的模型,使用的时候可以针对具体的应用进行微调。是我在斯坦福的朋友创造的一个名词,比如GPT-3就是NLP领域的基础模型。基础模型为开发机器学习应用提供了新的范式,前景广阔,但也面临着挑战:如何保证合理性、公平性、公正性?随着越来越多的人在基本模型之上构建应用程序,这些挑战将变得更加明显。IEEE:创建CV基本模型的机会在哪里?吴恩达:目前还存在可扩展性问题。与NLP相比,CV需要更多的计算能力。如果你能生产出性能比现在高10倍的处理器,你就可以轻松构建一个包含10倍视频数据的基本视觉模型。目前,已经有在CV中开发基础模型的迹象。说到这里,我想提一下:在过去的十年里,深度学习的成功更多发生在面向消费者的公司,这些公司的特点是拥有庞大的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。IEEE:这让我想起了你在一家拥有数百万用户的面向消费者的公司的早年经历。AndrewNg:十年前,当我发起GoogleBrain项目并使用Google的计算基础设施构建“大”神经网络时,引起了很多争议。当时,一位业内资深人士“悄悄”告诉我,开始谷歌大脑项目对我的职业生涯不利,我不能只关注大规模,而是要关注架构创新。我还记得我和我的学生发表的第一篇NeurIPSworkshop论文就提倡使用CUDA。但是另一位业内资深人士劝告我:CUDA编程太复杂了,用它作为编程范式工作量太大。我试图说服他,但我失败了。IEEE:我想他们现在都被说服了。吴恩达:我认为是的。在过去的一年里,我一直在讨论以数据为中心的AI,遇到了和10年前一样的评论:“没什么新意”、“这是错误的方向”。IEEE:您如何定义“以数据为中心的AI”,为什么将其称为运动?吴恩达:“以数据为中心的人工智能”是一门系统学科,旨在关注构建人工智能系统所需的数据。对于一个AI系统来说,需要先用代码实现算法,然后在数据集上进行训练。得益于过去十年人们一直遵循的“下载数据集,改进代码”范式,深度学习取得了巨大的成功。但对于很多应用来说,代码-神经网络架构已经基本解决,不会成为主要难点。因此,保持神经网络架构固定并寻找改进数据的方法会更有效。当我第一次提到这个的时候,很多人都举手表示赞同:我们20年来一直在按照“套路”做事,凭着直觉做事。是时候把它变成一门系统的工程学科了。“以数据为中心的人工智能”比一家公司或一组研究人员要大得多。当我和我的朋友在NeurIPS组织了一个“以数据为中心的人工智能”研讨会时,我对出席的作者和演讲者的数量感到非常满意。IEEE:大多数公司只需要少量数据,那么“以数据为中心的人工智能”如何帮助他们?吴恩达:我曾经用3.5亿张图片搭建人脸识别系统,大家可能经常听到用百万张图片搭建视觉系统的故事。然而,这些规模的产品架构无法构建只有50张图片的系统。事实证明。如果你只有50张高质量的图像,你仍然可以产生非常有价值的东西,比如缺陷系统检测。在很多行业中,大数据集是不存在的,所以我认为目前必须将重点转移到“从大数据到高质量数据”。事实上,只要你有50个好的数据(例子),就足以向神经网络解释你想让它学习什么。吴恩达:50张图片训练出什么样的模型?是微调一个大模型,还是一个全新的模型?吴恩达:先说说LandingAI的工作。在给厂商做视觉检测的时候,我们经常会用到训练好的模型RetinaNet,预训练只是其中的一小部分。一个更困难的问题是提供工具,使制造商能够以相同的方式挑选和标记正确的图像集以进行微调。这是一个非常现实的问题,无论是在视觉、NLP还是语音中,连标注者都不愿意手动标注。在使用大数据时,如果数据不均匀,常见的处理方式是获取大量数据,然后使用算法进行平均处理。但是,如果能够开发出一些工具来标记数据中的差异,并提供非常有针对性的方法来提高数据的一致性,这将是实现高性能系统的更有效途径。例如,如果您有10,000张图像,每组30张,则这30张图像的标签是不一致的。我们正在尝试做的一件事是构建工具,使您能够专注于这些不一致之处。然后,您可以非常快速地重新标记这些图像以使其更加一致,从而提高性能。IEEE:如果可以在训练前更好地设计数据,您认为这种对高质量数据的关注是否有助于解决数据集偏差?吴恩达:很有可能。许多研究人员指出,有偏见的数据是可能导致系统出现偏见的众多因素之一。事实上,在设计数据方面已经付出了很多努力。OlgaRussakovsky在NeurIPS研讨会上就此问题发表了精彩演讲。我也非常喜欢MaryGray在会议上的演讲,他提到“以数据为中心的AI”是解决方案的一部分,但不是整个解决方案。DatasheetsforDatasets等新工具似乎也是其中的重要组成部分。“以数据为中心的人工智能”为我们提供的强大工具之一是能够对单个数据子集进行工程设计。想象一个机器学习系统经过训练可以在大部分数据集上表现良好,但只偏向于数据的一个子集。这时候,为了提高这个子集的性能而改变整个神经网络架构是相当困难的。但是,如果只对数据的一个子集进行设计,则可以更有针对性地解决问题。IEEE:您所说的数据工程具体指的是什么?吴恩达:在人工智能领域,数据清洗非常重要,但数据清洗的方式往往需要人工解决。在计算机视觉中,有人可能会通过Jupyternotebook可视化图像来查找和解决问题。但我对可以处理非常大的数据集的工具很感兴趣。即使标签很嘈杂,这些工具也能快速有效地将您的注意力吸引到数据的单个子集,或者迅速将您的注意力吸引到100人中的一组,在这些组中收集更多数据会更有帮助。收集更多数据通常是有帮助的,但如果所有工作都涉及收集大量数据,则成本可能会非常高。例如,我曾经发现一个语音识别系统在背景中有汽车噪音时表现不佳。知道了这一点,我就可以在汽车噪音的背景下收集更多数据。并非所有工作都涉及收集更多数据,处理这些数据可能既昂贵又耗时。IEEE:使用合成数据会是一个好的解决方案吗?AndrewNg:我认为合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上,AnimaAnandkumar就合成数据发表了精彩演讲。我认为合成数据的重要用途不仅仅是在预处理中加入学习算法数据集。我希望看到更多工具允许开发人员使用合成数据生成作为机器学习迭代开发闭环的一部分。IEEE:你的意思是合成数据允许你在更多数据集上尝试模型?AndrewNg:不是真的。例如,智能手机上有许多不同类型的缺陷,如果您想检测智能手机外壳的缺陷,可能是划痕、凹痕、凹坑、材料变色或其他类型的缺陷。如果你训练一个模型,然后通过误差分析发现它总体上表现不错,但在坑痕上表现很差,那么合成数据的生成可以让你更有针对性地解决这个问题。您可以为pitmark类别生成更多数据。IEEE:您能举出具体的例子吗?如果有公司来LandingAI,说目测有问题,你怎么说服他们?你会给出什么样的解决方案?AndrewNg:合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。例如,使用数据增强来提高标签的一致性,或者只是要求制造商收集更多数据。当客户来找我们时,我们通常会先与他们谈论他们的检测问题,并通过查看一些图像来验证该问题在计算机视觉方面是否可行。如果可行,我们会要求他们将数据上传到LandingLens平台。我们建议他们并帮助他们标记他们的数据,通常基于“以数据为中心的AI”方法。LandingAI的重点之一是让制造企业自己完成机器学习工作。我们的很多工作都是为了软件的易用性。通过机器学习的迭代开发,我们为客户提供了很多关于如何在平台上训练模型,如何改进数据标注问题来提升模型性能的建议。我们的培训和软件贯穿整个过程,直到将经过培训的模型部署到工厂的边缘设备。IEEE:那么您如何应对不断变化的需求?如果产品发生变化或工厂内的照明条件发生变化,模型是否会适应?AndrewNg:这取决于制造商。很多情况下是有数据漂移的,但也有一些厂商,20年一直在同一条线上,变化不大,所以他们不期望未来5年发生变化,环境稳定了,事情就容易起来了.对于其他制造商,我们还提供工具来标记出现的大数据漂移问题。我发现让制造业客户能够自主更正数据、重新训练和更新模型非常重要。例如,在美国是凌晨3:00。一旦有变化,希望他们能马上自己调整学习算法来维持运行。在消费软件互联网中,我们可以训练少量的机器学习模型来服务十亿用户。在制造业中,您可能有10,000家制造商定制10,000个AI模型。挑战在于,LandingAI如何在不雇佣10,000名机器学习专家的情况下做到这一点?IEEE:所以为了提高质量,必须授权用户训练自己的模型?AndrewNg:是的,没错!这是一个全行业的人工智能问题,而不仅仅是制造业。比如在医疗领域,各个医院的电子病历格式略有不同。如何训练和定制自己的人工智能模型?期望每个医院IT人员都重新发明神经网络架构是不现实的。因此,必须构建工具,使用户能够通过为他们提供工具来设计数据和表达他们的领域知识来构建自己的模型。IEEE:您还有什么需要读者知道的吗?吴恩达:过去十年,人工智能最大的变化是深度学习,未来十年,我觉得会转向以数据为中心。随着神经网络架构的成熟,对于很多实际应用来说,“如何获取和开发所需的数据”都会存在瓶颈。以数据为中心的人工智能在社区中有着巨大的能量和潜力,希望更多的研究者加入进来!
