吴恩达:人工智能是时候从大数据转向“小数据”了。如今,他的重心放在了他的LandingAI公司上。这是一家致力于制造企业数字化转型的初创公司。其创立目标是帮助制造企业更快速、更轻松地构建和部署人工智能系统。对于传统企业来说,预训练模型是基于公开数据,其实是没有用的。但毕竟是传统企业。哪里可以收集到海量的特定数据来支持训练?LandingAI是如何克服这个困难的?近日,吴恩达在接受IEEESpectrum专访时探讨了人工智能领域下一个十年的方向,表达了“是时候从大数据转向小数据和高质量数据了”的观点。或许我们可以找到这个问题的答案。以下为采访原文,略有删节。IEEESpectrum:得益于越来越大的模型和数据集,深度学习在过去十年取得了巨大进步。一些人认为这是一条不可持续的轨迹。你同意?吴:这确实是一个值得思考的问题。NLP领域已经有了一个基础模型(foundationmodel),并且还在不断扩大规模。计算机视觉领域也有构建基础模型的潜力,但在视频领域,由于计算带宽(计算能力)和处理成本的限制,有待开发。虽然扩展深度学习算法的引擎已经运行了大约15年,但它仍有充足的动力。不过,它仅适用于特定问题,并且有一系列场景需要小数据解决方案。注意:基础模型是PercyLiang和Wu在斯坦福大学的一些朋友创造的一个术语,指的是在非常大的数据集上训练的巨大模型,这些数据集可以针对特定应用程序进行调整,例如GPT-3。在过去十年中,拥有庞大用户群(有时达数十亿)的面向消费者的企业已经可以访问非常大的深度学习数据集。这给了他们很大的经济价值,但我发现这条规则并不适用于其他行业。IEEESpectrum:有意思,你曾经在这种公司工作过。吴:确实如此,但是十多年前,当我提出启动谷歌大脑项目,利用谷歌的计算基础设施构建大规模网络时,引起了争议。一位非常资深的人把我拉到一边,警告我这对我的职业生涯不利。我想他的意思是,项目不能只专注于扩展,它应该专注于架构创新。我还记得,当我和我的学生发表第一篇提倡使用CUDA进行深度学习的论文时,另一位AI老手坐下来和我说:“CUDA编程非常复杂。作为一种编程范式,如果这样的话就太有很多工作要做。”IEEESpectrum:我想他们后来肯定都被说服了。吴:对。现在和大家讨论Data-centricAI运动的时候,我也想起了15年前和大家讨论深度学习时的场景。今年,很多人跟我说“方向不对”,“中间好像没什么新鲜事”。IEEESpectrum:您如何定义以数据为中心的人工智能,为什么您将其视为一场运动?吴:以数据为中心的人工智能是构建成功人工智能系统所需数据??的系统学科。对于AI系统,您必须在代码中实现一些算法,然后在您的数据集上进行训练。在过去十年中,主要用例是我们下载数据集,同时专注于改进代码。该模型为深度学习网络带来了重大改进,但其架构基本上表达了一个已解决的问题。因此,对于很多实际应用来说,现在固定神经网络结构,想方设法改进数据,效率会更高。而当我讲到这里的时候,有的同修说:我们已经做了20年了。我想说的是,是时候把这个少数人凭直觉做的事情变成系统的事情了。IEEESpectrum:您之前提到,一些公司或机构只有少量数据可用。以数据为中心的人工智能如何帮助他们?吴:像很多视觉模型都是用几百万张图片搭建的,我也用了3.5亿张图片搭建人脸识别系统。但是这种模型无法在只有50张图像的数据集上运行。但事实证明,如果你有50个非常好的数据,你也可以做出有价值的东西,比如缺陷检测系统。在许多根本不存在庞大数据集的行业中,我认为重点必须从大数据转移到优质数据。拥有50个经过深思熟虑的例子足以向神经网络解释你想让它学习什么。IEEESpectrum:用50张图像训练一个模型是否意味着在一个在大型数据集上训练过的现有模型上对其进行微调?或者它是一个从这个小数据集中学习的全新模型?吴:让我告诉你LandingAI是做什么的。我们在为厂商提供缺陷检测服务时,一般会使用自己风格的RetinaNet。它是一个预训练模型。话虽如此,预训练只是难题的一小部分,更大的问题是提供一种工具,使制造商能够选择正确的图像集(用于微调)并以一致的方式标记图集。面对大数据集的应用,我们通常的反应是,数据有没有噪声不要紧,所有的数据都照原样接受,算法会平均(averageover)。但是,如果我们可以开发工具来标记数据中的不一致,为制造商提供一种非常有针对性的方法来提高数据质量,那将是获得高性能系统的更有效方法。比如你现在有10000张图片,其中30张属于一个类别,但是这30张的标签是不一致的。我们正在尝试做的一件事是构建工具,将您的注意力吸引到这个特定的数据子集,使您能够快速重新标记它们,从而提高模型性能。IEEESpectrum:生成这样的高质量数据集是否有助于消除数据偏差?吴:很有帮助。有偏差的数据是可能导致最终模型出现偏差的众多因素之一。在NeurIPS会议上,MaryGray的演讲谈到了以数据为中心的AI作为解决这个问题的一个(不是全部)解决方案。以数据为中心的人工智能为我们带来的强大功能之一是设计数据子集。想象一下,您训练了一个机器学习模型,它的性能对于大部分数据集都还可以,但只有一个子集有偏差。仅仅为了提高这个子集的性能而改变整个神经网络架构是相当困难的。但如果你能为这个子集构建(工程)合适的数据,解决方案就会更有针对性。IEEESpectrum:构建(工程)数据究竟意味着什么?吴:在AI领域,数据清洗非常重要,但是目前是非常机械化的方式来做。当面对一个非常大的数据集时,这个工具可以迅速将你的注意力吸引到数据中嘈杂的子集上,并专注于这个子集。就像我曾经发现语音识别系统的性能很差,主要是由于背景中的汽车噪音。知道了这一点,我可以用这种背景噪音收集更多数据,而不是对所有事情都采取行动,从而节省金钱和时间。IEEESpectrum:使用合成数据怎么样?这是一个好的解决方案吗?吴:合成数据也是以数据为中心的AI工具集中的重要工具。在NeurIPS研讨会上,AnimaAnandkumar就合成数据发表了精彩演讲。我认为这只是将数据添加到模型的预处理步骤。我希望看到开发人员生成合成数据,作为关闭迭代机器学习模型循环的一部分。IEEESpectrum:你的意思是合成数据允许你在更多不同的数据集上尝试模型?吴:不止于此。假设你想检测智能手机外壳上的瑕疵,包括划痕、凹痕、材料变色等。如果你训练的模型在这个检测任务上表现一般,但在识别凹痕方面表现不佳,那么你可以使用合成数据生成更有针对性的数据来??解决问题。IEEESpectrum:您能具体说一下,当企业找到LandingAI时,您会提供什么样的帮助,比如做目视检查?吴:我们会让他们把数据上传到我们的平台,用以数据为中心的人工智能智能方法给他们建议,帮助他们标注数据。LandingAI的重点是让制造商能够自己进行机器学习,我们的很多工作都是确保软件快速且易于学习。在机器学习的迭代过程中,我们建议客户如何在平台上训练模型,如何以及何时改进数据标签以提高模型性能。IEEESpectrum:如果产品或照明条件发生变化,这个模型能否跟上?吴:所以赋能制造业客户自行修正数据、重新训练和更新模型是非常重要的。在消费互联网,我们只需要训练几个机器学习模型,就可以服务10亿用户。在制造业中,10,000家制造商构建了10,000个定制模型。挑战在于,如何在不聘请10,000名机器学习专家的情况下做到这一点?这个问题存在于医疗保健等其他行业。摆脱这种困境的唯一出路是开发允许客户设计自己的数据、表达领域知识并让他们构建自己的模型的工具。这就是LandingAI在计算机视觉领域所做的事情。IEEESpectrum:最后还有什么想说的吗?吴:过去十年,人工智能最大的转变就是向深度学习的转变。我认为这十年最大的转变可能是转向以数据为中心的人工智能。随着今天神经网络架构的成熟,我认为对于很多实际应用来说,瓶颈将是我们能否高效地获取模型良好运行所需的数据。以数据为中心的AI运动在整个社区拥有巨大的能量和势头。我希望更多的研究人员和开发人员加入并致力于它。
