当前位置: 首页 > 科技观察

数据管理已经成为人工智能发展的头号瓶颈

时间:2023-03-18 17:05:10 科技观察

对于基础设施来说,真正的大兆头是容易被忽视。它表现得越好,我们对它的思考就越少。例如,只有当我们发现自己难以连接时,才会想到移动基础设施的重要性。就像我们沿着一条崭新的、刚铺好的公路行驶一样,我们很少去想这条路,因为它在我们的车轮下静静地经过。另一方面,维护不善的高速公路通过我们遇到的每一个坑洼、草皮和颠簸提醒我们它的存在。基础设施只有在缺失、不足或损坏时才需要我们的关注。在计算机视觉领域,基础设施——或者更确切地说,它所缺乏的——是许多人现在关心的。计算为基础设施设定了标准支撑每个AI/ML项目(包括计算机视觉)的是三个基本的发展支柱——数据、算法/模型和计算。在这三大支柱中,计算是迄今为止基础设施最强大、最稳固的支柱。经过数十年的专注企业投资和开发,云计算已成为跨企业IT环境的IT基础设施的黄金标准——计算机视觉也不例外。在“基础设施即服务”模式下,近20年来,开发人员一直享受着按需、即用即付的方式访问不断增长的计算能力管道。同时,它通过显着提高敏捷性、成本效率、可扩展性等,彻底改变了企业IT。随着专用机器学习GPU的出现,可以肯定地说计算机视觉基础架构堆栈的这一部分仍然存在并且运行良好。如果我们希望看到计算机视觉和人工智能发挥其全部潜力,明智的做法是使用计算作为其余CV基础架构堆栈所基于的模型。模型驱动开发的沿袭和局限性直到最近,算法和模型开发一直是计算机视觉和人工智能发展的驱动力。在研究和商业开发方面,该团队多年来一直努力工作,测试、修补和逐步改进AI/ML模型,并在Kaggle等开源社区分享他们的进展。通过专注于算法开发和建模,计算机视觉和人工智能领域在新千年的前二十年取得了长足进步。然而,近年来,这一进展有所放缓,因为以模型为中心的优化违反了收益递减规律。此外,以模型为中心的方法有几个局限性。例如,您不能使用相同的数据进行训练,然后再训练模型。以模型为中心的方法还需要在数据清理、模型验证和培训方面进行更多的体力劳动,这可能会占用宝贵的时间和资源来完成更具创新性的创收任务。如今,通过HuggingFace等社区,CV团队可以免费和开放地访问大量复杂和大规模的算法、模型和架构,每个算法、模型和架构都支持不同的核心CV功能——从对象识别和面部特征识别到姿势估计和特征匹配。这些资产已经变得非常接近人们想象的“现成”解决方案——为计算机视觉和AI团队提供现成的白板,以针对任意数量的专业任务和用例进行培训。正如手眼协调等基本人类能力可以在各种不同的技能(从打乒乓球到投球)中应用和训练一样,这些现代机器学习算法也可以通过训练来执行一系列特定应用。然而,当人类通过多年的实践和汗水变得专业化时,机器通过数据训练做到这一点。以数据为中心的人工智能和大数据瓶颈这促使许多人工智能领域的领军人物呼吁进入深度学习发展的新时代——一个以数据为主要进步引擎的时代。就在几年前,吴恩达等人宣布以数据为中心是人工智能发展的方向。在这短短的时间里,这个行业蓬勃发展。在短短几年内,出现了许多新颖的计算机视觉商业应用和用例,涵盖了广泛的行业——从机器人和AR/VR,到汽车制造和家庭安全。最近,我们使用以数据为中心的方法对汽车中的手动方向盘检测进行了研究。我们的实验表明,通过将这种方法与合成数据结合使用,我们能够识别并生成训练数据集中缺少的特定边缘情况。Datagen为手持式方向盘测试生成合成图像(图片来源:Datagen提供)虽然计算机视觉行业对数据议论纷纷,但并非所有议论都是欣喜若狂。虽然该领域已经确定数据是前进的方向,但在此过程中存在许多障碍和陷阱,其中许多阻碍了CV团队。最近对美国计算机视觉专业人士的一项调查显示,该领域受到长期项目延迟、非标准化流程和资源短缺的困扰——所有这些都是由数据推动的。在同一项调查中,99%的受访者表示至少有一个CV项目因训练数据不足而被无限期取消。到目前为止,即使是幸运的1%避免了项目取消,也无法避免项目延误。在调查中,每一位受访者都报告说,由于培训数据不足或不足,项目出现了严重的延误,80%的报告延误持续了3个月或更长时间。归根结底,基础设施的目的是一种实用工具——促进、加速或交流。在一个严重延误只是做生意的一部分的世界里,很明显缺少一些重要的基础设施。传统训练数据挑战基础设施然而,与计算和算法不同,AI/ML发展的第三支柱不适合基础设施化——尤其是在计算机视觉领域,数据量大、杂乱无章、收集和管理是时间和资源密集型的.虽然有许多标记的、免费的在线视觉训练数据数据库(例如现在著名的ImageNet数据库),但事实证明,它们本身不足以作为商业CV开发中的训练数据来源。这是因为,与通过设计进行概括的模型不同,训练数据本质上是特定于应用程序的。数据是将给定模型的一个应用程序与另一个应用程序区分开来的东西,因此必须不仅对特定任务是唯一的,而且对执行该任务的环境或上下文也必须是唯一的。与可以以光速生成和访问的计算能力不同,传统的视觉数据必须由人类创建或收集(通过在现场拍摄照片或在互联网上搜索合适的图像),然后由人工精心清理和标记人(这是一个容易出现人为错误、不一致和偏见的过程)。这就提出了一个问题,“我们如何制作既适用于特定应用程序又易于商品化(即快速、廉价和通用)的数据可视化?”尽管这两种品质似乎不一致,但潜在的解决方案已经出现;作为调和这两种基本但看似不相容的品质的一种方式,它显示出巨大的希望。通往合成数据和完整CV堆栈的路径计算机视觉(CV)是现代AI的领先领域之一。为特定应用程序的可视化大规模制作训练数据以节省时间和资源的唯一方法是使用合成数据。对于那些不熟悉这个概念的人来说,合成数据是人类生成的信息,旨在忠实地代表现实世界中的一些等价物。就视觉合成数据而言,这意味着以静止图像或视频的形式呈现逼真的计算机生成的3D图像(CGI)。为了应对数据中心时代出现的许多问题,围绕合??成数据生成开始形成一个新兴行业——一个不断壮大的中小型初创企业生态系统,提供利用合成数据解决上述问题的解决方案。一系列的痛点。这些解决方案中最有前途的是使用AI/ML算法生成逼真的3D图像,并为每个数据点自动生成相关的地面实况(即元数据)。因此,合成数据消除了通常长达数月的手动标记和注释过程,同时也消除了人为错误和偏见的可能性。在我们的论文(发表于NeurIPS2021)“UncoveringCrowdBiasinFacialLandmarkDetectionUsingtheSyntheticData”中,我们发现要分析经过训练的模型的性能并找出其弱点,必须留出一部分数据用于测试。测试集必须足够大,才能检测出与目标人群的所有相关子组相关的统计显着偏差。这个要求可能很难满足,尤其是在数据密集型应用程序中。我们建议通过生成综合测试集来克服这一困难。我们使用人脸界标检测任务来验证我们的提议,方法是证明在真实数据集上观察到的所有偏差也可以在精心设计的合成数据集上看到。这表明合成测试集可以有效地检测模型的弱点,克服真实测试集在数量或多样性方面的局限性。如今,初创公司正在为企业CV团队提供成熟的自助服务合成数据生成平台,以减轻偏见并允许扩展数据采集。这些平台允许企业CV团队在计量、按需的基础上生成特定于用例的培训数据——弥合使传统数据不适合基础设施的特异性和规模之间的差距。计算机视觉所谓“数据管家”的新希望对于计算机视觉领域来说,这无疑是一个激动人心的时刻。但是,就像任何其他不断变化的领域一样,现在是充满挑战的时代。聪明才智涌向充满创意和热情的领域,却发现自己因缺乏足够的数据管道而受阻。该领域效率低下,据说今天的数据科学家是一个三分之一的组织已经在与技能差距作斗争的领域,我们不能浪费宝贵的人力资源。合成数据为真正的训练数据基础设施打开了大门——有一天,它可能就是打开水龙头喝一杯水或提供计算所需要的一切。对于全世界的数据管理员来说,这肯定是一种受欢迎的茶点。