当前位置: 首页 > 科技观察

小数据,大前景!美国智库最新报告:被忽视已久的小数据人工智能潜力不可估量

时间:2023-03-15 19:14:06 科技观察

本文转载自雷锋网。2021年9月,安全与新兴技术中心(CSET)发布了一份研究报告《小数据人工智能的巨大潜力》(SmallData’sBigAIPotential)。报告指出一点:长期以来被忽视的小数据(SmallData)的人工智能潜力不可估量!论文地址:https://cset.georgetown.edu/publication/small-datas-big-ai-potential/传统观点认为大量的数据支撑着前沿人工智能的发展,大数据一直是被视为一个成功的机器学习项目的关键。但AI≠大数据,研究指出,在制定规则时,如果——人工智能依赖海量数据,数据是必不可少的战略资源,获得的数据量决定了一个国家(或公司)——作为永恒的真理,会“误入歧途”。由于当前环境过分强调大数据而忽视小数据人工智能的存在,低估了其不需要大量标记数据集或数据收集的潜力,研究人员“缩短了人工智能与人工智能之间的能力差距”。大实体和小实体,减少个人数据的收集,促进数据稀缺领域,避免脏数据问题”说明了“小数据”方法的重要性。1.什么是小数据方法?小数据方法是一种只需要少量数据集进行训练的人工智能方法,适用于数据量较小或没有标记数据的情况,减少对人收集大量真实世界数据集的依赖。“小数据””这里提到的并不是一个明确的类别,也没有正式的、公认的定义。学术文章在讨论小数据与应用领域的相关性时,往往指的是o样本大小,例如千字节或兆字节与TB数据。对许多数据的引用最终成为通用资源。然而,数据是不可替代的,不同领域的人工智能系统需要不同类型的数据和方法,这取决于要解决的问题。本文主要从决策者的角度讲“小数据”。政府代理人通常被视为人工智能领域潜在的强大参与者,因为他们更了解社会的运作方式,并且可以访问大量数据——例如气候监测数据、地质调查、边境管制、社会保障、选民登记、车辆和司机记录等。人口众多,数据收集能力强,被认为是一个国家人工智能竞争力的重要因素。一些美国人认为,政府只有能够对海量数据进行数字化、清洗和标记,才能从人工智能革命中获益。虽然这有一定道理,但将人工智能的进步归因于这些条件是有偏见的。因为人工智能的未来不仅仅与大数据有关,即使政府不加大对大数据基础设施的投入,人工智能的创新依然可以诞生。2.“小数据”方法的分类“小数据”方法大致可以分为五类:a)迁移学习,b)数据标注,c)人工数据生成,d)贝叶斯方法,e)强化学习。迁移学习的工作原理是首先在数据丰富的环境中执行任务,然后将学到的知识“迁移”到可用数据稀缺的任务中。例如,开发者想做一个识别稀有鸟类的应用程序,但每只标有该物种的鸟类的照片可能只有几张。使用迁移学习,他们首先使用更大、更通用的图像数据库(例如ImageNet)训练基本图像分类器,该数据库拥有数百万张标记有数千个类别的图像。一旦分类器可以区分狗和猫、花和水果、麻雀和燕子,它们就可以为它提供更小的稀有鸟类数据集。然后,该模型可以“转移”图像分类知识,使用该知识从更少的数据中学习新任务(识别稀有鸟类)。数据标注适用于标注数据有限,未标注数据较多的情况。使用自动生成的标签(自动标记)或识别标签有用的数据点(主动学习)来处理未标记的数据。例如,主动学习已被用于皮肤癌诊断的研究。图像分类模型最初是在100张照片上训练的,这些照片根据它们的描述被标记为癌性皮肤或健康皮肤。然后该模型可以访问更大的一组潜在训练图像,它可以从中选择100张额外的照片来标记并添加到它的训练数据中。人工数据生成是通过创建新的数据点或其他相关技术,最大限度地从少量数据中提取更多信息的过程。举个简单的例子,计算机视觉研究人员已经能够使用计算机辅助设计软件(CAD)——一种用于从造船到广告等行业的工具——生成日常物体的逼真3D图像,然后使用这些图像来增强现有图像数据集。当感兴趣的数据只有一个信息源时,这种方法更可行,例如本例中的众包CAD模型。生成额外数据的能力不仅在处理小数据集时有用。任何个人数据的细节都可能是敏感的(例如个人的健康记录),但研究人员只对数据的整体分布感兴趣。这时候,人工数据的优势就显现出来了,可以对数据进行随机更改,从而抹去私人痕迹,更好地保护个人隐私。贝叶斯方法(Bayesianmethods)通过统计学和机器学习将关于问题的架构信息(“先验”信息)纳入问题解决方法。它与大多数机器学习方法形成鲜明对比,倾向于对问题做出最少的假设,在数据有限的情况下更适用,但可以将有关问题的信息写成高效的数学形式。贝叶斯方法侧重于对预测中的不确定性产生经过良好校准的估计。举个利用小数据进行贝叶斯推理的例子:贝叶斯方法被用于监测全球地震活动,这对于检测地壳运动和核条约具有重要意义。通过开发包含地震学先验知识的模型,研究人员可以利用现有数据来改进模型。贝叶斯方法是一大类,而不仅仅是擅长处理小数据集的方法。一些关于它的研究也使用了大型数据集。强化学习是一个广义术语,指的是代理(计算机系统)通过反复试验学习与其环境交互的机器学习方法。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。例如,强化学习已被用于训练学习如何玩视频游戏的AI系统——从Pong等简单的街机游戏到StarCraft等战略游戏。系统开始时对玩游戏知之甚少或一无所知,但通过尝试和观察来学习,以找出奖励信号出现的原因。(在视频游戏示例中,奖励信号通常以玩家分数的形式出现。)强化学习系统通常从大量数据中学习并需要大量计算资源,因此将它们包含在这一类中似乎并不直观。包括强化学习是因为它们使用通常在系统训练时生成的数据——通常是在模拟环境中——而不是预先收集和标记。在强化学习问题中,代理与其环境交互的能力至关重要。图1显示了这些不同区域是如何相互连接的。每个点代表一个研究集群(一组论文),被确定为属于上述类别之一。连接两个研究集群的线的粗细表示它们之间引文链接的相关性。没有行表示没有引文链接。如图所示,簇与同类型的簇之间的连接最多,但不同类型的簇之间也有很多连接。从图中也可以看出,“强化学习”识别出的聚类形成了特别连贯的分组,而“人工数据”聚类则更加分散。图1为小数据研究集群网络图来源:CSETConsolidatedAcademicLiteratureCorpus,截至2021年2月12日。3.“小数据”方法的重要性是什么?1.缩小大小实体之间的人工智能能力差距大型数据集对人工智能应用的价值不断增长,不同机构在收集、存储和处理数据方面的能力差距令人担忧。这也拉大了人工智能的“富人”(比如大型科技公司)和“穷人”之间的差距。如果能将迁移学习、自动标注、贝叶斯方法等应用到数据量小的人工智能中,小实体在数据方面的进入门槛将大大降低,可以缩小大小实体之间的能力差距实体。2.减少收集个人数据大多数美国人认为人工智能会吞噬个人隐私空间。例如,大型科技公司正在收集越来越多的个人身份消费者数据来训练他们的人工智能算法。一些小数据方法可以减少个人数据的收集,人工生成新数据(如合成数据生成)或使用模拟训练算法,一种不依赖个人生成数据,另一种有合成数据去识别敏感个体属性能力。虽然没有解决所有隐私问题,但它通过减少大规模收集真实世界数据的需要,使机器学习的使用变得更加容易,从而消除了对大规模收集、使用或披露消费者数据的担忧。3.促进数据匮乏地区的发展可用数据的爆炸式增长推动了人工智能的新发展。但对于许多紧迫的问题,很少或根本没有数据可以输入人工智能系统。例如,构建算法来预测没有电子健康记录的人的疾病风险,或预测活火山突然喷发的可能性。小数据方法提供了一种处理丢失或稀缺数据的原则性方法。它可以利用标记和未标记的数据从相关问题中转移知识。小数据还可以从少量数据点创建更多数据点,依赖于相关领域的先验知识,或者通过构建模拟或编码结构假设来开始新领域的冒险。4.避免脏数据问题小数据方法可以使受“脏数据”困扰的大型组织受益。数据一直都在那里,但在干净、结构良好且易于分析之前还有很长的路要走。例如,由于数据基础设施和遗留系统的孤立,美国国防部拥有数不胜数的“脏数据”,需要耗费大量的人力和物力对数据进行清理、标记和整理以“净化”。在小数据方法中,数据标注可以通过自动生成标签更容易地处理大量未标注的数据。迁移学习、贝叶斯方法或人工数据方法可以分别基于相关数据集、结构化模型和合成数据,通过减少需要清理的数据量来显着减少脏数据问题的规模。对于从事AI工作的政策制定者来说,清楚地了解数据在AI发展中可以发挥的作用以及它不能完成的工作至关重要。上述因素并不适用于所有方法。例如,强化学习通常需要大量数据,但这些数据是在训练期间生成的(例如,当AI系统移动机械臂或在虚拟环境中导航时)并且不会预先收集。4.研究进展从研究量来看,过去十年五种“小数据”方法的曲线变化有着不同寻常的轨迹。如图2所示,强化学习和贝叶斯方法是论文数量最多的两个类别。贝叶斯聚类的论文数量在过去十年中稳步增长,而强化学习相关集群的论文数量在2015年才开始增加,并且在2017-2019年期间增长尤为迅速。因为深度强化学习直到2015年一直处于瓶颈期,经历了技术变革。相比之下,每年集群发表的人类数据生成和数据标注研究论文的数量在过去十年中很少见。最后,迁移学习类别的论文数量在2010年较低,但在2020年增长显着。图2.2010-2020年小数据出版物的趋势资料来源:CSETConsolidatedCorpusofAcademicLiterature,截至2021年2月12日。出版物的绝对数量并不代表论文的质量。因此,研究人员使用两个指标来衡量每个类别集群中的论文质量:H指数和年龄校正引文。H指数是一种常用的指标,表示论文的发表活动和总引用次数。H-index的一个局限性是它没有考虑论文的年龄(即越老的论文有更多时间积累引用的事实)。H指数低估了尚未收集引用的新发表论文中最具影响力的集群。为了针对上述问题进行调整,图3还绘制了经过年龄校正的引文。仅就H-index而言,强化学习和贝叶斯方法大致相当,但考虑到论文的时间框架,强化学习脱颖而出。在五种“小数据”方法中,贝叶斯方法的累积影响似乎更高,强化学习由于其最近在论文输出和引用影响方面的激增而处于领先地位。图3.2010-2020年按类别划分的H指数和调整后的引文来源:CSET学术文献综合语料库,截至2021年2月1日。但如果认为强化学习是增长最快的领域,那就大错特错了过去十年。更仔细地观察每个类别随时间的增长,图4清楚地表明,在2011年到2020年之间,迁移学习的增长最为稳定(有两个例外),而其他所有年份的增长最快。该图还显示了过去五年人类数据生成所取得的增长,这在图3中不太明显,因为该类别的论文总数很少。然而,2012年至2015年期间的增长数字也出现了最大跌幅,因此很难根据该品类的增长轨迹得出具体结论。图4.2011-2020年各类别同比增长资料来源:CSET学术文献综合语料库,截至2021年2月12日。图5将每个类别的三年增长预测与另一类别的“AlReview”进行了比较论文,使用CSET开发的预测模型。如图所示,迁移学习是唯一预计增长速度超过整体人工智能研究的类别,远远超过所有其他类别,与前几年的持续增长一致。图5.到2023年按类别的增长预测资料来源:CSET学术文献综合语料库,截至2021年2月12日。注:未来增长指数是根据CSET对研究集群增长的预测计算的。五、国家竞争力通过观察世界前10个国家在各个方法上的研究进展,可以推导出小数据方法的国家竞争力。使用简单的衡量标准,例如发表的论文数量和按年龄调整的引用次数,可以初步了解各国相对于五种“小数据”方法所处的位置。与人工智能研究的总体结果一致,中国和美国是“小数据”集群中排名前两位的研究论文,其次是英国。中国在数据标注和迁移学习方法领域的学术论文总数遥遥领先,而美国在贝叶斯方法、强化学习和人工数据生成方面具有优势。除美国和中国外,小数据研究排名前10位的国家都是美国的盟友或伙伴,俄罗斯等国家明显缺席。当前学术界常用论文的引用量是通过研究的质量和影响来衡量的。中国在所有小数据类别的年调整引文中排名第二,在贝叶斯方法中跌至第七位。图6显示了各国的三年增长预测。相对于美国和世界其他地区,中国迁移学习方法的增长预计将大大提高。如果这个测试是准确的,就意味着中国在迁移学习方面会发展得更快、更远。图6.美国、中国和世界其他地区(ROW)到2023年按类别分类的增长预测资料来源:CSET学术文献综合语料库,截至2021年2月12日。6.资金研究人员分析了可用的资金数据和少量数据方法来确定研究集群中资助论文的实体类型的估计。以上调查结果,只有约20-30%的论文有资助信息。政府人员通常是政府、企业、学术界和非营利组织所有领域研究的重要资助者。在全球范围内,政府资助在“小数据”方法集群中所占的比例远高于整个AI领域。如图7所示,在所有五个类别中,与AI研究的整体资助细目相比,政府资助的份额非常高。与通常用于人工智能的其余资金相比,非营利组织获得的用于小数据研究的资金比例较小。贝叶斯方法的资助模型与一般人工智能最相似。图7.与AI相关的数据方法的资金来源作为一个整体资料来源:CSET学术文献综合语料库,截至2021年2月12日。图8按国家/地区进一步细分了与政府相关的资金信息。研究结果显示,政府对小数据的投入比例总体呈上升趋势,但总体而言,美国政府对小数据研究的资助份额低于其在人工智能方面的份额。在美国,个别机构和公司倾向于提供比整体人工智能研究更大份额的小数据研究。图8.中国、美国和世界其他地区(ROW)对人工智能相关小数据方法的政府资助资料来源:CSET学术文献综合语料库,截至2021年2月12日。7.总结a)人工智能是不等于大数据。b)迁移学习的研究进展迅速,未来迁移学习将得到更有效、更广泛的应用。c)美国和中国在小数据方法方面非常有竞争力。美国在强化学习和贝叶斯方法这两个类别中领先,而中国在增长最快的迁移学习类别中领先并扩大。d)相比目前人工智能领域的整体投资格局,美国在小数据方法上的投资份额较小,因此迁移学习可能是美国政府加大资助的一个有希望的目标。