目前人工智能领域的大趋势是什么?没错,就是扩大数据集的规模。然而,Geogle最近的一篇研究论文认为,组织非常大的数据集的趋势将阻碍人工智能系统的有效发展。数据规模真的越大越好吗?算力和数据是人工智能的两大驱动力。无论是计算机视觉还是自然语言处理,人工智能系统似乎都离不开数据集。在超大规模数据时代,数据与学习结果的关系如下:数据规模越大,AI模型越准确、越高效。在大多数人看来,这似乎是不争的事实。数据大小和模型精度之间真的存在正相关关系吗?最近发表在GeogleResearch上的一篇论文对这种普遍持有的观点提出了质疑。规模大了,“饱和”无处不在!这篇名为Expolringthelimitsofpre-trainingmodel的文章挑战了机器学习效果和数据关系的现有假设。实验得出的结论是,无论是通过扩大数据规模还是超参数来提升上游性能,下游都可能出现“饱和”现象。所谓饱和就是……要知道,没有梯度信号传入神经元,无法接收到权重和数据,所以网络很难学习。为了证明饱和效应的想法,作者在视觉变形器、ResNets和MLP-blenders上进行了4800次实验,每个实验都有不同数量的参数,从1000万到100亿,都在state-of-the-各自领域的最先进技术。用于训练的容量数据集,包括ImageNet21K和谷歌自己的JFT-300M。文章中还提到了一种极端情况,即上下游性能出现矛盾,也就是说,想要获得更好的下游性能,可能要牺牲上游任务的准确性。这一假设一旦得到验证,就意味着“非常大规模”的数据集,例如最近发布的LAION-400M(包含4亿个文本/图像对),以及GPT-3神经语言引擎背后的数据(包含1750亿个参数),可能受限于传统机器学习的架构和方法。大量的数据可能会使下游任务饱和并降低其泛化能力。其实前面的假设也不完全是“废话”,而是要加一个条件:给定数据大小的超参数必须是一个比较简单的线性函数关系,而且是一个固定值。鉴于有限的计算资源和经济成本等问题,之前的研究范围较小,导致对数据集和有效人工智能系统之间关系的理解不完整。事实证明,过度概括是一个普遍的问题!其实,哪有那么简单?文章还反驳称,“此前关于数据规模论证有效性的研究,只是在有限的范围内进行,因此无法得出结论。”原来真相就在眼前!上下游关系不简单!以前的研究提出了基于线性函数假设的对数关系。但是,经过研究,发现是这样的。从图中可以发现下游任务会在某些点饱和。但这些“饱和点”并不是固定的。因此,文章推论上下游之间的关系是非线性的。数据和模型规模的扩展可以提高上游性能。但是由于这种非线性关系的存在,在提高上游精度的同时,却无法保证下游的精度。预训练模型不允许人们“设置后忘记”!本文讨论了“预训练”的实践,这是一种旨在节省计算资源并减少从头开始训练大规模数据所需时间的措施。预训练可以显着提高模型的鲁棒性和准确性。但新论文表明,即使在相对较短的预训练模板中,考虑到特征的复杂性,预训练模型也不适合所有情况。如果研究人员继续依赖预训练模型,可能会影响最终结果的准确性。该论文最后说,“我们不能指望找到适合所有下游任务的预训练模型。”秤的准确度如何?GeogleResearch的研究结果勇敢地对这一结论说“不”,着实让人眼前一亮!是否会给整个人工智能研究领域带来突破性进展?或许这会引发更多的相关研究,不知不觉又会掀起一波又一波的“浪潮”?让我们来看看!
