当前位置: 首页 > 科技观察

人工智能迁移学习如何工作 在AI模型和培训过程起到那些作用_0

时间:2023-03-19 13:51:44 科技观察

AI迁移学习如何工作AI模型和训练如何在一些最复杂的游戏中与人类竞争。直到几年前,所有这些挑战要么被认为是几十年后无法克服的,要么已经得到解决,但结果并不理想。但神经网络和深度学习(过去几年变得非常流行的人工智能的一个分支)的进步帮助计算机解决了这些和许多其他复杂问题。不幸的是,深度学习模型在从头开始创建时需要访问大量数据和计算资源。这是许多人买不起的奢侈品。此外,训练深度学习模型来执行任务需要很长时间,这不适合时间预算短的用例。幸运的是,迁移学习,即使用从一个训练有素的人工智能模型获得的知识到另一个模型的学科,可以帮助解决这些问题。训练深度学习模型的成本深度学习是机器学习的一个子集,是通过训练示例开发AI的科学。但直到最近几年,它们在很大程度上被AI社区斥为效率低下。在过去几年中,大量数据和计算资源的可用性使神经网络成为人们关注的焦点,并使开发能够解决现实世界问题的深度学习算法成为可能。要训??练深度学习模型,您基本上必须向神经网络提供大量带注释的示例。这些例子可能是物体的标记图像或患者的乳房X光扫描及其最终结果。神经网络将仔细分析和比较图像并开发数学模型来表示相似类别图像之间的重复模式。一些大型开源数据集已经存在,例如ImageNet(包含22,000个类别的超过1400万张图像的数据库)和MNIST(包含60,000个手写数字的数据集)。人工智能工程师可以使用这些资源来训练他们的深度学习模型。然而,训练深度学习模型也需要访问非常强大的计算资源。开发人员通常使用CPU、GPU集群或专用硬件(例如Google的张量处理器(TPU))来高效地训练神经网络。购买或租赁此类资源的成本可能超过单个开发人员或小型组织的预算。此外,对于许多问题,没有足够的示例来训练强大的AI模型。迁移学习使深度学习训练的要求大大降低假设一位AI工程师想要创建一个图像分类器神经网络来解决特定问题。工程师可以使用ImageNet等公开可用的数据集,并使用特定领域的照片来增强它们,而不是收集数千张图像。但是人工智能工程师仍然需要支付高昂的费用来租用通过神经网络运行数百万图像所需的计算资源。这就是迁移学习发挥作用的地方。迁移学习是通过微调先前训练的神经网络来创建新的AI模型的过程。开发人员可以下载预训练的开源深度学习模型,并根据自己的目的对其进行微调,而不是从头开始训练他们的神经网络。有许多预训练的基础模型可供选择。流行的例子包括AlexNet、谷歌的Inception-v3和微软的ResNet-50。这些神经网络已经在ImageNet数据集上进行了训练。AI工程师只需要通过使用自己特定领域的示例进一步训练它们来增强它们。迁移学习不需要大量的计算资源。在大多数情况下,台式电脑或笔记本电脑可以在几个小时或更短的时间内微调预训练的神经网络。迁移学习如何工作有趣的是,神经网络以分层方式发展其行为。每个神经网络都由多个层组成。训练后,每一层都经过调整以检测输入数据中的特定特征。例如,在图像分类器卷积网络中,前几层检测一般特征,如边缘、角、圆和颜色斑点。随着您深入网络,这些层开始检测更具体的事物,例如眼睛、面部和完整物体。神经网络的顶层检测一般特征。更深层检测实际物体(来源:arxiv.org)在进行迁移学习时,AI工程师冻结了预训练神经网络的第一层。这些是检测所有域共有的一般功能的层。然后,他们微调更深层以使用自己的示例对其进行微调,并添加新层以对训练数据集中包含的新类别进行分类。预训练和微调的AI模型也分别称为“教师”和“学生”模型。冻结层和微调层的数量取决于源和目标AI模型之间的相似性。如果学生AI模型解决的问题与老师非常接近,则无需微调预训练模型的层。开发人员只需在网络末端添加一个新层,并为新类别训练AI。这称为“深度特征提取”。当目标域中的训练数据很少时,深度特征提取也是可取的。当源和目标之间存在相当大的差异时,或者当有很多训练示例时,开发人员会冻结预训练AI模型中的几个层。然后他们添加新的分类层并使用新示例微调未冻结的层。这称为“中间层特征提取”。如果源AI模型和目标AI模型之间存在显着差异,开发人员将解冻并重新训练整个神经网络。这种称为“全模型微调”的迁移学习也需要大量的训练实例。图片来源:芝加哥大学采用预训练模型并重新训练其所有层似乎很荒谬。但实际上,它节省了时间和计算资源。神经网络中的变量在训练前用随机数初始化,并且它们的值随着训练数据的处理而调整。一个预训练神经网络的变量值已经调整到数以百万计的训练样本。因此,它们是新AI模型的更好起点,该模型想要训练一组新的示例,这些示例甚至与源AI模型有一点相似之处。迁移学习不是灵丹妙药迁移学习以高效且负担得起的方式解决了训练AI模型的许多问题。但是,它也需要权衡取舍。如果预训练的神经网络存在安全漏洞,AI模型将其作为迁移学习的基础并继承这些漏洞。例如,底层模型可能无法抵抗对抗性攻击,在这种情况下,精心设计的输入示例会迫使AI以不稳定的方式改变其行为。如果恶意行为者设法为基本模型开发对抗性示例,他们的攻击将对大多数从该模型派生的AI模型起作用。芝加哥大学、加州大学圣克拉拉分校和弗吉尼亚理工大学的研究人员在去年Usenix安全研讨会上发表的一篇论文中对此进行了说明。此外,在某些领域,例如教AI玩游戏,迁移学习的使用非常有限。这些AI模型经过强化学习训练,强化学习是AI的一个分支,计算量大,需要大量的反复试验。在强化学习中,大多数新问题都是独一无二的,需要自己的.但总而言之,对于大多数深度学习应用程序(例如图像分类和自然语言处理),您很有可能可以通过大量巧妙的迁移学习走捷径。