当前位置: 首页 > 科技观察

2022年的深度学习趋势和问题

时间:2023-03-18 00:03:56 科技观察

我们为人工智能(AI)留下了又一个激动人心的深度学习年——这一年充满了显着的进步、争议,当然还有争议。在我们结束2022年并为2023年做准备时,以下是今年深度学习领域最显着的总体趋势。1.规模仍然是一个重要因素过去几年深度学习一直不变的一个主题是创建更大的神经网络的动力。计算机资源的可用性使得可扩展的神经网络和规模友好的架构(如专用AI硬件、大型数据集和转换器模型)的开发成为可能。目前,公司通过将神经网络扩展到更大的规模来取得更好的结果。在过去的一年里,DeepMind发布了具有2800亿个参数的大型语言模型(LLM)Gopher;Google发布了拥有5400亿个参数的Pathways语言模型(PaLM)和拥有1.2万亿个参数的通用语言模型(GLaM)。);微软和英伟达发布了Megatron-TuringNLG,一个5300亿参数的LLM。规模的一个有趣方面是涌现能力,其中较大的模型可以成功完成较小模型无法完成的任务。这种现象在LLM中特别有趣,随着模型的扩展,模型在更广泛的任务和基准测试中显示出有希望的结果。然而,值得注意的是,即使在最大的模型中,深度学习的一些基本问题仍未解决(稍后会详细介绍)。2.无监督学习继续提供许多成功的深度学习应用程序需要人工标记的训练示例,也称为监督学习。但互联网上提供的大部分数据并没有带有监督学习所需的清晰标签。数据注释既昂贵又缓慢,造成了瓶颈。这就是为什么研究人员长期以来一直在无监督学习中寻求进步,在无监督学习中,深度学习模型是在没有人工注释数据的情况下进行训练的。近年来,该领域取得了很大进展,尤其是LLM领域,这些领域大多使用从互联网收集的大型原始数据集进行训练。虽然LLM在2022年继续取得进展,但我们也看到无监督学习技术的其他趋势越来越受欢迎。例如,文本到图像模型今年取得了惊人的进步。OpenAI的DALL-E2、Google的Imagen和StabilityAI的StableDiffusion等模型展示了无监督学习的力量。与需要注释良好的图像和描述对的旧文本到图像模型不同,这些模型使用互联网上已经存在的松散标题图像的大型数据集。他们训练数据集的规模很大(这是唯一可能的,因为不需要手动标记)和字幕方案的可变性使这些模型能够在文本和视觉信息之间找到各种复杂的模式。因此,它们在为各种描述生成图像时更加灵活。3.多模式向前迈进文本到图像生成器还有另一个有趣的特性:它们将多种数据类型组合在一个模型中。能够处理多种模式使深度学习模型能够承担更复杂的任务。多模态对人类和动物智能很重要。例如,当你看到一棵树,听到风吹过它的树枝时发出的沙沙声,你的大脑可以很快将它们联系起来。同样,当您看到“树”这个词时,您可以迅速联想到树的形象,记住下雨后松树的气味,或者回忆您以前的其他经历。显然,多模态在使深度学习系统更加灵活方面发挥着重要作用。DeepMind的Gato可能是最好的证明,它是一种深度学习模型,经过各种数据类型的训练,包括图像、文本和本体感受数据。Gato擅长多项任务,包括图像字幕、交互式对话、控制机械臂和玩游戏。这与设计用于执行单一任务的经典深度学习模型形成对比。一些研究人员提出了我们只需要像Gato这样的系统就可以实现人工智能(AGI)的概念。尽管许多科学家不同意这种观点,但可以肯定的是,多模态为深度学习带来了重要成就。4.深度学习的基础问题依然存在尽管深度学习取得了令人瞩目的成就,但该领域仍有一些问题没有解决。这些包括因果关系、组合性、常识、推理、计划、直觉物理学以及抽象和类比。这些都是不同领域的科学家们还在努力探索的一些智能奥秘。纯粹基于规模和数据的深度学习方法有助于在其中一些问题上取得渐进式进展,但未能提供明确的解决方案。例如,较大的LLM可以在较长的文本中保持连贯性和一致性。但他们未能完成需要细致的逐步推理和计划的任务。同样,文本到图像生成器可以创建令人惊叹的图形,但在绘制需要组合性或具有复杂描述的图像时会犯基本错误。各种科学家正在讨论和探索这些挑战,包括一些深度学习的先驱。其中最著名的是获得图灵奖的卷积神经网络(CNN)发明者YannLeCun,他最近写了一篇长篇论文,讨论仅从文本中学习的LLM的局限性。LeCun正在研究一种深度学习架构,该架构可以学习世界模型,并可以解决该领域当前面临的一些挑战。深度学习已经取得了长足的进步。但我们取得的进步越多,我们就越意识到创建真正智能系统的挑战。明年肯定和今年一样精彩。