当前位置: 首页 > 科技观察

IEEEFellow李学龙:多模态认知计算是实现通用人工智能的关键

时间:2023-03-20 17:56:33 科技观察

在当今数据驱动的人工智能研究中,单模态数据提供的信息已经不能满足提高机器认知能力的需求。类似于人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界,机器也需要模拟人类的联觉来提高认知能力。同时,随着多模态时空数据的爆炸式增长和计算能力的提升,研究人员提出了大量的方法来应对日益增长和多样化的需求。然而,目前的多模态认知计算还局限于模仿人类表观能力,缺乏认知层面的理论基础。面对更加复杂的智能任务,认知科学与计算科学的交叉成为必然。近日,西北工业大学李学龙教授在期刊《中国科学:信息科学》发表文章《多模态认知计算》,基于“InformationCapacity”,建立了认知过程的信息传递模型,提出了“多模态认知”的观点,即认知计算可以提高机器的信息提取能力”从理论上统一了多模态认知计算的各种任务。李学龙认为,多模态认知计算是实现通用人工智能的关键之一,在“VicinagearthSecurity”。该论文探索了人机统一的认知模式,为推动多模态认知计算的研究带来了启示。引用格式:李学龙,“多模态认知计算”,中国科学信息网,DOI:10.1360/SSI-2022-0226李学龙,西北工业大学教授,主要研究方向为智能t高维数据的采集、处理和管理在“VicinagearthSecurity”等应用系统中发挥作用。2011年,他被选为IEEE研究员,并且是国际人工智能协会执行委员会(AAAI)执行委员会的第一位大陆学者。AI科技评论总结了文章《多模态认知计算》的要点,并沿着这个方向与李学龙教授进行了深入对话。1机器认知能力在于信息利用李学龙基于信息论提出多模态认知计算可以提高机器的信息抽取能力,并对这一观点进行了理论建模(见下)。首先,我们需要了解人类如何提取事件信息。1948年,信息论的创始人香农提出了“信息熵”的概念来表示随机变量的不确定程度。事件发生的概率越小,其发生所提供的信息量就越大。也就是说,在给定的认知任务T中,事件x的发生所带来的信息量与事件发生的概率p(x)成反比:而信息以各种模态传递,假设事件空间X是感知模式(m)、空间(s)、时间(t)上的张量,则个体从事件空间获得的信息量可以定义为:人类在一定时空范围内的注意力为力是有限的(假设为1),所以当时空事件从单一模态转变为多模态时,人类不需要不断调整注意力,专注于未知事件信息,以获得最大量ofinformation:可见,时空事件包含的模态越多,个体获得的信息量越大,认知水平越高。那么对于机器来说,获取的信息量越大,机器是不是越接近人类的认知水平呢?答案是不。为了衡量机器的认知能力,李学龙在“心容”理论的基础上,将机器从事件空间中提取信息的过程表述如下。其中,D为事件空间x的数据量。因此,机器的认知能力可以定义为从一个数据单元中获取最大信息量的能力。这样,人和机器的认知学习就可以统一为提高信息利用率的过程。那么,如何提高机器对多模态数据的利用率,进而提升多模态认知计算能力呢?正如人类认知能力的提高离不开对现实世界的联想、推理、归纳和演绎一样,要提高机器的认知能力,也需要从相应的三个方面入手:联想、生成和推理。合作。分析的三个基本任务。2多模态认知计算的三大主线多模态关联、跨模态生成和多模态协同处理多模态数据的三个任务各有侧重,但核心是使用尽可能少的数据来实现信息量的最大化。多模态关联源自不同模态的内容如何在空间、时间和语义级别关联和对应?这是多模态关联任务的目标,也是提高信息利用率的先决条件。多模态信息在空间、时间和语义层面的对齐是跨模态感知的基础,多模态检索是感知在现实生活中的应用。例如,依靠多媒体搜索技术,我们可以输入词汇短语来检索视频片段。图注:多模态对齐示意图受人类跨感官感知机制的启发,AI研究人员利用计算模型进行唇读、缺失模态生成等跨模态感知任务,进一步辅助残疾人的跨模态感知团体。状态意识。未来,跨模态感知的主要应用场景将不再局限于残疾人的感知替代应用,而是更多地与人类的跨感官感知相结合,提升人类的多感官感知水平。如今,数字模态的内容正在快速增长,跨模态检索的应用需求也越来越丰富,这无疑给多模态联想学习带来了新的机遇和挑战。跨模态生成当我们阅读小说情节时,脑海中自然而然会出现相应的画面,这是人类跨模态推理和生成能力的体现。同样,在多模态认知计算中,跨模态生成任务的目标是使机器能够生成未知模态的实体。从信息论的角度来看,这个任务的本质就变成了提高机器在多模态信息通道中的认知能力的问题。有两种方式:一种是增加信息量,即跨模态合成,另一种是减少信息量。跨模态转换的数据量。跨模态合成的任务是在生成新的模态实体时丰富已有的信息,从而增加信息量。以基于文本的图像生成为例,早期主要采用实体关联的方法,对检索库的依赖往往较高。今天,图像生成技术由生成对抗网络主导,这些网络已经能够生成逼真的高质量图像。但是人脸图像的生成还是很有挑战性的,因为从信息层面来看,即使是一个很小的表情变化也可能传递出非常大的信息量。同时,将复杂模态转化为简单模态,寻找更简洁的表达方式,可以减少数据量,提高获取信息的能力。图例:常见的跨模态转换任务跨模态转换作为计算机视觉与自然语言处理相结合的典范,可以大大提高在线检索效率。例如,对较长的视频进行简短的自然语言描述,或生成与一段视频信息相关的音频信号灯。目前两大主流生成模型VAE(变分自动编码器)和GAN(生成对抗网络)各有优缺点。李学龙认为,VAE依赖于假设,而GAN的可解释性较差,两者需要合理结合。最重要的一点是,多模态生成任务的挑战不仅在于生成的质量,还在于不同模态之间的语义和表示差距。如何在语义缺口的前提下进行知识推理是未来难点需要解决的问题。多模态协作归纳和演绎在人类认知机制中起着重要作用。我们可以通过归纳融合,共同推导出我们看到的、听到的、闻到的、触到的等多模态感知,从而以此作为决策的依据。同样,多模态认知计算也需要协调两个或多个模态数据,相互配合完成更复杂的多模态任务,提高准确率和泛化能力。从信息论的角度看,其本质是多模态信息的相互融合,达到信息互补的目的,也就是注意力的优化。首先,模态融合是为了解决数据格式、时空对齐、噪声干扰等引起的多模态数据差异问题。目前机会规则的融合方法包括串行融合、并行融合和加权融合,以及基于学习的融合方法包括注意力机制模型、迁移学习和知识蒸馏。其次,多模态信息融合完成后,需要对模态信息进行联合学习,帮助模型挖掘模态数据之间的关系,建立模态之间的辅助或互补链接。通过联合学习,一方面可以提高模态性能,如视觉引导音频、音频引导视觉、深度引导视觉等应用;另一方面,它可以解决过去单一模式难以完成的任务,如复杂的情感计算、音频匹配人脸建模、视听引导音乐生成等,是多模态认知计算在未来的发展方向。未来。3机遇与挑战近年来,深度学习技术极大地推动了多模态认知计算在理论和工程上的发展。然而,如今的应用需求越来越多样化,数据迭代速度也在不断加快,这对多模态认知计算提出了新的挑战,也带来了许多机遇。我们可以从提升机器认知的四个层面来看:在数据层面,传统的多模态研究将数据收集和计算分离为两个独立的过程,存在弊端。人类世界是由连续的模拟信号组成的,而机器处理的是离散的数字信号,转换过程难免会造成信息变形和丢失。对此,李学龙认为以光神经网络为代表的智能光电子可以带来解决方案。如果能够完成多模态数据与传感、计算的融合,将大大提高机器的信息处理效率和智能水平。在信息层面,认知计算的关键是对信息中高级语义的处理,如视觉中的位置关系、图像的风格、音乐的情感等。目前,多模态任务仅限于简单对象和场景中的交互,无法理解深层逻辑或主观语义。例如,机器可以生成花朵在草地上盛开的图像,但它无法理解花朵在冬天凋谢的常识。因此,在不同模态下搭建复杂逻辑与感知语义信息的沟通桥梁,建立具有特色的机器测量系统是未来多模态认知计算的一大趋势。在融合机制层面,如何优化由异构组件组成的高质量多模态模型是当前的难点。当前的多模态认知计算大多是在统一的学习目标下优化模型。这种优化策略缺乏对模型内部异构组件的针对性调整,导致现有多模态模型存在较大差距。欠优化问题需要从多模态机器学习和优化理论与方法等多个方面来解决。在任务层面,机器的认知学习方法因任务而异。我们需要设计任务反馈学习策略来提高解决各种相关任务的能力。此外,我们还可以借鉴认知科学的研究成果,比如EmbodiedAI(EmbodiedAI)是解决当前机器学习从图像和文本等数据中理解世界的弊端的潜在解决方案。解决方案:智能体需要以多种模式与环境进行交互,才能不断进化,形成解决复杂任务的能力。4对话李学龙AI科技评论:人工智能研究为什么要关注多模态数据和多模态认知计算?多模态数据的增长给模型性能带来了哪些好处和阻碍?李学龙:谢谢你的提问。我们之所以关注和研究多模态数据,是因为人工智能本质上是依赖于数据的,单模态数据所能提供的信息总是非常有限,而多模态数据在相同条件下可以提供多种信息任务。另一方面,由于客观物理世界是多模态的,很多实际问题的研究都离不开多模态数据,比如通过文字查找图片,通过听声识别物体等等。我们从认知计算的角度分析多模态问题,从人工智能的本质出发。通过构建能够模拟人类认知模型的多模态分析系统,我们希望机器能够像人类一样智能地感知周围环境。复杂交错的多模态信息也会带来大量的噪声和冗余,增加模型学习的压力,使得多模态数据在某些情况下的性能不如单模态,这对模型提出了更多的挑战设计和优化。大挑战。AI科技评论:从信息论的角度,人类的认知学习与机器有何相似之处?研究人类认知机制对多模态认知计算有何指导意义?如果缺乏对人类认知的理解,多模态认知计算将面临哪些困难?李学龙:亚里士多德认为人对事物的认识是从感觉开始的,而柏拉图则认为通过感觉获得的东西不能称为知识。人类从一出生就接受大量的外部信息,通过感知、记忆、推理等逐渐建立起自我意识系统,而机器的学习能力则是通过在大量数据上的训练来实现的,主要是为了发现知觉与人类知识之间的差距。之间的对应关系。根据柏拉图的说法,机器所学的还不是知识。在本文中,我们引用“信息容量”理论,试图从信息提取能力出发,建立人与机器之间的认知联系。人类通过视觉、听觉、嗅觉、味觉、触觉等多种感觉通道向大脑传递多模态信息,对大脑皮层产生关节刺激。心理学研究发现,多种感官的共同作用会产生“多感官整合”、“联觉”、“知觉重组”、“知觉记忆”等认知学习模式。这些人类认知机制是多模态的。认知计算带来了重大的启发,比如衍生出多模态协作、多模态关联、跨模态生成等典型的多模态分析任务,也催生了局部共享、长短期记忆、注意力机制等。和其他典型的机器分析机制。目前,人类的认知机制尚不明确。如果没有人类认知研究的指导,多模态认知计算就会陷入数据拟合的陷阱,我们无法判断模型是否学到了人们需要的知识。这也是人工智能的一个争议点。AI科技评论:您从信息论的角度提出“多模态认知计算可以提高机器的信息提取能力”,在具体的多模态认知计算任务中有什么证据支持?李学龙:这个问题可以从两个方面来回答。首先,多模态信息可以提高单一模态在不同任务中的表现。大量工作已经证实,加入声音信息后,计算机视觉算法的性能会得到显着提升,例如目标识别和场景理解。我们还做了一个环境相机,发现通过融合来自温度和湿度等传感器的多模态信息,可以提高相机的成像质量。其次,多模态信息的联合建模为实现更复杂的智能任务提供了可能。比如我们做了“听图像”的工作,将视觉信息编码成声音,让盲人“看到”眼前的景象,也证明了多模态认知计算帮助机器提取更多的信息。AI科技评论:在多模态关联任务中,对齐、感知和检索之间的关系是什么?李学龙:这三者的关系比较复杂。在这篇文章中,我只是给出一些我自己的初步想法。不同模态信息关联的前提是它们共同描述了相同/相似的客观存在,但这种关联在外部信息冗余或干扰时很难判断,这就需要先对不同模态进行对齐。信息来确定对应关系。然后,在对齐的基础上,实现从一种模态到另一种模态的感知。就像当我们只看到一个人的嘴唇运动时,我们似乎能听到他在说什么。而这种现象也是基于Viseme和Phoneme的对齐。在现实生活中,我们也进一步将这种跨模态感知应用到检索、通过文本搜索商品的图片或视频内容,实现可计算的多模态关联应用等应用中。AI科技点评:最近很火的DALL-E等模型就是跨模态生成任务的例子。它们在文本到图像的任务中表现良好,但在生成图像的语义相关性、可解释性等方面仍然存在差距。有限的。你认为应该如何解决这个问题?困难在哪里?李学龙:从文本生成图像是一项“想象力”的工作。人们看到或听到一句话,理解其中的语义信息,然后依靠大脑记忆想象出最合适的场景,从而产生“画面感”。目前DALL-E还处于利用统计学习进行数据拟合、归纳和归纳大规模数据集的阶段,而这正是深度学习目前最擅长的。但是,如果真要了解人类的“想象力”,还需要考虑人类的认知模型,才能达到“高水平”的智能。这需要神经科学、心理学和信息科学的交叉融合,既是挑战也是机遇。近年来,很多团队也在这方面做出了拔尖的工作。通过多学科融合探索人类认知模型的可计算性理论也是我们团队努力的方向之一,相信也将为“高层次”智能带来新的突破。AI科技评论:您在研究工作中是如何从认知科学中汲取灵感的?您对认知科学的哪些研究特别感兴趣?李学龙:问他有多清楚?为活水之源。我经常从日常生活中观察和思考一些有趣的现象。20年前,我浏览了一个有江南山水图片的网页。当我点开网页上的音乐时,突然有一种身临其境的感觉。这时候,我开始从认知的角度去思考听力。与视力的关系。在学习认知科学的过程中,我了解了“通感”这一现象,结合自己的科研方向,完成了一篇题为《视觉音乐与音乐视觉》的文章,这也是第一次,”联觉”被引入信息领域。后来,我开设了信息领域的第一门认知计算课程,还创建了IEEESMC的认知计算技术委员会,试图打破认知科学与计算科学的界限。当时我还定义了认知计算,也就是现在的技术委员会主页上的Description。2002年,我提出了单位数据量提供信息的能力,即“信息容量”的概念,试图衡量机器的认知能力,也有幸与“多模态认知计算”一起呈现》获腾讯科学探索奖。直到现在,我还在持续关注联觉和知觉的最新进展。在自然界中,除了人类的五种感官之外,还有许多模态,甚至还有尚未明确的潜在模态。例如,量子纠缠可以解释我们所处的三维空间只是高维空间的投影。如果真是这样,那我们的检测手段也是有限的。有可能利用这些潜在的模式让机器接近甚至超越人类的感知。AI科技评论:在如何更好地融合人类认知和人工智能的问题上,您提出构建以“Meta-Modal”为核心的模态交互网络。你能介绍一下这个观点吗?它的理论依据是什么?李学龙:元模态本身是认知神经科学领域的一个概念。是指大脑的组织在执行某些功能或表征操作时,不对输入信息的感觉类别做出特定假设,但仍能很好地执行。元模态不是异想天开的概念。它本质上是认知科学家综合了跨模态知觉、神经元可塑性等现象和机制后的假说和猜想。它还启发我们在不同模态之间构建高效的学习架构和方法,以实现更通用的模态表示能力。AI科技评论:多模态认知计算在现实世界中的主要应用有哪些?例如。李学龙:多模态认知计算是一个非常接近实际应用的研究。我们的团队之前有一项关于跨模态感知的工作,它将视觉信息编码成声音信号,并刺激大脑皮层的初级视觉皮层。它已被应用于帮助残疾人帮助盲人看到外部事物。在日常生活中,我们也经常会用到多模态认知计算技术。例如,短视频平台会整合语音、图片和文字标签,推荐用户可能感兴趣的视频。更广泛地说,多模态认知计算也广泛应用于文中提到的本地安全,例如智能搜索和救援中,无人机和地面机器人采集声音、图像、温度、湿度等各种数据,从认知角度对这些数据进行整合分析,根据现场情况实施不同的搜救策略。类似的应用还有很多,比如智能巡检、跨域遥感等等。AI科技评论:您在文章中提到,目前的多模态任务仅限于简单对象和场景的交互,一旦涉及更深层次的逻辑或主观语义就变得困难。那么,这是符号主义人工智能复兴的契机吗?在提高机器处理高级语义信息的能力方面,还有哪些可行的解决方案?李学龙:罗素认为,知识的大部分价值在于它的不确定性。知识的学习是需要温度的,它可以与外界进行互动和反馈。目前我们看到的研究大多是单峰的、被动的、面向数据的研究,能够满足一些简单目标和场景的研究需求。然而,对于更深层次的逻辑语义或主观语义,需要在多个时空维度上充分探索和挖掘更多模态支持的、可以主动交互的场景。为了实现这一目标,研究方法和方法可能更多地借鉴认知科学。例如,一些研究人员将认知科学中的“具身体验”假说引入人工智能领域,探索机器如何与外界进行主动交互。交互和多模态信息输入背景下的新学习问题和任务,并取得了一些可喜的成果。这也论证了多模态认知计算在连接人工智能和认知科学方面的承上启下的作用和积极意义。AI科技评论:智能光电子也是您的研究方向之一。您在文章中提到,智能光电可以为信息数字化带来探索性的解决方案。智能光电在多模态数据的感知和计算方面能做什么?李学龙:光信号和电信号是人们认识世界的主要方式。人类每天接收到的大部分信息都来自视觉。更进一步,视觉信息主要来自光。人类的视觉、听觉、嗅觉、味觉、触觉五种感觉,也将光、声波、压力、气味、刺激等不同的感觉转化为电信号,进行高级认知。所以光电是人类感知世界的主要信息来源。近年来,借助各种先进的光电设备,我们感知到的信息比可见光和可听声波更多。可以说,光电器件处于人类感知世界的前沿。我们从事智能光电研究,致力于探索光电传感硬件与智能算法的融合,将物理先验引入算法设计过程,用算法结果指导硬件设计,形成“感”与“感”的相互反馈“计算”,扩大感知边界,达到模仿甚至超越人类多模态感知的目的。AI科技评论:目前在多模态认知计算方向有哪些研究工作?你未来的研究目标是什么?李学龙:谢谢你的提问。我目前的重点是VicinagearthSecurity中的多模式认知计算。传统意义上的安全,通常是指城市安全。目前,人类活动空间已扩展到低空、地面和水下。我们需要在临近空间建立三维安全防御体系,以执行跨域探测、自主无人系统等一系列实际任务。地面安全面临的一大难题是如何对不同传感器产生的大量多模态数据进行智能处理,比如让机器从人的角度理解无人机和地面监控设备同时观测到的目标。这涉及到多模态认知计算以及多模态认知计算与智能光电的结合。未来,我将继续研究多模态认知计算在临时安保中的应用,希望打通数据采集与处理之间的联系,合理利用“正激励噪声”(Pi-Noise),建立一种由模态认知计算和智能光电支持的多模态本地安全系统。