清华大学周博文:ChatGPT的火爆揭示了新一代协同交互智能的重要性来自机器之心的邀请,我是清华大学周博文。现在是农历的末日和公历的开始。很高兴收到这样的邀请,跟大家分享我们对过去一段时间人工智能发展趋势的总结,以及对未来的一些思考。先分享一下核心思想。如果整个演讲你只能记住三点,请记住这三点:第一,人工智能的下一个突破将从纯粹的虚拟存在转向帮助物理世界、生物世界和信息世界的人们获得洞察力和洞察力。更高效地形成新知识,完成任务,创造更高价值的场景。第二,下一代人工智能迫切需要加强结合知识(包括暗知识)、计算和推理的能力。这种结合能力非常重要,但我们认为人工智能与人、环境之间的高效交互与协作才是结合这些能力的核心。原因有二:一是因为与人和环境的协作交互是高价值创造的必要条件,如果没有人工智能与人的协作,人工智能无法独立完成这些高价值场景;第二,因为这种协作和交互也是提高AI的知识、计算、推理和组合能力的有效路径。目前,人工智能在计算方面取得了长足进步,但在知识推理、模块有效组合等方面仍存在较大瓶颈。添加人与环境之间的协作和交互可以帮助弥补人工智能在这些领域的一些瓶颈。第三,我们对多模态有三个判断:第一,多模态的理解和生成是协作和交互的重要基石;第二,这两年不同模态之间的representationlearning趋于统一,这是一个很好的基础条件;第三,最近流行的ChatGPT作为未来人机协同共创交互范式的雏形,未来必将向多模态演进,这将为多模态学习带来新的机遇。虽然其中还有很多幼稚的地方,但是这个范式的呈现给我们指明了未来的方向。以上是核心要点。在今天的报告中,我将谈论协作交互智能和多模式学习,并回顾最新的发展和机遇。在第一部分,我们已经从传统的交互式智能中走了很长一段路。首先我要强调的是,今天说的协作和交互,跟原来的交互智能是完全不同的。历史上的交互更多的是赋予一个训练有素的系统,把交互当做一个任务来完成,比如从ELIZA、IBMWatson、微软小冰、Siri到京东的智能客服。我们今天讲的协作交互,就是把交互作为学习的手段,把协作作为人工智能和人类的分工,更好地完成人机协作的融合,获得洞察力,形成新知识,并完成任务。这是整个交互智能的历史视角。可以看出,推动进步的是技术视角的变化,包括从早期的规则模板到基于Frame的基于任务的对话,再到生成统计语言模型、Seq2seqModels、超大规模预训练模型.对于这些变化,我们有一个判断,新一轮的人工智能创新,必然会带来生产力格局的演变。几年前,大家更多谈的是人工智能的应用场景,主要集中在智能质检、客服等领域。但现在我们看到,AI的创新场景越来越复杂,开始涉及艺术内容创作、药物发现和新知识发现。2002年诺贝尔经济学奖获得者丹尼尔·卡尼曼的畅销书《Thinking Fast And Slow》(Thinking,FastandSlow)提出,人类思维有两种类型:System1的特点是直觉和无意识,以及系统2有语言,算法,计算,逻辑都在里面。过去几年,人工智能更多的被用在System1的场景中,但是未来,包括现在发生的事情,人工智能其实更擅长也更适合从人类的角度去承担更多System2的工作——机协作。因为系统1对人类来说效率更高,是一项低脑消耗和低认知负荷的任务,而系统2对人类来说非常繁重。只是以往人工智能的技术进步只能在系统1中完成,系统2做得不好。目前的趋势是AI越来越接近System2。从产业闭环来看,AI场景已经从蓝领加重复性劳动(质检、客服等)转变为白领加知识创新的应用领域。毫无疑问,这会带来更大的价值空间,同时带来更多的飞轮效应。什么是飞轮效应?即人工智能可以帮助白领和知识工作者更好地理解、洞察和形成新知识。新知识将有助于设计更好的人工智能,更好的人工智能将产生更多新知识。在这种趋势下,我们必须清醒地认识到,AI与人类的协作方式必须改变,因为AI不再是System1原来的AI,而是变成了System2的AI。在这种情况下,AI应该如何协作和交互是一个需要思考的前沿问题。为什么说AI要具备知识、计算、推理相结合的能力?这里有一些多模态计算的例子,供大家参考:比如左边第一张图,问穿红夹克的人,游戏结束最有可能的地方是什么,答案是第四。要回答这类问题,除了非常准确的图像分割和语义分割外,还需要大量的常识推理和离散推理。我们当前的人工智能系统非常非常缺乏这些东西。再举个例子,是什么让这些椅子便于携带?答案是“可折叠”。这里也有逻辑推理。像这样的System2挑战其实需要人工智能更多的迭代和进化。一个众所周知的进步是大规模预训练语言模型的突破。那么一个很自然的问题是,如果我们继续沿用这个范式,是否能够解决高价值应用场景与知识、计算和推理的有效融合?以GPT-3为例,大家都知道它有1750亿个参数。它对参数内部和模型架构中的信息进行编码,突出计算并弱化知识和推理。一方面,在“缩放定律”的支持下,数据越来越多,模型能力越来越强;另一方面,NYU的几位学者举办了一个叫做“InverseScaling”的挑战赛,为大家寻找一些应用场景——模型越大,参数越大,性能越差。上图中有两个例子:一个叫NegationQA,也就是negationofnegation,doublenegation用来测试预训练模型的理解和推理能力。另一个是RedefineMath,对已有的数学计算问题重新定义数学常数,以测试语言模型是否能够理解它们的含义并进行正确的计算。从右边两张图可以看出,在这些任务上,模型参数越大,准确率越低。这些例子其实都在指出,基本模型可能是未来交互智能的基石。我个人认为是比“大模特”更重要的一个词。很重要的一点是基本模型不是最终形式。要解决遇到的这些问题,就需要更好的可视化。因此,我提出知识、计算和推理的有效结合是接下来需要研究的一个方向。这种结合的一个重要点是,人的协作和交互可以促进这些基础模型的升级。让我们与另一个基于GPT3模型“InstructGPT”的示例进行比较:在一些问题上,GPT-3基于提示学习可以很好地回答。但如果让一个6岁的孩子来解释登月,从GPT3的基础模型能力来看,它有多种角度来回答这个问题,因为它后面有大量的数值。比如从重力的物理原理出发,这是第一;二是从历史背景来看,登月发生在美苏冷战时期,解释冷战是如何发生的,又是如何导致登月计划的;三是从天文学的角度来说,月球是地球的行星。第四是从人的角度。比如,人类一直想去月球。中国有很多关于嫦娥的美丽传说,在西方也是如此。但是,目前的GPT3模型很难判断哪种方式适合把这样的事情告诉一个6岁的孩子。它更多是基于频率和语料库的重要性,并且很可能是基于维基百科页面来解释登月是什么。还有登月计划,这显然不能很好地服务于上下文。所以InstructGPT就是以此为基础,让用户对a、b、c、d四种答案进行选择和评分。给出排名后,可以收回此反馈以微调GPT3模型。这样如果接下来有新的问题,比如“写青蛙的故事”,这个模型的开头就会变成“从前”,非常适合孩子听故事开头的方式.这样做的结果,第一点是模型无疑更高效,第二点是有助于减少模型参数。InstructGPT只有13亿个模型参数,相比GPT3模型压缩了数百倍,但在特定场景下可以更好地服务于人。协同交互是提高人工智能计算知识、计算和推理能力闭环的必要条件。我们认为,智力应该包括知识、计算和推理三种基本能力。我们看到计算目前进展非常快。当然,计算也有计算能力和数据方面的挑战,但知识和推理的缺失尤为明显。那么问题来了:如何实现三者的闭环?加强AI、人与环境的主动协同交互能力,能否更好地帮助AI实现三者的闭环?我们的学术观点是,有必要引入人工智能、人与环境之间的协作与交互。一方面提升各个模块的能力,另一方面将模块组合起来形成协同交互。与我们一开始的观点相呼应,下一个人工智能的突破将从虚拟存在转向帮助人们在物理世界、生物世界和信息世界中洞察新知识并更高效地完成任务。在清华大学协同交互智能研究中心,我们主要提出并正在研究这些学术问题:第一是我们提出一个新的协同视角,即我们研究让AI对系统负责2,让人们对系统1承担更多的责任。由此带来的第一个挑战是AI本身要转向逻辑推理、高计算、高复合等任务,而不仅仅是做系统1的模式识别和直觉工作带来的第二个挑战是如何在这种新的分工下与人类和AI进行合作。这是两个研究方向。二是让AI在AI与人类的协作中更好地学习人类在循环中的强化学习。我们要研究更好的AI持续学习,需要在AI、环境、人的协作中做很多多模态表征增强的工作。多模态是协作的重要渠道,同时需要加强会话交互的增强机制。另一个非常重要的协作是人工智能与环境的协作。人工智能需要适应不同的环境。这些环境适应可以用一句话来概括:云到边缘的适应和边缘到云的自我进化。云边适配大家都很容易理解。在不同的计算能力和通信条件下,如何让这些基础模型更好地适应这些环境;基础模型迭代得更好。或者说,这是一种小模型和大模型之间的协同和互动。但我们不认为这种协作和互动是单向的。只能是大模型通过知识蒸馏和剪枝得到小模型。我们认为,小模型的迭代和交互应该有更有效的路径到达基础模型。我们认为以上三个技术路径非常重要。下面会有一个底层支撑——也许我们现在的研究会在可靠的人工智能方面带来一些基础理论的突破,因为知识、计算和推理可以更好地结合起来解决原本由知识、计算和推理引起的问题。通过计算和推理融合的黑盒的可解释性、鲁棒性和泛化的挑战。我们希望以一种既可分割又可组合的方式更好地捕捉可信赖人工智能的这一进步。如果不能透明地看到人工智能的推理过程,实际上很难相信人工智能系统2的结果。换个角度来看这个问题。大家都知道最近ChatGPT很火,所以我们做了很多工作来避开ChatGPT。当然,其中还包括Galactica,这是Facebook早前提出的利用AI帮助撰写科学论文的系统。我们发现它们都需要人与环境的协作来创造场景。这些价值场景以前并不实际存在,但现在正在成为可能。只是这种可能性一旦脱离了人类的协作和交互,我们马上就会发现这些AI系统是功亏一篑的。包括Galactica,可以写出很流畅的论文,但是很多基本事实和引用都是错误的。例如作者姓名为真,但题目部分为真部分为假,或者多篇论文合并在一起。我想强调的是,现在的AI还没有能力完成知识、计算、推理这样完整的闭环,所以必须要有人参与。Galactica虽然马上就要下线了,但它的目的并不是让大家用它来独立完成论文和科研,而是为了更好地帮助人们,所以人一定是闭环的。这是强调人的协作和互动是非常重要的基础条件的另一个角度。接下来,我将谈谈在协作交互的背景下,我如何看待多模态学习的进步和新机会。首先,我觉得最近一段时间多模态发展也非常迅速,开始带来几个明显的趋势。首先,多模态在建模和表示结构的维度上存在收敛。比如以前在图片和视频上,大家都用CNN,因为文字是一个SequenceModel,大家用的多的是RNN和LSTM,但是现在不管是什么modality,大家都可以把所有tokenizedinput当作一个Sequence或者GraphModel,采用self-attention加multi-head机制进行处理。近几年流行的Transformer架构,基本上已经让所有模型的结构收敛了。但一个深层次的问题是,为什么Transformer的架构对所有模态表示都有优势?我们也有一些思考,得出的结论是,Transformer可以在更一般的几何拓扑空间中对不同的模式进行建模,进一步降低多种模式之间的建模壁垒。所以,Transformer的这样一个优势,恰恰是在多模态方向构建了这种架构收敛的基础。其次,我们发现多模态的预训练维度也在收敛。最早的Bert是在自然语言领域提出的,就是用这种Mask模式来引爆预训练模型。最近的工作,包括何玉明老师的MAE工作,包括语音领域的工作,一直在使用类似的Ideas。通过这种掩码方法,在不同模态之间形成收敛的预训练模型架构。现在模态之间的预训练壁垒也被打破,预训练模型的维度进一步收敛。和MAE一样,BERT的预训练方法被引入到视觉、图像、语音等各种模态中。因此,Mask的机制在各种模式下都是通用的。第三个趋势是预架构参数和预训练目标的统一。目前,Transformer架构用于对文本、图像和音频进行建模,并且可以在多个任务之间共享参数。具体来说,目前的多模态预训练模型主要分为单流和双流模型。在单流架构中,我们假设两个模型之间的潜在关联和对齐是微不足道的。双流架构假设有必要将模态内部模态类的交互和模态之间的交互分开,以获得更好的多模态表示,并能够编码和融合不同的模态信息。问题是是否有更好的方法来统一这些想法。目前的趋势是,稀疏性和模块化可能是更强大的多模态、多任务中的两个关键属性。稀疏专家模型可以看作是一个介于单流和双流之间的平衡的稀疏专家模型系统,能够处理不同的专家、不同的模态和任务。我们提出的一个问题是,我们是否可以在特定任务上使用协作交互模式将GooglePathway模型压缩一百倍,但保留这种稀疏和模块化的结构?这类工作非常值得后续研究。回到对话和协作交互,我觉得ChatGPT是目前非常重要的工作。其核心价值是点亮协同交互方向的新里程碑。可用于学术写作、代码生成、百科问答、指令理解等工作。预训练的基础模型可以赋予交互式智能问答、写作、代码生成等多种能力。ChatGPT核心能力的提升是在GPT3的基础上,加入了human-in-the-loop强化学习,加入了人对不同答案的选择和排序。虽然ChatGPT目前的呈现形式是以自然语言为主要载体,但是整个交互方式肯定会扩展到这种多模态。人在多模态场景下的协作和交互实际上会更高效,带来更多的信息,带来各种模态知识的融合。如果将这些人在回路中的协作交互能力和人工智能生成能力结合起来,可以做很多事情。例如,将协同交互ChatGPT模式与DiffusionModel融合,进行产品创新和设计创新。在协同交互的过程中,ChatGPT等模型不断寻找主流的设计趋势和特定的消费者偏好,通过洞察消费者场景的情感体验,对设计趋势和技术趋势的判断,结合大量的分析图片可以通过与设计师或专业产品经理的多轮协同改造实现共创。在一些非常细分的场景中,其实很多人并没有先验知识,比如智能家居领域,但是人们可以通过多轮人机协同交互产生这些创意设计,然后利用StableDiffusionModel来将这些人类创造力的核心关键词场景体验转化为对原始设计形象的高保真还原。协同交互可以帮助人们进行更高效的产品创新和设计创新,这就是我们联元科技正在做的事情。多模态工作越来越重要,因此我中心牵头推出了TPAMI2023特刊《Large-ScaleMultimodalLearning》,目标是汇集、智慧医疗、生物信息学、认知科学),提高重要科学问题,并确定研究机会,以应对深度学习和大数据时代多模态学习领域的突出挑战。
