当前位置: 首页 > 科技观察

贝叶斯深度学习:统一深度学习和概率图形模型的框架

时间:2023-03-21 23:39:01 科技观察

人工智能(AI)的进步表明,通过构建多层深度网络并从大量数据中学习可以获得显着的性能提升。但这些进步主要发生在感知任务中,而对于认知任务,传统的AI范式需要扩展。4月9日,罗格斯大学计算机系助理教授王浩在AITIME青年科学家-AI2000学者论坛上分享了一个基于贝叶斯的概率框架,可以统一深度学习和概率图模型,统一人工智能感知和推理任务。据介绍,该框架有两个模块:深度模块,以概率深度模型为代表;图模块,这是一个概率图模型。深度模块处理高维信号,图形模块处理部分推理任务。以下为演讲全文。AITechnologyReview不改初衷做了一个整理:今天给大家分享一下贝叶斯深度学习方面的工作。题目就是我们一直在研究的概率框架。统一AI感知和推理任务。众所周知,深度学习加持下的AI技术已经具备了一定的视觉能力,可以识别物体;阅读能力,能看懂文字;听觉能力,可以识别语音。但还是缺乏一定的思考能力。“思维”对应于推理和推理的任务,具体指处理复杂关系的能力,包括条件概率关系或因果关系。深度学习适合处理感知任务,但“思考”涉及高级智能,比如决策数据分析、逻辑推理等。概率图在处理推理任务方面具有优势,因为它们可以非常自然地表示变量之间的复杂关系。上面显示了概览图的示例。任务是:我想通过打开或关闭草地上的洒水器和外面的天气来推断外面的草被淋湿的概率,我也可以通过在草地上淋湿来推断天气。概率图的缺点是它们不能有效地处理高维数据。综上所述,深度学习更擅长感知任务,但不擅长推理推理任务。概率图模型擅长推理任务,但不擅长感知任务。不幸的是,在现实生活中,这两种类型的任务通常同时出现并且相互影响。因此,我们希望将深度学习的概率图统一到一个框架中,希望做到两全其美。我们提出的框架是贝叶斯深度学习。有两个模块:深度模块,用概率深度模型表示;图形模块,这是一个概率图形模型。深度模块处理高维信号,图形模块处理部分推理任务。值得一提的是,图模块本质上是一个概率模型,所以为了保证融合,深度模型也需要是概率的。模型训练可以使用经典算法,如MAP、MCMC、VI。举个具体的例子,在医学诊断领域,深度模块可以想象成医生看病人的医学图像,图模块是医生根据图像对脑部疾病的判断和推理。从医生的角度来看,医学图像中的生理信号是推理的基础,优秀的能力可以加深对医学图像的理解。推而广之,在电影推荐系统中,深度模块可以想象为对电影的视频情节、演员等的理解,而图模块则需要对用户偏好与电影偏好的相似度进行建模。此外,视频内容理解和“喜欢”建模也是相辅相成的。具体到模型的细节上,我们将概率图模型的变量分为三类:深度变量,属于深度模块,假设从一个相对简单的概率分布中产生;graphvariables,属于graph模块,与depth模块没有直接联系,假设来自于相对复杂的分布;枢轴变量,属于深度模块和图模块相互关联的部分。下面介绍该框架在实际应用中是如何工作的。推荐系统推荐系统的基本假设是已知用户喜欢某些电影,然后想预测用户对其他电影的喜好。用户对电影的喜好可以写成一个评分矩阵(RatingMatrix),它很稀疏,用来直接建模,得到的准确率很低。在推荐系统中,我们会依赖更多的信息,比如电影情节、电影导演、演员信息来进行辅助建模。为了对内容信息进行建模并对其进行有效净化,可以选择三种方式:手动特征创建、深度学习自动特征创建、深度学习自适应特征创建。显然,自适应方法可以获得最佳结果。不幸的是,深度学习中固有的独立同分布假设对于推荐系统来说是致命的。因为假设用户和用户之间没有关系显然是错误的。为了解决上述困难,我们引入了协作深度学习,它能够将“独立”泛化为“非独立”。这个模型有两个挑战:1.如何找到一个有效的概率深度模型作为深度模块。希望模型能够兼容图模块,和非概率模块有同样的效果。2.如何将深度模块连接到主模块进行有效建模。让我们来看看第一个挑战。Autoencoder是一种非常简单的深度学习模型,一般用于在无监督情况下提取特征,中间层的输出会作为文本表示。值得一提的是,中间层的表示是确定性的,不是概率性的,与图模块不兼容,无法工作。我们提出了一种概率自动编码器,不同之处在于输出从“确定向量”转换为“高斯分布”。概率自动编码器可以退化为标准自动编码器,因此后者是前者的特例。如何连接深度模块和图形模块?首先从高斯分布中提出itemj的hiddenvector:然后从Gaussian分布中提取useri的hiddenvector:基于这两个hiddenvector,可以从另一个高斯分布中抽取useri到itemj的分布分布,高斯分布的均值是两个潜在向量的内积。上图中蓝色方框代表的是graph模块。定义了物品、用户、评分等之间的条件概率关系。一旦条件概率关系成立,就可以通过打分推导出用户和物品的隐向量,根据“内积”预测未知背景。上图是整个模型的示意图,其中λ是控制高斯分布方差的超参数。为了评估模型的效果,我们使用了三个数据集:citeulike-a、citeulike-t、Netflix。对于citeulike,使用每篇论文的标题和摘要,Netflix使用电影情节介绍作为内容信息。实验结果如下图所示,Recall@M指标表明我们的方法明显优于基准模型。当评分矩阵更稀疏时,我们模型的性能提升可以更大。原因是矩阵越稀疏,模型就越依赖于从内容中提取的内容信息和表示。推荐系统的性能提升可以增加企业的利润。根据麦肯锡咨询公司的调查,亚马逊35%的营业额是由推荐系统带来的。这意味着推荐系统每改进1%,就会增加6.2亿的营业额。综上所述,到目前为止,我们已经提出了一个概率深度模型作为贝叶斯深度学习框架的深度模块。非概率深度模型实际上是概率深度模型的特例。为深度推荐系统提出了分层贝叶斯模型。实验表明,该系统可以大大提高推荐系统的效率。其他应用程序设计给定一个图,我们知道边,也知道节点的内容。如果这张图片是社交网络,其实代表的是用户之间的友情,节点内容就是用户在社交平台上发布的图片或文字。这种图形关系还可以表示论文的标题、摘要、引文等。我们的任务是希望模型能够学习到节点的表达,即能够捕获内容信息和图信息。解决方案是设计一个基于贝叶斯深度学习框架的关系概率自动编码器。深度模块负责处理每个节点的内容。毕竟,深度学习在处理高维信息方面有优势;图模块处理节点之间的关系,例如参考网络和知识图谱之间的复杂关系。在医疗领域,我们专注于医疗监护。任务场景是:家里有一个发射信号的小雷达。设计的模型希望根据患者反映的信号,找出患者是否按时服药,服药顺序是否正确。问题是:用药的步骤很复杂,需要按顺序整理。基于贝叶斯深度学习概率框架方法,deep模块用于处理超高维信号信息,graph模块用于医学专有知识建模。值得一提的是,即使是同一个模型在不同的应用中,其中的参数也有不同的学习方式。例如,可以使用MAP和贝叶斯方法直接学习参数分布。对于深度神经网络,一旦有了参数分布,就可以做很多事情,比如估计预测的不确定性。另外,如果能得到参数分布,即使数据不足,也能得到非常稳健的预测。同时,该模型将更加强大。毕竟贝叶斯模型相当于无数个模型的采样。下面是一个轻量级的贝叶斯学习方法,可以用在任何深度学习模型或任何深度神经网络上。首先明确目标:该方法足够高效,可以通过反向传播进行学习,并“放弃”采样过程,同时模型符合直觉。我们的核心思想是:将神经网络的神经元和参数视为分布,而不是高维空间中的简单点或向量。允许神经网络在学习过程中进行前向传播和反向传播。因为分布是由自然参数表示的,所以该方法被命名为NPN(natural-parameternetworks)。