去噪自动编码器(DAE)是一类自动编码器,它接受损坏的数据作为输入并训练以预测原始未损坏的数据作为输出。去噪自动编码器成本函数的计算图。训练去噪自动编码器从损坏的版本~x重建干净的数据点x。这可以通过最小化损失L=-logpdecoder(x|h=f(~x))来实现,其中~x是经过损坏过程C(~x|x)后样本x的损坏版本。分数匹配是最佳可能性的代表。它提供了概率分布的一致估计,迫使模型在每个数据点x处获得与数据分布相同的分数。使用高斯噪声和均方误差作为重构误差的特定类去噪自编码器(具有sig-moid隐藏单元和线性重构单元)的去噪训练过程与训练特定类RBM的无向概率模型是等价的。将训练样本x表示为位于低维流形(粗黑线)附近的红色十字。我们用灰色圆圈表示同样可能的损坏过程C(~x|x)。灰色箭头展示了如何将训练样本转换为经过此损坏过程的样本。由去噪自动编码器在一维弯曲流形周围学习的矢量场,其中数据集在二维中聚集。每个箭头与重构向量减去来自编码器的输入向量成正比,并根据隐式估计的概率分布指向更高的概率。向量场在估计密度函数(在数据流形上)的最大值和密度函数的最小值处均为零。例如,旋臂形成一个局部最大值相互连接的一维流形。局部最小值出现在两条臂之间的间隙中间附近。当重建误差的范数(由箭头的长度显示)很大时,沿着箭头的方向移动会显着增加概率,并且大多数情况下概率很低。自动编码器将这些低概率点映射到更高概率的重建。随着概率***,重建变得更加准确,所以箭头缩小了。目前仅限于去噪自动编码器如何学习表示概率分布。更一般地说,我们可能希望使用自动编码器作为生成模型并从其分布中采样。
