当前位置: 首页 > 科技观察

五个最有前途的图像翻译AI模型

时间:2023-03-14 10:50:20 科技观察

Image-to-imagetranslation根据Solanki、Nayyar和Naved在论文中提供的定义,image-to-imagetranslation是图像从一个域到另一个域的转换另一个目标是学习输入图像和输出图像之间的映射的过程。换句话说,我们希望模型能够通过学习映射函数f将一幅图像a转换为另一幅图像b。人们可能想知道,这些模型有什么用,它们在人工智能世界中的相关性是什么。应用程序往往很多,而且不仅限于艺术或图形设计。例如,能够拍摄一张图像并将其转换为另一张图像以创建合成数据(例如分割图像)对于训练自动驾驶汽车模型非常??有用。另一个经过测试的应用程序是地图设计,其中模型能够执行两个转换(卫星视图到地图,反之亦然)。图像翻转转换也可以应用于建筑,其中模型可以就如何完成未完成的项目提出建议。图像转换最引人注目的应用之一是将简单的绘图转换为美丽的风景或绘画。5种最有前途的图像翻译AI模型在过去的几年中,已经开发了几种方法来利用生成模型解决图像到图像的翻译问题。最常用的方法基于以下架构:生成对抗网络(GAN)变分自动编码器(VAE)扩散模型(DVAE)TransformersPix2PixPix2Pix是一种基于条件GAN的模型。这意味着它的架构由生成器网络(G)和鉴别器(D)组成。两个网络都在对抗游戏上进行训练,其中G的目标是生成与数据集相似的新图像,而D必须决定图像是生成的(假的)还是来自数据集的(真)。Pix2Pix与其他GAN模型的主要区别在于:(1)第一个Generator以图像作为输入开始生成过程,而普通GAN使用随机噪声;(2)Pix2Pix是一个完全监督的模型,这意味着数据集由来自两个域的成对图像组成。论文中描述的架构由用于生成器的U-Net和用于鉴别器的马尔可夫鉴别器或补丁鉴别器定义:U-Net:由两个模块(下采样和上采样)组成。使用卷积层将输入图像缩减为一组较小的图像(称为特征图),然后通过转置卷积对这些图像进行上采样,直到达到原始输入尺寸。下采样和上采样之间存在跳跃连接。PatchDiscriminator:卷积网络,其输出是一个矩阵,其中每个元素是图像的一部分(patch)的评估结果。它包括生成图像和真实图像之间的L1距离,以确保生成器学习映射给定输入图像的正确函数。也称为马尔可夫,因为它依赖于来自不同补丁的像素是独立的假设。Pix2Pix结果UnsupervisedImage-to-ImageTranslation(UNIT)在Pix2Pix中,训练过程是完全监督的(即我们需要成对的图像作为输入)。UNIT方法的目的是学习一个将图像A映射到图像B的函数,而无需对两对图像进行训练。该模型首先假设两个域(A和B)共享一个公共潜在空间(Z)。直观上,我们可以将这个潜在空间视为图像域A和B之间的中间阶段。因此,使用painting-to-image示例,我们可以使用相同的潜在空间向后生成绘制图像或期待令人惊叹的图像(参见图十)。图中:(a)Sharedlatentspace。(b)UNIT架构:X1是一幅画,X2是一道亮丽的风景;E1、E2是从两个域(绘图和风景)提取图像并将它们映射到共享潜在空间Z的编码器;G1、G2生成器、D1、D2鉴别器。虚线表示网络之间的共享层。UNIT模型是在一对VAE-GAN架构(见上文)下开发的,其中编码器的最后一层(E1,E2)和生成器的第一层(G1,G2)是共享的。UNITResultsPalettePalette是加拿大GoogleResearchGroup开发的条件扩散模型。该模型经过训练以执行与图像转换相关的4种不同任务,从而产生高质量的结果:(i)着色:为灰度图像添加颜色(ii)修复:用逼真的内容填充用户指定的图像区域(iii)取消裁剪:放大图像帧(iv)JPEG恢复:恢复损坏的JPEG图像在论文中,作者探讨了多任务通用模型和多个专用模型之间的区别,两者都经过一百万次迭代训练。该模型的架构基于Dhariwal和Nichol2021的类条件U-Net模型,使用1024张图像的批量大小进行1M训练步骤。预处理和调整噪声计划作为超参数,使用不同的计划进行训练和预测。PaletteResultsVisionTransformers(ViT)请注意,尽管以下两个模型不是专门为图像转换而设计的,但它们是将强大的模型(例如Transformer)引入计算机视觉领域的明确步骤。VisionTransformers(ViT)是对Transformers架构的修改(Vaswani等人,2017年),专为图像分类而开发。该模型将图像作为输入并输出属于每个定义类别的概率。主要问题是Transformer被设计为将一维序列作为输入,而不是二维矩阵。为了排名,作者建议将图像分割成小块,将图像视为序列(或NLP中的句子),将小块视为标记(或单词)。简单概括一下,我们可以将整个过程分为3个阶段:1)Embedding:拆分和展平小块→应用线性变换→添加类标记(该标记将作为分类考虑的图像摘要)→positionalembedding2)Transformer-编码器块:将嵌入的补丁放入一系列变换器编码器块中。注意机制学习要关注图像的哪些部分。3)ClassificationMLPheader:通过MLPheader传递classtoken,输出图像属于每个类的最终概率。使用ViT的优点:排列不会改变。与CNN相比,Transformers不受图像中平移(元素位置的变化)的影响。缺点:需要大量标记数据进行训练(至少14M图像)TransGANTransGAN是一种基于变换的GAN模型,专为不使用任何卷积层的图像生成而设计。相反,生成器和鉴别器由一系列通过上采样和下采样块连接的Transformer组成。生成器的正向传递采用随机噪声样本的一维数组并将其传递给MLP。直观上,我们可以把数组看成一句话,像素值看成单词(注意64个元素的数组可以reshape成1通道的8?8图像)接下来,作者应用了一系列Transformer块,每个后跟一个上采样层,使数组(图像)的大小加倍。TransGAN的一个关键特性是Grid-self-attention。当到达高维图像(即非常长的数组32?32=1024)时,应用变换器会导致自注意力机制的爆炸式成本,因为您需要将1024数组的每个像素与所有255个可能的像素进行比较(RGB维度)。因此,网格自注意力不是计算给定标记与所有其他标记之间的对应关系,而是将全维特征图划分为几个不重叠的网格,并计算每个局部网格中的标记交互。.鉴别器架构与之前引用的ViT非常相似。TransGAN在不同数据集上的结果