简单:介绍GAN原理及应用模式图片等任务。Statsbot团队邀请了数据科学家AntonKarazeev,通过日常实例深入浅出地解释了GAN的原理及其应用。GenerativeAdversarialNetworks由IanGoodfellow于2014年提出。GAN并不是神经网络用于无监督学习的唯一方式,还有玻尔兹曼机(GeoffreyHinton和TerrySejnowski,1985)和自动解码器(DanaH.Ballard,1987).这三者都专注于通过学习身份函数f(x)=x从数据中提取特征,并且都依赖马尔可夫链来训练或生成样本。GAN旨在避免使用计算量大的马尔可夫链。与玻尔兹曼机相比的另一个优势是GAN的限制要少得多(只有少数概率分布适用于马尔可夫链采样)。在本文中,我们将介绍GAN的基础知识及其最流行的实际应用。GAN是如何工作的让我们用一个比喻来解释GAN是如何工作的。假设你想买一块漂亮的手表。但如果你从来没有买过手表,可能很难辨别真假;购买手表的经验可以防止您被奸商欺骗。当你开始给大多数手表贴上假货的标签时(当然是在被骗之后),卖家就会开始“生产”更逼真的仿冒品。这个例子形象地解释了GAN的基本原理:鉴别器网络(手表买家)和生成器网络(生产假表的卖家)。这两个网络相互竞争。GAN允许生成逼真的对象(例如图像)。生成器在压力下生成逼真的样本,鉴别器学习区分生成的样本和真实样本。判别算法和生成算法有何不同?简单地说:判别算法学习类之间的边界(如判别器所做的),而生成算法学习类的分布(如生成器所做的)。如果你要深入研究GAN要学习的生成器的分布,你应该定义数据x的参数p_g,以及输入噪声变量p_z(z)的分布。G(z,θ_g)然后将z从潜在空间Z映射到数据空间,D(x,θ_d)输出单个标量——x来自真实数据而不是p_g的概率。训练鉴别器以最大化正确标记真实数据和生成样本的概率。生成器经过训练以最小化log(1-D(G(z)))。换句话说,最小化鉴别器给出正确答案的概率。这样的训练任务可以被认为是具有价值函数V(G,D)的极小极大游戏:换句话说,生成器尝试生成鉴别器难以处理的图像,而鉴别器变得更聪明,以免被被发电机骗了。“对抗训练是继切片面包之后最酷的事情。”-YannLeCun当鉴别器无法区分p_g和p_data时,训练过程停止,即D(x,θ_d)=1/2。在生成器和鉴别器之间实现决策错误的平衡。历史档案图像检索GAN应用程序的一个有趣示例是检索“获奖论文”中的相似标签,这是海事历史上最有价值的档案之一。对抗性网络使得处理这些历史文件变得更加容易,其中还包括有关海上扣船合法性的信息。每条查询记录都包含商家标记的样本——商家属性的唯一标识符,类似于象形图的草图符号。我们应该获得每个标记的特征表示,但是应用传统的机器学习和深度学习方法(包括卷积神经网络)存在一些问题:它们需要大量的注释图像;未标注商标;标记不能从数据集中分割。这种新方法展示了如何使用GAN从徽标图像中提取和学习特征。在学习了每个标记的表示之后,就可以在扫描的文档上进行图形搜索。将文本翻译成图像其他研究人员已经表明,使用自然语言的描述性属性生成相应的图像是可行的。文本到图像的方法可以说明模拟真实数据样本的生成模型的性能。图像生成的主要问题是图像分布是多模态的。例如,有太多的例子完全符合文本描述的内容。GAN有助于解决这个问题。让我们考虑以下任务:将蓝色输入点映射到绿色输出点(绿色点可能是蓝色点的输出)。这个红色箭头表示预测的错误,也意味着随着时间的推移,蓝色点将被映射到绿色点的平均值——这种精确映射会使我们试图预测的图像变得模糊。GAN不直接使用输入和输出对。相反,他们学习如何配对输入和输出。以下是根据文本描述生成图像的示例:用于训练GAN的数据集:Caltech-UCSD-200-2011是一个包含11,788张图像的数据集,其中包含200种鸟类的照片。Oxford-102花卉数据集由102个花卉类别组成,每个类别包含40到258张图像。药物匹配当其他研究人员将GAN应用于图像和视频时,InsilicoMedicine的研究人员提出了一种使用GAN进行药物匹配的方法。我们的目标是训练生成器尽可能准确地对药物数据库中的现有药物执行针对特定疾病的操作。训练后,生成器可用于获取以前无法治愈的疾病的处方,鉴别器可用于确定生成的处方是否可以治愈特定疾病。肿瘤分子生物学的应用InsilicoMedicine另一项研究显示了用于生成一组参数定义的新抗癌分子的管道。其目的是预测药物反应和具有抗癌作用的化合物。研究人员提出了一种对抗性自动编码器(AAE)模型,用于根据现有生化数据识别和生成新化合物。“据我们所知,这是GAN技术在挖掘抗癌药物领域的首次应用。”-研究人员说。数据库中有许多生化数据可用,例如癌细胞系百科全书(CCLE)、癌症药物敏感性遗传学(GDSC)和NCI-60癌细胞系。所有这些都包含来自不同抗癌药物实验的筛选数据。对抗性自动编码器使用生长抑制数据(GI,显示治疗后癌细胞数量减少)以药物浓度和指纹作为输入进行训练。分子指纹在计算机中用固定位数表示,每一位代表某些特征的保留状态。隐藏层由5个神经元组成,其中一个负责GI(癌细胞抑制率),另外4个按正态分布进行判别。因此,将回归项添加到编码器成本函数中。此外,编码器只能将相同的指纹映射到相同的潜在向量,这个过程独立于通过额外的流形成本集中输入。训练后,网络可以根据所需的分布生成分子,使用GI神经元作为输出化合物的微调器。这项工作的结果如下:经过训练的AAE模型预测的已被证明是抗癌药物的化合物,以及需要抗癌活性化合物进行实验验证的新药。“我们的结果表明,本文提出的AAE模型显着提高了特定抗癌能力的效率和使用深度生成模型开发新分子。”结语无监督学习是人工智能的下一个蓝海,我们正朝着这个方向大踏步前进。GAN可以应用于许多领域,从生成图像到预测药物,所以不要害怕失败。我们相信GAN可以帮助构建更好的机器学习未来。原文:https://blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f96291965b47【本文为机器之心专栏原文翻译,微信♂》机器之心(id:almosthuman2014)》】点此阅读作者更多好文
