本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。还在为图片加载而烦恼吗?最新的好消息是,谷歌团队采用了结合了GANs和基于神经网络的压缩算法的图像压缩方法HiFiC,在高码率压缩的情况下依然可以高保真地还原图像。GAN(GenerativeAdversarialNetworks,生成对抗网络),顾名思义,该系统让两个神经网络相互“锐化”,一个神经网络负责生成接近真实的数据,另一个神经网络负责区分来自生成数据的真实数据。简单来说,就是一个神经网络“造假”,另一个神经网络“打假”。当系统达到平衡时,生成的数据看起来会非常接近真实数据,达到“以假乱真”的效果。下面是该算法显示的图像与JPG格式图像的对比。可以看出,当图像大小相近时(HiFiC大小为74kB,JPG图像大小为78kB),算法显示的图像压缩效果要好很多。与原图相比,HiFiC显示的还原效果还是很不错的。(原图中间不是真的画了一条线吗?)特殊时期,大量国外网友还在家隔离,Netflix和Youtube的流媒体量暴涨,一些视频网站甚至被被迫降低在线视频播放速度的清晰度以适应激增的数据量。不过,看惯了高清视频的网友自然对这突如其来的“模糊打击”吐槽不已。用一位网友的话说,如果类似的技术能应用到视频行业,相信Netflix和Youtube会很开心。毕竟,这种高清低码率的图像还原太有诱惑力了。哇,我敢肯定,如果Netflix和YouTube可以对视频做同样的事情,他们会喜欢的。其实了解了HiFiC算法的原理后,你会发现实现起来并不难。接近原始图像的图像重建算法此前,相关研究已经使用神经网络来压缩图像。随着近年来生成对抗网络的兴起,使用GAN生成假图像的算法不在少数。如果有办法将两者结合起来,图像压缩的效果会不会更好更接近人的感知呢?本次的图像压缩模型就是根据两者的特点设计的。在基于神经网络的图像压缩算法的基础上,使用GANs进一步使生成的图像更接近人类视觉,并在图像大小和视觉感知之间取得平衡。可以看出HiFiC架构分为4个主要部分,其中E是编码器,G是生成器,D是判别器,P是E的输出E(x)的概率模型(这里表示为y),即用P来模拟y的概率分布。GANs运行的核心思想是架构中的生成器G需要用一定的方法“欺骗”判别器D来判断样本是否真实。概率模型P是实现这个操作的条件。然后,将E、G、P参数化为卷积神经网络,使得这些网络可以通过率失真优化的条件进行联合训练。同时,研究人员还对现有的几种GANs算法架构进行了微调,使其更适合HiFiC架构。研究发现,将GANs与深度学习相结合的HiFiC算法取得了意想不到的效果。模型评价下图是采用目前几种主流图像质量评价标准,将几种前沿图像压缩算法与HiFiC算法进行对比的结果。在图中,评价标准附带的箭头表示较低的数据(↓)或较高的数据(↑)表示更好的图像质量。为了更好的对比,结果使用了HiFiC算法(图中红点连接),没有GANs的对比算法(图中橙色方块连接),以及目前更前沿的M&S算法(蓝色方块连接)图中)。以及BPG算法(图中蓝点连接)。从结果来看,HiFiC算法在FID、KID、NIQE、LPIPS的评价标准中表现最好,但在MS-SSIM和PSNR标准中表现一般。从评价标准的差异可以看出,个别的图像质量标准不一定是判断压缩技术的最佳方式。用户评价对比毕竟图片是用来看的,最终的判断权还是要交给用户。图像是否“清晰”在一定程度上取决于人眼的判断。为此,团队采用了一种研究模式,让部分志愿者参与算法的比对。他们首先展示了一张随机裁剪的测试图像,当志愿者对其中一种裁剪感兴趣时,他们使用这部分来比较所有算法。志愿者将原始图像与算法处理后的图像进行对比后,选择了他们认为“视觉上”更接近原始图像的压缩算法。所有算法选好后,会出现一个排名,衡量HiFiC的实际效果。(其中,HiFiC的下标Hi、Mi、Lo分别是从高到低设置三个不同码率阈值的算法。)上图中,分数越低的人眼中的图像越“清晰”用户。从图中可以看出,HiFiC(Mi)在0.237bpp的压缩效果下,在用户眼中比0.504bpp的BPG算法还要好2倍码率。即使压缩效果达到0.120bpp,也优于0.390bpp的BPG算法。这一研究再次推动了图像压缩技术的发展。正如网友所说,随着图像压缩技术的发展,在线看4k电影或许真的可以实现。作者介绍了目前在瑞士苏黎世理工学院从事计算机视觉研究的FabianMentzer。他的研究兴趣包括深度学习、图像压缩、前馈神经网络和图像分类。这篇论文的主要工作是由FabianMentzer在谷歌学习期间完成的,其余三位作者均来自谷歌团队。目前,该项目的源码和训练好的模型即将发布,小伙伴们可以点击下方传送门查看最新进展。传送门项目链接https://hific.github.io/
