当前位置: 首页 > 科技观察

只要你说一句话,马斯克就得把扫帚头留着,项目已开源

时间:2023-03-18 18:35:47 科技观察

本文经人工智能新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。现在,Adobe不希望您用手来进行Photoshop,只需用嘴即可。你只需说一句话,电脑就能产生你想要的效果。比如你说出你想要的发型,马斯克马上就会被剃光:“Hi-topFade(扫把头),换!”肤色和妆容也可以轻松改变,可以上一张“素颜/素颜”。金发,他变成了特朗普!除了人,动物和风景也可以P。输入“萌猫”,将图片中的猫变成“大眼萌猫”:说“老爷车”,它可以把你的车变成老爷车复古模式,还可以手动调节复古等级:简直是手残P图玩家的福音。没错,这是Adobe、希伯来大学和特拉维夫大学的新操作。只需要一句话,就可以让电脑“修复”你想要的图片。现在,该项目已经开源。当GAN遇到CLIP的神奇操作,它来自一种新的算法:StyleCLIP。没错,就是把最先进的GAN——StyleGAN,和OpenAI开发的CLIP模型结合起来。为什么选择这两个模型?其中,CLIP本身不能生成图像,但具有很好的图像分类效果。它不仅可以理解输入的单词,还可以连接语义和图像特征。也就是说,CLIP有着与人脑非常相似的工作方式。它不仅在技术上连接了CV和NLP,还为它们分配了专门的处理区域。比如,一旦听到“蜘蛛侠”这个词,或者看到一张蜘蛛侠的图片,CLIP的特定区域就会开始响应,甚至连原本用来响应红蓝“躁动”的区域也开始响应。然而,StyleGAN可以实现照片级别的模拟,生成非常逼真的图像:但StyleGAN和StyleGAN2等一系列GAN模型无法独立改变面部外观、形状或表情等参数。中、微调等大方向改变图像:如果将CLIP和StyleGAN结合成一个新的模型,只需要一句文本信息,就可以帮你P出一张既逼真又细腻的图像。点击鼠标调整效果。其实模型的效果确实不错,功能也很全面。自带图形界面窗口:一句话说出需求,鼠标即可调整。例如,将英国首相鲍里斯·约翰逊(AlexanderBorisdePfeffelJohnson)一键变成女人:还能让他皱眉或大笑:不仅能记住整个人的五官,还能变脸,换发型,换妆;它也可以应用到动物身上,甚至可以将老虎变成狮子:当然,也可以将普通房屋改造成哥特式建筑。在单个NVIDIAGTX1080TiGPU上,全局预处理时间为4小时。预处理后,可以在其上应用不同的文本图像对。至于训练时间,需要跑10~12小时,加上优化器后的推理时间为98秒。那么,模型的稳定性如何?即使背景人物不同,使用一张句子P图后,他们之间的相似度也能达到73%以上,最高可达84%。也就是说,模型改变特征的效果还是很稳定的。当然,虽然测试效果不错,但是网友还是发现了图片生成的一些bug。比如网友发现有胡子的男人比没有胡子的男人看起来更生气?有网友测试后表示,“晒黑人”等个别效果确实不够好,需要进行数据清洗。另外,也有网友建议作者尝试做进一步的研究,比如模型中的偏差。例如,尝试使用“成功的男人/女人”、“罪犯”等形容词,看看模型生成了什么。作者介绍OrPatashnik,来自特拉维夫大学,主要研究方向为计算机视觉。合著者吴宗泽来自耶路撒冷希伯来大学。主要研究方向为计算机视觉,包括GAN、图像处理、图像翻译等。第三作者EliShechtman来自Adob??e。研究方向为计算机视觉,包括视频分析与合成、目标与动作识别、图形视觉、图像与视频检索等。此外,特拉维夫大学的DanielCohen-Or和希伯来大学的DaniLischinski对本文也有贡献。也许,Adobe真的会把“动嘴P图”的功能放到PS中。项目地址:https://github.com/orpatashnik/StyleCLIP论文地址:https://arxiv.org/abs/2103.17249