更好.如果要说2021年OpenAI最火最有创意的产品,那一定非达尔E莫属了。这是一个“AI设计师”,只要给它一段文字,它就可以根据需要生成图像。可惜Dall·E不支持中文。那么最近,清华大学唐杰团队打造了一款“中国版Dall·E”——CogView,可以将中文文字转为图片。CogView可以生成现实中的真实场景,如“一条溪水在山涧中流淌”;还可以创建虚拟的不存在的东西,比如“猫猪”:有时候有点黑色幽默,比如“悲伤的博士生”:CogView现在也提供了一个演示网页,可以在里面输入任意文字将其转化为图形,不像OpenAI的Dall·E只提供了几个关键字修改选项。指定绘画风格和设计服装的能力CogView的能力不仅仅是从文本输入图像,还可以处理不同微调策略的下游任务,如风格学习、超分辨率、文本-图像排序和时尚设计。使用CogView时,可以添加不同的样式限制,生成不同的绘画效果。微调时,图片对应的文字也是“XX风格的图片”。CogView设计的服装也很得体,就像电商展示页面一样,看不出任何造假的痕迹。原理CogView是一个具有40亿参数的VQ-VAE分词器的Transformer。其整体结构如下:CogView使用GPT模型处理离散字典上的token序列。然后将学习过程分为两个阶段:编码器和解码器学习最小化重建损失,单个GPT通过连接文本优化两个负对数似然(NLL)损失。结果,第一阶段退化为纯离散自动编码器,充当图像分词器,将图像转换为分词序列;第二阶段的GPT承担了大部分的建模任务。图像分词器的训练非常重要。共有三种方法:最近邻映射、Gumbel采样和softmax近似。Dall·E采用第三种方法。对于CogView,这三种方法之间几乎没有区别。CogView的backbone是一个单向Transformer,共有48层,40个注意力头,40亿个参数,隐藏层大小为2560。在训练过程中,作者发现CogView有两种不稳定性:溢出(表征通过NaNloss)和underflow(以divergenceloss为特征),然后他们提出使用PB-Relax和Sandwich-LN来解决它们。最后,CogView在MSCOCO上实现了最低的FID,优于之前基于GAN的模型和类似的Dall·E。在人工评估测试中,CogView以37.02%的概率被选为最佳,远超其他基于GAN的模型,已经可以与GroundTruth(59.53%)一较高下。另外,作者已经发布了GitHub项目页面,但是目前还没有代码。感兴趣的朋友可以关注代码发布。论文地址:https://arxiv.org/abs/2105.13290试用Demo:https://lab.aminer.cn/cogview/index.htmlGitHub页面:https://github.com/THUDM/CogView
