OpenAI发布了DALL-E的部分论文和实现代码。今年年初,GPT-3的OpenAI图像版和120亿参数的DALL-E刷屏社区。这个大模型可以将大量用自然语言表达的概念转换成合适的图像,效果惊人。例如,如果您输入“鳄梨形椅子”,您可以获得各种形状的绿色鳄梨椅子的图像。如果GPT-3也一样,大家都很期待OpenAI发布DALL-E的官方论文和实现代码。经过将近两个月的等待,DALL-E的论文和代码终于出来了!但是,该项目正在更新。截至发稿,DALL-E仅开放了使用图像重建部分d-VAE训练的CNN编码器和解码器部分,Transformer代码部分尚未公开。否则无法使用数据集。该论文也是发表d-VAE的论文。项目地址:https://github.com/openai/DALL-E论文地址:https://arxiv.org/abs/2102.12092我们只能期待OpenAI更多的技术细节。DALL-E的部分代码已经开源。这是DALL·E使用的d-VAE的官方PyTorch包。在运行DALL-E/notebooks/usage.ipynb程序之前,需要先安装软件包,代码如下:pipinstallgit+https://github.com/openai/DALL-E.git解码器,encodercoded-年初,论文还没发表,就有人开始复现了。它们的复制基础来自一位博主制作的YouTube视频。在视频中,他们猜测了DALL·E的原理结构。那么,既然论文已经公开,是不是颠覆了他的预期呢?传统上,文本到图像的生成专注于在固定的训练数据集上寻找更好的建模假设。这些假设可能涉及复杂的架构、辅助损失或辅助信息,例如训练期间提供的对象部分标签或分割掩码。本研究提出了一种简单的基于转换器的方法,将文本和图像标记自回归建模为单个数据流。给定足够的数据和扩展,当以零样本方式进行评估时,所提出的方法与以前的特定领域模型相比具有相当的竞争力。
