近两年,AI界大规模生成模型的发布呈井喷之势,尤其是StableDiffusion开源和ChatGPT开放接口后,更是激起了大家的热情生成模型行业。不过生成模型的种类很多,发布速度也很快。如果你不小心,你可能会错过sota。近日,来自西班牙科米利亚斯教皇大学的研究人员全面回顾了AI在各个领域的最新进展,将生成模型融入到任务模式和领域中,分为九大类,并总结了发布的21个生成模型2022年,第一时间了解生成模型的发展!论文链接:https://arxiv.org/abs/2301.04655生成式AI分类模型可以根据输入输出数据类型进行分类,目前主要包括9类。有趣的是,在这些已发布的大型模型背后,只有六个组织(OpenAI、Google、DeepMind、Meta、runway、Nvidia)参与部署了这些最先进的模型。这其中的主要原因是,为了能够估计这些模型的参数,需要拥有极其强大的计算能力,以及在数据科学和数据工程方面技术精湛、经验丰富的团队。因此,只有这些公司在收购的初创公司和与学术界合作的帮助下,才能够成功部署生成式AI模型。在大公司参与初创公司方面,看到微软投资10亿美元给OpenAI,帮助他们开发模型;同样,谷歌在2014年收购了Deepmind。在大学方面,VisualGPT由阿卜杜拉国王科技大学(KAUST)、卡内基梅隆大学和南洋理工大学开发,HumanMotionDiffusion模型由以色列特拉维夫大学开发.同样,公司与大学合作开发了其他项目,例如StableDiffusion,Runway、StabilityAI和慕尼黑大学之间的合作;Soundify,Runway和卡内基梅隆大学的合作项目;和DreamFusion,谷歌和加州大学伯克利分校之间的合作。分公司合作。OpenAI开发的文本转图像模型DALL-E2DALL-E2可以根据由文本描述组成的提示生成原始、真实、逼真的图像和艺术,OpenAI提供了访问该模型的API。DALL-E2的特别之处在于它可以组合概念、属性和不同的风格。它的能力来自语言-图像预训练模型CLIP神经网络,可以指示自然语言中最相关的文本片段。具体来说,CLIP嵌入有几个理想的特性:它能够对图像分布进行稳定的变换;具有很强的零射能力;经过微调后,它达到了最先进的结果。为了获得完整的图像生成模型,CLIP图像嵌入解码器模块与先验模型相结合,从给定的文本标题生成相关的CLIP图像嵌入。其他模型包括Imagen、StableDiffusion、MuseText-to-3D模型对于某些行业,只能生成2D图像,无法完成自动化。比如在游戏领域,需要生成3D模型。DreamfusionDreamFusion由GoogleResearch开发,使用预训练的2D文本到图像扩散模型进行文本到3D的合成。Dreamfusion将CLIP技术替换为源自二维扩散模型蒸馏的损失,即扩散模型可以用作连续优化问题中的通用损失来生成样本。与其他主要对像素进行采样的方法相比,在参数空间中采样比在像素空间中采样要困难得多,DreamFusion使用可微分生成器,专注于创建从随机角度渲染图像的3D模型。Magic3D等其他模型由Nvidia开发。Image-to-Text模型对于获取描述图像的文本也很有用,相当于图像生成的逆向版本。Flamingo模型由Deepmind开发。在开放式视觉语言任务中,只需几个输入/输出示例即可执行少样本学习。具体来说,Flamingo的输入包括视觉条件下的自回归文本生成模型,它可以接收一系列与图像或视频交错的文本标记,并生成文本作为输出。用户可以在模型中输入查询,附上照片或视频,模型将用文本回答。Flamingo模型利用两个互补模型:一个分析视觉场景的视觉模型,以及一个执行基本推理形式的大型语言模型。VisualGPTVisualGPT是由OpenAI开发的一种图像描述模型,它利用了预训练语言模型GPT-2的知识。为了弥合不同模态之间的语义鸿沟,研究人员设计了一种具有整流门控的新型编码器-解码器注意机制。VisualGPT最大的优势在于它不需要像其他图像到文本模型那样多的数据,可以提高图像描述模型的数据效率,可以应用于小众领域或描述稀有物体。由GoogleResearch开发的文本到视频模型Phenaki可以在给定一系列文本提示的情况下进行真实的视频合成。Phenaki是第一个能够从开放域时间可变线索生成视频的模型。为了解决数据问题,研究人员联合训练了一个大型图像文本对数据集和较少数量的视频文本示例,最终实现了超越视频数据集的泛化能力。主要是图像文本数据集往往有数十亿的输入数据,而文本视频数据集要小得多,对不同长度的视频进行计算也是一个挑战。Phenaki模型由三部分组成:C-ViViTEncoder、TrainingTransformer和VideoGenerator。将输入的token转换为embedding后,再经过时序Transformer和空间Transformer,然后使用单次无激活的线性投影将token映射回像素空间。最终模型可以根据开放域线索生成时间一致且多样化的视频,甚至能够处理数据集中不存在的一些新颖概念。相关模型包括Soundify.Text-to-Audio模型。声音也是视频生成不可或缺的一部分。AudioLM模型由谷歌开发,可用于生成具有远距离一致性的高质量音频。AudioLM的特殊之处在于它将输入的音频映射为离散的token序列,并将音频生成作为该表示空间的语言建模任务。在大量原始音频波形语料库上训练后,AudioLM成功地学会了在给定简短提示的情况下生成自然且连贯的连续语音。这种方法甚至可以扩展到人声之外的语音,比如连续的钢琴曲等,而无需在训练时添加符号表示。由于音频信号涉及多个抽象尺度,因此在音频合成过程中实现高音频质量同时显示跨多个尺度的一致性非常具有挑战性。AudioLM模型是通过结合神经音频压缩、自监督表示学习和语言建模的最新进展来实现的。在主观评价方面,评分者被要求听一段10秒的样本,并判断它是人类语音还是合成语音。基于收集到的1000个评分,该比例为51.2%,这与随机分配标签没有统计学差异,即人类无法区分合成样本和真实样本。其他相关模型包括常用于问答任务的Jukebox和WhisperText-to-Text模型。ChatGPT流行的ChatGPT,由OpenAI开发,以对话方式与用户交互。用户提出问题,或提示前半部分文字,模型完成后半部分,能够识别不正确的输入前提,拒绝不恰当的请求。具体来说,ChatGPT背后的算法是Transformer,训练过程主要是人类反馈的强化学习。原始模型在监督学习下使用微调进行训练,然后人类提供一段对话,他们在对话中扮演用户和AI助手,人类修正模型返回的反应并帮助模型提高正确答案。将生成的数据集与InstructGPT的数据集混合,并将其转换为对话格式。其他相关模型包括LaMDA和PEERText-to-Code模型类似于text-to-text,只是它生成一种特殊类型的文本,即代码。Codex是OpenAI开发的一种模型,可以将文本翻译成代码。Codex是一种通用编程模型,基本上可以应用于任何编程任务。编程时的人类活动可分为两部分:1)将问题分解为更简单的问题;2)将这些问题映射到已经存在的现有代码(库、API或函数)中。第二部分是程序员最耗时的部分,也是Codex最好的地方。训练数据于2020年5月从GitHub上托管的公共软件存储库收集,包含179GB的Python文件,并在GPT-3之上进行了微调,GPT-3已经包含强大的自然语言表示。相关模型还包括AlphacodeText-to-Science模型。科学文本也是AI文本生成的目标之一,但要取得成果还有很长的路要走。Galactica该模型由MetaAI和PaperswithCode联合开发,可用于自动组织科学文本的大型模型。Galactica的主要优点是即使经过多集训练,模型也不会过拟合,并且上下游性能会随着token的复用而提升。数据集的设计对于这种方法至关重要,因为所有数据都以通用的降价格式处理,从而能够混合来自不同来源的知识。引文使用特定标记处理,使研究人员能够预测任何输入上下文中的引文。Galactica模型预测引用的能力随着规模的扩大而提高。此外,该模型在仅解码器设置中使用了Transformer架构,并为各种规模的模型提供GeLU激活,使其能够执行涉及SMILES化学公式和蛋白质序列的多模态任务,MinervaMinerva的主要目的是解决数学和科学问题,它收集大量训练数据,解决定量推理问题,大规模模型开发问题,并采用最先进的推理技术。Minerva采样语言模型架构通过逐步推理解决输入问题,即输入需要包含计算和符号运算,无需引入外部工具。其他模型还有一些模型不属于前面提到的类别。由Deepmind开发的AlphaTensor是业界完全革命性的模型,因为它具有发现新算法的能力。在已发布的示例中,AlphaTensor创建了一种更高效的矩阵乘法算法。这种算法非常重要,以至于从神经网络到科学计算程序的一切都可以从这种高效的乘法中受益。该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程是玩单人游戏,目标是在有限的因子空间中寻找张量分解。在TensorGame的每一步,玩家需要选择如何组合矩阵的不同项进行乘法运算,并根据达到正确乘法结果所需的运算次数获得加分。AlphaTensor使用特殊的神经网络架构来利用合成训练游戏的对称性。GATO模型是Deepmind开发的一种通用代理,可以作为多模态、多任务或多实例的泛化策略。具有相同权重的相同网络可以承载截然不同的功能,从玩Atari游戏、描述图片、聊天、堆叠积木等等。在所有任务中使用单一神经序列模型有很多好处,减少了手工制作具有归纳偏差的策略模型的需要,并增加了训练数据的数量和多样性。这个通用代理可以成功完成大量任务,并且可以用很少的额外数据进行调整以成功完成更多任务。目前GATO大约有1.2B个参数,可以实时控制真实世界机器人的模型比例。其他已发表的生成式人工智能模型包括生成人体运动等。参考:https://arxiv.org/abs/2301.04655
