当前位置: 首页 > 科技观察

你叫我画,你画我说:文心ERNIE-ViLG

时间:2023-03-21 20:31:44 科技观察

,全球最大的中文跨模态生成模型。在文字生成图片上,文心ERNIE-ViLG可以根据用户输入的文字自动生成图片,生成的图片不仅符合文字描述,而且达到了非常逼真的效果。在图文生成方面,文心ERNIE-ViLG可以理解图片,用简洁的语言描述图片的内容,并根据图片中的场景回答相关问题。不久前,百度工业级知识增强模型“文心”全景图亮相。近日,跨模态生成模型ERNIE-ViLG在百度文心官网开启体验入口,发布论文:体验链接:https://wenxin.baidu.com/wenxin/ernie-vilg论文链接:https:///arxiv.org/pdf/2112.15283.pdf据悉,文心ERNIE-ViLG参数规模达到100亿,是迄今为止全球最大的中文跨模态生成模型,首次使用自回归算法对图像生成和文本生成进行统一建模,增强了模型的跨模态语义对齐能力,显着提升图文生成效果。小编带大家体验一下文心ERNIE-ViLG的“造图”能力:在文本生成图像方面,文心ERNIE-ViLG可以根据用户输入的文字自动进行图像创建。生成的图像不仅符合文字描述,而且达到了非常逼真的效果。注意!以下图片是新生成的,不是可以直接搜索的原图。文心ERNIE-ViLG不仅可以创建建筑、动物等单一物体;还可以创建包含多个对象的复杂场景:甚至可以根据用户输入的文字开脑洞:对于想象力无限的古诗词,文心ERNIE-ViLG也可以生成合适的图像,并根据不同的画风进行调整:油画风格,国画风格,水彩画风格,此外,它可以根据文字提示完成图片:并且在图像到文本的生成中,文心ERNIE-ViLG可以理解图片并描述图片的内容图文通俗:不仅如此,文心ERNIE-ViLG还可以根据图中场景进行相关问题解答:文心ERNIE-ViLG目前已在百度文心官网开放体验文字生成图片demo可以根据图片进行绘制以古诗词为题材,增强诗歌意象。这些能力的背后,又隐藏着怎样的AI技术秘密?跨模态生成:跨模态生成是人工智能领域一个非常具有挑战性的“难题”,它是指将一种模态(文本、图像、语音)转换为另一种模态,同时保持语义一致性。图像文本生成是跨模态生成的挑战之一。以图片生成文本为例,对文本的描述是高度泛化的。从文本中生成图片需要考虑大量文本中没有涵盖的详细信息,极具挑战性。例如,《春江水暖鸭先知》一诗只描写了江水、鸭子和春天的时节这两个对象,而没有具体描写鸭子的颜色、江边的桃花、图中物体之间的位置关系。SpringRiverPlumbingDuckProphet近年来,基于生成对抗网络(GAN)的方法在人脸、风景等受限区域的文本转图像生成任务中取得了不错的效果;DALL-E生成模型在图像片段之间建立了上下文相关的关系,从而具备了多样化生成的建模能力,在多样性和难度更大的开放领域的文本到图像生成方面取得了突出的效果。百度文心ERNIE-ViLG模型进一步提出统一的跨模态双向生成模型,通过自回归生成模型统一图像生成和文本生成任务,更好地捕捉模态之间的语义对齐关系,从而同时提高双模态的效果方式图文生成任务。文心ERNIE-ViLG,在文本生成图片权威公开数据集MS-COCO上,图片质量评价指标FID(FréchetInceptionDistance)远超OpenAI的DALL-E等同类模型,刷新了状态-多项任务的最先进的图像描述。效果好。此外,文心ERNIE-ViLG还凭借强大的跨模态理解能力,在生成式视觉问答任务中取得了领先的成绩。文心ERNIE-ViLG的技术原理解读:双向图文生成统一建模两个任务。文心ERNIE-ViLG基于图像矢量量化技术,将图像表示为离散序列,从而可以将文本和图像建模在一个统一的序列自回归生成中。当从文本生成图像时,文心ERNIE-ViLG模型的输入是文本标记序列,输出是图像标记序列;从图像生成文本时,文本内容是根据输入图像序列预测的。两个方向的生成任务使用相同的Transformer模型。视觉和语言两种模态在相同的模型参数下生成相同的模式,可以促进模型更好的跨模态语义对齐的建立。文心ERNIE-ViLG拥有统一的图文双向生成建模框架。现有的基于图像离散表示的文本生成图像模型主要采用两阶段训练。文本生成视觉序列和根据视觉序列重建图像两个阶段是独立训练的。文心ERNIE-ViLG提出了一种端到端的训练方法,将Transformer模型在序列生成过程中输出的隐层图像表示连接到重建模型进行图像恢复,为重建模型提供语义上更丰富的特征;对于生成模型,它可以同时接收自己的抽象监督信号和来自重构模型的原始监督信号,有助于更好地学习图像表示。文心ERNIE-ViLG构建了包含1.45亿高质量中文文本-图像对的大规模跨模态对齐数据集,并基于百度飞桨深度学习平台在该数据集上训练了数百亿参数模型。在图像和图像描述等跨模态生成任务上评估模型的有效性。文本到图像合成任务性能在开放域公共数据集MS-COCO上验证了文心ERNIE-ViLG从文本生成图像的能力。评价指标采用FID(指标值越低,效果越好)。在zero-shot和finetune两种方法中,文心ERNIE-ViLG都取得了最好的效果,效果远优于OpenAI发布的DALL-E等模型。文心ERNIE-ViLG对MS-COCO数据集图像描述(ImageCaptioning)任务效果图像生成文字能力的影响,文心ERNIE-ViLG在COCO-CN、AIC-ICC两个公开的中文图像字幕生成数据集上均实现了最好的结果。文心ERNIE-ViLG对AIC-ICC数据集生成式视觉问答(GenerativeVQA)任务表现的影响在生成式视觉问答方面,文心ERNIE-ViLG也表现出了不俗的实力。生成式视觉问答需要模型根据图像内容和相应的问题生成答案。模型需要具备深度视觉内容理解能力和跨模态语义对齐能力,需要生成简答文本,难度极大。文心ERNIE-ViLG在FMIQA数据集上取得了最好的成绩,图灵测试通过率为78.5%,比目前最好的方法提高了14个百分点。文心ERNIE-ViLG对FMIQA数据集的影响结论让机器具备跨模态生成能力是人工智能的重要目标之一。在艺术创作、虚拟现实、图像编辑、AI辅助设计、虚拟数字人等领域,文心ERNIE-ViLG等跨模态大模型有着广阔的应用前景,也为未来的发展提供无限创意这些领域和可能。作为百度“文心”大型模型全景图的重要成员,文心ERNIE-ViLG也代表着百度文心在跨模态大型模型领域迈出了坚实的一步,并从自主技术方面持续推进。创新和加速中国工业应用人工智能发展。