当前位置: 首页 > 科技观察

超懂中国传统文化的AI绘画模型,画作有形更有神,传达儒释道思想

时间:2023-03-21 12:07:58 科技观察

懂中国传统文化的AI绘画模型,画的有形更有灵性,传达儒释道。生成的各种图片并不少见。上个月,一位游戏设计师用AI绘画工具Midjourney(中途岛)创作的作品《太空歌剧院》在科罗拉多州博览会艺术大赛中获得金奖。受此启发,中国人民大学陆志武教授团队创新地将文澜自主研发的多模态预训练模型与最新的图像生成技术相结合,打造出最懂中国传统文化的AI绘画生成模型。文澜模型是由中国人民大学高瓴人工智能学院执行院长温继荣教授、卢志武教授、宋瑞华副教授共同开发的大规模中文多模态预训练模型。经过6.5亿个弱相关中文图文对的预训练,文澜模型学会了独特的中文语义理解能力,能够很好地将中文语义与视觉信息联系起来。尤其擅长阅读中国特有的隐含语义和图片。中的抽象概念。今年6月,相关研究成果“Towardsartificialgeneralintelligenceviaamultimodalfoundationmodel”已发表在NatureCommunications(《自然 · 通讯》)。论文链接:https://www.nature.com/articles/s41467-022-30761-2文澜与生成模型的结合研究团队挖掘了文澜模型的潜力,并用最新一代技术创新了文澜与生成模型的结合Lan的抽象语义理解能力和生成模型强大的生成能力,保证了得到的模型能够很好地解释输入文本的语义,并生成具有相应语义的图片。团队专注于挖掘文澜在中国传统文化中的潜力,借鉴最新的生成模型架构,并在收集到的国画数据集上进行训练。得到的模型可以根据输入的文本生成相应风格的图片。详细的架构图如下所示。具体来说,团队在国画数据集上训练了一个无条件生成模型,并使用文澜模型通过迭代生成的方式来指导生成过程。该方法首先随机初始化噪声图像。在每一步生成中,模型都会沿着靠近输入文本的方向调整生成图片的内容,使得每一步生成图片的内容与输入文本在隐空间中趋于一致文澜模型。这一步可以描述为:其中x和y分别代表图片和文本,IE和TE分别代表文澜的图片编码器和文本编码器。通过不断迭代,模型可以实现根据文本语义生成高质量字符图片的功能。文澜绘画模型评价结果由于文澜模型本身的特点,文澜绘画模型可以根据输入的古诗词生成相应的图片。从下面的例子可以看出,模型生成的图片非常符合古诗词的内容和意境。同时,团队还发现,文澜的绘画模式甚至对晦涩难懂的儒释道有着独特的诠释。为了更好地展示文澜绘画模型在诠释儒释道方面的特点,团队选取了国内外最流行的AI绘画模型进行对比分析,包括盗梦、文心、DiscoDiffusion、Midjourney和StableDiffusion.其中DiscoDiffusion、Midjourney和StableDiffusion需要先百度翻译中文文本。从下图生成的结果来看,DreamPirates、DiscoDiffusion、Midjourney、StableDiffusion倾向于在句子中生成一些具体的物体或者生成一些图片比较好的图片但是内容与句子无关。文心倾向于生成带有文字的图片,甚至直接对应点燃的蜡烛。文澜画模型可以更好的读懂整句话的意思和其中蕴含的儒家思想,从而生成更符合思想的图片。其次,对于包含佛教思想的文本输入,目前最流行的绘画生成模型只能捕捉到一些具体的物体并进行有针对性的生成,有些绘画模型甚至可能会误解其中的思想。如下图生成的结果所示,文心将“见道忘山者天下寂静,见山忘道者山喧”解读为道家思想(产生了道士的形象)。文澜绘画模型可以很好的解读输入文本的佛学思想,并在生成的图片中体现出来。最后,在道教方面,团队选取了《道德经》中的三个核心句子。文心对《道德经》的解读能力要强于《盗梦》、《DiscoDiffusion》、《Midjourney》和《StableDiffusion》。但总体来说,文澜的绘画模型对道家的诠释更到位,生成的画面也更有道家的意境。综上所述,文澜团队将近期流行的AI绘画生成技术与中国多模态预训练模型文澜相结合,深入挖掘文澜模型在中国传统文化中的潜力,并通过生成的图片以图片的形式展现出来模式,从而让广大民众对一些博大精深的中国传统文化思想有了更直观的认识。