内容生成一直被认为是AI领域最具挑战性的能力。最近火爆的AI绘画背后,是StableDiffusion模型的开源,催生了AI绘画的诸多应用。得益于StabilityAI的开源精神,此次创新推动了整个以英文为主的下游文生图生态的蓬勃发展。但是在国内,目前大部分团队主要是基于翻译API+英文稳定扩散模型进行开发,但是由于中英文的文化差异,在遇到独特的中文叙述和表达方式时,这种模型很难给出正确的匹配的图像内容。为此,IDEA认知计算与自然语言研究中心(IDEACCNL)开源了首个中文版稳定扩散模型“太乙稳定扩散”,让华人世界真正拥有了一个以中国文化为内核的AIGC模型。太乙稳定扩散纯中文版:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1太乙稳定扩散中英双语版:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1中国笔法,意境浮现,君不见黄河之水从天而降,美不胜收,油画澎湃,江水绵绵,美不胜收插画,流下三千尺,美,长城插画,清晨,朦胧,美,插画,梦回江南,中国古镇,美,插画云南苗家古村落,原始森林,鸟语花香,唯美,中国未来城市插画,科幻插画中英文对比中文指导具体风格代小桥流水人家,流水color(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)小桥流水人家,梵高风格(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)太一系列文字生成图像模型技术揭示首个开源中文CLIP模型2022年7月,IDEACCNL开源了首个中文CLIP模型,目前有4个版本。Taiyi-CLIP-Roberta-102M-中文:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-ChineseTaiyi-CLIP-Roberta-large-326M-中文:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-ChineseTaiyi-CLIP-RoBERTa-102M-ViT-L-中文:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-ChineseTaiyi-CLIP-RoBERTa-326M-ViT-H-中文:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-ChinesetoTaiyi-CLIP-Roberta-large-以326M-Chinese为例,IDEACCNL将开源的英文CLIP中文语言编码器替换为中文语言模型。在训练过程中,视觉编码器被冻结,只对中文语言模型进行了微调。它是在亿级中文数据上训练的。24个epoch共传递了约30亿条中文图文数据,得到了这个包含图像信息的中文表征语言模型,为后续ChineseDiffusion相关模型的训练奠定了重要基础。第一个开源中文DiscoDiffusion模型2022年10月,IDEACCNL开源了第一个中文DiscoDiffusion模型Taiyi-Diffusion-532M-Nature-Chinese,由KatherineCrowson在自然景观地图上的无条件扩散模型微调而来。结合taiyi-CLIP-Roberta-large-326M-Chinese,可以生成各种风格的中文风景图片。东望界石,面朝大海,风平浪静,山岛耸立:第一个开源的中国稳定扩散模型2022年11月,IDEACCNL开源了第一个中国稳定扩散模型和汉英双语稳定扩散模型。TaiyiStableDiffusion纯中文版(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)本模型使用已经开源的TaiyiCLIP模型(Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese)替换英文对于stable-diffusion-v1-4中的languageencoder,因为太乙CLIP模型已经有了很强的中文图文概念,所以直接冻结了英文stablediffusion的生成模型部分,对language进行fine-tune亿级别的高质量数据编码器调整学习率等超参数,使太乙CLIP模型理解的中文图形概念与产生稳定扩散的能力对齐。太乙稳定散播中英文双语版(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)与太乙稳定散播纯中文版不同。该模型希望保留diffusion-v1-4的stable-English生成能力。由于stable-diffusion-v1-4的原始语言模型不具备太乙CLIP模型强大的中文图文概念,IDEACCNL希望在其基础上增加中文数据训练。这里采用两阶段训练。第一阶段也是冻结stable-diffusion-v1-4的生成模型部分,在亿级别的高质量数据上微调languageencoder,调整学习率等超参数,训练representation语言模型的中文部分。第二阶段发布stable-diffusion-v1-4的生成模型部分,增强中文导图生成能力。目前训练中的一个checkpoint取得了不错的效果,已经开源。使用方法如果需要生成古诗词场景和中文概念,建议试用中文版Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要生成一些通用的场景和概念,特别是需要中英文混用,建议尝试中英双语版Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。中文版:中英双语版:太一中文稳定扩散的未来当前庞大的中国市场,近10亿个文化产业正受到AIGC的冲击,快速创新发展,在裂变中创造更多新机遇.由于以往的AIGC模型无法与中国特殊的文化背景相结合,IDEA研究院认知计算与自然语言中心致力于成为中国认知智能的基础设施,希望通过推出太乙模型。中国文化产业数字化转型在市场化中的创新发展,推动了各相关产业的升级换代。太乙所在的风神榜预训练模型开源系统已开源80个模型,涵盖AIGC、自然语言理解、受控文本生成等领域,成为中文预训练模型最大的开源系统.基于封神榜模型的GTS模型制作平台,亿参数模型自动化制作,击败多个百亿参数模型,进入FewCLUE榜单前三。机器自动生成模型的能力已经达到了算法专家的水平。时候到了。IDEACCNL认为,在AIGC中,人类的作用更为重要,生成式AI应该悄悄融入大众生活,更好地帮助拓展人类想象力的边界。因此,与AI交互生产的内容是帮助AIGC迈向下一阶段生产力的关键。因此,除了基础模型和基础算法研究,IDEACCNL也在研究更精准的文本生成和基于文本的交互式图像编辑。以以太坊为核心的AIGC模型将持续更新升级,敬请期待。
