一篇描述性文字的阅读指南,有风格参考和部分图片信息,AI能否快速准确地“脑补”出一张完整的图片?在深度学习领域的顶级会议NeurIPS2021上,阿里巴巴达墨源智能计算实验室提出了一种全新的多模态预训练架构M6-UFC,统一任意数量的多模态控制,实现灵活的条件图像生成。实验表明,M6-UFC可应用于服装设计,推动智能制造和个性化服装定制的发展。在犀牛智造业务中,M6为淘宝运动时尚品牌设计“元生”服饰,帮助减少整个设计过程的人力投入、时间成本和碳排放。据测算,通过用M6制作初样,结合Rhino天然纤维材料等环保面料的研发和应用,这款印花T恤在设计和生产过程中可减少30%以上的碳排放.使用M6模型和犀牛智能制造,销售一件衣服可以减少二氧化碳排放量约0.35千克;卖出50件相当于种一棵树。2ArticleFrame1AI的想象力?告诉你一些信息,你能想象整条裙子是什么样子的吗?比如:应该和下面的领子一模一样↓↓:这个图案设计的很漂亮,想要一件类似的:再比如,一件“丝纱拼接A字连衣裙”。下面揭晓答案:其实这些设计都是由神经网络完成的。各种衣服都可以随意组合,比如下图中的西装+印花T恤、短裙+衬衫等等;图案、颜色和材料都可以很好地融合在一起。不用担心撞衫,同样的控制信号,想生成多少模型就生成多少:2一个多模态控制下的图像生成模型以上都来自一个叫M6-UFC的模型,可以用任意数量的文本、图像作为控制信号,产生高质量的图像,并可以保存和编辑细节。该研究来自阿里巴巴达摩院和清华大学,相关论文已被NeurIPS2021录用。在此之前,大多数图像生成和编辑方法通常只使用一种控制信号。例如,在图像修复和修复任务中,会给出图像的一部分,在风格迁移任务中,会给出风格图像,在文本生成图像中,会给出描述图像的段落。作为一种全新的方式,M6-UFC首次将多种控制信号进行统一,可以将任意数量的控制信号进行组合生成图像。比如下图中,同时输入文字“翻领垫肩橙色西装外套带口袋”,图片“翻领”和要保留的部分“米色宽松下摆”同时输入:M6-UFC会生成根据控制信号图像的所有要求。M6-UFC的核心思想在于非自回归训练框架,兼容以往架构(如DALL·E、VQGAN)不兼容的图像控制和保留控制信号。非自回归生成的好处还不止于此,它还大大提高了生成速度,增强了图像的整体一致性。模型的输入是一个24层的M6(一个Transformer模型),它的输入分为四部分:第一部分是两个特殊的评估token[REL]和[FDL],用来评估控制信号并生成图像。相关性,以及生成图像的真实性,用于后续的PNAG算法;第二部分是文本控制输入,即任意长度的单词序列;第三部分是视觉控制输入,这里我们将视觉控制图像通过第一阶段的码本转换为码序列,我们进一步支持多种视觉控制,使用[SEP]将码序列划分为多个控制;最后一部分是要生成的图像,它也被转换成代码序列,在训练或NAR生成中,这个代码序列被部分或完全屏蔽。3训练过程研究人员设计了三个任务来训练模型,主要任务是MaskedSequenceModeling(MSM),还有两个评估任务RelevanceEstimation和FidelityEstimation。任务1:掩码序列建模此任务类似于BERT中的掩码语言建模。作为图像领域最早使用离散代码进行MLM训练的模型之一,M6-UFC比同期的BEIT拥有更完善的mask策略,因此也能支持更复杂的控制类型。M6-UFC中有以下四种策略:1、随机确定mask的代码编号,然后在需要mask的位置随机采样;2.所有口罩;3.在图像中随机选取一个任意大小的方框区域,然后对该区域进行遮罩处理;4.在图像中随机选取一个任意大小的方框区域,然后将区域外的部分遮住。在此之上,M6-UFC进一步将mask策略扩展到多种控制方式,做了文字控制(TC)和视觉控制(VC)四种组合(保留的控制自然包含在mask的训练过程中)):两者,只有一个,或两者都不是。由于数据集不提供视觉控制-目标图像对,而只提供文本-图像对,因此研究人员在训练过程中截取目标图像中的一个或多个区域作为数据量控制。Task2:RelevanceEstimation将token[REL]的特征输入一个线性分类器进行二分类,判断控制信号与当前生成图像的相关性。这里的负样本是通过交换两个训练样例的控制信号来交换的。Task3:FidelityEstimation将token[FDL]的特征输入线性分类器进行二分类,判断生成的图像是否真实。由于数据集中没有“不真实”的负样本,我们在训练几个epoch后使用M6-UFC进行text-to-image生成,并使用合成图像作为负样本。在模型推导阶段,研究人员提出了一种渐进式非自回归生成方法PNAG。在每次迭代中,mask阶段会生成5个不同的输入样本,然后在predict阶段会生成5个生成图像,以及这5个图像的相关性和保真度分数。选择具有最高相关性和保真度分数(以1:1的比例加权)的图像作为下一步的输入图像。PNAG算法可以使用两个评估器来指导非自回归迭代的生成方向,而不是“无意识地”迭代。随着迭代的进行,图片与文字的关联度和图片质量会越来越高。红色框内是得分最高的图像,也就是最终的结果,基本符合我们人类的感知,如下图所示:4测试结果的真实效果如何?研究人员将传统的GAN-based方法进行了比较,发现目前最好的结果在FID和LPIPS上都取得了。之后,研究人员详细对比了M6-UFC和VQGAN,在自动评价方面基本取得了较好的成绩,甚至在人工评价中处于领先地位。同时,M6-UFC花费的时间不到VQGAN的10%!再看生成的图像,在一个反事实的例子中(男士牛仔风格的蕾丝裙),VQGAN生成了一条普通的牛仔裤,而UFC-BERT生成了一件现实中不存在的服装,一条带蕾丝下摆的牛仔裙和男士裤裆设计。UsingTextControl(TC)andRetentionControl(PC):UsingTextControl(TC)andVisualControl(VC)文章还讨论了PNAG算法的有效性,产生了三种分辨率模型,其中PNAG(w/o.REL)去掉了correlationtester,PNAG(w/o.FDL)去掉了authenticitytester,MNAG是原来的Mask-Predict算法。同时,在PNAG中,并行迭代次数B也是一个重要的超参数,默认为5,研究人员也将其设置为1和10进行实验。消化结果如下。可以发现,两种评价器对图像生成质量都有很大帮助,B设置越大,PNAG迭代时的搜索空间越大,图像质量越好。5前瞻与展望本文介绍了一种新的架构,M6-UFC,统一任意数量的多模态控制,实现灵活的条件图像生成。UFC的剪辑能力在样本少的情况下极大地提高了图像生成的可扩展性和创造性,通过自动图像生成创造出新的风格。实验表明M6-UFC可以应用于服装设计。因此,本研究可以促进智能制造的发展,促进个性化服装定制,帮助服装设计师提高效率。人工智能不仅具有理解和匹配的能力,更具有创新和创造的能力。而这种能力正在逐渐接近人类的认知能力。我们从过去学习和理解,在新的场景中自由组合和创造。我们相信,这一能力不仅能为消费者带来耳目一新的体验,也能通过平台为商家带来全新的赋能体验。关于M6M6是阿里巴巴智能计算实验室推出的超大规模预训练模型。M6团队先后提出了参数规模为百亿、千亿、万亿、十万亿的超大规模预训练模型M6。除了首先通过扩展稠密模型观察到符合Neuralscalinglaw的现象外,后续的M6团队开始研究超大规模的MoE模型,这也是国际上第一个在这方面进行深入探索的团队谷歌之后的领域。随后,创建了第一个基于稀疏专家模型的多模态预训练模型——千亿参数M6,以非常高效的方式完成了如此大规模的多模态预训练模型的训练。完成第一步后,M6团队开始思考如何在前期研究的基础上,让MoE模型更加强大,更加低碳环保。终于在今年5月,虽然与千亿级M6相比效率有显着提升,但万亿级参数M6-T只用了480个GPU,用了3天时间就完成了训练。10月,M6再次突破行业极限。通过更细粒度的CPU卸载、共享卸载算法等创新技术,收敛效率进一步提升7倍。这使得模型规模扩大了10倍,而没有显着增加能耗。除了对大型模型开发技术的深入探索,M6团队还非常关注大型模型的应用和服务。针对不同的业务场景,团队将M6模型与各种单模态和跨模态的下游任务相结合,包括理解和生成任务,推出面向服务的组件,实现了每天数亿次的调用,获得了业务甲方认可和积极反馈。同时,团队将M6模型的生成和理解能力应用于金融领域的服装制造、智能文案制作、对话问答等应用场景,将技术能力转化为产业落地价值。数据库常见问题排查开发人员经常遇到一些数据库问题,感觉无从下手,严重影响了开发效率和开发人员对数据库的积极性。如何避免这样的困境,如何降低数据库的使用门槛和运维成本,如何在短时间内用云数据库技术和理念武装自己,提升自己。本课程将从实际场景和最佳实践出发,为您带来一些数据库问题的通用解决方案和方法。你会发现数据库不再是黑盒子了。相反,它看得见、摸得着、玩得着。必须转。点击阅读原文查看详情。
