当前位置: 首页 > 科技观察

AI设计师“鲁班”核心技术公开:如何1秒设计8000张海报?

时间:2023-03-20 01:27:42 科技观察

AI改变了围棋,现在正在改变海报设计。阿里有一个叫“鲁班”的AI设计师,平均一秒钟可以完成8000张海报设计,一天可以生产4000万张海报。仅去年双十一就设计了多达4亿张横幅海报。其背后的技术原理是什么?今天让我们仔细看看。本文介绍了视觉生成的现状、智能设计的框架和流程、应用案例和未来展望。通过本文的学习,您可以对鲁班产品及相关视觉生成技术有一个基本的了解,了解行业现状和未来发展趋势。演讲人简介:邢彤,阿里巴巴机器智能技术实验室高级算法专家,专注于视觉生成、智能医疗、图像搜索、信息提取等技术的开发与实现;阿里巴巴智能设计创始成员、创始人(鲁班)算法技术负责人,医学影像智能诊断负责人,影像搜索派力淘早期创始成员。本次分享主要分为以下几个部分:定义、目标与愿景设计行业现状技术框架与生产流程关键算法业务进展案例展示鲁班(新零售UED、淘宝技术部等共同打造的典型案例))展望展望1.定义、目标和愿景视觉生成定义:可控的视觉内容设计和生成,专注于制作满足用户和场景需求的数字视觉内容,包括增强、编辑、渲染、生成、评估图像、视频和图形设计和制作视觉内容。利用技术赋能和改革设计、广告和数字娱乐行业。目标:可控的视觉内容设计和生成,让AI来设计,让数字内容生产优质、高效、普惠、低成本;愿景:所想即所见。视觉生成主要分为三个方向。***,用于非结构化图像。第二,对于结构化图形。第三,对于连载视频。2、设计行业现状视觉一代相对年轻。起初,它基本上是手动完成的。海报或毕业设计封面设计等小需求,以及阿里巴巴海量商家的发货渠道和效果等大需求都与之相关。从业人数庞大,市场与广告、商家密切相关,市场容量非常大。从技术上讲,近年来人们经常提到供给侧改革。过去,供给方基本上是靠人或工具来形成图像、视频等,但这有很大的局限性,包括:效率高、成本低、数据利用率低。比如去年的双十一和今年的双十一主题不同,需要完全重做。不能在线,不能实时完成从请求到结果。很难做到上下文相关,设计者不会结合用户的个性化需求来形成上下文相关的结果。在消费者方面,对个性化、准确性和实时性有很高的要求。因此,供需之间仍然存在缺口。在AI行业,有很多IN:识别、理解、搜索。OUT很少:生成和集成还仅限于学术圈,没有系统的落地项目或商用产品。因此,“预测的最好方法是创造”。3、使用场景视觉生成引擎的使用场景可以大致抽象为下图。在显式输入方面,用户可以输入标签所需要的样式、颜色、构图等,或者输入一个例子,或者进行一些交互输入。除了显式输入,还可以有隐式输入,比如人群信息、场景信息、上下文信息等。一般情况下,输入可以是千变万化的,但归一化后,变化会减少,使得生成过程可控,输出质量可控。对于视觉生成引擎,它需要对输入进行归一化处理。但在输入之前,可以加入各种交互方式,如自然语言处理、语音识别等,将其转化为标准化的输入。***输出结构化信息或将其可视化为图形。4.技术框架及制作流程技术框架如下图左侧所示。首先,对视觉内容的结构理解,例如分类、量化和表征。其次,通过一系列的学习和决策,成为满足用户需求的结构化信息,即数据,最后将数据转化为视觉图像或视频。该框架依赖于大量现有数据。它的核心是一个设计内核。同时引入效用循环,通过使用后的反馈不断迭代完善系统。其制作过程分为六个步骤,如下图右侧所示。首先,用户提出需求,将需求的表征转化为系统可以理解的结构化信息。接下来,计划信息以获得草图。一旦你有了一个粗略的草图,将它变成一个相对更精确的图表,然后调整细节,最后通过数据可视化形成最终的图表。当然,各个部分还有很多技巧和优化。五、关键算法下面介绍一些关键算法。我们想根据下图中最左边的耐克鞋生成最右边的图像。先通过planner获取sketch,再通过强化学习获取相对详细的结果,再通过对抗学习和渲染算法获取图片,再通过evaluator进行评估,最终形成一个业务闭环,包括一些基础能力,包含更强的联合特征(非常见的CNN特征)和多维检索算法等。基本上,处理的第一步是对图片中的信息进行结构化,这是它与现有识别和理解技术结合最紧密的地方。难点和重点包括如何识别图像中的多个目标、遮挡和相互包含、如何获取分割信息等,下图只是一个简单的例子。一旦结构化信息可用,就需要对信息进行量化。可以量化为特征或量化图。量化过程中会包含很多信息,比如主题风格、布局配色、元素类型、量化空间等,有了这些信息,就可以量化成主题、类型、风格、视觉等方面的各种代码特征大小和位置,用相对有限的特征表达出完美的画面。接下来就是通过用户的输入得到一个比较粗略的结果,也就是草图。目前主要使用深度序列学习。从图像上看,先选择一个点的像素颜色,然后选择位置,然后迭代操作,最终形成图片。规划器模拟的正是这个过程。本质上,预测过程是一棵树,当然可以拆分成路径。为了简单起见,可以分为几个步骤,例如空间序列和视觉序列。***形成量化特征模型,主要应用是LSTM模型。它将设计过程转变为递归的、基于循环的过程。拿到草图后,用演员细化草图。如果把图中的每个元素都看做一个Agent,那么它就会有几个可选的动作空间。假设一张图片中有20个元素,每个元素在视觉上都有多个可选动作空间,它们形成的可选动作空间非常大。我们有很多技巧来解决这个问题。例如,在空间上,只允许有限范围内的变化,动作的方向是有序的,即状态有序,动作有限。下一步是如何衡量结果的好坏。对图像的评价是比较主观的,主要从审美和效果两个方面来评价。审美角度既可以包括对齐、配色合理、遮挡等低级判断标准,也可以包括风格是否一致、是否契合主题等高级判断标准。效果方面,产品上线后是否会在点击率方面有所提升。***将多个指标组成相应的权重,形成多个DeepLR联合模型。但在测量结果之前,需要形成像素级可见的地图。构造函数有几类,包括复制、迁移、创建、并置和生成。前面介绍过,如何通过用户的需求形成一个可见的图。后续需要进行传递和反馈,并进行优化,形成效用的外循环。只有这样,才能不断提高系统的效用,形成在线闭环,这也是智能设计相对于设计师的一大优势。6.业务进展以下是一些实际例子。大量的人的信息和知识图谱也加入了这个系统。设计师在设计时会有一些共同点,包括色彩的运用、复杂程度、风格、结构等。这有点类似于自然语言处理,但是自然语言处理的知识图谱已经很成熟了,设计上还需要不断的探索和打磨。在影响力上,鲁班作为业界首创的AI设计系统,成为集团双十一AI协同的典型案例,受到大量报道。其中使用了对抗性学习,它是MIT2018的十大突破性技术之一。7.案例展示从多样性的角度来看,生成的图片可以是多主题、多主题、多颜色和类型自适应的。同时还可以生成各种尺寸的图片。8.展望以上所说的基本都是平面设计层面的。但视频和图形是另一个蓝海。如果说手工制作一张图片的成本比较高,那么制作视频的成本要比图片高很多。下图显示了该行业目前的市场空间。下图是在视频中投放广告的案例。需要检测视频中哪个位置适合插入广告,并优化位置。下图是一场网球比赛中,阿里巴巴品牌标志无缝投射到球场上。为了强调视频的一部分,可以生成整体静止和部分运动的可循环视频。在游戏领域,目前的游戏场景需要大量的美工、设计师等,如果希望生成的结果能够满足多样性,纯手工来做会花费很多钱,而且因为生活游戏的周期通常很短,批量高效的场景制作是很有前途的应用。9.结语通过视觉生成引擎,我们希望一切都可以根据用户的想法生成。长期目标是:所想即所见。【本文为专栏作者《阿里巴巴官方技术》原创稿件,转载请联系原作者】点此查看作者更多好文