当前位置: 首页 > 科技观察

MSRA荣获ACMTOMM2017最佳论文:让AI接手复杂专业的图文排版设计工作

时间:2023-03-12 18:54:52 科技观察

你是否曾为如何创作和编辑一篇图文丰富、排版精美的文章而烦恼?还是苦于缺乏艺术灵感和设计思路?人工智能技术能帮助我们进行艺术设计吗?今天给大家介绍的论文《AutomaticGenerationofVisual-TextualPresentationLayout》(图形排版自动生成算法研究)刚刚被ACMTransactionsonMultimediaComputing,CommunicationsandApplications(TOMM)发表,获得2017年NicolasD.Georganas最佳论文奖,希望能为您在创作和分享富媒体内容时提供独特的思路和方法。该论文的共同作者为杨旭勇(微软亚洲研究院与中国科学技术大学联合培养的博士生,FeedingChe联合创始人)、梅涛(微软亚洲研究院高级研究员,杰出的美国计算机协会科学家,国际模式识别学会会士),许映清(原微软亚洲研究院负责人研究员,清华大学美术学院信息艺术设计系主任)、芮勇(原微软亚洲研究院副院长、联想CTO)、李世鹏(原微软亚洲研究院副院长、硬蛋CTO)。向研究所全体科研人员和校友表示祝贺!当今富媒体的内容是前所未有的。人们无时无刻不在创造和分享海量的信息,尤其是内容复杂的图文信息。其中,图文混合的内容模式成为主流。在内容创作过程中,人们面临的一个巨大挑战是如何为各种图像和文字信息设计出引人注目的版面(例如,杂志封面、海报或PPT演讲等)。这个问题至关重要,无论是对于商业印刷、在线期刊和杂志,还是用户生成的内容表达。图文内容的排版涉及到很多专业知识,包括视觉传达、信息艺术设计、色彩与美学、平面规划、几何构图等。过去,平面排版设计工作不仅需要设计人员具有丰富的专业知识,而且耗费了大量的劳动力。如何让电脑根据图文内容自动排版,是一个非常棘手的问题。自2013年底以来,微软亚洲研究院的研究人员与清华大学美术学院的艺术设计专家在这一科学与艺术融合的领域展开了深入合作。他们将设计中的美学原则与可计算的图像特征相结合,创造性地提出了可计算自动排版框架的原型。原型通过一系列关键问题(例如,嵌入照片的文本的视觉权重、视觉空间的配重、心理学中的色彩和谐因素、信息在视觉认知和语义理解中的重要性等)进行优化,自然地将视觉呈现、文本语义、设计原理、认知理解等领域专家的先验知识整合到同一个多媒体计算框架中,开创了“自动视觉文本排版设计”的新研究方向。图1算法自动生成的图形排版效果。注:原始输入是纯图片(即没有任何文字)和一段纯文本(如主标题和副标题等),输出是文字和图形混合的结果(文字嵌入图片中)。本研究系统地表达了普遍的审美感知,构建了一套与主题相关的图形排版设计模板库,并提出了一套可计算的图文合成框架原型,不仅整合了宏观顶层和审美??感知底层包括微观层面自下而上的图形特征。通过融合人脸、文字检测和视觉显着性检测算法,首次提出视觉注意力检测算法,构成整幅图像的重要性图和注意力图;在文本布局的算法中,本文结合文本块形状和重要性图在图像中的交互过程被量化为一个能量优化问题:是图1中文本侵入显着视觉对象的代价,即最小化交集文本和重要的视觉对象;代表闲置视觉空间的浪费,即充分利用图像中可用的视觉空间,最大限度地发挥文字的显着效果;while表示文本块的语义重要性i和视觉感知重要性i不匹配,即匹配最重要的文本内容到图像中最重要的文本重要视觉区域,以便在阅读时快速获取关键信息。能量优化的求解过程,在设计模板的美感原理的监督下,使最终的求解结果符合视觉审美要求,而不仅仅是计算机的最优求解结果。文字空间布局后,通过分析图像前景色和前景的突出色彩,在色彩和谐优化的框架下,保持色彩的整体和谐,区分文字和背景的差异色彩最大化,使得最终的图文混合排列可以全局尊重原图的色彩和谐,也可以保证局部文字的可读性。全局色彩的和谐计算采用著名的《ColorHarmonization》中提出的心理色彩模型,结合本文提出的图像在不同主题下的前景和前景主题色彩的模型偏好,从而找到最合适的全局主题颜色。本文以最大化局部视觉对比度为目标,提出了最远色相角黄金采样法,即寻找文本覆盖背景下图像的显着颜色并将其映射到色调和色相空间,找到二维色调空间(tone,hue)中的最远点,从显着色点到最远点取黄金分割点。通过整个框架,可以完成整个图形设计在审美感知监督下的自动化。图2.系统框图本文提出的系统允许用户上传特定主题的视觉背景图像以及一些文本句子。第二阶段对原图进行处理,结合显着值、人脸、文字和注视注意力图得到视觉感知图,然后调整图像大小使其符合目标布局大小,以及根据视觉感知图保留重要区域。然后可以使用重新缩放的图像来排列空间分布的布局模板。图像调整后,通过第三阶段的能量优化过程,将已有的句子、空间布局和文本叠加到背景图像上。在第四阶段的文本着色中,首先分析裁剪图像的调色板,根据主题属性选择主题色。应用特定的色调/色调模型、调色板、语义颜色和内容特征,可以通过保持局部色彩和谐和局部可读性来重新着色文本。图3布局算法(a)visualimportancemap(gray)withgazeattention(yellow);(b)从前5个模板中选择的模板;(c)输入文本;(d)印刷程序的细节,其中能量定义为E(L),将通过迭代控制字体高度在局部优化解决方案中将其最小化;(e)排版结果受自下而上的图像特征和自上而下的空间布局限制。图4色彩分析与优化示意图该论文发表后,受到了学术界的广泛关注。自2016年以来,它在ACM数据库中的下载量已超过260次。此外,本研究不仅具有重要的理论意义,而且具有广泛的应用价值。例如,论文中提出的基于图像内容的颜色检测算法,已经在实际产品OfficeSway中得到应用。目前,全球每月有超过60个国家超过40万用户在使用新产品OfficeSway进行设计。本文展示了多媒体、艺术设计和色彩心理学几个不同学科的深度融合,将人工智能的方法运用到艺术设计中。可以说,色彩心理学模型为多媒体设计打开了“灵魂”之窗,而美学设计思维则为多媒体分析展开了想象的翅膀!论文下载地址:https://www.microsoft.com/en-us/research/publication/automatic-generation-of-visual-textual-presentation-layout/论文作者杨旭勇受训于微软亚洲研究院与中国科学技术大学博士生、Feedche联合创始人梅涛,微软亚洲研究院高级研究员,美国计算机协会杰出科学家,国际模式识别学会会士许颖清,前微软亚洲研究院首席研究员、清华大学美术学院信息艺术设计系主任芮勇前微软亚洲研究院副院长、联想CTO李世鹏前微软亚洲研究院副院长、联想CTO硬蛋另外,特别感谢本文的合作者——中国科学技术大学博士生吴越和清华大学研究生于俊杰美术学院。