过去一年,随着DALL-E2、StableDiffusion等图像生成模型的发布,文本到-image模型生成的图像在分辨率、质量、文本保真度等方面有了很大的提升,极大地促进了下游应用场景的发展,人人都成为了AI画家。然而,相关研究表明,目前的生成模型技术仍然存在一个重大缺陷:无法在图像中呈现可靠的视觉文本。研究结果表明,DALL-E2在图片中生成连贯的文本字符时非常不稳定,新发布的StableDiffusion模型直接将“无法渲染可读文本”列为已知限制。拼写错误的字符:(1)California:AllDreamsWelcome,(2)Canada:ForGlowingHearts,(3)Colorado:It'sOurNature,(4)St.Louis:AllInReach。最近GoogleResearch发表了一篇新论文,试图理解和提高图像生成模型渲染高质量视觉文本的能力。论文链接:https://arxiv.org/abs/2212.10562研究人员认为,当前文本到图像生成模型存在文本渲染缺陷的主要原因是缺乏字符级输入特征。为了量化这种输入特征对模型生成的影响,文中设计了一系列控制实验来比较包含文本输入特征的文本编码器(字符感知和字符盲)。研究人员发现,在纯文本领域,字符感知模型在一项新的拼写任务(WikiSpell)上取得了巨大的性能提升。将该经验转移到视觉领域后,研究人员训练了一套图像生成模型。实验结果表明,字符感知模型在一组新的文本渲染任务(DrawText基准测试)中优于字符盲模型。字符感知模型在视觉拼写方面实现了更高的技术水平,尽管接受的示例数量少得多,但在不常见单词上的准确度比竞争模型高出30个百分点以上。字符感知模型语言模型可以分为直接访问构成其文本输入的字符的字符感知模型和无法访问的字符盲模型。许多早期的神经语言模型直接对字符进行操作,而不是使用多字符标记作为标记。后来的模型逐渐转向基于词汇的标记化。一些模型如ELMo仍然保留了字符感知,但其他模型如BERT放弃了字符特征以支持更有效的预训练。目前,最广泛使用的语言模型是字符盲的,依赖于数据驱动的子词分割算法,如字节对编码(BPE)来生成子词片段作为词汇表。虽然这些方法可以回退到不常见序列的字符级表示,但它们仍然通过设计将常见字符序列压缩为不可分割的单元。本文的主要目的是尝试理解和提高图像生成模型渲染高质量视觉文本的能力。为此,研究人员首先孤立地研究了当前文本编码器的拼写能力。从实验结果可以发现,尽管字符盲文本编码器很流行,但它们并没有收到有关其输入的字符级组成的直接信号,导致拼写能力有限。研究人员还测试了不同大小、架构、输入表示、语言和调整方法的文本编码器的拼写能力。这篇论文首次记录了character-blind模型通过网络预训练诱导强拼写知识(准确率>99%)的神奇能力,但实验结果表明,这种能力在其他语言中并不受欢迎比英语。,和的泛化只能在100B以上参数的规模上实现,所以对于大部分应用场景来说是不可行的。另一方面,字符感知文本编码器可以在更小的范围内实现强大的拼写。在将这些发现应用于图像生成场景时,研究人员训练了一系列字符感知文本到图像模型,并证明它们在评估现有和新文本渲染时明显优于字符盲模型。但是对于纯字符级别的模型,虽然文本渲染的性能有所提升,但对于不涉及视觉文本的提示,图文对齐会降低。为了缓解这个问题,研究人员提出将字符级和令牌级输入表示相结合,从而实现最佳性能。WikiSpell基准由于文本到图像生成模型依赖于文本编码器来生成用于解码的表示,因此研究人员首先通过从Wiktionary中抽取一些单词来创建WikiSpell基准,然后基于该数据集执行纯文本拼写评估任务。探索文本编码器的功能。对于WikiSpell中的每个示例,模型的输入是一个词,预期输出是它的准确拼写(通过在每个Unicode字符之间插入空格生成)。由于本文只对研究单词出现频率与模型拼写能力之间的关系感兴趣,因此研究人员根据单词在mC4语料库中的出现频率将Wiktionary中的单词分为五个不重叠的桶:mostFrequent前1%的词、最频繁出现的1-10%的词、10-20%的词、20-30%的词和后50%的词(包括从未出现在语料库中的词)。然后从每个桶中平均抽取1000个单词来创建一个测试集(和一个类似的开发集)。最后,通过组合两部分构建了一个包含10,000个单词的训练集:5,000个从底部50%的桶(最不常见的单词)中均匀采样,另外5,000个根据它们在mC4中的频率按比例采样(因此对这一半训练集有偏差)对频繁的词)。研究人员从训练集中排除任何选择到开发或测试集中的词,因此评估结果总是在排除的词上。除了英语,研究人员还评估了其他六种语言(阿拉伯语、汉语、芬兰语、韩语、俄语、泰语),选择涵盖影响模型学习拼写能力的各种特征,并对每种语言的评估重复上面描述的数据集构建过程。文本生成实验研究人员使用WikiSpell基准测试来评估各种预训练纯文本模型在不同规模下的性能,包括T5(在英语数据上预训练的字符盲编解码器模型);mT5(类似于T5,但预训练了100多种语言);ByT5(mT5的字符感知版本,直接在UTF-8字节序列上运行);和PaLM(一个更大的解码模型,在英语训练的基础上进行预训练)。在纯英语和多语言实验结果中,可以发现字符盲模型T5和mT5在包含最频繁单词的Top-1%的桶上表现更差。这个结果可能看起来违反直觉,因为模型通常在数据中频繁出现的示例上表现最好,但由于子词词汇表的训练方式,频繁出现的词通常表示为单个原子标记(或少量标记),确实是一样的:英语中top1%buckets中的87%的词被T5的词汇表示为subwordtoken。因此,较低的拼写准确度分数表明T5的编码器没有在其词汇表中保留足够的有关子词拼写的信息。其次,对于字符盲模型,尺度是影响拼写能力的重要因素。T5和mT5的比例都越来越好,但即使在XXL比例下,模型也没有表现出特别强的拼写能力。只有当字符盲模型达到PaLM的规模时,才开始看到近乎完美的拼写能力:540B参数的PaLM模型在英语的所有频率桶中都达到了>99%的准确率,尽管它只看到20个例子(而T5显示了1000个经过微调的示例)。然而,PaLM在其他语言上表现不佳,可能是因为这些语言的预训练数据少得多。在ByT5上的实验表明,字符感知模型表现出更强的拼写能力。ByT5在Base和Large尺寸上的表现仅略微落后于XL和XXL(尽管至少仍在90%的范围内),并且单词的频率似乎对ByT5的拼写能力没有太大影响。ByT5的拼写性能远超(m)T5结果,甚至在100倍的参数下与PaLM的英文性能相当,超越PaLM在其他语言上的性能。可以看出,ByT5编码器保留了相当多的字符级信息,这些信息可以根据解码任务的需要从这些冻结的参数中提取出来。DrawTextbenchmark从2014年发布的COCO数据集到2022年的DrawBenchbenchmark,从FID、CLIP分数到人类偏好等指标,如何评估text-to-image模型一直是一个重要的研究课题。但一直缺乏文本渲染和拼写评估的相关工作。为此,研究人员提出了一个新的基准测试——DrawText,旨在全面衡量文本到图像模型的文本渲染质量。DrawTextbenchmark由两部分组成,分别衡量模型能力的不同维度:1)DrawTextSpell,通过在一大组英文单词上渲染常用词来评估;研究人员从英语WikiSpell频率桶中各提取100个单词,并将它们插入到标准模板中,共构建了500个提示。对于每个提示,从候选模型中采样4张图像,并使用人工评分和基于光学字符识别(OCR)的指标进行评估。2)DrawTextCreative,通过文字的渲染进行视觉效果的考核。视觉文本不仅限于路牌等常见场景,文字可以以涂鸦、绘画、雕刻、雕刻等多种形式出现。如果图像生成模型支持灵活准确的文本渲染,这将使设计者能够使用这些模型来开发创意字体、徽标、布局等。为了测试图像生成模型支持这些用例的能力,研究人员与专业图形设计师合作构建了175种不同的提示,要求以一系列创意风格和设置呈现文本。许多线索超出了当前模型的能力,最先进的模型会显示拼写错误、遗漏或重复的单词。图像生成实验的实验结果表明,在用于比较的九种图像生成模型中,字符感知模型(ByT5和Concat)在DrawTextSpell基准上的准确率无论大小如何都优于其他模型,尤其是在不同的常用词。Imagen-AR展示了避免裁剪的好处,尽管训练时间延长了6.6倍,但它的性能仍然比字符感知模型差。模型之间的另一个明显区别是它们是否在多个样本中始终拼错给定的单词。在实验结果中可以看出,无论采样多少,T5模型都有很多拼写错误的单词,研究人员认为这表明文本编码器缺乏字符知识。相比之下,ByT5模型基本上只有零星的错误。通过测量模型在所有四个图像样本中始终正确(4/4)或始终错误(0/4)的比率来量化该观察结果。可以看到形成鲜明对比,尤其是在常用词(前1%)上,其中ByT5模型永远不会出错,而T5模型总是在10%或更多的词上出错。
