Facebook最近公布了一个新的图片AI-TextStyleBrush,可以复制再现图片中的文字样式。借助这项技术,你只需输入一个单词作为“标准”,AI就可以在整篇文章中模仿你的写作风格,一键执行。效果惊人。此外,你还可以用它来替换不同场景中的文字(比如海报、垃圾桶、路标等)。下图中,左边是原场景图,文字用蓝色方框显示;右边是文字替换后的图片。从图中可以看出,各种风格的字体AI几乎都可以hold住。下图中的每一对图片,左边是输入源样式,右边是新内容(字符串),左右两端的字体看起来一模一样。与源图像相比,输出图像在外观上似乎都有些模糊,但正如我们所见,该技术在大多数情况下似乎都运行良好。与其他手写模仿AI相比,TextStyleBrush更强大,可以从更细微的角度分析文字风格,从而可以从各种角度和背景模仿手写。下图是用茶瓶(Tea)代替大豆瓶(Soya)的实现过程:这个强大的仿写神器就是FacebookAI推出的“TextStyleBrush”,只要输入一个字,就能完美再现笔迹。该技术的工作原理类似于文字处理应用程序中的样式画笔工具,它将文本与样式分开。论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n。pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=Jcq0m5jBvK8AX--fG2A&_nc_ht=8b7e8221bba5aba6b6331c643764dec5&oe=Jcq0m5jBvK81数据集地址:https://github/Dataset-search/特点:只需要一个字就可以复制照片中的文字样式。使用此AI模型,您可以编辑和替换图像中的文本。与大多数AI系统不同,TextStyleBrush是第一个自我监督的AI模型,它使用单个示例词同时替换手写文本和图像中的文本。未来它将在个性化消息和字幕等领域释放新的潜力,例如增强现实(AR)中的真实语言翻译。通过发布这项研究的能力、方法和结果,研究人员希望推进对话和研究,以发现此类技术的潜在应用,例如深度伪造文本攻击——这是人工智能领域的一个重大挑战。由于TextStyleBrush也可能被用来制作具有误导性的图片,Facebook的CTO在其个人社交网站上表示,他们只发布了论文和数据集,并没有公开代码。并表示,就像我们对付deepfakes的方法一样,我们相信共享研究和数据集将有助于建立检测系统并提前防止攻击。可以学习文本样式表示的TextStyleBrush一直在以惊人的速度发展与AI一起生成图像。这种生成技术可以重现历史场景,或者将照片变成梵高那样的绘画风格。现在,FacebookAI构建了一个AI,可以替代手写文本的场景和样式,只需要一个单词作为输入。虽然大多数AI系统都可以完成定义明确的专门任务,但构建一个足够灵活的AI系统以理解现实世界场景中文本和手写的细微差别是一项重大挑战。这意味着要了解多种文本风格,不仅包括不同的字体和书写风格,还包括不同的转换、旋转、弯曲文本和图像噪声等问题。FacebookAI提出了TSB(TextStyleBrush)架构。该架构以自我监督的方式进行训练,没有目标风格监督,只有原始风格图像。该框架可以自动找到图片的真实风格。在训练时,它假设每个词框都有一个真实值(出现在框中的文本);在推理时,它采用单一源样式图像和新内容(字符串),并生成新图像。生成器架构基于StyleGAN2模型。然而,它有两个重要的局限性:首先,StyleGAN2是一个无条件模型,这意味着它通过对随机潜在向量进行采样来生成图像。但是TextStyleBrush必须生成指定文本的图像。二是TextStyleBrush生成的文字图片样式不受控制。文本风格涉及全局信息(例如调色板和空间变换),以及精细尺度信息的组合(例如个人笔迹的细微变化)。研究人员通过内容和样式表示来调整生成器以解决上述限制。通过提取层特定并将其注入生成器的每一层来处理文本样式的多尺度性质。除了以所需样式生成目标图像外,生成器还生成表示前景像素(文本区域)的软掩模图像。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节以匹配所??需的输入样式。该研究还引入了一种新的自我监督训练标准,该标准使用字体(字体)分类生成器、文本识别器和对抗性鉴别器来保留源样式和目标内容。首先,研究人员使用预训练的字体分类网络评估了生成器捕捉输入文本风格的能力。此外,他们使用预训练的文本识别网络来评估生成图像的内容,以反映生成器捕获目标内容的效果。总而言之,这种方法可以有效地自我监督训练。实验表2提供了在训练TSB时评估不同损失函数、风格特征扩展和mask的消融实验的结果。实验结果表明,TextStyleBrush生成的图像在MSE(合成误差)上有很大的降低,PSNR(峰值信噪比)和SSIM(结构相似度)都有所提高。表3是在三个数据集图像上测得的文字识别准确率。实验结果表明,TSB的识别效果最好,在IC13上的识别准确率为97.2%,在IC15上的识别准确率为97.6%,在TextVQA上的识别准确率为95.0%。表4提供了生成的手写文本的定量比较,将TSB方法与Davis等人专门为手写文本生成设计的SotA方法进行了比较。[14]。FID分数越低,生成质量越好。显然,TSB方法优于以前的工作。TextStyleBrush证明AI可以比过去更灵活、更准确地识别文本,但这项技术仍然存在很多问题,例如无法模仿金属表面的字符或彩色字符。Facebook希望这项研究能够继续扩大,突破翻译、自主表达和deepfake研究等之间的壁垒。失败案例
