当前位置: 首页 > 科技观察

瞬息攻防战!哥伦比亚大学提出了BPE造词法,可以绕过审查机制,DALL-E2已被招募

时间:2023-03-17 18:18:26 科技观察

2022年最值钱的是什么?迅速的!在DALL-E2等文本引导图像生成(text-guidedimagegeneration)模型流行之后,网友们也??以生成各种搞笑图像为乐。但要想模型生成清晰可用的目标图像,就必须掌握正确的“法术”,即提示必须经过精心设计才能使用。有些人甚至建立了一个网站来销售提示。如果提示是邪术,生成的图片可能“涉嫌违规”。尽管DALL-E2设置了各种机制来防止模型被滥用,例如从训练数据中删除暴力、仇恨或不适当的图像;使用技术手段防止生成超逼真的人脸照片,尤其是一些公众人物。在生成阶段,DALL-E2还设置了提示过滤器,不允许用户输入的提示词包含暴力、成人或政治内容。但最近哥伦比亚大学的研究人员发现,你可以在提示中添加一些看似乱码的词,让过滤器无法识别词义,但AI系统最终可以返回有意义的生成图像。论文链接:https://arxiv.org/pdf/2208.04135.pdf作者提出了两种构造提示的方法。第一个被称为马卡龙提示。macaronic这个词的本意是指多种语言混合词的产生。新词汇,例如,在巴基斯坦,乌尔都语和英语混合使用很常见。DALL-E2的训练语料库通常是从互联网上收集的数据。文本和图像之间建立概念联系的过程或多或少会涉及到多语言学习,从而使训练好的模型具备同时识别多语言概念的能力。能力。因此,可以利用多种语言组成新词,绕过人为设计的提示过滤器,达到抵御攻击的目的。例如,鸟(鸟)这个词在德语中是V?gel,在意大利语中是uccelli,在法语中是oiseaux,在西班牙语中是pájaros。CLIP模型使用字节对编码(BPE)算法对输入的提示句进行切分后,可以拆分成多个子词。将子词重新排列组合成新词后,比如输入uccoisegeljaros,DALL-E2仍然可以生成鸟类的图像,但人类根本无法理解这个词的意思。即使不严格遵守子词的边界,例如voiscellpajaraux和oisvogajaro,模型仍然可以生成鸟图。除了鸟类,研究人员发现,结合多种语言的方法在不同的图像领域也能取得不错的效果,图像生成结果表现出相当高的一致性。从动物王国到风景、车辆、场景、情绪等相关图像的生成都没有问题。尽管不同的文本引导图像生成模型具有不同的体系结构、训练数据和分词方法,但原则上,macaronichints可以应用于任何在多语言数据上训练的模型,例如在DALL-Emini模型中发现相同的效果。值得注意的是,尽管名称相似,但DALL-E2和DALL-Emini却大不相同。它们具有不同的架构(DALL-Emini不使用扩散模型),在不同的数据集上训练,并使用不同的分词器(DALL-Emini使用BART分词器,这可能与CLIP分词器分词不同)。尽管存在这些差异,马卡龙提示仍然能够在两种模型上起作用,并且需要进一步研究其潜在机制。但并非所有马卡龙提示都在不同模型之间正确传递,例如,虽然farpapmaripterling在DALL-E2中按预期生成了蝴蝶图像,但它在DALL-Emini中生成了蘑菇图像。研究人员推测,更大的模型(可能是在更大的数据集上训练的)更容易受到macaronic线索的影响,因为它们在不同语言中学习了子词单元和视觉概念之间更强的关联。这或许可以解释为什么一些在DALL-E2中产生预期结果的通心粉提示在DALL-Emini中不起作用,但几乎找不到相反的例子。这种趋势可能不是好消息,因为大型模型可能更容易受到使用macaronic提示的对抗性攻击。除了使用单个复合词作为提示外,复合词还可以嵌入英语句法中形成句子,生成图像的效果与原始词汇相似。而且复合词还有一个好处,就是可以组合起来产生更具体、更复杂的场景。虽然复杂的macaronic提示需要符合英语的句法结构,使生成的结果比使用合成字符串的提示更容易解释,但传递给模型的信息仍然相对模糊。对于大多数人来说,如果没有事先接触过马卡龙的提示和不了解用于杂交的语言的知识,可能很难猜测用提示Aneidelucertlagarzard吃马里波法特林会导致什么情况。此外,这种复杂的提示不会触发基于黑名单的内容过滤器,尽管它们使用简单的英语单词,只要被审查的概念使用macaronic方法充分“加密”即可。macaronic提示不一定必须组合多种语言的子词。在单一语言中组合子词也可以产生有效的视觉概念,但熟悉英语的人可能会猜到字符串的预期效果。例如,happyful这个词很容易猜到它是happy和cheerful的复合词。第二种方法称为唤起提示。与macaronic不同,evocative不需要从现有的单词组合中触发视觉联想,而是通过特定领域中某些字母组合的统计显着性来“唤起”,从而创造出一个新词。参考生物分类中的BinomialNomenclature,可以根据“属名”和“种加词”创建一个新的“伪拉丁词”,DALL-E可以根据相应的主题生成相应的物种。也可以根据药品的命名规则生成新的药品图片。唤起线索也可以应用于语言的特定特征与与相应语言的地点和文化相关的视觉特征之间的关联。例如,根据建筑物的名称,模型可以推断出国家的风格。例如,Woldenbüchel生成的场景看起来像德国或奥地利的村庄;Valtorigiano看起来像意大利的一个古镇;Beaussoncour看起来像法国的一个历史小镇。但不一定是所有建筑,例如DALL-Emini最后生成的图像是17世纪的法国人像,不是法国外景,但与法国文化的联系还是保留了下来。唤起提示也可以与词汇杂交相结合,以更好地控制输出的特定特征。将英文单词块引入伪拉丁命名法会导致DALL-E2生成具有特定属性的动物图像,例如提示词scariosusferocianensis将scary和ferocious与伪拉丁术语相结合,生成传统的可怕“爬行动物”图像,例如作为蝎子。cutiosusadorablensis将cute和adorable与伪拉丁语结合起来,生成传统可爱哺乳动物的图像;watosusswimensis将水和游泳与伪拉丁语词缀结合起来,生成水生动物的意象;flyosuswingensis将术语fly和winged与伪拉丁语词缀结合起来会产生飞行昆虫的图像。原则上,macaronic方法生成的词汇可以提供一种简单且看似可靠的方法来绕过提示过滤器,别有用心的人可以利用它来生成有害的、令人反感的、非法的或其他敏感内容。包括暴力、仇恨、种族主义、性别歧视或色情图片,以及可能侵犯知识产权或描绘真实人物的图片。尽管提供图像生成服务的公司已根据其内容策略做出巨大努力来防止此类输出的生成,但macaronic提示仍然会对商业图像生成系统的安全协议构成重大威胁。唤起线索带来的威胁不太明显,因为它没有提供一种非常有效和可靠的方式来触发特定视觉联想的字符串,而且它主要限于与单词或语言的广泛形态特征相关的概念的模糊联想。.总的来说,macaronic提示比唤起提示更具可操作性,此类模型中基于关键字黑名单的内容过滤不足以抵御攻击。DALL-E2要开始黑化了吗?