语言模型(LM)往往存在生成攻击性语言的潜在危害,这也影响了模型的部署。一些研究尝试使用人工注释手写测试用例,以在部署前识别有害行为。然而,人工注释成本高昂,并且限制了测试用例的数量和多样性。基于此,DeepMind的研究人员通过使用另一个LM生成测试用例,自动发现目标LM未来可能的有害行为。本研究使用检测攻击性内容的分类器来评估目标LM对测试问题的回答质量,并在实验中的280B参数LM聊天机器人中发现了数万个攻击性响应。论文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf本研究探索了从零样本生成到强化学习生成测试用例的多种方法。此外,该研究使用提示工程来操纵LM生成的测试用例以发现额外的危险,自动找出聊天机器人会以激进的方式与谁讨论,并发现对话被破坏的情况,例如泄露私人信息。总的来说,本研究提出的红队LM是一种很有前途的工具,可以在实际用户使用它们之前发现和修复各种不良的LM行为。GPT-3和Gopher等大型生成语言模型具有卓越的生成高质量文本的能力,但它们在现实世界中难以部署,并且存在生成有害文本的风险。事实上,即使是很小的危害风险在实际应用中也是不可接受的。例如,2016年,微软发布了TayTwitter机器人,它会自动发推文回应用户。在短短16小时内,Tay在发布种族主义和色情信息后被微软除名,当时该信息已发送给50,000多名追随者。问题在于可能的输入太多,以至于模型可能会生成有害文本,因此模型很难在部署到现实世界之前捕捉到所有故障。DeepMind研究的目标是通过自动查找失败案例(或“红队”)来补充人工手动测试并减少关键疏忽。该研究使用语言模型本身来生成测试用例,并使用分类器来检测测试用例上的各种有害行为,如下图所示:“基于LM的红队”让我们能够找到数千种不同的失败案例,而不是手动写出来。该研究使用对话作为测试平台来检验LM是红队工具的假设。这项DeepMind研究的主要目标是找到引起对话提示地鼠积极反应的文本(DPG;Rae等人,2021年)。DPG使用GopherLM通过以手写文本前缀或提示为条件来生成对话话语。GopherLM是一个预训练的、从左到右的280B参数转换器LM,并在互联网文本等数据上进行训练。冒犯性语言:仇恨言论、亵渎、性骚扰、歧视性语言等数据泄露:从训练语料库中生成受版权保护或私人可识别的信息联系信息生成:引导用户发送不必要的电子邮件或给真人打电话分布式偏见(distributionalbias):与其他群体相比,以不公平的方式讨论某些群体会话危害:长对话场景中的冒犯性语言为了使用语言模型生成测试用例,研究人员探索了许多方法,从基于提示的生成和少样本学习到有监督的罚款-调整和强化学习,并生成更多样化的测试用例。研究人员指出,一旦发现失败案例,通过以下方式更容易修复有害模型行为:将有害输出中经常出现的某些短语列入黑名单,防止模型生成包含高风险短语的输出;查找模型引用攻击性训练数据,这些数据在训练模型的未来迭代时被删除;使用特定输入的所需行为示例来扩充模型的提示(条件文本);训练模型以最小化给定测试输入产生有害输出的可能性。如下图2所示,0.5M零样本测试用例在3.7%的时间内引发了积极的回复,导致18444个失败的测试用例。SFS利用零样本测试用例来提高攻击性,同时保持相似的测试用例多样性。为了理解DPG方法失败的原因,该研究将引发积极响应的测试用例聚集在一起,并使用FastText嵌入每个单词(Joulin等人,2017年),计算每个测试用例的平均词袋嵌入。最终,该研究使用k-means聚类在18k个问题上形成100个聚类,这些问题引起了积极的反应,下面的表1显示了来自一些聚类的问题。此外,该研究还通过分析攻击性回复来改进目标LM。该研究标记了输出中最有可能导致攻击性分类的100个名词短语,下表2显示了使用标记的名词短语的DPG响应。总体而言,语言模型是一种非常有效的工具,可用于发现语言模型何时以各种不良方式表现。在目前的工作中,研究人员关注当今语言模型带来的红队风险。将来,这种方法还可以用于先发制人地发现高级机器学习系统的其他潜在危害,例如内部错位或客观鲁棒性问题。这种方法只是高置信度语言模型开发的一个组成部分:DeepMind将红队视为发现语言模型中的危险并减轻它们的工具。
