当前位置: 首页 > 科技观察

AI对抗系列--你的推荐算法被攻破了吗?

时间:2023-03-20 01:23:14 科技观察

当你在谷歌上搜索新闻信息时,搜索结果中夹杂着乱七八糟的黄色小文章……当你在知网上搜索学术文献时,排在第一位的居然是《咸鱼的30种烹饪方法》...当你在全球最大的同性交友社区GitHub上搜索摸鱼插件时,出来的是996icu...以上场景不是废话,基于该漏洞带来的信息检索攻击风险AI神经网络,这一切都可能发生。对于广大网民来说,信息检索无疑是一种日常高频行为——写论文找文献、做菜搜菜谱、看影评买电影票……借助搜索引擎/工具的信息检索是我们查询和获取信息的主要手段。为了进一步提高检索任务的准确率,目前的许多信息检索算法都是基于神经网络设计的模型进行优化的。因此,神经网络的脆弱性也给信息检索领域引入了更多的安全隐患。为了以攻促守,我们进行了“扰乱搜索排名”的研究实验。首先,使用微软发布的段落检索数据集(英文文本)作为实验数据,将数据样本分为三类:querywords、positivesamples、negativesamples——querywords,即输入的查询对象由用户;positivesamples,表示属于queryterm的段落;负样本表示与查询词无关的段落。举个例子:查询词:abouthowmatchpaintdoyouneedtopaintabedroom(刷卧室需要多少油漆)需要购买。首先是油漆。预计每加仑油漆要支付15到30,而一间中等大小的卧室需要2-3加仑(还有一些留作应急和补漆)。您还可以选择多种涂料的光泽度或光泽度。平面饰面或墙面涂料是具有不反射光的哑光表面的涂料。(效果:需要7~12升油漆)负样:1个注意:细部粘土不能去除氧化油漆或填补瑕疵。2如果您的油漆轻微氧化,请用粘土清洁油漆,然后使用抛光剂去除氧化油漆。3如果氧化严重,请先抛光,因为氧化的油漆可能会随着粘土而剥落并损坏粘土条。(粗略意思:使用clay的一些注意事项)在这个例子中,正样本和查询词的相关得分是73.344040,负样本的得分是61.572620。我们知道,信息与查询词的相关性越高,搜索排名就越高,也越容易获得曝光。我们的实验要做的是在负样本的段落中加入一定长度的词作为触发,提高负样本与查询词的相关性,从而获得更高的搜索排名,更容易被搜索到。被搜索引擎“搜索”。因此,根据上面例子中的查询词,使用公开论文中介绍的AI算法,我们学会了生成一个长度为5个词的触发器:“卧室公式绘画国家代码”。当我们在负样本的段落中添加了trigger,发现负样本与querywords的相关性得分从61.572620增加到78.570793,超过了正样本的得分。这意味着通过在段落中添加trigger,它是可以增强特定查询词的搜索相关性,为了测试和比较不同长度的trigger的攻击效果,这里分别测试trigger长度为1、5、10个词的效果,三个之后的相关分数samplesareattackedarelistedineachcase——图:trigger的长度为1个词如图所示,当trigger只有1个词时,也可以提高段落在特定query下的相关性得分有一定的作用,但作用相对有限。图:触发器长度为5个字。可以看出,在负样本中加入5个词的trigger后,段落在特定查询词下的相关性得分得到了显着提升。图:触发长度为10个字。当触发长度增加到10个单词时,效果进一步增强。在大多数情况下,负样本相关性得分甚至超过正样本得分——这样的攻击效果足以引起检索。大乱的后果。另外,我们以查询词(abouthowmuchpaintdoyouneedtopaintabedroom)下学习到的trigger(bedroomformulapaintingsnationalcode)为例,随机抽取100个样本,计算trigger在其他之后的拼接paragraphs与当前queryword的相关分值变化,结果如下图所示:图:同一个trigger添加100个样本后,相关分值与当前queryword的变化,末尾的点每条红线是添加trigger前负样本的段落分数,红线上方的圆点是添加trigger后的分数。可以看出,加入trigger之后,所有样本的相关性都有了明显的提升,平均得分提升了22.21%。由此可以得出结论,trigger在不同段落中是可以迁移的,通过AI学习得到的trigger可以提高当前查询词下不同文档的检索排名。总而言之,向搜索对象添加对抗性扰动,从而扰乱搜索相关性排名,是一种可行的攻击场景,具有显着的实际危害。一旦信息检索算法受到攻击,导致检索结果错误,将导致误导或欺骗用户等严重后果。这种攻击方式也可能被不法分子用于作恶,如定向输出种族主义言论、传播黄赌毒信息等,因此,关注风险,提前防范尤为重要。目前很难控制攻击方法生成的触发器语法结构的正确性。因此,对信息检索场景文档进行语法分析,可以在一定程度上帮助过滤和发现攻击行为。此外,图像领域的对抗训练也有助于增强信息检索模型的鲁棒性,有助于降低被攻击的风险。