当前位置: 首页 > 科技观察

马赛克不安全?你知道“大片”中的马赛克可以被AI一键去除

时间:2023-03-21 13:41:26 科技观察

吗?马赛克不再安全了!嘿,朋友们大家好,我是集果网最能吃的键盘侠集果君。刚才有个朋友问我,济国先生怎么了?我说怎么回事,给我发了几张截图。我一看,哦——原来上个月,全球最大的同性交友平台GitHub上火了一个叫Depix的项目。名字很好理解,“反像素”,即利用AI技术去除马赛克。这有好有坏。好处是虽然各行各业的老司机早就练就了“眼里有码,心里没码”的神技,但直接看那些显然更方便舒服没有密码;缺点是你的密码和设备IMEI码等隐私信息很可能因此被剥离!有码真的变无码了!这时候有朋友要问了,马赛克在和谐界横行了这么多年,怎么几行代码就能治好?真的可以治愈!原作者在原帖中直接给出了效果示例图:将这张图丢进Depix计算,闻到显卡的香味后,输出AI去马赛克图:人工排序后,你会从另一边得到编码文本内容:你好。这是原图:你看,不能说区别是一样的,是一模一样的。原理:简单粗暴的Depix算法如此神奇,作者不就是当代伟大的数学家吗?其实并不是。要了解Depix的原理,首先要了解马赛克是如何实现的:图片的每个像素点都是一组数据(通常RGB的三基色用0-255的值来表示),马赛克本质上是将一张图片分成各个小格子,然后为每个格子计算其中所有像素值的RGB平均值。举一个最简单的例子,如果你把黑色和白色平均,你会得到灰色。根据单个小格子中黑色的比例,灰色的深浅也不同。彩色图像的拼接比较复杂,但原理是一样的:根据不同颜色的RGB值和该颜色所占的小格子面积,得到加权平均值,即平均颜色。因此,马赛克被广泛用于隐私信息的保护和敏感内容的屏蔽,包括但不限于密码覆盖、受访者人脸编码、色情信息屏蔽等。因为还是太小了,难掩我的羞耻心,我不知道。作为知名的反马赛克算法,Depix的对策非常简单粗暴:直接逆向计算,利用AI让小格子不断匹配数据库中已有的字符组合。不仅如此,Depix还深思熟虑地考虑了字符间距的差异,因此同时创建了“宽字距”和“窄字距”数据库,从而可以识别各种段落格式。那么有同学想问了,作者只是建立了一个文本数据库,我朋友用它来破译图文密码不是不行吗?别以为四季果先生不知道你的小小心意!想必吉果君听到这个消息激动的点开P了……呸!担心钟中可能的信息泄露。不过根据depix在github上的介绍,这个项目的目的根本不是去代码,而是做密码恢复。是一款手机或其他马??赛克处理图片的密码恢复工具。所以,非文字编码的图片只能靠想象(正色)。弱点突出,对策容易。虽然Depix在恢复文本方面比较擅长,但是这样一来大家的密码就很容易泄露!不要恐慌!马赛克所能捕捉到的信息只是一个像素值,相当于:已知1+2+1+3+2+1,我们很容易得到10的结果。但是给定10,很难确定原始数据的组成。也就是说不能识别数据库中没有的字符。例如,如果它们都是英文,则草书字符将不起作用。不仅如此,作者还没有建立中文数据库。这也很好理解。26个字母+10个数字的工程量怎么能比得上几千个汉字!总结一下,目前Depix最多能做到这样:如果实在担心信息安全,可以在英文字母上刷一层画笔,然后敲代码:或者直接放大马赛克的色块,还能识鬼:只要有准备,要抵消这种密码的破解,真的是轻而易举。FaceDecoder:算法很美,但崩溃很惨。除了文本解码器的Depix算法外,比较知名的算法是杜克大学推出的Pulse算法。该算法针对人脸解码进行了优化,可以让模糊的照片秒变清晰,效果出奇的好。这项研究发表在CVPR2020上,论文题目是《PULSE:通过对生成模型的潜在空间探索实现自监督照片上采样》当然,杜克大学的算法本来就是以中国人的脸作为模型训练的,所以如果你对亚洲人的脸进行编码,错误在所难免.例如,这是修复后的图像:可能你觉得修复效果还可以吧?但是原图是:人脸库不匹配,直接翻到外婆家。coding还是靠谱的,但是……别手残了!对我们来说,在目前的技术条件下编码还是比较靠谱的。所以现在再也不用担心不法分子利用您的编码密码或照片图像还原来做坏事了。首先,现有算法的成功率仍然不高。另一方面,如果你真的想获取你的人脸信息,你可以直接获取你的人脸信息。使用前置摄像头权限不是更方便吗?如果你真的很怕信息泄露,粗码(多色块)也可以让你省心。不过有种马赛克挺无语的:怕别人看不清楚?