让AI精准识别盗版,Facebook开源数据增强库:提供100多种增强方法只要稍微动动一下手脚,就会给AI模型的鲁棒性带来挑战。在AI看来,下面两张图可能没有任何关系。现在,FacebookAI开源了一个新的用于数据增强的Python库——AugLy。支持音频、图像、视频、文本4种模式,提供100多种数据增强功能,可对输入内容进行各种处理。例如,更改文本的大小写、字体和编码,为文本添加标点符号,调整字母位置,模拟拼写错误。该项目已获得1.8kstar,并在GitHub热榜上。让AI识别“截图转发”AugLy的目的是为了覆盖现实网络中的特定数据增强,以创建用于训练和测试模型的样本。AugLy基于Facebook、Instagram等平台的实时图片和视频,将项目的所有数据在统一的库和API下进行转换,提供了100多种数据增强方式。它包括4个子库,分别对应音频、图像、视频和文本4种模式。这些子库包括基于函数和类的转换、组合,以及可选的应用元数据及其强度。以图像处理为例,AugLy可以对图像进行裁剪、旋转、加噪、模糊、灰度等处理。就像这样:有网友提出疑问:文本模块只支持英文吗?AugLy除了包括很多通用的增强功能外,最大的特点就是提供了“互联网用户”类型的数据增强方法。比如将图片转换成截图风格,更符合生活中常见的样子。使用AugLy数据增强训练AI模型,内容相同但形式不同的信息可以帮助模型提高鲁棒性。在复制检测、语音检测或版权侵权等任务中,经过训练,AI可以更准确地识别用户上传的内容。此外,AugLy已被用于DeepfakeDetectionChallenge中,以评估模型的鲁棒性。网友热议这个新的Python库,也引起了网友的关注,在Reddit上获得了350+的点赞。有网友提出疑问:文本模块只支持英文吗?有热心网友说:看来text模块很大程度上是对nlpaug的包装,所以AugLy支持其他语言,修改几个参数就可以了。也有网友提出,为什么不直接添加到pytorch中呢?对此,有人回复:这样安装会很慢,需要的可以单独安装。没必要把pytorch搞得这么臃肿。AugLy需要Python3.6以上版本,通过pip安装,但是在虚拟环境和系统环境下,还需要用conda和sudoapt-get命令单独安装python-magic。遗憾的是AugLy目前还不支持批量输入图片,不过开发者表示以后会完善这个功能。
