Reddit用户对Apple的CSAM工具进行逆向工程:发现算法已经存在作为这项工作的一部分,这家总部位于库比蒂诺的公司将通过使用设备上的机器学习扫描iCloud和消息应用程序上的内容,以查找可能的儿童性虐待材料(CSAM)。虽然Apple澄清说该应用程序不会被用来侵犯隐私或被利用来获取他人的信息和照片,但该声明在科技界和公众中引发了大量争议。在受到批评之后,Apple发布了一份长达六页的文件,概述了其使用设备上的机器学习和一种名为NeuralHash的算法来打击CSAM的方法。Apple进一步表示,其CSAM检测模块正在开发中,只会扫描标记为有问题的图像。然而,在最新的开发中,一位好奇的Reddit用户进入了Apple的隐藏API,并对NeuralHash算法进行了逆向工程。令人惊讶的是,他们发现早在iOS14.3的苹果生态系统中就存在这种算法。这可能会让一些人感到意外,因为整个CSAM事件是相对较新的事情,但该用户指出,有充分的理由相信这一发现是合法的。首先,发现模型的文件都附加了NeuralHashv3b前缀。它遵循Apple的六页命名约定。其次,还注意到未发布的源代码使用了与Apple文档中概述的相同的哈希合成过程。第三,苹果声称他们的哈希方案创建的哈希几乎与图像的大小和压缩无关,这也是这位Reddit用户在源代码中发现的,进一步加强了他们对隐藏在源代码深处的NeuralHash的信念。一位Reddit用户在GitHub上发布了这一发现。虽然他没有发布导出的模型文件,但他概述了提取模型并将其转换为可部署的ONNX运行时格式的过程。导出模型后,他试运行推理并给出示例图像。根据这位Reddit用户的说法,哈希在所有设备上都是相同的,除了少数位,这是预期的行为,因为NeuralHash处理浮点计算,其准确性在很大程度上取决于硬件。此外,他补充说,苹果可能会在后续的数据库匹配算法中容纳这些几位数的差异。Reddit用户认为,现在是深入研究NeuralHash的工作原理及其对用户隐私的影响的好时机。
