当前位置: 首页 > 科技观察

图片加载久了,马赛克?谷歌开源模型优先显示图片中感兴趣的部分

时间:2023-03-21 10:20:14 科技观察

在观察一张图片时,你会首先关注图片的哪些内容,或者图片中的哪些区域会首先引起你的注意,可以机器是从人类那里学来的?一种关注的形式。在谷歌的一项研究中,他们的开源注意力中心模型可以做到这一点。并且该模型可用于JPEGXL图像格式。比如下图是attentioncenter模型的一些预测例子,其中绿点就是预测图像的attentioncenter点。图像来自柯达图像数据集:http://r0k.us/graphics/kodak/注意中心模型为2MB,采用TensorFlowLite格式。它以RGB图像作为输入并输出一个2D点,该点是图像上预测的关注中心。为了训练一个模型来预测注意力中心,首先需要一些来自注意力中心的真实数据。给定一幅图像,一些注意力点可以通过眼动仪收集,或者通过用鼠标点击图像来接近。该研究首先对这些关注点进行时间过滤以仅保留原始关注点,然后应用空间过滤去除噪声。最后计算剩余注意力点的中心作为ground-truth注意力中心。下面显示了获取真值过程的示例说明。项目地址:https://github.com/google/attention-center注意力中心模型架构注意力中心模型是一个以图像为输入,使用预训练分类网络如ResNet、MobileNet等的深度神经网络。作为骨干。从骨干网络输出的几个中间层被用作注意力中心预测模块的输入。这些不同的中间层包含不同的信息,例如浅层通常包含较低级别的信息,如强度/颜色/纹理,而较深层通常包含更高和更多的语义信息,如形状/对象。注意力中心预测使用卷积和反卷积调整算子,结合聚合和sigmoid函数,生成注意力中心的权重图。然后可以使用运算符(在示例中为爱因斯坦求和运算符)从加权图计算中心。预测注意力中心和真实注意力中心之间的L2范数用作训练损失。此外,JPEGXL是一种新的图像格式,可让用户在对图像进行编码时确保感兴趣的部分首先出现。这样做的好处是,当用户在网上浏览图片时,可以先展示图片中吸引人的部分,即用户最先看到的部分。其他部分也已到位并已解码。在JPEGXL中,图像通常被分成大小为256x256的矩阵,JPEGXL编码器将在图像中选择一个起始组,然后围绕该组生成同心正方形。Chrome从107版本开始增加了对JPEGXL图片的渐进解码。目前JPEGXL还是一个??实验产品,在chrome://flags中搜索jxl即可启用。查看渐进加载JPEGXL图片的效果,可以访问网址:https://google.github.io/attention-center/