图片加载久了，马赛克？谷歌开源模型优先显示图片中感兴趣的部分

时间：2023-03-21 10:20:14 科技观察

在观察一张图片时，你会首先关注图片的哪些内容，或者图片中的哪些区域会首先引起你的注意，可以机器是从人类那里学来的？一种关注的形式。在谷歌的一项研究中，他们的开源注意力中心模型可以做到这一点。并且该模型可用于JPEGXL图像格式。比如下图是attentioncenter模型的一些预测例子，其中绿点就是预测图像的attentioncenter点。图像来自柯达图像数据集：http://r0k.us/graphics/kodak/注意中心模型为2MB，采用TensorFlowLite格式。它以RGB图像作为输入并输出一个2D点，该点是图像上预测的关注中心。为了训练一个模型来预测注意力中心，首先需要一些来自注意力中心的真实数据。给定一幅图像，一些注意力点可以通过眼动仪收集，或者通过用鼠标点击图像来接近。该研究首先对这些关注点进行时间过滤以仅保留原始关注点，然后应用空间过滤去除噪声。最后计算剩余注意力点的中心作为ground-truth注意力中心。下面显示了获取真值过程的示例说明。项目地址：https://github.com/google/attention-center注意力中心模型架构注意力中心模型是一个以图像为输入，使用预训练分类网络如ResNet、MobileNet等的深度神经网络。作为骨干。从骨干网络输出的几个中间层被用作注意力中心预测模块的输入。这些不同的中间层包含不同的信息，例如浅层通常包含较低级别的信息，如强度/颜色/纹理，而较深层通常包含更高和更多的语义信息，如形状/对象。注意力中心预测使用卷积和反卷积调整算子，结合聚合和sigmoid函数，生成注意力中心的权重图。然后可以使用运算符（在示例中为爱因斯坦求和运算符）从加权图计算中心。预测注意力中心和真实注意力中心之间的L2范数用作训练损失。此外，JPEGXL是一种新的图像格式，可让用户在对图像进行编码时确保感兴趣的部分首先出现。这样做的好处是，当用户在网上浏览图片时，可以先展示图片中吸引人的部分，即用户最先看到的部分。其他部分也已到位并已解码。在JPEGXL中，图像通常被分成大小为256x256的矩阵，JPEGXL编码器将在图像中选择一个起始组，然后围绕该组生成同心正方形。Chrome从107版本开始增加了对JPEGXL图片的渐进解码。目前JPEGXL还是一个??实验产品，在chrome://flags中搜索jxl即可启用。查看渐进加载JPEGXL图片的效果，可以访问网址：https://google.github.io/attention-center/

上一篇：广东移动董事长：中国移动并非垄断

下一篇：中国移动5月新增用户502万户，累计6.11亿户

图片加载久了，马赛克？谷歌开源模型优先显示图片中感兴趣的部分相关文章