视觉信息助力广告点击率预估——京东广告团队技术论文入围KDD2020

时间：2024-05-20 02:04:42 科技赋能

在人工智能技术支撑的推荐、搜索、广告等业务中，点击率预估（CTR）一直是核心的技术挑战。

也是AI技术业务落地中最难实施的技术方向之一。

近日，京东广告团队的一篇论文《Category-Specific CNN for Visual-aware CTR Prediction at JD.com》，即《在京东，视觉助力点击率预估——基于给定类目信息的卷积神经网络》，成功被KDD收录。

论文构建了一个特定类别的卷积神经网络（CSCNN）。

该算法有效利用了电商领域丰富的产品品类信息，创新性地将产品品类信息与产品所有者结合起来。

这些图像联合作为主图像特征提取模块的输入，根据特定的先验类别信息提取产品主图像特征，大大提高了CTR估计的准确性。

京东的广告业务虽然在行业起步较晚，但增长速度却令人印象深刻。

这很大一部分归功于AI技术在广告业务中的广泛应用。

据京东业务改进事业部广告质量部负责人包勇军介绍，京东机器学习于2016年正式应用于网络广告，第一版排名模型采用浅层FM基数的超稀疏模型。

浅模型时代的模型工作主要侧重于业务理解和特征提取。

这为未来模型开发技术路线奠定了一定的迭代基础。

与当时很多采用树基模型架构的业务线相比，京东更容易迁移到神经网络。

2019年，业务提升部部署了LR-DNN模型架构、基于Theano框架的离线训练以及自研的在线服务。

该模型的推出早于 Google 的 Wide & Deep 模型。

虽然w&d模型的设计和使用稍显粗糙，但也是一次重大版本升级，将深度学习算法引入到广告制作环境中，对于部门来说意义重大。

2019年，业务提升事业部算法部对整个模型基础设施进行了升级，搭建了9N机器学习平台，并将核心迁移到业界主流的TensorFlow平台，完善了所有支撑模块作为工业生产平台。

多年后，模型算法进入了业务建模时代，算法升级已经从特征处理和模型参数调整转向业务理解建模的新阶段。

模式迭代升级驶入快车道，业务指标大幅提升。

模型建模出现了新的细分方向。

同时，模型建模迭代也推动了自研机器学习平台9N的升级。

京东更注重用户表征、预估产品表征以及用户与产品关系的建模。

还致力于发现模型应用中的短板，解决模型规模、学习效率、参数实时更新等关键问题。

技术问题：多任务DCN主要解决两个问题。

首先，将LR-DNN升级为DCN，将算法工程师从特征选择交叉的繁重工作中解放出来。

其次，采用多通道输出模型来解决位置偏差。

用户记忆网静态用户画像。

长期行为更致力于刻画用户的内在属性和偏好，可以消除外部因素造成的短期用户兴趣波动。

由于使用较长的用户行为，在线服务架构的设计存在困难。

类别特定CNN（CSCNN）是一种使用CNN提取图像信息并与CTR任务端到端联合优化的建模方法。

一方面，需要考虑高效的线下训练和线上服务方法。

另一方面，与传统CNN仅使用图片作为输入不同，CSCNN使用电商场景中丰富且强视觉先验的“商品目标标注”作为CNN输入的一部分，降低了CNN训练的难度。

CSCNN可以从产品图像中提取标题/类别等特征无法捕获的细节，并且可以更好地概括冷启动产品。

KFAtt（KF Attention model for user actionsequence）是一种对实时用户行为序列进行建模的方法。

总的来说，我们使用 Transformer 框架来对时间以及用户行为与当前目标之间的关系进行建模。

这是综合考虑在线服务的可扩展性和后期迭代的技术选型。

实验验证效果优于流行的DIN和DIEN。

我们进一步指出了传统注意力的问题，直接改进了注意力机制。

在用户兴趣变化、异构行为差异巨大的电商场景中，KFAtt 的表现优于传统注意力机制。

实时图卷积网络（RGCN）是一种对用户-项目实时关系图进行建模的方法。

对于处于长尾和冷启动阶段的产品，可以使用关系图来获得更丰富的表示；对于活动和促销，实时关系图还可以更快地捕捉产品随时间变化的特征。

目前，机器学习已经深入应用在京东广告的各个环节。

后续我们会为大家一一详细介绍。

此次入围KDD的论文是广告CTR模型制作环境中机器学习结合图像信息在CTR建模中的应用。

接下来，让我们仔细看看这篇论文。

1.任务背景：广告点击率（Click Through Rate，CTR）预测问题，即给定用户、广告、环境等信息，预测用户点击广告的概率是最重要的问题之一广告领域的根本问题。

精准的广告点击率预测是整个广告系统的基石，直接关系到京东数亿活跃用户的体验以及数百万广告主的切身商业利益。

在电子商务领域，产品通常以产品主图搭配文字描述的形式展示给消费者。

与文字描述相比，产品主图往往包含更详细、直观的产品信息，具有更强的视觉冲击力，直接影响用户的喜好。

因此，从商品主图中提取丰富的视觉特征可以有效挖掘商品特征，从而为CTR预测提供有力支持。

图1：电子商务广告示意图。

产品主图在红框内。

由于其占用面积大、表达信息多、吸引更多用户关注，其特征的有效提取对于后续CTR预测起着至关重要的作用。

我们的目标是建立一个CNN，在数百亿个训练样本上有效提取视觉特征，并与CTR任务联合训练。

同时满足线上系统对声音平坦的要求。

2、现有方法存在的问题：在引入视觉信息的CTR估算中，业界通常采用后融合的方法。

方法是：使用现成的、经典的CNN结构（Inception[1]、ResNet[2]、SeNet[3]等）提取图像特征，并将其与其他非视觉特征（如类别信息）相结合广告产品的种类、用户的个人特征、广告位置时间等）然后将它们融合在一起作为CTR预测模型的输入。

图2：现有产品主要图像特征提取技术的缺点。

红色虚线框是现有技术缺失的部分。

主图像特征提取模块缺少产品类别作为CNN的输入，无法根据具体的产品类别准确提取主图像特征，限制了CTR估计的准确性。

然而，这种业界通用的做法始终面临两个重要问题：工业级广告CTR预测系统需要满足两个重要的技术要求：离线快速训练和在线低延迟服务。

然而，由于CNN的运算速度比CTR预测系统的其他模块慢得多，因此它可能成为整个CTR预测系统的计算瓶颈。

因此，在实际的CTR估计系统中应用CNN来提取图像特征通常是极其困难的。

现有产品主要图像特征提取模块大多改编自最初用于图像分类的经典CNN结构。

在原始的图像分类任务中，图像的类别是未知的，需要进行预测，因此这些CNN结构并不以图像的类别作为输入。

在CTR估计中，电商产品的类别被明确标记，并且可能包含丰富的视觉先验，可以辅助图像特征提取。

在业界常用的视觉特征与非视觉特征的“后融合”结构中，CNN没有有效利用“产品类别”的重要信息，因此可能会提取与当前类别无关的特征，浪费CNN表达能力有限。

相反，如果我们能够设计一种新的有效利用产品类别信息的CNN结构，基于特定类别提取的视觉特征将大大降低CNN训练的难度。

3.算法原理：为了有效利用电商领域丰富的商品类别信息，我们将商品类别信息和商品主图像作为主图像特征提取模块的输入，根据具体特征提取特征。

先前的类别。

产品的特征主要是图像信息。

该算法被命名为类别特定 CNN (CSCNN)。

与现有的主要图像特征提取技术相比，我们提取的主要图像特征可以更准确地描述产品特征，达到用户偏好，提高CTR估计的性能。

设计灵感最初来自SeNet和CBAM[4]，它使用轻量级的自注意力网络来刻画卷积特征之间的内在关系。

亮点在于，我们创新性地将类别信息添加到每个卷积层中，使得基于特定类别的注意力网络能够学习既重要又专注于特定类别的视觉特征。

图3 产品主图像特征提取流程图。

为了清晰展示，该图仅突出显示单层转换模块。

在实践中，这种Attention结构可以添加到多层卷积网络中。

主产品图像I通过多层卷积神经网络进行处理。

经过CNN的每一层之后，该层CNN的输出是一个特征图张量（Tensor）F。

特征图张量经过通道注意力模块Mc变换后，调整为新的特征图张量F。

空间注意力模块Ms经过变换，调整为特征图张量F''''。

这个特征图张量F''''作为本层输出的特征图，输入到CNN的下一层进行处理。

如图3所示。

让我们详细介绍一下通道注意力和空间注意力模块的内部结构。

CNN的输出特征图张量F首先由通道注意模块Mc调整为F。

具体过程如图4（上）所示：首先，在空间维度上对特征图F进行压缩，得到C维的Maxpooling和Avgpooling向量。

。

两者分别拼接成一个C'维类别特征向量Akc，通过全连接层变换为两个C维向量，然后相加得到C维通道注意力向量。

与原始特征图的广播元素相乘后，得到调整后的特征图张量F』。

总结就是：随类别k变化的类别特征向量Akc与其他网络参数一起随机初始化，然后通过反向传播算法迭代优化。

图4 通道注意力模块和空间注意力模块的通道注意力调整后的特征图张量F』，由空间注意力模块Ms调整为F』』。

具体过程如图4（下）：首先，特征图F』经过通道维度压缩后，得到WH维的Maxpooling和Avgpooling矩阵。

两者与WH维的类别特征向量Aks拼接在一起，经过7*7的卷积核变换后，得到HW维的空间注意力矩阵。

与原始特征图的广播元素相乘后，得到调整后的特征图张量F』。

总结起来就是：随类别k变化的类别特征向量Aks与其他网络参数一起随机初始化，然后通过反向传播算法迭代优化。

经过通道和空间维度两次调整的特征图张量F''已经包含了类别k的先验信息，并用作卷的接下来几层的输入。

上述两个调整模块可以用在每个卷积层中，使得整个网络能够根据特定类别的先验信息提取产品主要图像特征。

4.我们的架构流程：图5.在线模型系统架构离线训练：CSCNN模块与整个CTR预测模型（Deep & Cross Net[5]）一起训练。

为了解决CNN的计算瓶颈问题并加速训练，我们采用了特殊的采样方法[6]。

设置25个，同一训练批次中具有相同图像的广告训练样本。

这样，CNN图像特征提取只需计算一次，然后广播到该训练批次中的25个样本。

现在我们一天可以完成1亿个广告展示样本和1.77亿张图片的联合训练。

离线词表生成：产品图像和产品类别信息联合输入到训练好的CSCNN模块中，计算产品图像的视觉特征向量。

在线预测系统将这些视觉特征加载为 CTR 预测系统的输入，作为 CNN 模块的替代品。

结合一定的频率控制策略，20GB的词表可以覆盖第二天90%的在线流量。

在线服务：在线服务系统收到CTR预测请求后，直接根据广告ID从图像特征词汇表中查询视觉特征向量，与非视觉特征一起输入到CTR预测模型中进行计算。

在300万/秒的流量高峰期间，我们的CPU在线服务系统可以严格控制TP99延迟在20ms以内。

5.实验结果：我们的实验设计主要集中在两个方面：测试CSCNN模块有效提取特定类别信息的视觉特征的能力。

为了消除庞大的CTR系统中的多方干扰，我们选择了Amazon Benchmark数据集和简单的线性CTR预测模型贝叶斯个性化排名（BPR）。

我们进一步测试了CSCNN对于整个CTR系统的改进。

包括京东广告系统采集的1亿训练样本的行业数据集，以及真实流量的在线A/B Test。

具体结果如图：图6. Amazon Benckmark数据集上的AUC对比。

我们的算法明显优于最先进的算法。

得益于图像信息和产品类别信息的加入和有效的早期融合。

图 7. Amazon Benckmark 数据集上的 AUC 对比。

不同的Attention机制可以通过添加CSCNN模块来实现一致的改进。

证明了CSCNN出色的适应性。

图 8.Amazon Benckmark 数据集上的 AUC 比较。

通过添加 CSCNN 模块可以持续改进网络主干结构。

证明CSCNN出色的适应性图9.工业数据集&在线A/B测试。

CSCNN 在离线 AUC 和在线 CTR 方面做出了显着的改进。

6.结论：我们提出了一种基于给定类别信息的卷积神经网络。

通过早期CNN图像特征提取和产品类别信息的融合网络结构，有效强调了既重要又与特定类别直接相关的视觉特征。

这显着提高了 CTR 估计的准确性。

匹配高效的基础设施，CSCNN现已应用于京东搜索广告系统的主要流量，服务数亿活跃用户。

上一篇：商汤科技徐立：人工智能已部分爆发，将重构世界

下一篇：让科技温暖，在CES Asia的“领地”遇见合众汽车

视觉信息助力广告点击率预估——京东广告团队技术论文入围KDD2020相关文章