强化学习如何帮助选择客户更关注数十亿广告的广告。他们都想回答这个问题:目录中的哪些广告对特定用户更具吸引力?当面对数百个网站、数万个广告和数百万访问者时,得到这个问题的正确答案将对为企业增加收入产生巨大的影响。对于广告公司来说幸运的是,强化学习(人工智能的一个子领域,主要以其在棋盘游戏和视频游戏中的应用而闻名)提供了一种解决方案。通过采用强化学习模型可以获得更大的收益。就在线广告而言,强化学习模型致力于寻找用户更容易点击的广告。全球数字广告行业每年产生数千亿美元,并提供了强化学习力量的案例研究。1、使用A/B/n测试为了更好的理解强化学习对于推广优化广告的帮助,可以考虑一个简单场景的应用:比如某新闻网站与某公司签订合同,并在新闻网站上为这家公司做广告。该公司为该网站投放了五个不同的广告,当处理两个以上的备选方案时,它可以称为A/B/n测试。网站运营商的主要目标是找到产生最多点击的广告。在广告方面,需要最大化点击率(CTR)。点击率是点击次数与广告展示次数的比率,也称为展示次数。例如,如果某个广告展示了1,000次,导致网站获得3次点击,则其CTR将为3/1000=0.003或0.3%。在用强化学习解决问题之前,让我们讨论一下A/B测试,这是一种标准技术,用于比较两个竞争解决方案(A和B)的性能,例如不同的网页布局、产品推荐或广告。当处理两个以上的选择时,称为A/B/n测试。在A/B/n测试中,受试者通常被随机分为不同的组,并且每个组都呈现一个可用的解决方案。就此新闻站点广告而言,这意味着随机向站点的每个访问者展示五个广告中的一个并评估结果。假设A/B/n测试有100,000次展示,这相当于每个广告大约有20,000次展示。以下是5个广告的点击率:Ad1:80/20,000=0.40%Ad2:70/20,000=0.35%Ad3:90/0,000=0.45%Ad4:62/20,000=0.31%Ad5:50/20,000=0.25%该网站在100,000次广告展示中赚取了352美元,平均点击率为0.35%。更重要的是,网站运营商发现第三个广告比其他广告展示得更好,并会继续使用它来吸引更多访问者。对于效果最差的广告(第5个广告),收入应为250美元。如果使用效果最好的广告(第3个广告),收入应为450美元。因此,采用A/B/n测试可提供最小和最大收入的平均值,并提供比显示点击率更有价值的知识。数字广告的转化率其实很低。在这个例子中,表现最好的广告和表现最差的广告之间只有0.2%的微小差异。但这种差异会对规模产生重大影响。在1,000次展示时,展示第3个广告将比第5个广告多赚2美元。在100万次展示中,差异为2,000美元。在投放数十亿个广告时,0.2%的微小差异会对网站收入产生巨大影响。因此,找到这些细微差别对于广告优化非常重要。A/B/n测试的问题在于它在发现这些差异方面不是很有效。它通常平等对待所有广告展示,只有通过运行数万个广告,它才能可靠地检测出它们之间的差异。这可能会导致收入损失,尤其是在发布更多广告时。传统A/B/n测试的另一个问题是它是静态的。一旦找到最好的广告,就必须坚持下去。如果由于新因素(如季节和新闻趋势等)的出现而导致环境发生变化,导致其中一个广告的点击率(CTR)可能更高,则很难察觉,除非A/B/n测试重新运行。如果可以更改A/B/n测试以使其更加高效和动态呢?这就是强化学习发挥重要作用的地方。广告代理商必须找到一种方法来最大化他们的回报。在这种情况下,强化学习代理的行为是展示这五个广告。每次用户点击广告时,强化学习代理都会获得积分奖励。因此,当务之急是找到一种方法来最大限度地提高广告点击次数。2.多臂老虎机(Multi-armedBandit)多臂老虎机是一种通过反复试验发现的几种解决方案中的一种方法。在一些强化学习环境中,动作是按顺序评估的。例如,在视频游戏中,当完成一个关卡或赢得一场比赛时,必须执行一系列动作才能获得奖励。而在投放广告时,每个广告展示的结果都是独立评估的,这是一个一步到位的环境。解决广告优化问题,可以使用Multi-armedBandit算法,这是一种适合单步强化学习的算法。Multi-ArmedBandit(MAB)来自一个假设的场景:在这个场景中,很多人玩老虎机,知道这些老虎机有不同的中奖率,但不知道哪台老虎机的中奖率最高。如果有人执意要玩某台老虎机,可能会失去选择中奖率最高的老虎机的机会。因此,当务之急是找到一种有效的方法来找出获胜几率最高的老虎机,而无需投入太多筹码。广告优化的案例是多臂老虎机原则的典型例子。在这种情况下,强化学习代理必须找到一种方法来发现点击率最高的广告,而不会在低效广告上浪费太多时间和资源。3.Explorationvs.Exploitation每个强化学习模型面临的一个问题是“探索与开发”的挑战。Exploitation意味着坚持RLagent迄今为止找到的最佳解决方案,而exploration意味着尝试其他解决方案,希望找到比当前最佳解决方案更好的解决方案。在广告选择应用程序中,强化学习代理必须在选择显示效果最佳的广告和探索其他选项之间做出决定。解决开发或探索问题的一种方法是采用“ε-贪心”算法。在这种情况下,强化学习模型通常会选择最佳解决方案,在给定的百分比(ε因子)下,将随机选择其中一个广告。每个强化学习算法都必须在探索最佳解决方案和探索新选项之间找到适当的平衡。这是它的实际工作方式。假设有一个多臂强盗(MAB)代理使用ε-greedy算法,ε因子设置为0.2。这意味着代理商可以在80%的时间内选择效果最好的广告,在20%的时间内选择另一个广告。强化学习模型是在不知道哪个广告表现更好的情况下启动的,因此每个广告都分配了相同数量的服务。当所有广告均等投放时,每次投放都会随机选择一个广告。在投放200个广告后(5个广告各投放40次),有人点击了第4个广告。强化学习代理调整广告的点击率如下:Ad1:0/40=0.0%Ad2:0/40=0.0%Ad3:0/40=0.0%Ad4:1/40=2.5%Ad5:0/40=0.0%现在,强化学习代理认为第4个广告是表现最好的广告。对于每次广告展示,将选择一个介于0和1之间的随机数。如果该数字大于0.2(ε因子),则会选择第4个广告。如果数字小于0.2,将随机选择其他广告之一。现在,在另一个用户点击广告之前,RL代理显示了200个其他广告,这次有人点击了第3个广告。请注意,在200次展示中,第4个广告将获得80%的广告展示次数(160),因为它是最好的广告。而剩下的则平分给其他广告,新的CTR值如下:Ad1:0/50=0.0%Ad2:0/50=0.0%Ad3:1/50=2.0%Ad4:1/200=0.5%Ad5:0/50=0.0%现在最好的广告变成了第三个广告。它将获得80%的广告展示次数。假设还有100次展示(第三个广告80次,其他各4次),有人点击了第二个广告一次。这是新的点击率分布:Ad1:0/54=0.0%Ad2:1/54=1.8%Ad3:1/130=0.7%Ad4:1/204=0.49%Ad5:0/54=0.0%现在,第二个广告是最好的解决方案。随着投放的广告越来越多,点击率将反映每个广告的实际价值。表现最好的广告将获得最多的印象,但强化学习代理将继续探索其他选项。因此,如果环境发生变化并且用户开始对广告做出更积极的反应,强化学习可以发现这一点。放置100,000个广告后,分布如下:Ad1:123/30,600=0.40%Ad2:67/18,900=0.35%Ad3:187/41,400=0.45%Ad4:35/11,300=0.31%Ad5:15/5,800=0.26%使用ε-greedy算法,100,000次广告展示的收入可以从$352增加到$426,平均点击率为0.42%。这是对传统A/B/n测试模型的重大改进。改进ε-贪心算??法的关键ε-贪心强化学习算法的关键在于调整ε因子。如果设置得太低,将使用最好的广告,但可能会以无法找到更好的解决方案为代价。例如,在上面探讨的示例中,第四个广告恰好获得了第一次点击,但从长远来看,它的点击率并不是最高的。因此,小样本不一定代表真实分布。另一方面,如果ε因子设置得太高,RL代理将浪费太多资源来探索非最佳解决方案。改进ε-greedy算法的一种方法是定义动态策略。当多臂老虎机(MAB)模型开始运行时,可以从较高的ε因子开始,以进行更多的探索和更少的开发。随着模型提供更多广告,并且在估计每个解决方案的价值方面变得更好,它可以逐渐降低ε因子,直到达到阈值。在优化广告问题的上下文中,可以将ε因子设置为0.5,然后在每1000次广告展示后将其减小0.01,直到达到0.1。改进多臂老虎机(MAB)的另一种方法是更多地关注新观察值并逐渐降低旧观察值。这在数字广告和产品推荐等动态环境中尤其有用,在这些环境中,解决方案的价值会随时间而变化。这是一个非常简单的方法。广告投放后更新CTR的传统方式如下:(result+past_results)/impressions其中result是广告显示的结果(点击为1,未点击为0),past_results为该广告获得的展示次数到目前为止的累计点击次数,而展示次数就是广告投放的总次数。要逐渐淡化旧结果,您可以添加一个新的alpha因子(介于0和1之间),并进行以下更改:(result+past_results*alpha)/impressions这个小的更改将使新的观察结果带来更大的影响。因此,如果有两个点击次数和展示次数相等的竞争广告,那么在强化学习模型中,将选择点击次数最高的广告。此外,如果一个广告过去点击率非常高,但最近没有响应,它的价值在模型中会下降得更快,迫使强化学习模型更早地切换到其他替代方案,并且低效地在广告上使用更少的资源为了。将场景上下文添加到强化学习模型老虎机使用函数近似来解释广告受众的个体特征在互联网时代,网站、社交媒体和移动应用程序拥有丰富的用户信息,例如他们的地理位置、设备类型,以及他们查看广告的确切时间。社交媒体公司拥有更多关于其用户的信息,包括年龄、性别、朋友和家人,以及他们过去分享的内容类型。喜欢或点击的帖子类型等等。这些丰富的信息使这些公司有机会向每个受众提供个性化的广告。然而,创建的多臂强盗(MAB)模型向每个人展示相同的广告,并没有考虑到每个受众的具体特征。如果您想为多臂老虎机(MAB)添加上下文怎么办?一种解决方案是创建多个多臂强盗(MAB)模型,每个模型都针对特定的用户子域。例如,可以为北美、欧洲、中东、亚洲、非洲等地的用户创建单独的强化学习模型,如果也考虑到性别呢?然后会有一个针对北美女性用户的强化学习模型,另一个针对北美男性用户的强化学习模型,等等。如果你还加上年龄和设备类型等因素,你会发现它很快就会成为一个大问题,导致多臂强盗(MAB)模型激增并变得难以训练和维护。另一种解决方案是使用“ContextualBandit”,这是Multi-ArmedBandit(MAB)的升级版本,它考虑了上下文信息。contextualbanditry不是为每个特征组合创建单独的多臂强盗(MAB),而是使用“函数近似”,尝试在给定一组输入因素的情况下对每个解决方案的性能进行建模。情境老虎机使用受监督的机器学习来根据位置、设备类型、性别、年龄等预测每个广告的表现,无需过多赘述。Multi-ArmedBandit(MAB)是为每个广告使用一个机器学习模型,而不是创建上下文强盗所需的每种功能组合。关于使用强化学习优化广告的讨论到此结束。强化学习技术可用于解决许多其他问题,例如推荐内容和产品或动态定价,并可用于其他领域,例如医疗保健、投资和网络管理等行业领域。原标题:强化学习如何选择你看到的广告,作者:BenDickson
