译者|崔浩校对|当分布的先验信息最小化时,损失最小化。研究多臂老虎机问题(MAB)以解决不确定环境中的连续决策问题,多臂老虎机(MAB)的探索算法通常假设奖励噪声是轻尾分布。然而,现实世界的数据集往往是重尾和嘈杂的。鉴于此,来自韩国的研究人员提出了一种用最少的先验信息实现最小最优性(在最大损失的情况下损失最小)的算法。与现有算法相比,新算法在自主交易、个性化推荐系统等方面具有潜在的应用前景。在数据科学中,研究人员经常处理包含噪声的观测数据。在这种情况下,数据科学家探索顺序决策的问题。也称为“随机MAB”问题。在这里,智能代理根据嘈杂的奖励(奖励)在不确定的环境中顺序探索和选择行动。它的目标是最小化累积遗憾(Regret)——最大奖励(Rewards)与所选动作的预期奖励之间的差值。Regret越小,决策效率越高。大多数关于随机MAB的现有研究都在奖励噪声遵循轻尾分布的假设下进行后悔分析。然而,事实上,许多现实世界的数据集都表现出重尾噪声分布。这些数据包括用于开发个性化推荐系统的用户行为模式数据、用于自动交易开发的股票价格数据以及用于自动驾驶的传感器数据。在最近的一项研究中,中央大学的KyungjaeLee助理教授和蔚山科学技术学院的SungbinLim助理教授解决了这个问题。在他们的理论分析中,他们证明现有的随机MAB算法对于重尾奖励来说不是最优的。更具体地说,这些算法采用的方法——稳健的置信上限(UCB)和具有无界扰动的自适应扰动探索(APE)——不能保证最小化(最大可能损失的最小化)的最优性。“基于此分析,提出了最小最优稳健(MR)UCB和APE方法。MR-UCB利用稳健均值估计器的更严格的置信度约束,而MR-APE是其随机版本。它使用有界扰动,其规模与MR-UCB中修改后的置信区间一致,”李博士解释了他们的工作,该工作于2022年9月14日发表在IEEE神经网络和学习系统杂志上。接下来,研究人员得出了差距依赖和独立累积遗憾的上限。对于这两种提出的方??法,后者的值都符合重尾噪声假设下的下限,实现了最小最优性。此外,新方法需要最少的先验信息,并且仅依赖于奖励有界矩的最大顺序。相比之下,现有算法需要这个时刻的上限,并且在许多现实世界的问题中可能无法获得此先验信息。在建立他们的理论框架后,研究人员通过在帕累托和弗拉什噪声下进行模拟来测试他们的方法。他们发现MR-UCB始终优于其他探索方法,并且随着动作数量的增加,对重尾噪声的鲁棒性更强。此外,两人使用加密货币数据集验证了他们的方法,表明MR-UCB和MR-APE有利于处理重尾合成和现实世界的随机MAB问题——最大最佳遗憾边界和最小先验知识。由于对重尾噪声的敏感性,现有的MAB算法在对股票数据建模时表现不佳。他们无法预测股价的暴涨或暴跌,造成巨大损失。相比之下,MR-APE可以用于自主交易系统,通过股票投资获得稳定的预期收益,”李博士在讨论这项工作的潜在应用时评论道。“此外,它还可以应用于个性化推荐系统,因为行为数据表现出重尾噪声。通过对个人行为的更好预测,有可能提供比传统方法更好的推荐,从而可以最大化广告收入,”他总结道。译者介绍崔浩,社区编辑,高级架构师,拥有18年的软件开发和架构经验,10年分布式架构经验,曾任惠普技术专家,乐于分享,撰写多篇阅读量超过60万的热门技术文章。《分布式架构原理与实践》作者。原标题:中央大学研究人员开发重尾噪声奖励下的最优决策算法
