强化学习对于实现我们的AI/ML技术目标至关重要,但目前我们仍有一些障碍需要克服。尽管可靠性和减少训练数据的目标很可能在一年内实现,但强化学习本质上是一种“黑匣子”解决方案,其缺乏透明度引发了许多问题。传统机器学习乃至深度学习的有监督和无监督学习,是目前企业在人工智能/机器学习领域投入巨资并从中获得回报的核心领域。但事实是,这些技术现在已经相当成熟,收益率曲线正在趋平。如果我们正在寻找AI/ML的下一个突破性技术,几乎可以肯定,这个突破将来自强化学习。强化学习领域需要付出很多努力,但可以公平地说,强化学习尚未达到成为商业化工具所需的标准化水平。在游戏领域已经有不少值得报道的成功案例(比如AlphaGo),在自动驾驶汽车领域也有一些成功案例。但是,虽然强化学习应该是我们在解决涉及决策序列的问题时选择的技术,但它还没有完全成熟。在上一篇文章中,我们强调了阻碍强化学习的两个缺点,这正是微软强化学习领域的首席研究员RomainLaroche所描述的:“它们从根本上来说是不可靠的。更糟糕的是,由于强化学习中的随机性过程中,使用不同随机种子的两次运行的结果可能会非常不同。”“他们需要数十亿个样本才能得到结果,而在实际应用中很难提取如此大量的样本。不可行。”我们专注于有前途的研究,这些研究以更少的数据、有限的财务承诺和实际限制来解决培训问题。然而,剩下的问题更加复杂。由于强化学习解决方案是从随机种子开始的,因此它们本质上是对状态空间的随机搜索。想象一下,两个启动算法随机进入这个巨大的潜在解决方案丛林,目标是找到最快的出路。尽管这两种解决方案可能达到相同的性能水平,但强化学习是一个臭名昭著的黑匣子,它使我们无法理解系统选择执行这一系列步骤的原因和方式。Gartner最近的报告《2020 年 10 大战略技术趋势》中的两个相互冲突的目标强调了它的重要性。引起我们注意的两个趋势是:趋势8:自主事物“智能设备,包括无人机、机器人、船舶和家用电器,使用人工智能代替人类来执行任务。技术从半智能到全智能在环境的智能范围内运行,在天空、海洋、陆地等多种环境中运行。智能设备也将从独立设备转向协作集群,例如无人2018年冬季奥运会使用的无人机。成群结队。”该报告没有提到的是,实现这一目标需要强大而可靠的强化学习。虽然有一些非常令人印象深刻的机器人(想想波士顿动力公司)主要依靠物理运动算法而不是AI/ML技术,但该行业需要强化学习才能进入下一阶段的发展。而第二个趋势对于强化学习来说会更加困难。趋势5:透明度和可追溯性“技术正在造成信任危机。随着消费者越来越关注他们的信息是如何被收集和使用的,组织越来越意识到存储和收集这些数据的责任越来越大。”“此外,人工智能和机器学习越来越多地被用来代替人类做出决策,这造成了信任危机,并推动了对可解释人工智能和人工智能治理等想法的需求。”虽然我们很可能会想到GDPR和围绕电子商务的隐私问题,但事实是,基于我们对AI/ML如何做出决策的理解,这些技术最终将受到挑战。特别是考虑到RL政策制定的随机性,以及事实上,两个成功的RL程序可以以完全不同的方式实现相同的目标,这将是一个无法克服的挑战。解决可靠性问题RomainLaroche提出了两种有望解决可靠性问题的技术。在他们的论文中,一种使用集成方法(EBAS)另一种使用微调参数条件风险值(CvaR,或最差运行的平均值),这两种技术都提高了性能并减少了训练时间,同时限制了强化学习运行以查找和利用系统中的故障的自然趋势。如果实际投入生产,系统可以带来成功的结果,但包含某种形式的意外损坏。后一种技术是n以SPIBB命名,它是SafePolicyImprovementwithBaselineBootstrapping的缩写,即使用基线引导的安全策略改进。这种集成方法借鉴了机器学习中的相同概念,类似于遗传算法选择训练中使用的搜索过程,从而产生了一些很好的结果。EBAS算法学习速度更快,最终性能没有任何损失。透明度?我们似乎在解决可靠性问题以及对大量训练数据的另一个需求。这无疑会将我们引向透明度问题。以自动驾驶汽车在发生事故后受到的审查为例。与人类操作员相比,我们对机器错误的容忍度更低。毫无疑问,强化学习将在2020年做出重大贡献,但是,实现经过验证的、商业上可接受的解决方案的障碍,以及由于缺乏透明度而产生的阻力,不太可能在一年内完全解决。
