当前位置: 首页 > 科技观察

强化学习在应用中寻找策略的“最优解”

时间:2023-03-15 00:07:47 科技观察

目前,业界通常使用AI系统来执行各种模式识别和预测分析任务。例如,人工智能系统可以识别图像中的模式以检测人脸(人脸识别),或发现销售数据中的模式以预测需求变化等。另一方面,强化学习方法能够在具有反馈循环的应用程序中做出最佳决策或采取最佳行动。通过两个直观的用例,相信大家已经对AI和强化学习的区别和联系有了初步的认识。假设我们使用人工智能技术经营一家制造厂。人工智能提供的模式识别可用于质量保证,包括扫描图像和最终产品,以检测设计和制造层面的缺陷。另一方面,强化学习系统可以计算并执行制造过程所遵循的策略(例如确定需要运行的生产线、控制机器/机器人、确定要制造的产品类型等)。),并不断结合反馈信息,发现现有策略在保持一定产品质量水平的同时,最大化某些指标(如良率)的改进空间。过去,此类问题由于涉及的影响因素众多,很难用传统的人工智能系统解决,但强化学习的出现无疑带来了希望。相关算法在使用强化学习计算最优策略或策略时面临的主要挑战是“时间信用分配”问题。具体来说,在特定的系统状态下(比如“机器当前的输出水平,每条流水线有多忙”等),行为(比如“周三运行生产线1”)对整体绩效(如“总产出”)的影响往往需要时间来确定。更麻烦的是,整体性能也会受到具体操作方式的影响。总而言之,我们在事先制定策略和评估效果时,往往很难判断哪些是好选择,哪些是坏主意。在此类复杂问题中,大量的潜在系统状态也会造成可怕的“维数灾难”,进一步加剧了结果的不确定性。但好消息是,近年来强化学习在实验室中令人印象深刻的表现为解决此类难题带来了希望。此前,强化学习的优越性能主要体现在桌游和电子游戏领域。仅使用两个输入:屏幕上的图像和游戏分数,强化学习系统在各种Atari游戏中迅速席卷人类玩家,给整个AI社区留下了深刻的印象。而这个优秀的系统是由伦敦人工智能研究实验室DeepMind在2013年创建的。后来,DeepMind以AlphaGoagent为起点,构建了一系列强化学习系统(也叫agents),可以在围棋对抗中轻松击败世界顶尖高手。凭借着2015年到2017年间的这一系列壮举,强化学习之名风靡全球。而在围棋这项拥有无数粉丝、一向以高复杂度和中长期战略思维着称的智力运动中夺得第一名,也让人对强化学习的未来应用充满好奇。之后,DeepMind和AI研究实验室OpenAI发布了《星际争霸》和《DOTA 2》游戏的系统,同时与世界顶尖的人类玩家对战。在这种需要严格的战略思维、资源管理和游戏内多单元操作/协调的场景中,RL似乎仍然表现良好。通过让强化学习算法完成数百万场比赛,系统可以逐渐找出哪些策略是真正有效的,哪些策略更适合不同类型的对手和玩家。基于强大的计算能力,强化学习算法往往采用多种思路,对不同策略的具体效果一一尝试。系统会尝试策略空间耗尽、自我对抗、多策略联动、学习人类玩家策略等多种方式,快速在策略空间探索和现有好策略之间取得平衡。简单来说,大量的实验使系统能够探索各种不同的博弈状态,而复杂的评估方法则让AI系统弄清楚哪些策略或操作可以在以下情况下取得良好的中长期收益合理的游戏情况。但在现实世界中使用这些算法的主要障碍是我们不太可能逐一进行数百万次试验。好消息是,有一个新的解决方案可以解决这个问题:首先为应用场景(制造工厂或市场模拟环境等)创建一个计算机模拟环境,然后使用强化学习算法从中梳理出最佳策略。并最终总结出结果将最佳策略融入实际场景,通过进一步的参数调整来反映真实世界。OpenAI在2019年进行了一次高调的演示,通过训练机械臂单手解魔方,展示了这种模拟训练方法的有效性。但要使这种方法起作用,模拟环境必须准确地反映潜在问题。从某种意义上说,要解决的问题已经在仿真环境中以某种形式“解决”了,一定没有任何影响系统性能的外部因素。例如,如果模拟的机械臂与真实的机械臂相差太大,那么在实践中,机械臂将无法牢牢抓住一个小魔方。在这种情况下,即使模型本身训练得当,具有良好的抗干扰能力,仍然无法达到预期的目标。这些限制对强化学习的实际应用提出了极大的挑战,甚至可能带来不愉快的惊喜。在制造工厂的早期示例中,用更快或更慢的机器更换一台设备可能会改变工厂的整体生产动态,导致我们不得不重新训练强化学习模型。虽然这同样适用于任何强化控制系统,但对强化学习方案的期望要高得多,因此必须找到消除这些不良问题的方法。无论如何,强化学习在现实场景中的应用确实展现了光明的前景,许多初创企业已经在尝试使用强化学习技术来控制制造机器人(Covariant、Osaro、Luffy)、管理生产计划(Instadeep)、企业决策(Secondmind)、物流(Dorabot)、电路设计(Instadeep)、控制自动驾驶汽车(Wayve、Waymo、FiveAI)、控制无人机(Amazon)、运营对冲基金(Piit.ai)和更多模式识别类型AI系统无法轻易处理的真实场景。此外,各大高科技公司也在强化学习研究上投入巨资。谷歌在2015年以4亿英镑(5.25亿美元)的价格收购了DeepMind。不过,为了保持竞争优势,双方都没有公布更多交易细节。或许强化学习目前的应用还比较笨拙,步履蹒跚,但在强大算力和雄厚财力的双重加持下,很可能在不久的将来成为市场不可忽视的核心技术成果。