当前位置: 首页 > 科技观察

时空AI技术:深度强化学习在智慧城市的应用介绍

时间:2023-03-18 13:28:01 科技观察

深度强化学习是近几年比较火的一项技术。深度强化学习的控制和决策过程必须包含三个要素:状态、动作和奖励。在建模过程中,agent根据环境的当前状态信息输出动作作用于环境,然后接收下一时刻的状态信息和奖励。以大名鼎鼎的AlphaGo为例,棋盘就是当前的状态,行动就是下一步要往哪里走,奖励就是最后的输赢。整个强化学习过程就是不断与环境交互,在交互过程中产生数据,并利用这些交互产生的数据进行学习的过程。正是借助深度强化学习,AlphaGo才得以横扫世界顶尖棋手。因此,与监督学习方法相比,深度强化学习在某些场景下可以达到超越人类的水平。在围棋领域大放异彩后,深度强化学习也在不断开疆拓土,游戏、金融等越来越多的领域也出现了深度强化学习。现代城市作为人类生产生活的核心区域,是集交通、物流、能源等多行业于一体的复杂综合体。这种复杂的结构若能得到优化,将带来巨大的社会价值。强化学习可以做到这一点。本文将介绍强化学习在智慧城市领域的几个应用案例。1.智能交通在城市的各种交通场景中,会遇到各种资源分配和交通调度问题。如图3(a)所示,在一个典型的救护车车辆调度场景中,救护车需要不断地在患者和救护站之间来回穿梭。救护车上车时间在很大程度上取决于移动救护车的动态重新部署策略。即,救护车可用后应该转移到哪个车站。重新部署现有救护车将影响未来接载病人所需的时间。比如图3(b)中,未来1号站附近会有3个病人过来,所以重新部署现有的1号救护车,很快就把病人带走了。图1救护车调度场景的问题仍然可以通过强化学习来解决。在文章[1]中,将所有需要调度的救护车都看作是agent,建模的核心是确定相应的状态、动作和奖励。在该场景中,影响救护车效率的因素主要包括未来站点附近的患者数量、站点内救护车的数量以及救护车与站点之间的距离。通过对这些指标进行一定程度的转化,可以提取出患者密度、行程时间等多个相关因素。然后可以将这些相关因子用作输入状态。在这个场景中,决策变量,即救护车在完成接送任务后被部署到不同的站点,就是agent的动作。优化目标,即病人被接走的时间,是对代理人的奖励。时间越短,奖励越大。理想情况下,每个救护车代理人都能够找到一个占优策略,最大限度地减少平均接送时间。接下来,文章介绍了一种深度强化学习算法来很好地解决这个场景。本文使用在现实世界中收集的数据集评估动态救护车重新部署方法。实验结果表明,基于深度强化学习的救护车重新部署方法明显优于最先进的基线方法。具体来说,与基线方法相比,基于深度强化学习的方法可以将10分钟内入院的患者比例从0.786提高到0.838,平均入院时间(约100秒)节省约20%。为了能够增加及时挽救患者的可能性,每一秒都很重要。在交通场景中,类似的调度问题还有很多,比如共享单车调度、公交线路规划、出租车/网约车调度等,在这些场景中,可以采用类似的方法。此外,随着物联网技术的发展,未来各行业的管理将进一步扁平化。还将出现许多新场景。比如交通信号灯的控制优化、自动驾驶的控制与决策、无人车的调度等,都是深度强化学习的应用场景。因此,强化学习技术将在未来的智能交通中发挥重要作用。2、智能物流的发展物流极大地方便了人们,促进了电子商务的发展。然而,庞大的运单数量也带来了诸多管理问题。行业订单派送和配送效率普遍较低,造成大量劳动力浪费。在快递领域,配送人员任务不平衡的情况很普遍。这导致一些快递员的任务过饱和或短缺。如果每个快递员的任务能够根据任务的不同进行动态规划和规划,那么就可以弱化这种资源不平衡,提高资源利用率和任务完成率。但现实中,快递员需要同时肩负派送和取件两大功能,还要兼顾整体派送效率,这无疑增加了问题的复杂性。文章[2]利用深度强化学习来解决这个问题。文章中,作者将整个空间大致划分为若干个小区域,用图4中的小方块表示。其中A、B、C分别代表三个快递员c1、c2、c3剩余的投递量每个小区域,阴影小区域表示快递员当前所在位置。D和G代表每个小区域要拾取的棋子数量。F和H分别表示从信使c1和c2的角度看其他信使的位置。E表示快递员c1从位置g3到达位置g2。在真实场景中,影响快递员路线规划的因素,包括剩余派送地点、待取件地点、队友所在位置、队友路线等,基本都可以用这种图结构来表达。所以这个图结构作为代理的状态。智能体的动作就是快递员前进的方向,比如向左或者向右,奖励就是快递员完成的任务量。完成的任务越多,奖励就越大。同样,三维核心指标确定后,可以引入深度强化学习算法求解。我们可以推断,除了快递员的路线选择,车辆的运输和调度也属于类似的场景,也可以采用类似的方法来解决。即使是大规模的物流和仓库管理也可以使用强化学习进行建模。3、智能能源锅炉燃烧优化是典型的智能控制场景。电厂锅炉系统高度复杂,包括磨煤、燃烧、水汽循环等多个环节。一台普通的600MW中型火电机组有数万个传感器测点,涉及燃烧、风烟、水热循环等诸多物理化学过程。复杂的。单纯使用机理建模很难对如此复杂的系统进行准确建模,导致系统描述不准确,影响优化效果。从控制优化的角度来看,火电燃烧优化涉及上百个主要控制变量(如机组内各种锅炉给煤量、各种风门、阀门开度等),这些变量都是连续变量(如阀门20%开度和25%开度可能对设备的运行产生非常不同的影响)。同时,当前行动的影响往往无法实时反馈,因此还需要考虑长期影响。对于如此复杂的场景,即便是拥有多年经验的运营商也很难想出一套高效的调整策略。因此,此类复杂系统的高维连续变量控制优化问题是一个世界性难题。图3热电锅炉运行流程而深度强化学习恰好适合这个任务。图2显示了我们基于强化学习的建模管道。对于一个典型的锅炉环境,我们可以得到很多传感器来提供系统的状态描述,比如锅炉内的各种温度、风量、水量、压力等监测值。我们可以把这些实时反馈的监控值作为状态,也就是代理能“看到”的东西。然后我们将控制变量,如煤炭供应、各种风门和阀门开度作为行动。在确定状态和动作后,我们使用一个业务指标(燃烧效率)作为奖励。Agent根据当前状态输出动作调整锅炉控制参数,锅炉环境将改变为新的状态。如果燃烧效率向好的方向变化,我们将给予正向奖励。如果是不好的变化,我们可以给予负奖励。完成建模工作后,我们可以通过合理的学习算法学习到更好的策略。学习算法观察从状态和动作到下一个状态的许多变化,抽象出相应的状态-动作-奖励模式,最终找到一个最优的控制策略,可以映射从当前状态到最好的控制(动作)变量以最大化长期平均奖励。在实际上机测试过程中,基于强化学习的控制策略相比人工操作实现了0.5%的效率提升。一台600MW机组,年经济效益折合人民币240万元。同时,我们实现了AI模型的产品化,具备批量复制能力,并在多个电厂实施并完成验收。图4基于强化学习的燃烧优化代理除了燃烧优化场景,在火电方面,我们还在磨煤机控制优化、冷端优化等场景中使用了强化学习的方法,并取得了不错的效果。影响。针对上述控制场景,强化学习还可以应用于温度控制、电网调度、能源管理等领域。此外,火电锅炉的控制是典型的过程控制。在工业生产中,水泥生产过程中的磨机控制、机场ACDM系统中的车辆和人员调度、停车场优化以及钢铁制造、化工等行业场景也是类似的场景。在这些场景中,可以提取出大量的控制和优化问题,深度强化学习技术也有广阔的空间。通过案例我们可以看到,对于一个现实生活场景,如果能够确定相关的影响因素、优化动作和优化目标,深度强化学习技术将能够大放异彩。而这些场景在我们的生产生活中大量存在。因此,在未来的智慧城市和智慧产业中,深度强化学习技术将发挥重要作用。但就目前而言,深度强化学习的实施还存在一些局限性。部分原因是算法的学习效率还不够高效,应用场景比较狭窄。另一方面是目前很多行业的数字化程度还比较低。但随着物联网时代的到来,这个问题会逐渐得到解决。同时,随着大量研究人员的更替,深度强化学习本身的技术也在不断迭代发展,算法的应用范围也越来越广。以后的发展一定会越来越好。参考文献[1]ShenggongJi,et.al一种基于深度强化学习的移动救护车动态重新部署系统。UbiComp2019[2]LiY,ZhengY,YangQ.EfficientandEffectiveExpressviaContextualCooperativeReinforcementLearning[C]//第25届ACMSIGKDD知识发现与数据挖掘国际会议论文集.2019:510-519.