近日,斯坦福大学发布了一本新书:《决策算法》(AlgorithmsforDecisionMaking),主要由MykelJ.Kochenderfer教授编写。MykelJ.Kochenderfer教授领导的斯坦福智能系统实验室(SISL)实验室每年都在计算机领域的主要会议和期刊上收获颇丰。仅2021年一个月,实验室就有9篇论文发表在AAAI2021、AAMAS2021、AIAAJournal等顶级会议和期刊上。在此简单介绍一下,斯坦福智能系统实验室(SISL)的研究重点是用于设计稳健决策系统的高级算法和分析方法。其中,实验室的细分领域特别感兴趣:系统化的空中交通管制、无人驾驶飞机和其他需要在不确定的动态环境中做出决策同时保持安全和效率的航空航天应用。SISL主要专注于高效计算方法的研究,重点研究如何从高维、概率问题中推导出最优决策。图片:SISL成员合影这本新书《决策算法》主要介绍了不确定条件下的最优决策算法:本书涵盖了与决策相关的各种主题,介绍了问题中隐含的数学公式和求解算法的方法。此外,全书还添加了大量示例和练习题,以传达各种方法背后的直觉。本书适用于高年级本科生和研究生,以及专业人士。要学习本书的内容,读者需要具备一定的数学背景,并接触过多元微积分、线性代数和概率的概念。这本教科书的基础是算法,全部用Julia编程语言实现。此外,附件中还提供了一些复习资料。从本书中获益最多的学科是数学、统计学、计算机科学、航空航天、电气工程和运筹学。下面详细解释一下这本书的一些章节:Chapter1:ProbabilisticReasoning主要讲述ProbabilisticReasoning,主要包括以下几个部分:RepresentationInferenceParameterLearningStructureLearning)SimpleDecisions(简单决策)开始讨论如何用概率表示不确定性分布,作者将讨论如何构建模型,如何使用模型进行推理,以及如何从数据中学习模型的参数和结构。之后,作者介绍了效用理论的基础,并展示了它如何在不确定的情况下导致理性决策。效用理论可以纳入概率图模型,形成所谓的决策网络。本章重点介绍单步决策,将连续决策问题的讨论留到本书的下一部分。第2章:序列问题本书第二章主要描述序列问题(SeqentialProblems),主要包括以下小节:精确求解方法近似值函数在线规划策略搜索(策略搜索策略梯度估计策略梯度优化Actor-Critic算法Actor-CriticMethodsPolicyValidationdecisions,但是很多重要的问题需要我们做一系列的决策,在这种情况下,最大期望效用原则仍然适用,但是在顺序环境下的最优决策需要对未来的顺序操作和观察进行推理.本书的这一章处理随机环境中的顺序决策问题。作者将在模型已知且环境完全可观察的假设下着重于顺序决策问题的一般表述。在后面的章节中,作者将放宽这些两个假设。讨论在本章将从序贯决策问题的标准数学模型——马尔可夫决策过程的介绍开始,主要讨论精确解的几种方法,离线和在线近似解的集合,以及一种涉及直接搜索参数化的方法决策政策空间。Chapter3:ModelUncertainty主要描述ModelUncertainty,主要包括以下小节:ExplorationandExploitationModel-BasedMethodsModel-BasedMethodsFreeMethods)ImitationLearning(模仿学习)在讨论顺序决策问题时,本书假设转移模型和奖励模型是已知的。然而,在许多问题中,这些模型并不完全已知,智能体必须通过经验学习进一步的操作。解决模型不确定性这个问题是强化学习领域的一个主题,也是本书这一部分的重点,通过观察状态转换的行为后果以奖励的形式让代理人选择最大化其长期奖励的行为积累。在本章中,作者讨论了解决模型不确定性的几个挑战:首先,智能体必须仔细掌握探索环境和利用基于经验的知识的平衡。其次,奖励可能在做出重要决定后很久才收到,因此必须将较晚的奖励分配给较早的决定。第三,代理人必须从有限的经验中进行概括。作为回应,作者回顾了解决这些挑战的理论和一些关键算法。Chapter4:StateUncertainty主要描述状态不确定性,主要包括以下小节:BeliefsExactBelifStatePlanningOfflineBeliefStatePlanningOnlineBelifStatePlanning(在线BelifStatePlanning)ControllerAbstractions(控制器抽象),包括结果状态和模型的不确定性。在本章中,作者将不确定性扩展到状态域。第19章展示了如何根据过去的观察和行动序列更新信念的分布。第20章概述了优化策略的精确方法。第21章回顾了各种离线近似方法,这些方法比精确方法更适用于更大的问题。第22章扩展了在线近似方法以适应部分可观察性。第23章介绍了用有限状态控制器来表示优化策略和方法。Chapter5:MultiagentSystems主要介绍MultiagentSystems,主要包括以下小节:MultiagentReasoningSequentialProblemsStateUncertaintyCollaborativeAgents到目前为止,本书主要从单个agent的角度来处理决策。现在,讨论的核心概念将扩展到涉及多个代理的问题。在多代理系统中,我们可以将其他代理建模为潜在的盟友或对手,并随着时间的推移进行相应调整。第24章介绍了游戏中的多主体推理,并概述了如何从简单的交互中计算均衡。第25章讨论了如何为随时间交互的多个代理设计算法,描述了有利于理性适应而不是均衡收敛的学习算法。第26章表明,状态不确定性显着增加了问题的复杂性,并强调了这些领域特有的挑战和困难。第27章重点介绍合作代理的各种模型和算法。以上是全书的总体介绍。感兴趣的朋友可以自己探索,也可以下载全书。这是网站链接:https://mykel.kochenderfer.com/textbooks/
