过去几十年,在量子物理技术的探索中,最引人瞩目的就是量子计算机。量子计算机的能力是所有现有计算机组合所无法比拟的。但到目前为止,还没有人能够建造出功能齐全的量子计算机。这需要我们控制量子系统的能力向前迈出一步。为什么AlphaZero能够提前一步“预测未来”?AlphaZero最初是为下围棋而设计的。围棋的位置太多了。相比之下,在国际象棋中,只有一种可能的着法。因此,AlphaZero使用了一个深度神经网络,该网络学会了评估其从特定位置开始获胜的可能性。为了获胜,AlphaZero有一个称为蒙特卡洛树搜索的功能,这是一种帮助它在游戏中“预见未来”的方法。由于在所有可能的策略中采样的可能性比较小,神经网络只能近似估计,特别是在训练阶段,蒙特卡洛树搜索可以大大提高博弈的准确性和训练效率。这类似于职业棋手在下棋时能够提前考虑几步棋。训练结果相当惊人,AlphaZero很快摧毁了专业游戏软件和人类玩家。例如,经过仅仅四个小时的自我对弈练习,AlphaZero在国际象棋中击败了领先的国际象棋软件Stockfish。而且这一切都是从头开始,AlphaZero一开始根本不知道游戏规则。丹麦国际象棋大师彼得·海涅·尼尔森将其比作造访过地球的高级外星物种。AlphaZero已经有效击败了围棋、国际象棋和星际争霸中的对手。AlphaZero成功的关键是蒙特卡洛树搜索和前瞻性深度神经网络的结合。结果表明,从树的底部延伸出来的预测信息大大提高了深度神经网络的准确率,使得预测结果更加准确和集中,而不是试探性的探索。AlphaZero反击:30小时性能提升一个数量级与普通计算机类似,量子计算机使用门操作来操纵其量子比特。我们尝试通过构建分段恒定脉冲序列来实现特定的门操作,即AlphaZero必须为每个时间步长选择一个脉冲幅度。物理系统在每个时间步tj由一个4x4复矩阵U(tj)进行数学描述,我们将其折叠成一个长度为32的向量。这是神经网络的输入,如图1所示。脉冲序列完成后,复数矩阵U(T)可以映射到一个实数,称为仿真保真度(fidelity)F,实数的取值在0到1之间。本质上,仿真保真度是概率度量,其中1表示100%成功。图1.AlphaZero使用的MCTS(左)和深度神经网络(右)的示意图。左图和右图分别展示了AlphaZero的树搜索和神经网络。利用树搜索中的统一搜索结果作为神经网络的输入。对于给定的输入状态,神经网络的上界输出接近当前策略,即pa~apa~a。同时,下界输出提供了一个可以预测预期最终奖励的价值函数,即v(stt)~(t)v(st)~f(t)。在我们的工作中,我们发现以一致的形式为AlphaZero提供有关物理系统的完整信息可以提高其性能,尽管可能难以针对具有大希尔伯特空间的系统进行调整。神经网络输出一个值,该值是最终模拟保真度v≈F和一些运动概率p=(p1,p2,...)的估计值。两者都用于蒙特卡洛树搜索。一棵树由节点(状态)和边(状态-动作对)组成。树搜索从根节点开始,通过在每一步选择操作来遍历树。通过比较每条边的内在属性,以平衡探索和开发的方式选择采取哪种行动方案。探索边缘后,将根据搜索结果更新其固有属性。在树中继续向前搜索,直到遇到一个以前未访问过的节点,并且该节点被添加到树中,其边用p初始化。搜索中所有访问过的边将在相反的过程中用v更新。一旦执行了几次这样的搜索,AlphaZero将确定一个动作并更新根节点,同时丢弃树的其余部分。最后,神经网络根据树搜索产生的数据进行更新,使v接近保真度,并且移动概率增加了选择更有希望的动作的机会。简而言之:蒙特卡洛树搜索让AlphaZero可以向前看几步,从而可以在解空间中进行更全面的搜索。这使得AlphaZero在长期策略至关重要的复杂任务中优于大多数其他强化学习方法。在成功实现AlphaZero后,我们对三个不同的量子控制问题使用相同的算法超参数。对于每个问题,我们都将AlphaZero与更传统的算法进行了比较。例如,在图2中,我们比较了AlphaZero和遗传算法在50小时运行期间创建二进制脉冲的任务。在y轴上,我们绘制了不忠1-F,这实际上是错误率(即越低越好)。最初,AlphaZero在学习量子力学相关性方面的表现不如遗传算法,但这个学习周期相当短。在30小时内,我们发现AlphaZero的性能优于遗传算法一个数量级,具有大量独特的高保真脉冲序列。图2.50小时运行期间遗传算法和AlphaZero的比较。y轴上画的是infidelity(1-F),其实是混合了AlphaZero的量子计算的错误率,搜索速度提升了500倍。AlphaZero将输给物理学家在过去15年中一直在完善的高度量化的。优化算法并不奇怪。但是,如果AlphaZero死在这里,将会有很多遗憾。由于梯度优化算法没有学习功能,这意味着其性能在训练过程中不会逐渐提高,所有生成的数据将被丢弃,而不是用于后续学习。奥胡斯大学的团队着手研究一种混合算法:AlphaZero通过广泛探索生成高度可用的种子对象,随后通过基于梯度的方法对其进行优化,从而提高解决方案的数量和质量。很大的进步。事实上,AlphaZero和梯度优化解决的是不同的问题:AlphaZero学习解的底层结构,而梯度优化在种子解周围的局部空间进行优化。如果我们只使用梯度优化,经过50小时的模拟,我们可能会得到两个或三个有希望的解决方案,但使用我们的混合算法,我们会得到一千个。将强大的通用领域机器学习方法与人类专业知识、特定领域的强力计算相结合的结果令人兴奋。国际象棋已经迈出第一步,结合专家知识和Stockfish引擎的混合人机团队可以超越人类和算法。最近,GaryMarcus和ErnestDavid在他们的新书《重新启动AI:构建我们可以信赖的人工智能》中提出,将领域特定和领域通用方法与层次化的受人类启发的决策过程相结合,是未来构建强大AI方法的核心要素之一.这可能会解决AlphaZero方法最直接的缺点之一:存在许多超参数,但它们仅在有限范围内有用。在某些情况下,同一组超参数在所有三种量子情况下都表现良好,而当改变问题设置时,AlphaZero将无法解决。量子计算机利用量子并行性大大提高了测量速度,但问题又来了:搜索空间的控制参数呈指数级增长。AlphaZero实验表明,神经网络提供的近似和不完美的解决方案可以作为强大的局部暴力启发式种子生成器。除了算法的优化设计,量子计算本身的性能也在快速提升。黄金表面发现马约拉纳费米子,量子计算机时代来临?最近有很多关于量子计算的好消息。丹麦和德国的科学家灵机一动,想用AlphaZero来解决量子计算问题。麻省理工学院等科学家在黄金表面观察到了马约拉纳费米子,从而可以将粒子分离成稳定且防错的量子比特,用于量子计算。该领域向前迈出的重要一步,结果发表在《美国国家科学院院刊》。在粒子物理学中,马约拉纳费米子是一类基本粒子,包括电子、质子、中子和夸克,其反粒子是它本身。它最早由意大利理论物理学家埃托雷·马约拉纳(EttoreMajorana)于1937年提出。然而不幸的是,在这位物理学家提出该理论后不到一年,马约拉纳费米子就在一次神秘的意大利海岸渡轮之旅中消失了。从那时起,每个人都在寻找马约拉纳和他的马约拉纳费米子。最终,放弃了对马约拉纳的寻找,但对他的费米子的寻找从未停止过。现在,麻省理工学院领导的团队制造了一种由生长在超导材料钒上的金纳米线组成的材料表面,并在接近零能量时发现了特征信号尖峰。很显然,按照目前的理论物理学,除了马约拉纳费米子对之外,没有其他可能。马约拉纳费米子将是理想的量子比特或量子计算机的单个计算单元,一个量子比特将由成对的马约拉纳费米子组成,这是科学家梦寐以求的材料!如果马约拉纳费米子得到彻底证实,我们将提前进入量子计算时代!
