没错!又是李菲菲!上次举报李飞飞是因为她拿下了学术界的亚马逊谷歌云数据中心。而这一次,她和研究团队带着论文来找我们了!走在队伍前面的,是斯坦福大学的博士生,李飞飞的学生!(不好意思最近重温了2008年奥运会开幕式。。。)来看看李飞飞团队这次在arXiv上发表的论文题目:SECANT:Self-expertcloningforzero-sample视觉策略的泛化。先介绍一下这篇论文的大概内容。论文的引言简单介绍了强化学习中的泛化,泛化是指通过与环境的持续交互产生一种网络记忆。该网络可以根据环境中的特定信号完成相应的动作。受过训练的智能体可以记住在什么状态下做什么,也可以通过识别状态中的细微差异来采取不同的行动。为了更流行,还可以对看不见的测试数据进行预测。因此,提高模型的泛化能力是机器学习领域的一项重要研究。特别是在视觉强化学习中,泛化很容易被高维观察空间中的一些无关因素分散注意力。机器学习中的泛化:欠拟合、拟合、过拟合为了解决这个问题,该团队使用稳健的策略学习对具有较大分布变化的看不见的视觉环境执行零样本泛化。因此,团队提出了“SECANT”模型,一种能够适应新测试环境的自我专家克隆方法(SelfExpertCloningforAdaptationtoNovelTest-environments)。该方法能够分两个阶段利用图像增强,将鲁棒表示和策略优化分开。首先,专家策略是通过弱增强强化学习从头开始训练的。学生网络通过强增强的监督学习模仿专家策略,其表示比专家策略对视觉变化具有更强的鲁棒性。实验表明,SECANT在DMControl(深度思维控制)、自动驾驶、机器人操纵和室内物体导航四个具有挑战性的领域的零样本泛化方面优于之前的SOTA模型,分别达到26.5%、337.8%。%、47.7%和15.8%的改进。主要贡献我们提出了SECANT模型,它依次解决了策略学习和鲁棒表示学习的问题,从而实现了对看不见的视觉环境的强大的零样本泛化性能。在自动驾驶、机器人操纵和室内物体导航这四个领域,设计并制定了一套多样化的基准。除了DMControl,其他3个环境都具有代表真实应用程序的测试时视觉外观漂移。证明了SECANT对于以上四个领域的大部分任务都可以达到SOTA。SECANTFrameworkSECANT的主要目标是开发自我专家克隆技术,通过该技术可以从零样本生成不同的视觉样本。笔者研究的SECANT训练模型可以分解为两步,代码已经公开。在专家策略的第一步,作者在原始环境中通过weakaugmentation训练了一套高性能的专家策略。在视觉连续控制任务中,这组策略由前馈深度卷积网络参数化,然后将观察到的图像转换为d维连续动作向量。在实际应用中,作者采用帧堆叠技术,在时间信息维度上连接T张连续图像进行观察。然后通过语义保留图像变换生成用于数据增强的运算符。使用随机裁剪图像的方法作为默认的弱增强方法来训练专家策略。这组专家策略可以通过任何标准的RL算法进行优化。作者选择了SoftActor-Critic(SAC),因为它在连续控制任务中被广泛采用。然后使用梯度下降法优化专家参数以最小化专家参数。学生策略在第二阶段,作者训练了一个学生网络来预测专家策略所采取的最佳行动,该策略在相同观察条件下对急剧变化的图像进行了测试。在此阶段不需要进一步接触奖励信号。形式上,学生政策也是一个深度卷积神经网络,但它的架构与专家政策不同。从本质上讲,学生策略是根据DAagger模仿过程从专家策略扩展而来的。作者使用专家策略来收集轨迹的初始数据集D。接下来,在每次迭代中,选择一个强放大算子并将其应用于抽样的一批观察结果。作者通过将原始视觉元素插入色块(Cc)、随机卷积(Cv)、补充高斯噪声(G)、线性混合(M)来生成不同的视觉样本。作者还研究了上述各项的组合,并试图发现从低频和高频结构化噪声中随机采样会产生最佳的整体结果。作者指出,将随机裁剪添加到混合中会略微提高性能,可能是因为它提高了学生策略表示的空间不变性。实验内容Benchmarkingofvisionpolicygeneralizationin四种不同场景(从上到下):DMControlSuite、CARLA、Robosuite和iGibson首先,作者提出了针对四个不同领域的基准来系统地评估视觉代理的性能。概括。在每个领域,该团队研究了在一个环境中训练的算法如何在零样本设置中对各种看不见的环境执行。此时没有奖励信号,也没有额外的试验。在每项任务中,SECANT都针对以前的SOTA算法进行基准测试:SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。DMControl研究团队使用DMControl中的8个任务,按照之前的设定进行实验。为了衡量泛化能力,随机生成机器人本身的背景和颜色,并使用真实视频作为动态背景。SECANT在除一项任务外的所有任务上都明显优于之前的最新技术,通常高出88.3%。所有方法都经过500,000步的训练,并获得密集的任务特定奖励。Robosuite:机器人操纵模拟器Robosuite是用于机器人研究的模块化模拟器。作者在4个具有挑战性的单臂和双手操作任务上对SECANT和以前的方法进行了基准测试。使用具有操作空间控制的FrankaPanda机器人模型,并使用特定于任务的密集奖励进行训练。所有代理都接收一个168×168的以自我为中心的RGB视图作为输入。与之前的state-of-the-art方法相比,SECANT有337.8%的改进。增长了351.6%。CARLA:自动驾驶模拟器为了进一步验证SECANT对自然变化的泛化能力,作者在CARLA模拟器中构建了一个具有视觉观察的真实驾驶场景。测试目标是在不与行人或车辆发生碰撞的情况下,在1000个时间步内沿着8字形高速公路(CARLATown4)行驶尽可能远。该代理接受了“晴天中午”场景的训练,并在中午和日落时对各种动态天气和光照条件进行了评估。例如,潮湿天气的特点是道路具有高反光点。在平均每个天气超过10集和5次训练运行后,SECANT在测试中能够比之前的SOTA多行驶47.7%的距离。iGibson:室内物体导航iGibson是一个交互式模拟器,具有高度逼真的3D房间和家具。在这个模拟器中,实验的目标是尽可能靠近一盏灯。奖励函数激励代理最大化灯光在视野中占据的像素比例,当该比例连续10步超过5%时即为成功。在此测试中,SECANT在未见过的房间中的成功率比以前的方法高15.8%。作者简介本文第一部作品为李飞飞的得意弟子林夕凡。毕业于上海实验中学,本科就读于纽约哥伦比亚大学,目前在读博士。在斯坦福大学,主修计算机视觉、强化学习和机器人技术。这篇论文是在NVIDIA实习期间完成的。这篇文章的第二作者黄院长也曾师从李飞飞。毕业于台湾大学,获学士学位,获卡内基梅隆大学硕士学位。目前正在攻读博士学位。在斯坦福大学获得计算机科学博士学位,并在NVIDIA从事泛化学习研究。三座玉之顶也是英伟达的科学家。2017年获得华南理工大学电气工程学士学位,香港科技大学电气工程学士学位,卡内基梅隆大学ECE博士学位。2018年加入NVIDIA,现担任NVIDIA机器学习研究组高级研究科学家。
