AI。人工智能的世界是什么样的?几十年来,研究人员一直对此感到困惑,但近年来,机器视觉系统正被用于越来越多的生活领域,但理解为什么它通过机器的眼睛将行人和路标分开分类仍然是一个挑战。谷歌和OpenAI的新研究希望通过使这些系统能够理解关于世界的视觉数据来进一步打开人工智能的黑匣子。这种称为ActivationAtlas的方法使研究人员能够分析各种算法的工作原理,不仅揭示了它们识别的抽象形状、颜色和图案,还揭示了这些元素如何结合起来识别特定的物体、动物和场景。这项工作不一定是一个巨大的突破,但它是在更广泛的特征可视化研究领域向前迈出的一步。乔治亚理工学院的博士生RamprasaathSelvaraju没有参与这项工作,他说这项研究非常吸引人,它结合了许多现有的想法来创建一个非常有用的新工具。Selvaraju认为,在未来,此类工作将有许多用途,帮助我们构建更高效、更先进的算法,并通过授予研究人员内部访问权限来提高安全性并消除研究人员的偏见。由于神经网络固有的复杂性,它们缺乏可解释性,但在未来当此类网络被常规用于驾驶汽车和引导机器人时,这将是必要的。同样参与该项目的OpenAI的ChrisOlah说:“感觉有点像制造显微镜。至少,这就是我们所追求的。”您可以在本网站浏览如下所示的已激活图集的交互式交互。版本:distill.pub/activation-atlas/ActivationAtlas让研究人员使用视觉数据算法了解世界做到这一点的基本方法是使用神经网络:一种与人脑大致相似的计算结构(尽管它的复杂性落后多年)。每个神经网络内部都是像网格一样连接的人工神经元层。就像大脑中的细胞一样,这些细胞对刺激做出反应,这一过程称为激活。重要的是,它们不仅可以打开或关闭,它们还被记录在一个频谱上,为每个激活赋予特定的值或权重。要将神经网络变成有用的东西,必须为其提供大量训练数据。就视觉算法而言,这意味着数十万甚至数百万张图像,每张图像都标有特定类别。就谷歌和OpenAI的研究人员为这项工作测试的神经网络而言,类别范围很广:从羊毛到温莎领带,从安全带到空间加热器。神经网络使用连接的人工神经元层处理数据。不同的神经元对图像的不同部分做出反应当输入此数据时,神经网络中的不同神经元会响应每个图像而亮起。这种模式与图像的标签相关联,这种关联使网络能够了解事物的外观。训练完成后,您可以显示它以前从未见过的网络图片,神经元会放电,将输入与特定类别相匹配。如果所有这些听起来令人不安,那是因为在很多方面确实如此。与许多机器学习程序一样,视觉算法本质上只是模式匹配机。这给了他们某些优势(例如,只要您拥有必要的数据和计算能力,就可以直接进行培训)。但这也带来了一定的弱点(他们很容易被以前从未见过的输入混淆)。自从研究人员在2010年初发现神经网络用于视觉任务的潜力以来,他们一直在努力弄清楚它们是如何做到的。一个早期的实验是DeepDream,这是一项于2015年发布的计算机视觉计划,可以将任何图片变成自己的幻觉版本。DeepDream的视觉效果当然很有趣(在某些方面,它们成为了AI的美学定义),但该程序也是算法之类的早期尝试。在某些方面,这一切都始于DeepDream。后来的研究采用了相同的基本方法并对其进行了微调:首先针对网络中的单个神经元以查看激发它们的因素,然后是神经元组,然后是网络不同层中神经元的组合。如果早期的实验是特定的而不是偶然的,就像牛顿用钝针戳自己的眼睛来理解视觉,那么最近的工作类似于他用棱镜瞄准一束光——也就是说,更有针对性。通过映射神经网络每个部分中激活的视觉元素,一遍又一遍,最终,你得到了图集:大脑的视觉索引。放大和缩小ActivationAtlas机器视图但是ActivationAtlas究竟向我们展示了算法的内部工作原理是什么?您可以从此处的Google和OpenAI示例开始,这些示例用于揭示著名的神经网络GoogLeNet或InceptionV1的内部结构。滚动屏幕以查看网络的不同部分如何响应不同的概念,以及这些概念如何组合在一起。例如,一只狗在一个地方,一只鸟在另一个地方。您还可以看到网络的不同层如何表示不同类型的信息。较低级别更抽象,响应基本几何形状,而较高级别将它们分解为可识别的概念。当您深入到各个类别时,这真的很有趣。Google和OpenAI给出的一个例子是“snorkeler”和“scubadiver”类别之间的区别。在下图中,您可以看到神经网络用来识别这些标签的各种激活。左边是与“snorkeler”密切相关的激活,右边是与“scubadiver”密切相关的激活。中间的激活在两个类别之间共享,而条纹上的激活则更加不同。乍一看,与“snorkeler”(左)和“scubadiver”(右)相关的激活显示出一些明显的颜色和图案。顶部有斑点和条纹,看起来像五颜六色的鱼,而底部有形状像面具。但右侧突出显示的是一种不寻常的激活,与机车密切相关。当研究人员发现这一点时,他们感到困惑。为什么这种关于机车的视觉信息对于识别潜水员很重要?“所以我们对它进行了测试,如果我们放一张蒸汽机车的照片,它会把潜水员的类别从潜水员切换到水肺潜水员吗?确实如此,”卡特说。三张图片显示了如何对同一张图片进行重新分类。在左边,它被识别为一个浮潜者;中间加了个机车,就变成潜水员了;当机车变得足够大时,它将接管整个分类。该团队最终弄清了原因:这是因为机车光滑的金属曲线在视觉上类似于潜水员的气罐。因此,对于神经网络,这是浮潜者和水肺潜水员之间的明显区别。为了节省区分这两个类别的时间,它只是从其他地方借用了识别所需的视觉数据。这种例子神奇地揭示了神经网络是如何工作的。对于怀疑论者,它显示了这些系统的局限性。他们说,视觉算法可能是有效的,但它们学习到的信息实际上与人类如何理解世界无关。这使他们容易受到某些技巧的攻击。例如,如果您只将几个精心挑选的像素投射到图像中,这可能足以让算法对其进行错误分类。但对研究人员来说,激活图谱和类似工具揭示的信息显示了这些算法的惊人深度和灵活性。例如,卡特指出,为了让算法区分浮潜者和水肺潜水员,它还将不同类型的动物与每个类别相关联。“生活在深水中的动物,如海龟,通过水肺呼吸;生活在水面的动物,如鸟类,通过呼吸管呼吸。”他指出,这是系统永远不会直接学习的信息。.相反,它只是自己找到了它。仿佛对世界有了更深的理解。Olah同意,“我发现以高分辨率查看这些地图集几乎令人惊叹,只是为了看到这些网络可以代表的巨大空间。”他们希望通过开发这样的工具,帮助推动人工智能在整个领域的发展。通过了解机器视觉系统如何看待世界,我们理论上可以更有效地构建它们并更彻底地检查它们的准确性。
