当前位置: 首页 > 科技观察

研究idea行不通,未必不是不好,而是硬件没跟上

时间:2023-03-18 01:50:06 科技观察

其他研究方向。天时、地利、人和,三者不能,纵有胜,必有祸。——《孙子兵法》一件事情的成败,总是牵涉到兵法中的“天时”、“地利”、“人和”等多重因素。在计算机科学史上,也有类似的现象,比如“硬件”、“软件”、“算法”三要素对研究思路成败的影响。最近,GoogleBrain研究员SaraHooker写了一篇论文,她在论文中用“硬件彩票”来描述:一个研究想法的成功取决于合适的硬件和软件的可用性,而不是这个想法比其他研究方向更好。早期计算机科学史上的许多例子表明,硬件彩票将成功的研究想法视为失败,从而减慢了研究速度。由于特定领域硬件的出现,偏离通常路径的研究想法的成本增加,加剧了这种现象。论文地址:https://arxiv.org/pdf/2009.06489v1.pdf这篇论文指出,计算能力进步带来的收益可能更加不平衡,有的研究方向走在快车道上,有的则困难重重.在人工智能领域,硬件决定了思想的成败。历史告诉我们,科学进步并非一帆风顺。知识传统和可用工具可能导致科学家以不同方式看待特定想法,从而增加对研究想法潜力的判断。论文认为,在人工智能研究领域,工具在很大程度上决定了研究思路的成败。这篇论文将这种现象描述为“硬件彩票”:一个研究想法成功是因为它与当时的硬件和软件兼容,而不是因为这个想法比其他研究方向更好。在计算机科学的早期历史中,硬件和软件的选择往往对研究思路的成败起着决定性的作用。随着我们进入一个软件、硬件和机器学习研究社区更紧密合作的新时代,这些教训变得更加突出。在过去的几十年里,硬件、软件和算法一直被视为独立的选择,但最近三者之间更紧密合作的催化剂包括不断变化的硬件、深度学习架构“越大越好”的理念,以及对将机器学习部署到边缘设备。硬件、软件和机器学习算法之间更紧密协作的核心是针对深度神经网络的商业用途优化的新一代特定领域硬件。虽然特定领域的硬件为主流深度神经网络研究带来了重要的效率提升,但它也增加了偏离既定路径的研究思路的成本。更加分散的硬件市场意味着基于算力进步的收益将变得更加不均衡。虽然深度神经网络已经有了明确的商业用例,但有早期迹象表明,实现人工智能的下一个突破可能需要完全不同的算法、硬件和软件组合。硬件、软件、算法:三个独立的部落对于第一台计算机的创造者来说,程序就是机器。早期的机器是独立的,并且由于高昂的电子成本和缺乏跨任务的软件而无法适应新的任务。CharlesBabbage的差分机仅用于计算多项式函数(1817年)。美国第一台大型自动数字计算机MarkI是可编程计算器(1944年)。Rosenblatt的用于计算逐步单层网络的感知器(1958)。即使是通常被认为是第一台可编程机器的提花织机,重新穿孔的成本也很高,因此它通常只穿一次孔(1804年)。早期计算机TheMarkI这些早期计算机的专业化是由当时的需求驱动的,而不是计算机设计师认为一次性定制硬件更好。但需要指出的是,人类智能本身就是算法和机器的结合。我们一生中不会长出多个大脑。而人类智能的概念与1400g的脑组织以及大脑中850亿个神经元之间的联系有着内在的联系。当我们谈论人类智能时,您脑海中浮现的图像可能是粉红色的皱纹斑点(🧠)。也就是说,当我们想到认知智能时,我们不能想到支持它的硬件。与早期计算硬件的强制专业化不同,今天的机器学习研究人员倾向于将硬件、软件和算法视为三个独立的选择。这主要是由于计算机科学史上的一段时期彻底改变了硬件类型,使硬件、软件和机器学习研究社区能够独立发展。通用计算机时代1969年,通用计算机时代进入了蓬勃发展的时期,年轻的工程师戈登·摩尔(GordonMoore)在《电子学》杂志上发表了一篇文章《Cramming more components onto circuit boards》(Moore,1965)。摩尔预测,集成电路上可容纳的晶体管数量大约每两年翻一番。最初,这篇文章及其后续动向源于一个简单的愿望——摩尔想卖出更多芯片。然而,这一预测推动了未来50年将能源转化为信息的成本显着降低。摩尔定律和丹纳德定标定律的结合导致微处理器性能在1980年到2010年间提高了三个数量级。计算能力和内存每两年翻一番意味着硬件设计可以规避风险。即使对于需要更高性能的任务,转向专用硬件所带来的收益也很快被下一代通用硬件所超越。因此,硬件社区的焦点已经转向可以处理各种任务的通用处理器。当摩尔定律为芯片制造商提供可预测的利润时,为什么要试验专门的硬件设计以获得不确定的回报?因此,为研究目的而生产专用计算机的尝试在经济上变得越来越紧张和不可持续。不过也有例外,比如象棋这样极少数的任务,因为打败人类对手的名号,吸引了很多企业的赞助。孤立地看待硬件、软件和算法的态度一直持续到最近。探索新型硬件的成本很高,无论是时间还是金钱。生产下一代芯片通常需要30-8000万美元和2-3年的开发时间。这些高门槛导致了一种奇怪的硬件研究文化,或者说硬件进化对于普通机器学习研究人员来说太慢了。虽然机器学习论文的数量在过去30年呈指数级增长,但硬件论文却保持稳定的增长速度。对于一家硬件公司来说,知识产权的泄露可能关乎生死存亡。这导致了一种更加孤立的研究文化。在没有任何影响硬件开发的杠杆的情况下,机器学习研究人员理性地将硬件视为沉没成本而不是可塑的东西。但是,不专注于硬件并不意味着它不存在。早期计算机科学的历史告诉我们硬件彩票,硬件和软件的选择决定了研究想法的成败。硬件彩票如果你只有一把锤子,那么一切看起来都像钉子。——亚伯拉罕·马斯洛,1966年《安娜 · 卡列尼娜》第一句话是:“幸福的家庭都是相似的,不幸的家庭各有各的不幸。”托尔斯泰用这句话表达,幸福的婚姻需要很多东西:经济稳定、性吸引力、共同价值观、健康的后代,其中任何一个出错,家庭就毁了。这后来以“安娜卡列尼娜原则”的名义流行起来:“只要一个因素出错,它就注定了。”(摩尔,2001年)。尽管我们倾向于认为算法的成功或失败是孤立的,但历史告诉我们,大多数计算机科学的突破都遵循安娜卡列尼娜原则。成功与失败往往可以从多个因素中获益来判断。对于AI研究,这往往要靠“硬件彩票”来避免下游软硬件选择上的失误。硬件彩票的一个早期例子是英国数学家查尔斯·巴贝奇(CharlesBabbage)于1837年设计的分析引擎,可以对其进行编程(理论上)以解决任何类型的计算。然而,分析引擎从未真正建成,因为巴贝奇难以制造出足够精确的组件。能够将查尔斯·巴贝奇奠定的理论基础变为现实的电磁技术直到二战才出现。电子真空管在20世纪上半叶广泛用于无线电通信和雷达。在第二次世界大战期间,这些真空管被用来提供破解德国恩尼格玛密码的计算能力。在美剧《硅谷》中,经常会出现“第一步不一定是第一步”的情况。直到1871年巴贝奇去世,他的思想和现代计算之间没有建立连续的路径。存储程序、条件分支等概念在一个世纪后才被重新发现,因为正确的工具出现并证明了这些想法是可行的。可能因硬件彩票而失去几十年的最明显例子是深度神经网络。使深度神经网络工作的大多数算法组件已经存在了几十年:反向传播(1963年提出(K&Piske,1963),1976年重新发现(Linnainmaa,1976),1988年再次发现(Rumelhart等人,1988))),deepconvolutionalneuralnetwork((Fukushima&Miyake,1982),1989年提出了具有反向传播的卷积神经网络(LeCunetal.,1989))。然而,三十年后,深度神经网络被广泛接受为一个有前途的研究方向。算法开发与实证成功之间的很大一部分差距来自硬件不兼容。在通用计算机时代,CPU等硬件得到了广泛的支持和使用。CPU擅长执行复杂的指令集,但内存成本很高,因为它们需要缓存中间结果并一次处理一条指令。这被称为冯诺依曼瓶颈:可用的计算能力受到“CPU和内存之间的数据传输带宽的限制,数据需要按顺序传递”(Time,1985)。冯诺依曼瓶颈对矩阵乘法尤其不利,矩阵乘法是深度神经网络架构的核心组成部分。因此,在CPU上进行训练会很快耗尽内存带宽,从而无法训练多层神经网络。1980年代的《Parallel Models of Associative Memory》系列文章指出了需要支持大规模并行化的硬件。这些文章认为,生物学证据表明,深度神经网络方法需要大量并行化才能发挥作用。在20世纪80年代/90年代后期,神经网络专用硬件的概念已经过时了。然而,相关尝试仍因缺乏共享的软硬件开发成本而受阻。1985年的LinkMachine、1992年的Space、1989年的RingArrayProcessor、日本的第五代计算机计划等大多数真正可用的尝试都是为了支持PROLOG和LISP等逻辑编程,而这些逻辑编程不太适合Link主义深度神经网络。随后的迭代(例如1991年的HipNet-1和模拟神经网络芯片)很有前途,但寿命很短,因为它们的迭代成本很高,而且需要定制芯片。没有消费市场,自然就没有足够的终端用户来保证财务稳健。2000年代初,在第一篇关于反向传播的论文发表四十年后,人们意识到要运行连接主义深度神经网络,硬件必须支持大规模并行化,因此需要在硬件上取得突破。许多发明的后续使用都偏离了设计者的初衷。爱迪生发明的留声机并不是用来播放音乐的。他最初的想法是用它来保存临终者的遗言或教别人读书。事实上,他对留声机被用来播放流行音乐感到失望。同样,深度神经网络只有在重新利用现有技术后才开始发挥作用。GPU最早出现于1970年代,作为视频游戏的专用加速器,用于为电影和动画创建图形。在2000年代初期,就像爱迪生发明留声机一样,GPU被用于一个完全无法想象的用例:训练深度神经网络。GPU相对于CPU的核心优势在于,它们更擅长并行处理一组简单的可分解指令,例如矩阵乘法。更大的FLOPS结合跨多个GPU的分布式训练打开了训练深度网络的大门。这时候,网络层数就成了关键。ImageNet数据集的性能随着网络深度的增加而不断提高,如2011年(Ciresan等人,2011年)、2012年(Krizhevsky等人,2012年)和2015年(Szegedy等人,2015b)。2012年,Google发表了一篇论文,使用16,000个CPU内核来识别猫(Leetal.,2012)。一年后,谷歌仅用两个CPU内核和4个GPU就解决了同样的问题(Coatesetal.,2013),这个例子展示了效率的飞跃。软件彩票软件对研究思路的成败也起着一定的作用。在20世纪90年代中期之前,Prolog和LISP这两种语言在AI社区得到了广泛的支持。当时,AI学生需要积极掌握其中一种或两种语言。Prolog和LISP特别适合处理逻辑表达式,这是推理和专家系统的核心。对于想要研究深度神经网络等联结主义思想的研究人员来说,直到1992年Matlab出现之前,一直没有合适的语言。用LISP或Prolog实现联结网络是困难的,而且大多数研究人员使用C++等低级语言。21世纪初,随着LUSH和TORCH的出现,一个更健康的支持适合深度神经网络的软件开发的生态系统开始形成。有得也有失。从1960年代到80年代中期,大多数主流研究都集中在符号方法上。深度神经网络自行学习足够的表示,而符号方法旨在建立知识库,复制人类使用决策规则解决问题的方式。这通常编码为逻辑序列,其语句非常适合LISP和PROLOG语言。符号化的方法并没有取得成果,但这一研究方向在20世纪下半叶广泛而持续的流行与其与当时的编程和硬件框架的契合密不可??分。未来之路机器编码系统的判断标准主要取决于操作员获得结果的难易程度。当有多种因素促使科学家克服现有范式的“粘性”时,科学就会取得进步。人工智能领域范式转变的速度很大程度上取决于硬件、软件和算法的匹配程度。因此,任何避免硬件彩票的尝试都需要探索不同的“硬件-软件-算法”组合,以降低成本和时间。然而,这说起来容易做起来难。扩展硬件-软件-算法组合的搜索空间是一项棘手的任务。从时间和财务的角度来看,探索新的硬件类型是昂贵的。生产下一代芯片通常需要30-8000万美元和2-3年的开发时间。仅建设一个制造工厂的成本很高,2017年约为70亿美元。使用强化学习优化芯片布局的实验可能有助于降低成本。这也引起了人们对现场可编程门阵列(FPGA)和粗粒度可重构阵列(CGRA)等可重构硬件的重新兴趣。这些器件允许重新配置芯片逻辑,从而避免单片应用。然而,灵活性的代价是更高的FLOPS和定制软件开发。在FPGA上编写简单算法的代码既麻烦又耗时。从中短期来看,硬件开发可能仍然成本高昂且需要很长时间。生产硬件的成本很重要,因为它决定了硬件开发人员愿意容忍的风险程度和实验量。对适用于深度神经网络的硬件的投资已经得到保证,因为神经网络是许多商业用例的基础。深度学习下游用例的盈利能力刺激了硬件初创公司的健康生态系统进一步加速深度神经网络,鼓励大型企业在内部开发定制硬件。瓶颈仍然是不能立即在商业上可行的硬件投资。这些高风险方向包括生物硬件、内存计算的模拟硬件、神经形态计算、光学计算和量子计算。使用新材料开发晶体管也存在更高的风险。正如我们可以从之前的硬件彩票示例中了解到的那样,投资应该继续来自私人和公共资助的项目。公共部门对提供此类专业资源的兴趣正在慢慢苏醒,正如2018年DARPA电子复兴计划承诺向微电子研究投入15亿美元以及中国宣布投入470亿美元支持半导体研究所证明的那样。但是,如此大规模的投入可能还是杯水车薪,因为基于新材料的硬件需要10-20年的时间,公共投入还远低于行业研发水平。