当前位置: 首页 > 科技观察

ChatGPT热潮下的冷思考:2025年AI耗能还是超人,AI计算需提升质量和效率

时间:2023-03-14 09:10:54 科技观察

经过多年发展,OpenAI推出的DALL-E和GPT-3生成式AI系统风靡全球世界。凸显其惊人的应用潜力。然而,生成式AI的这种爆炸性增长存在一个问题:每次DALL-E创建图像或GPT-3预测下一个单词时,都需要进行多次推理计算,从而占用大量资源并消耗更多电量。当前的GPU和CPU架构无法高效运行以满足迫在眉睫的计算需求,这对超大规模数据中心运营商提出了巨大挑战。研究机构预测,数据中心已成为全球最大的能源消耗国,占总用电量的比重将从2017年的3%上升至2025年的4.5%。以中国为例,2030年数据中心运行用电量全国用电量有望突破4000亿千瓦时,占全国用电量的4%。云计算提供商也认识到他们的数据中心使用大量电力,并采取了提高效率的方法,例如在北极建设和运营数据中心,以利用可再生能源和自然冷却条件。然而,这还不足以满足人工智能应用爆发式增长的需求。美国劳伦斯伯克利国家实验室在研究中发现,在过去20年中,数据中心效率的提高一直在控制能源消耗的增长,但研究表明,目前的能效措施可能不足以满足未来数据中心的需求,因此需要采用更好的方式。数据传输是致命瓶颈效率的根源在于GPU和CPU的工作方式,尤其是在运行AI推理模型和训练模型时。许多人了解“超越摩尔定律”以及在更大芯片上封装更多晶体管的物理限制。更先进的芯片正在帮助应对这些挑战,但目前的解决方案在AI推理方面存在一个关键弱点:数据在随机存取存储器中的传输速度要慢得多。传统上,将处理器和内存芯片分开会更便宜,而且处理器时钟速度多年来一直是计算机性能的关键限制因素。今天,阻碍进步的是芯片之间的互连。“当内存和处理器分离时,连接两个域的通信链路成为系统中的主要瓶颈,”美国国家标准与技术研究院(NIST)橡树岭国家实验室研究员JeffShainline解释说JackDongarra教授简明扼要地说:“当我们审视当今计算机的性能时,数据传输是致命的瓶颈。”AI推理与AI训练AI系统在训练AI模型时使用不同类型的计算。AI训练在基于Transformer的模型中加载数以万计的图像或文本样本作为参考,然后开始处理。GPU中的数千个内核在处理大量丰富的数据集(例如图像或视频)时非常高效,如果您需要更快地获得结果,可以租用更多基于云的GPU。AI推理虽然需要较少的能量来进行计算,但在数亿用户的自动补全中,需要大量的计算和预测来决定下一个单词是什么,这比长期训练消耗的能量更多。例如,Facebook的人工智能系统每天在其数据中心观察数万亿次推理,这个数字在过去三年中翻了一番多。研究发现,在大型语言模型(LLM)上运行语言翻译推理消耗的能量是初始训练的两到三倍。需求激增考验计算效率ChatGPT去年底风靡全球,而GPT-4更让人眼前一亮。如果可以采用更节能的方法,人工智能推理可以扩展到更广泛的设备,并创造新的计算方法。例如,微软的HybridLoop旨在构建动态利用云计算和边缘设备的AI体验,允许开发人员在Azure云平台、本地客户端计算机或移动设备上运行AI推理时做出后期决策,最大限度地提高效率最大化。Facebook引入了AutoScale来帮助用户在运行时有效地决定在何处计算推理。为了提高效率,需要克服人工智能开发的障碍并找到行之有效的方法。采样和流水线可以通过减少处理的数据量来加速深度学习。SALIENT(用于采样、切片和数据移动)是麻省理工学院和IBM的研究人员开发的一种新方法,用于解决关键瓶颈。这种方法可以显着减少在包含1亿个节点和10亿条边的大型数据集上运行神经网络的需要。但它也会影响准确性和精确度——这对于选择要显示的下一个社交帖子是可以接受的,但对于试图近乎实时地识别工作现场的不安全条件则不行。Apple、Nvidia、Intel和AMD等科技公司已宣布将专用AI引擎集成到处理器中,AWS甚至正在开发新的Inferentia2处理器。但这些解决方案仍然使用传统的冯诺依曼处理器架构、集成SRAM和外部DRAM存储器——所有这些都需要更多的功率来将数据移入和移出存储器。内存计算可能是答案此外,研究人员还发现了另一种打破“内存墙”的方法,即让计算更接近内存。内存墙是指限制数据进出内存速度的物理屏障,这是传统架构的基本限制。内存计算(IMC)通过直接在内存模块中运行AI矩阵计算来解决这一挑战,避免了通过内存总线发送数据的开销。IMC适用于AI推理,因为它涉及相对静态但可重复访问的大型权重数据集。虽然始终需要输入和输出一些数据,但AI可以通过将数据保存在同一物理单元中来有效地使用和重复使用它进行多次计算,从而消除大部分能量传输费用和数据移动的延迟。这种方法提高了可扩展性,因为它适用于芯片设计。有了新芯片,人工智能推理技术可以在开发人员的计算机上进行测试,然后通过数据中心部署到生产环境中。数据中心可以使用配备许多芯片处理器的大量机器高效运行企业级AI模型。随着时间的推移,IMC有望成为人工智能推理用例的主导架构。当用户处理海量数据集和数万亿次计算时,这很有意义。因为您不必浪费更多资源在内存墙之间传输数据,而且这种方法可以轻松扩展以满足长期需求。总结:AI行业现在正处于一个激动人心的拐点。生成式人工智能、图像识别和数据分析方面的技术进步揭示了机器学习的独特联系和用途,但首先需要构建能够满足这一需求的技术解决方案。因为根据Gartner的预测,到2025年,人工智能消耗的能源将超过人类活动,除非今天有更多可持续的选择。在这种情况发生之前,需要想出更好的办法!