神经计算机AI模型突破!训练时间120万帧/秒,创下新纪录IBM在AI模型训练方面取得突破,媲美state-of-the-art。网友们简直不敢相信!在今年早些时候发表的一篇论文中,IBM详细介绍了神经计算机。它是一个可重构的并行处理系统,专为研究和开发新兴人工智能算法和计算神经科学而设计。就在本周,该公司展示了第一个神经计算机应用:深度神经进化系统。该系统在优化的管道中结合了Atari2600的硬件实现、图像预处理和AI算法。该实验室报告的结果可与最先进的技术相媲美,但更重要的是,IBM声称该系统的训练时间达到了每秒120万帧,创下了新纪录。网友惊呼,“我简直不敢相信!”神经计算机就像是AI计算军备竞赛中的一个警告信号。根据OpenAI发布的分析,从2012年到2018年,最大的AI训练运行的计算量增长了300,000倍,即3.5个月翻了一番,远远超过摩尔定律的速度。AlexNet到AlphaGoZero:计算量增加30万倍先来看IBM的神经计算机IBM的神经计算机IBM的神经计算机由432个节点组成(每16个模块卡27个节点),这是IBM的长期现场可编程门阵列(FPGAs),专为制造后配置设计的集成电路)来自战略合作伙伴Xilinx。IBM神经计算机的每个模块卡有27个节点。每个节点都有一个XilinxZynq片上系统(双核ARMA9处理器与同一芯片上的FPGA配对)和1GB专用RAM芯片。节点以3D网格拓扑排列,并通过称为硅通孔的电连接垂直互连,可以完全穿过硅晶片或芯片。可以在3D网格拓扑中看到节点编号。在网络方面,FPGA提供模块卡之间的物理通信访问,以建立多个不同的通信通道。理论上,单卡最高可支持每秒432GB的传输速度,神经计算机的网络接口可以自行调整并逐步优化以匹配给定的程序。“我们的系统是独一无二的,因为每个节点都允许特定应用程序的处理器卸载,这是我们已知的任何规模的并行计算机都不具备的功能,”该论文的合著者写道,该论文详细概述了神经计算机框架。使用。大多数性能关键步骤已在FPGA上卸载和优化,并由ARM处理器提供辅助支持。“既然我们对神经计算机有了一些了解,那么IBM在神经计算机上的首次应用演示是如何实现创纪录的每秒120万帧的训练时间的呢?让我们一探究竟。用Atari游戏测试AI用视频游戏作为测试是最好的人工智能和机器学习研究的平台。它们不仅易于测试,而且大规模运行的成本也很低。例如,在强化学习等特定领域,为了获得奖励,人工智能通过交互学习最佳行为与环境的关系,游戏分数是最直接的奖励。在游戏中开发的AI算法已经证明可以适应更多的实际用途,比如蛋白质折叠预测的研究。如果IBM神经计算机测试结果是可重复的,该系统可用于加速这些AI算法的开发。研究人员在神经计算机中每张卡使用26个节点,总共试验了416个节点。我Atari游戏应用程序的实例在416个FPGA的每个节点上运行,可扩展到并行运行的832个节点。每个实例从给定的Atari2600游戏中提取帧,执行图像预处理,通过机器学习模型运行图像,并在游戏中执行操作。使用DeepNeural在FPGA上训练游戏的屏幕截图为了实现最高性能,研究团队避免模拟Atari2600,而是选择使用FPGA以更高的频率实现控制台的功能。他们采用开源MiSTer项目的框架,该项目旨在使用现代硬件重建游戏机和街机,并将Atari2600的处理器时钟频率从3.58MHz提高到150MHz,每秒产生约2514帧。在图像预处理步骤中,IBM的应用程序将帧从彩色转换为灰色,消除闪烁,将图像重新调整为较小的分辨率,然后将帧堆叠成四个一组。然后将它们传递给推断游戏环境的AI模型和通过识别AI模型预测的最大奖励为下一帧选择动作的子模块。在五个实验过程中,IBM研究人员在神经计算机上运行了59个Atari2600游戏。结果表明,与其他强化学习技术相比,该方法的数据效率不是很高,总共需要60亿个游戏帧,但在蒙特祖玛的复仇和陷阱等具有挑战性的探索性游戏中却失败了。59场比赛赢30场,DeepQ-network用了10天训练,而IBM团队只用了6分钟训练(2亿训练帧)59Atari2600游戏跑在NeuralComputer上有60亿训练帧,超越DeepQ-network在36场比赛中,同时减少了2个数量级的训练时间(2小时30分钟)。
