谷歌选择自建AI芯片的六大理由然而,在处理AI类负载方面,这家互联网巨头选择了另一条路——自研张量处理单元(简称TPU)。但这又引发了新的问题:为什么英特尔、高能和英伟达不能满足谷歌数据中心的需求?事实上,TPU并不是像IntelCPU或NvidiaGPU那样的通用设备,而是一种专用于机器学习乃至其人工智能子集的专用集成电路(简称ASIC)。过去几年,语言翻译、图像识别、消费者购买推荐等机器学习解决方案层出不穷,这意味着谷歌拥有大量数据来实现准确的分析和预测。机器学习分为两个部分:训练和推理。训练是使用数据来微调预测模型,包括帮助机器学习系统从数百万自然语言示例中学习语言。之后,这套语言模型就可以通过推理完成特定的推理任务。训练和推理都在神经网络之上运行——优化的软件层使机器学习能够在数据中心硬件之上运行。TPU专为特定于应用程序的推理任务而设计。GooglePain部门进行机器学习研究,以跨多种Google服务提供其学习和处理结果。但是,随着服务数量的不断增加,相关的负载也在快速增加。正是这种不断增长的工作负载催生了谷歌TPU,它可以以更低的成本和更低的延迟为用户提供语言翻译和图像搜索等能力。以下是Google设计和构建TPU的六个原因。1.性能优势谷歌将TPU的性能与服务器级IntelHaswellCPU和NvidiaK80GPU进行了比较,发现前者处理基准代码执行(占推理工作负载的95%)的速度提高了15到30倍。2、物理空间优势云数据中心相当于一个IT工厂,其预算包括设备、占地、电力、数据中心建设成本。将尽可能多的处理能力装入消耗最多功率并产生最少热量的最小空间无疑是成本优化的核心。六年前,当用户首次开始使用自然语言识别来取代人工操作时,谷歌工程师估计,每位用户每天三分钟的自然语言输入将使现有数据中心的规模增加一倍。正因为如此,谷歌需要构建TPU以继续控制实施成本。3、功耗优势降低功耗不仅可以节约能源成本,还可以降低散热成本。除了更强的原始性能,TPU和CPU主处理器的结合也能实现能效提升。如下图所示,在不同的工作负载下,TPU/CPU组合的每瓦性能水平可以达到CPU/GPU组合的30到80倍。4、TPU可以解决特定的应用问题。Intel的CPU和Nvidia的GPU是为广泛的应用而设计的通用片上系统,擅长执行精确的浮点运算。机器学习模型可以容忍较低精度的数学运算,这意味着不需要浮点单元,简称FPU。因此,TPU在去掉FPU的前提下,可以提供与IntelCPU和NvidiaGPU一样精度的8位数学运算结果。矩阵代数的数学是大多数神经网络运行的基础。矩阵乘法单元(简称MMU)是TPU的核心。建议包括一个256x256乘法累加器(简称MAC),执行8位乘法和加法。MMU每个运算周期可以执行64000次加法。这意味着主频为0.7GHz的TPU通过低精度矩阵数学优化和快速导入/导出数据和结果到MMU,可以获得比2.3GHzIntelCPU和1.5GHzNvidiaGPU更好的性能。5.引导和鼓励芯片厂商打造TPU。谷歌研究论文的作者指出,商业计算产品往往在计算架构上差异不大,因此TPU将成为特定架构的重要原型解决方案。由著名芯片工程师NormanJouppi领导的工程团队在短短15个月内交付了TPU,这是一项了不起的壮举。事实上,ASIC的制造需要巨大的成本,一旦在实际生产中发现错误,就只能重新投入,从头开始。尽管如此,英特尔和英伟达的开发、人才、设计和制造资源已经相当强大,足以满足ASIC的设计和制造要求。虽然目前市场上的亚马逊、谷歌、Facebook、IBM、微软等企业客户规模较大,但与通用CPU业务相比,这部分需求还是比较小的。正因如此,对机器学习问题有着深刻理解的谷歌开始强调TPU的重要性。同时发布了一系列研究论文,旨在推动机器学习社区与芯片厂商的对接水平,最终实现相关商业解决方案的规模化输出。6.柔性专利和知识产权专利发明人Jouppi在美国专利局数据库中申请了一系列与TPU相关的专利。作为相关专利的主要持有者,谷歌可以利用这一利器带动芯片厂商加入这一业务领域。亚马逊、Facebook、谷歌、IBM和微软等领先的机器学习企业客户正在积极引导芯片制造商开发特定产品以满足他们的需求。为了实现这一目标,他们需要发布更新更快的计算架构来推动行业的发展,最终让更多的企业积极使用AI解决方案。AI企业客户的增加,也将提升芯片厂商的参与热情。谷歌的TPU很可能成为这个市场良性循环的重要基石。原标题:谷歌自建AI芯片的6个理由原作者:StevenMaxPatterson
