当前位置: 首页 > 科技赋能

AI计算进入廉价时代!我们来看看 Google 打开 TPU 时发生了什么

时间:2024-05-22 13:00:17 科技赋能

编辑器 | CJ Google于2018年2月12日以Beta测试的形式开放了一直仅供自用的TPU,该服务的名称为Cloud TPUs(云TPU),用于云服务器。

需要使用该芯片的客户需要填写信息并通过谷歌博客上的链接申请使用。

使用费为每个 TPU 每小时 6.5 美元。

1. Google 博客内容 该博客介绍了 Google 推出的 Cloud TPUs 服务,该服务为云服务器提供 TPU 芯片。

客户可以通过该服务使用Google的TPU。

谷歌声称使用单个 TPU 进行训练只需不到一天的时间。

让ResNet-50达到ImageNet基准的精度,整个成本将低于1美元。

Cloud TPU 机器学习加速器 Beta 版现已推出 由 John Berrus(Cloud TPU 产品经理)和 Zak Stone(TensorFlow 和 Cloud TPU 产品经理)从今天开始,Cloud TPU 在 Google Cloud Platform (GCP) 上推出测试版,旨在帮助机器学习学习 (ML) 专家更快地训练和运行 ML 模型。

Cloud TPU 是由 Google 设计的一系列硬件加速器,经过优化可加速和扩展使用 TensorFlow 编程的特定 ML 工作负载。

每个 Cloud TPU 由四个定制 ASIC 组成,将高达万亿次浮点性能的浮点性能和 64 GB 高带宽内存打包到单个主板上。

这些主板可以单独使用,也可以通过快速专用网络连接在一起,形成多千万亿次(千万亿次/秒)ML 超级计算机,我们称之为“TPU pod”。

今年晚些时候,我们将在 GCP 上提供这些大型超级计算机。

我们设计的云 TPU 旨在为 TensorFlow 工作负载提供差异化??的性能,并使 ML 工程师和研究人员能够更快地进行迭代。

例如: 1. 您可以通过您控制并可自定义的 Google Compute Engine 虚拟机以交互方式、独占方式访问联网的云 TPU,而无需等待共享计算集群上的任务调度。

2. 您无需等待数天或数周来训练关键业务 ML 模型,您可以花一天时间在一系列云 TPU 上训练同一模型的多个变体,并在第二天在生产中部署最准确的训练模型。

3. 使用单个云 TPU 并按照本教程进行操作,您可以在不到一天的时间内将 ResNet-50 训练到 ImageNet 基准挑战的预期准确度,所有费用均远低于 1 美元! ①ML模型训练,简单易行 一般来说,为定制ASIC和超级计算机编写程序需要深入的专业知识。

相比之下,您可以使用高级 TensorFlow API 对云 TPU 进行编程,我们开源了一组参考高性能云 TPU 模型实现,以帮助您立即入门: 1. ResNet-50 和其他流行的图像分类模型2、用于机器翻译和语言建模的 Transformer 3、用于对象检测的 RetinaNet 为了节省您的时间和精力,我们不断测试这些模型实现的性能和收敛性,以在标准数据集上达到预期的准确性。

随着时间的推移,我们将开源模型实现。

大胆的 ML 专家可以使用我们提供的文档和工具来自行优化其他 TensorFlow 云 TPU 模型。

如果您现在开始使用 Cloud TPU,当我们在今年晚些时候推出 TPU pod 时,您将能够从精度的大幅提升中受益。

正如我们在 NIPS 上宣布的那样,在没有更改代码的情况下,在完整的 TPU pod 上,ResNet-50 和 Transformer 的训练时间从近一天缩短到不到 30 分钟。

领先的投资管理公司 Two Sigma 对 Cloud TPU 的性能和易用性印象深刻。

“出于多种原因,我们决定将深度学习研究重点放在云端,但主要是为了能够访问最新的机器学习基础设施。

Google Cloud TPU 是我们发现的支持深度学习的创新且快速发展的技术的一个例子将 TensorFlow 工作负载转移到 TPU 会显着降低编程新模型的复杂性以及训练它们所需的时间,从而提高我们的生产力,使用云 TPU 而不是其他加速器集群使我们能够专注于构建模型,而不是被模型分散注意力。

管理集群通信模型的复杂性”Alfred Spector,Two Sigma 首席技术官 ② 可扩展的 ML 平台 Cloud TPU 还简化了计算和管理 ML 计算资源:您可以为您的团队提供最先进的 ML 加速和动态调整。

您可以根据需求变化调整您的容量,而无需投入大量资金、时间和专业知识来设计、安装和维护现场 ML 计算(具有专门的电源、冷却、网络和存储要求)。

-规模化、紧密集成的机器学习基础设施已经存在多年。

Google 上做了很多优化。

无需付出任何努力即可使大量工作站和服务器上的驱动程序保持最新状态。

Cloud TPU 已预先配置&#;无需安装驱动!保护所有 Google Cloud 服务的复杂安全机制和实践也能保护您。

“自从使用 Google Cloud TPU 以来,我们对它们的速度印象深刻 - 通常需要几天时间的事情现在可能只需要几个小时。

深度学习正在迅速成为运行自动驾驶汽车的软件的支柱。

数据,结果越来越好,在每周都会取得重大突破的世界中,Cloud TPU 通过将我们车队的最新导航相关数据与研究社区的最新算法进步相结合,帮助我们快速发展。

” Lyft 自动驾驶 5 级软件总监 Anantha Kancherla 在 Google Cloud,我们希望为客户的每个 ML 工作负载提供最佳的云,并将提供各种带有 Cloud TPU(包括 Intel Skylake)和 GPU(包括 NVIDIA Tesla V)。

③Cloud TPU 入门 Cloud TPU 数量有限,目前使用费为 US$6.50/TPU/小时。

2. Jeff Dean 连续发了十条推文。

谷歌大师杰夫·迪恩(Jeff Dean)就此事连续发了十条推文。

不过,这些推文的内容几乎全部来自谷歌博客。

但除此之外,杰夫还转发了一篇文章。

技术文章,他说这篇文章比较全面。

文章标题是:谷歌开放自己的AI芯片。

文章称,谷歌希望接触尽可能多的人,一直在慢慢改变芯片市场买家和卖家的现状。

文章写道:几年前,谷歌创造了一种新型计算机芯片来帮助其庞大的人工智能系统。

这些芯片旨在处理复杂的流程,一些人认为这将是计算机行业未来的关键。

这家互联网巨头周一表示,将允许其他公司通过其云计算服务购买这些芯片。

谷歌希望围绕该芯片建立一项新业务,称为张量处理单元(TPU)。

“我们正在努力尽快覆盖尽可能多的人,”与谷歌设计芯片的工程师小团队合作的扎克·斯通(Zak Stone)说。

谷歌的举动凸显了现代技术构建和运营方式的几项重大变化。

谷歌正在专门为人工智能设计芯片,这是一项全球性的推动计划,其中包括数十家初创公司以及英特尔、高通和英伟达等熟悉的公司。

现在,谷歌、亚马逊和微软等公司不仅仅是大型互联网公司。

他们是大型硬件制造商。

为了降低其价值数十亿美元的数据中心的成本并提高效率,谷歌设计了这些大型设施中的大部分硬件,从计算机服务器到将机器连接在一起的网络设备。

其他互联网巨头的情况也类似。

除了位于数据中心内的 TPU 芯片外,该公司还为其智能手机设计了人工智能芯片。

目前,谷歌的新服务专注于教授计算机如何识别物体,称为计算机视觉技术。

但随着时间的推移,新芯片也将帮助公司建立更广泛的服务,斯通先生说。

去年年底,Lyft开始测试谷歌的新芯片,希望能够加快自动驾驶汽车的开发。

Lyft 希望利用这些芯片加速自动驾驶汽车识别街道标志或行人的系统的开发。

“训练”这些系统可能需要几天的时间,但使用新芯片,训练时间预计将减少到几个小时。

“这里有巨大的潜力,”Lyft 自动驾驶汽车项目软件负责人阿南莎·坎切拉 (Anantha Kancherla) 说。

TPU 芯片有助于加快从 Google Assistant(Android 手机上的语音命令识别服务)到 Google Translate(在线翻译应用程序)的一切速度。

他们还减少了谷歌对英伟达和英特尔等芯片制造商的依赖。

类似的举措是,它设计了自己的服务器和网络硬件,减少了对戴尔、惠普和思科等硬件制造商的依赖。

这可以降低成本,这在运行大型在线业务时至关重要,负责监管三星旗下名为 Joyent 的云计算服务的凯西·比森 (Casey Bisson) 表示。

有时,构建高效服务的唯一方法是构建自己的硬件。

“在功率预算和热量预算范围内,将最多的计算能力封装到一个很小的占地面积中,”比森先生说。

新一波的人工智能,包括像谷歌助理这样的服务,是由“神经网络”驱动的,这种复杂的算法可以通过分析大量数据来自行学习任务。

例如,通过分析老客户的电话数据库,神经网络可以学习识别智能手机中使用的命令。

但这需要大量的计算能力。

通常,工程师使用图形处理单元(GPU)来训练这些算法,GPU是专门为在游戏和其他图形密集型软件中渲染图像而设计的芯片。

这些芯片大部分由 Nvidia 提供。

当设计你自己的人工智能时在芯片方面,谷歌希望超越这些基于图形的芯片的可能性,加速自己的A.I.研究进展并吸引更多公司加入其云服务。

与此同时,谷歌已经从英伟达获得了一定的独立性,并有能力与芯片供应商协商降价。

“谷歌已经发展到如此大的规模,投资芯片是有意义的,”担任芯片制造商 AMD 首席技术官十年的弗雷德·韦伯 (Fred Weber) 说。

“这就是他们的杠杆。

他们可以省掉中间人。

”这并不意味着谷歌将停止从英伟达和其他芯片制造商购买芯片。

但它正在改变市场。

韦伯说:对于买家和卖家来说,情况已经发生了变化。

多年来,谷歌一直开玩笑说,它可能会设计自己的芯片,而不是从英特尔购买芯片。

韦伯和其他内部人士质疑谷歌是否会仅仅因为中央处理器而这样做。

如此复杂,设计和维护其中一款芯片会更加困难。

但去年秋天在旧金山举行的一次私人活动上,加州大学伯克利分校计算机科学教授、目前在谷歌从事芯片技术工作的大卫·帕特森被问及谷歌是否会这样做。

这并不是什么特别困难的事情。