Facebook 正在构建下一代开源硬件,并将新技术集成到其数据中心平台中。
Facebook 使用许多强大的技术 - 包括固态硬盘 (SSD)、图形处理单元 (GPU)、非易失性内存 (NVM) 和闪存集群 (JBOF) - 来创建新的服务器和存储设备并加速基础设施。
这些升级是Facebook构建强大数据中心网络的努力的一部分,该网络将扩展互联网服务的边界。
Facebook首席执行官马克·扎克伯格表示:“在未来十年左右的时间里,我们的体验将更加依赖于人工智能和虚拟现实等技术。
” “这对计算性能提出了更高的要求。
通过开放计算项目(以下简称OCP),我们正在开发全球基础设施,让每个人都可以享受互联网服务。
” Facebook在开放计算峰会(以下简称OCP)上表示,该项目进展是在开放计算峰会(以下简称OCS)上公布的。
OCS 是不断扩大的开源硬件社区成员的聚会,他们设计的产品在 Facebook 的数据服务器上得以实现。
此次峰会展示了多项基础设施升级。
包括: 重新设计的服务器规模形式,以相同的能耗提高性能。
由 GPU(而非 CPU)提供支持的新型高性能数据分析服务器。
改进的存储设备分离单元(存储雪橇),其中原始 JBOD(只是一堆磁盘)变成速度更快的 JBOF(只是一堆闪存)。
改进了非易失性存储器 (NVM) 实验,为存储分层提供更多选项。
此次峰会标志着 OCP 项目五周年,并促使人们反思自 Facebook 于 2007 年建立该项目以推动其版本的设计创新以来该项目的发展历程。
OCP 项目主席、Facebook 基础设施副总裁之一贾森·泰勒 (Jason Taylor) 表示:“我们现在取得的进展值得注意。
” “OCP 是工程师聚集在一起创造令人惊叹的产品的地方。
” “当我们超越超大规模并进入金融和电信领域时,我感受到了巨大的动力,”他说。
服务器:下一代设计 Facebook 彻底改变了服务器设计和基础设施,从传统的双服务器处理器转向基于单个 Intel Xeon-D 处理器的片上系统 (SoC),该处理器功耗更低,并解决了多个架构问题问题。
Mono Lacke 服务器的主板安装在一个名为 Yosemite 的组装单元中。
Yosemite的每个滑动单元底盘可以安装4个SoC,即4个Mono Lake。
Facebook 工程师 Vijay Rao 和 Edwin Smith 在 Facebook 工程博客上描述了新设计。
他们在博客文章中写道:“我们与英特尔密切合作设计新处理器,同时重新设计我们自己的服务器基础设施,以创建一个满足我们需求并可以被业界其他公司广泛采用的系统。
” “结果表明,具有较低功耗 CPU 的单处理器服务器在网络负载上的性能优于双处理器服务器,并且更适合数据中心负载......同时,我们重新设计的服务器基础架构的性能优于双处理器服务器相同网络负载上的服务器。
”根据电源的不同,每个机架可容纳双倍数量的 CPU。
“新的设计提高了处理器之间以及处理器与内存之间的通信效率。
”两位工程师表示,“我们对 CPU 进行了简化,足以满足我们的要求。
”“我们取消了 QPI 链路,降低了英特尔的成本。
考虑到我们的服务器将基于相同的插槽,这也解决了我们的NUMA问题,我们将其设计为集成芯片组的系统芯片,使其更简单,同时我们也实现了CPU热设计功耗(TDP)的一致。
在相同的供电条件下重新设计了服务器基础设施,这使得Facebook能够创建一个服务器架构,可以实现每个机架的更高性能,同时确保每个机架的能量密度保持在11千瓦以下。
强大的人工智能数据分析服务器。
近年来,GPU 在高性能计算中发挥了重要作用,GPU 最初用于提升台式电脑的性能并处理图形运算,但现在帮助一些最重要的计算。
世界上最强大的超级计算机。
Facebook利用GPU为人工智能和机器学习数据分析带来更强大的计算能力。
其人工智能实验室训练神经网络来解决新问题。
这需要强大的计算能力。
“我们在人工智能技术方面投入了大量资金。
” Facebook 工程和基础设施部门全球负责人 Jay Parikh 表示,“目前,人工智能应用于 Facebook 的 Newsfeed,帮助我们提供更好的广告服务。
它还可以帮助用户在日常生活中更安全地使用它。
Facebook。
Big Sur系统采用NVIDIA的Tesla加速计算平台,该平台拥有八个高性能GPU,每个GPU的功率高达瓦,并且可以跨多个PCI-e连接进行灵活配置。
Facebook对这些新服务器的热量和功耗进行了优化,以便它们可以与数据中心配备标准CPU的服务器一起工作。
Big Sur系统优化了性能和响应时间,帮助Facebook处理更多数据,并大大缩短了训练神经网络所需的时间。
“性能有了极大的提高,”帕里克说。
“我们在几个月内部署了数千台这样的机器。
这使我们能够将该技术应用于整个公司的更多产品实例。
”存储:只是一堆闪存 多年来,Facebook 一直使用闪存来加速服务器启动驱动程序并提高缓存效率。
随着公司基础设施不断扩展,Facebook 创建了一种新型“模块”,将更多闪存集成到服务器计算中。
Facebook改进了最初的开放计算机Knox的存储驱动器,使用固态驱动器(SSD)代替硬盘驱动器(HDD),存储单元从磁盘簇(JBOD)转移到闪存簇( JBOF)。
Facebook 和 Intel 联手开发了这款名为 Lighting 的新型闪存集群单元,反映了使用 NVMe(一种针对 SSD 优化的高速 PCI 总线接口)带来的速度提升。
我们通过 Parikh 在开放计算峰会上展示的幻灯片来看看具体参数。
作为一种去中心化存储设备,闪电网络支持多种不同的应用。
“这为我们正在开发的应用程序带来了新的高性能存储构建块,”Parikh 说。
Parikh表示,未来存储领域将会有更多的创新,特别是非易失性存储器(NVM)的创新使用。
“在存储行业,磁盘驱动器不断扩展,但可靠性和响应时间并没有变得更好,IOPS(每秒读写次数)也没有提高,”Parikh 说。
“闪存取得了微小的改进,但耐用性也不是巨大的改进。
我们陷入了一种规模不断增长的模式,但从性能角度来看,我们并没有得到我们真正需要的东西。
Facebook 在新的 NVM 应用中看到了潜在的答案,尤其是英特尔和美光联合开发的 3D XPoint 技术。
Parikh 呼吁开放计算社区关注该技术,这可能会解决存储行业面临的挑战。
Parikh表示,我们可以(基于这些选择,指的是NVM、Flash等不同技术)开始思考我们的存储问题,分层存储需求(根据性能、容量)布局,给我们更多的价格和性能杠杆,以及实现性能或能量存储的扩展,或成本优化。
他表示,NVM是介于DRAM和NAND之间值得关注的一种。
Facebook 正在 MyRocks 开源项目上测试 NVM 配置,该项目基于 MYSQL 和 RocksDB 数据库技术。
前方的路很长:为即将到来的数据洪流而扩展。
Facebook之所以不遗余力地推广更快、性能更好的基础设施,就是因为用户的增长。
目前,Facebook拥有10.6亿用户,WhatsApp 10亿用户,Facebook Messenger 81亿用户,Instagram 4亿用户。
扎克伯格在虚拟现实领域的野心也是一个推动因素,Facebook以20亿美元收购虚拟现实先驱Oculus就证明了这一点。
虚拟现实可以提供身临其境的3D体验,许多分析师认为虚拟现实技术的黄金时代即将到来。
扎克伯格相信 Facebook 可以为他的社交网络提供虚拟现实体验。
扎克伯格在最近举行的世界移动大会(MWC)上表示:“很快,我们将生活在一个每个人都可以分享和体验整个场景的世界,就好像他们身临其境一样。
” “想象一下,你可以随时坐在篝火前和朋友们在一起;或者随时和朋友一起在私人影院看电影。
想象一下在世界任何地方举行会议或大会。
所有这些都将成为现实,这就是Facebook这么早就大力投资虚拟现实的原因。
我们真的很想提供这些社交体验。
“这对基础设施建设提出了极高的要求。
完整的虚拟现实视频容量是当今高清视频的20倍。
”超大文件可能成为视频或虚拟现实高质量、大规模推广的障碍,”Facebook 的 Evgeny Kuzakov 和 David Pio 写道,他们最近概述了虚拟现实文件解码和压缩技术的进展。
Facebook 正在将视频从等距矩形布局转变为立方体格式,文件大小减少了 25%。
然而,Facebook意识到虚拟现实视频的实时推送需要更快的网络,而这是Facebook无法独立实现的。
因此,Facebook遵循开放计算模式,提出了电信基础设施项目,与Equinix、英特尔、诺基亚、SK电讯、T-Mobile和德国电信共同开发5G网络,加速全球网络发展。
“为了应对全球数据挑战(视频和虚拟现实),传统电信基础设施的升级并不能满足人们的需求,”帕里克说。
“要应对这些新的技术挑战并发现新的机遇,加快电信基础设施升级创新的步伐非常必要。