人工智能时代,计算架构面临前所未有的挑战。
在更接近深度学习计算方法的传统CPU和GPU之上,专门为机器智能设计的处理器架构IPU成为了热门话题。
说起IPU,就不得不提Graphcore,一家总部位于英国布里斯托尔的公司。
该公司成立于 2017 年,仅用了四年时间就具备了量产和开发自己的 IPU 的能力,并在硬件 IPU 处理器之上构建了名为 POPLAR 的软件堆栈和开发工具。
与此同时,Graphcore 在世界各地建立了渠道合作伙伴关系,以便在当地接触到和云。
四年来,Graphcore 共筹集了 4.5 亿美元资金。
投资者不仅包括欧洲知名科技风投公司Amadeus Capital Partners、Draper Esprit,还有来自硅谷的Foundation Capital、红杉资本等资本。
更重要的是,除了财务投资者之外,Graphcore还获得了包括宝马、博世、戴尔、微软、三星等产业资本的支持。
近期,Graphcore在中国大陆动作频繁。
5月12日,在OCP全球峰会上,阿里巴巴异构计算首席科学家张伟峰博士宣布Graphcore支持ODLA接口标准。
5月20日,在百度浪潮峰会上,百度集团副总裁吴天女士宣布Graphcore成为飞桨硬件生态创始成员之一。
7月8日,Graphcore宣布正式发布基于IPU的开发者云,免费向国内客户、高校、研究机构和个人研究人员开放,让前沿机器智能创新者轻松获取IPU进行前沿机器智能云训练。
边缘人工智能模型。
和推理。
值得一提的是,这个开发者云是中国首个IPU开发者云。
部署在金山云上,采用浪潮NFM5服务器和IPU PCIe卡适配的Dell DSS服务器。
此外,结合开发者云,Graphcore的创新社区也已正式上线。
这也是Graphcore积极拥抱中国AI生态的体现。
Graphcore 被阿里、百度列为好友,靠的就是硬件实力。
据官方介绍,Graphcore IPU的性能在现有和下一代型号上均领先于GPU。
在自然语言处理中,速度可提高20%-50%;在图像分类方面,可以实现6倍的吞吐量和更低的延迟;在金融领域,一些模型可以达到原始训练速度的26倍。
不仅如此,Graphcore在疫情期间也发挥了重要作用。
5月27日,在英国智能健康峰会上,微软机器学习科学家分享了使用IPU训练CXR模型的性能参数。
当运行微软的 COVID-19 图像分析算法模型时,IPU 能够在 30 分钟内完成在 NVIDIA GPU 上需要 5 个小时才能完成的训练工作量。
之所以能够实现如此突破性的性能,得益于IPU计算架构的重构。
目前,机器学习计算常用的处理器架构是CPU+GPU的异构计算模型。
CPU 是为应用程序和网络设计的标量处理器,GPU 是为图形和高性能计算设计的矢量处理器。
然而,AI计算的底层是用计算图来表示的,因此需要新的处理架构。
IPU 正是为处理计算图而设计的处理器。
与传统CPU和GPU相比,IPU采用大规模并行MIMD处理器内核,并配备高达MB的分布式片上SRAM。
与CPU的DDR2子系统或GPU的DDR和HBM相比,这种计算架构可以实现10到10倍的性能提升。
目前,Grapgcore量产的处理器被称为GC2。
基于 16nm 台积电工艺打造。
片上架构有IPU-Tiles,每个Tile都有独立的IPU核心用于计算和In-Processor-Memory,也就是处理器内部的内存。
对于整个GC2来说,一共有线程,这意味着它可以支持程序并行运行。
整个处理器内存总计 MB。
Graphcore 得到了 AI 领域众多创新者的认可,包括 DeepMind 联合创始人 Demis Hassabis、剑桥大学教授兼 Uber 首席科学家 Zoubin Ghahramani、加州大学伯克利分校教授 Pieter Abbeel 以及 OpenAI 的几位创始人。
英国半导体之父、Arm联合创始人赫尔曼爵士表示:“计算机历史上只发生过三次革命,一次是1970年代的CPU,第二次是1990年代的GPU,而Graphcore则是第三次革命”他指的是Graphcore率先提出用于AI计算的IPU,人工智能教父Geoff Hinton教授也表示:“我们需要不同类型的计算机来处理一些新的机器学习。
他还指出,IPU就是这样一个系统。