【.com原创文章】”Graphcore希望未来几年,AI训练和推理可以批量部署在数据中心,在出货量和体积方面,达到英伟达之外另一家领先公司的地位是我们的中短期目标。”这是2020年12月17日下午,Graphcore高级副总裁兼中国区总经理陆涛在与媒体的交流中分享了Graphcore对未来市场的目标规划。 媒体交流会重点关注PyTorch最新发布的面向IPU的PyTorch产品级版本,Graphcore发布的PoplarSDK1.4,以及7月份发布的第二代IPU产品IPU-M2000。会上,Graphcore通过一系列对比测试展示了IPU-M2000的卓越性能,并通过性能展示为行业用户注入一剂催化剂,力争在巨头竞争中脱颖而出,抢占未来市场。 IPU-M2000:可训练BERT-Large模型的AI处理器 Graphcore今年发布的IPU-M2000产品是一款即插即用的机器智能计算刀片,搭载第二代ColossusIPU处理器GC200,采用7nm制程工艺,由Poplar软件堆栈支持,易于部署。 据陆涛介绍,IPU-M2000是继NvidiaGPU、GoogleTPU、Benchmark博客、Performance结果表等之后,目前全球第三款公开发布的可以训练BERT-Large模型的AI处理器,已经发布并发布在Graphcore官方网站上线。 据介绍,基于MK2IPU的IPU-M2000benchmark涵盖了众多模型的训练结果,包括典型的CV模型ResNet、基于组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言processingmodels、MCMC等传统机器学习模型。 相比V100,IPU-M2000在ResNet的吞吐量提升了4倍,ResNeXt的吞吐量提升了5.4倍,EfficientNet的吞吐量达到了18倍,DeepVoice3的吞吐量达到了13倍.此外,Graphcore与马萨诸塞大学和Facebook一起使用近似贝叶斯计算方法来分析流行病模型。与CPU相比,IPU的速度提升了30倍,GPU的速度提升了7.5倍。 陆涛表示,Graphcore已加入MLPerf管理组织MLCommons,将在2021年上半年正式参与MLPerf性能测试。 IPU-POD64正式交付:性能卓越,垂直扩展和水平扩展更灵活扩展 IPU-POD64是由16个IPU-M2000组成的AI计算解决方案,实现了x86与IPU计算的解耦,具有更灵活的垂直扩展和水平扩展能力。 在纵向扩展方面,IPU-POD64可以实现从1个IPU-M2000软件透明扩展到1个IPU-POD16(4个IPU-M2000),再到1个IPU-POD64(16个IPU-M2000),编译后软件可以在IPU-M2000和IPU-POD64上运行。横向扩展方面,多个IPU-POD64可支持多达64000个IPU组成的AI计算集群。 卢涛告诉记者,他们在与多家领先的互联网公司的交流中认为,目前的单个工作负载绝大部分不会超过IPU-POD64。也就是说,对于目前最主流的工作负载,一台IPU-POD64就可以满足大部分工程师对分布式机器学习、分布式机器学习框架、分布式通信的需求。 Graphcore中国区工程总监、AI算法科学家金晨也通过一组详细的测试对比分享了IPU-POD64在各种模型上的训练和推理数据。 在IPU-POD64上,PopARTBERT-Large的端到端训练时间仅为13.2小时。BERT-Large与1个DGX-A100相比,在IPU-POD64上可以实现5.3倍的提升,与3个DGX-A100相比可以实现1.8倍的提升。 在EfficientNet-B4上,IPU-M2000的推理吞吐量比目前市场上最新的GPU提高了60多倍,延迟缩短了16倍以上。同时,IPU-M2000在NLP、语音、金融等不同领域的模型训练和推理的性能结果也表现不俗。 卢涛告诉记者,创新的机器学习模型可以在IPU-M2000和IPU-POD上实现最先进的性能。首先,因为IPU-M2000是最新的硬件产品形态,采用了最新的硬件技术:7nm工艺,垂直分布式片上存储架构,47.5TB/s的tile间高速交互带宽。二是因为软件方面,通过对编译器、运算符、矩阵乘法的全面优化,性能得到了显着提升。 在PyTorch的支持下,IPU-M2000在PyTorch代码中引入了PopTorch的轻量级接口。通过这个接口,用户可以基于当前的PyTorch模型制作一个非常轻量级的包。通过这个包,您可以在IPU和CPU上无缝运行模型。此外,目前的PoplarSDK1.4版本同时支持模型并行和数据并行。 据介绍,IPU-POD64已在全球出货,包括中国、北美、欧洲等地区。 目标直指NVIDIA,中短期目标市场次之 Graphcore的产品和解决方案虽然有不错的表现,但想要在这个巨头中获得更高的市场份额,实属不易。 在谈到巨头带来的挑战时,陆涛认为,Graphcore唯一的挑战就是Nvidia。他表示,Nvidia在AI加速计算的整个软硬件生态系统,包括NvidiaGPU、CUDA、开发者、社区等,都具有比较强的优势,但Graphcore对未来充满信心。 卢涛表示,Graphcore的处理器通过不同的测试充分展示了它的价值,不仅证明了使用IPU可以惠及NVIDIAA100的主流应用领域,也解决了一些GPU无法解决的问题。卢涛还强调,当客户考虑为一个新的软硬件平台付费时,首先考虑的是这样做能获得多少利润;第二个考虑是成本,包括软件和硬件的迁移成本。在这些方面,IPU-M2000的优势还是比较明显的。Graphcore认为IPU有自己的价值和定位。只要能为客户带来价值,客户总会为之买单。 据介绍,为了实现市场目标,Graphcore建立了比较立体的渠道:一是通过传统的toBIT分销渠道销售产品,比如神州数码;二是与服务器品牌厂商合作,如戴尔、浪潮对外销售其服务器产品;三是与“云”合作伙伴建立密切关系,通过云服务实施IPU产品。 陆涛表示,今年年初,他启动了Graphcore全球精英合作伙伴计划,与合作伙伴共同推进市场工作。同时,他还与合作伙伴共同打造社区,从不同角度助力渠道建设。 “Graphcore面临的压力主要来自Nvidia。”陆涛表示,英伟达这个“庞然大物”也在前行,继续研发芯片,预计未来两年可能会有迭代。从深度上看,NVIDIA在不断优化软件;从广度上看,NVIDIA也在不断做垂直领域的应用组件。就目前而言,Graphcore在体量和生态上与Nvidia相比肯定还是有差距的。不过,只有当Graphcore在专注的领域跑得更快时,双方的距离才会越来越近,甚至在某些领域会迅速超越Nvidia。【原创稿件,合作网站转载请注明原作者和出处为.com】
