当前位置: 首页 > 科技观察

OpenAI将k8s扩展到7500个节点以支持机器学习

时间:2023-03-12 04:07:00 科技观察

为了满足GPT-3、CLIP和DALL+等大型模型的需求,以及类似神经语言模型的缩放规律的快速小规模迭代研究,OpenAI将基础设施中的k8s集群扩展到7500个节点。据其描述,对于大型机器学习作业,一个节点通常被单个pod占用,而OpenAI部署的集群带宽平分,所以虽然有很多节点,但对调度器的压力比较小,只在一个当一个新任务同时创建数百个pod时,就会有调度压力。此外,OpenAI还详述了其在扩展k8s集群时的重要工作,例如通过改用alias-basedIP寻址解决大量节点的组网问题,在专用节点上部署etcd和APIserver分散负载,定位OOM在使用Prometheus和Grafana收集指标、设计集群健康检查、在团队中合理分配集群资源等方面存在的问题。不过,OpenAI也指出,在扩展k8s集群时还存在一些需要解决的问题。比如Prometheus内置的TSDB存储引擎在大规模下压缩速度太慢,重启WAL(writepre-recorded)需要很长时间,而在扩容集群时,因为每个pod会被计算为需要一定的带宽,会给网络带宽带来压力。不过,虽然还有很多需要改进的地方,但k8s凭借其出色的可扩展性,依然可以满足其研究需求。本文转自OSCHINA文章标题:OpenAI将k8s扩展到7500个节点以支持机器学习本文地址:https://www.oschina.net/news/127949/openai-scale-k8s-7500