简介:近日,计算机系统架构国际顶级学术会议USENIXATC在线召开。ATC始于1992年,是USENIX主办的计算机系统领域的顶级会议。已成功举办31届。在计算机系统领域,Oak语言(JAVA语言的前身)、QEMU、ZooKeeper等一系列有影响的研究成果均在USENIXATC发表或公布。ATC对论文的要求极高,必须满足基础贡献、前瞻影响和扎实制度实施的要求。这篇论文的接受率只有18%,全球只有3篇最好的论文入选。ATC2021出榜,录取率创18%新低同时公布了3篇最佳论文,阿里云提交的飞天操作系统论文占据一席,创下了中国企业的最佳成绩。近日,计算机系统体系结构国际顶级学术会议USENIXATC在线召开。ATC始于1992年,是USENIX主办的计算机系统领域的顶级会议。已成功举办31届。在计算机系统领域,Oak语言(JAVA语言的前身)、QEMU、ZooKeeper等一系列有影响的研究成果均在USENIXATC发表或公布。ATC对论文的要求极高,必须满足基础贡献、前瞻影响和扎实制度实施的要求。这篇论文的接受率只有18%,全球只有3篇最好的论文入选。阿里云提交的论文名为《Scaling Large Production Clusters withPartitioned Synchronization》(PDF版),讨论了飞天如何解决大规模计算资源的调度问题。被收录并获得最佳论文奖。这也是中国企业首次登上ATC最佳论文。飞天是阿里云自主研发的超大规模云计算操作系统。它可以将全球数百万台服务器连接成一台超级计算机,以在线公共服务的形式向社会提供计算能力。飞天的核心服务包括分布式计算、存储、数据库、网络等,本次获奖论文就是资源调度服务之一。据悉,此次阿里云提交的飞天分布式调度系统“fuxi2.0”是阿里巴巴学术合作与创新研究计划(AIR)与香港中文大学Jamescheng先生的联合项目成果。本文针对业界分布式调度架构存在的资源冲突严重、调度性能差的问题,创造性地提出了一套资源冲突解决机制,实现调度器在集群规模上的可扩展性,同时保证优良的调度性能和调度效果支持飞天大数据平台MaxCompute单集群10万节点规模,4万作业/秒的并发能力。云计算的核心问题是如何高效组织数千台甚至更大的机器,灵活地进行任务调度和管理,让用户像使用单机一样使用云计算。随着数据量和计算量越来越大,云计算场景也变得超大规模。此前,传统的基于中心化架构的调度器受限于单点处理能力,无法实现规模扩展。阿里云计算平台事业部研究员管涛表示:“分布式系统领域有一种说法,规模每增加一个数量级,就会成为一个全新的问题。规模、利用率和公平性是调度系统的三大核心,本文基于阿里云飞天系统的部分工作,在不失利用率和公平性的前提下,探索调度系统大规模的扩展能力。”近年来,飞天操作系统多项研究成果被国际顶级会议录用:2019年,数据调度论文宇工被数据库顶级会议VLDB录用;2020年机器学习&单机调度论文AntMan被操作系统顶级会议OSDI录取;2021年2010年,Fangorn,关于计算调度的论文,被数据库顶级会议VLDB录用。版权声明:本文内容由阿里云实名注册用户投稿,版权归原作者所有。阿里云开发者社区不拥有自己的版权,也不承担相应的法律责任。具体规则请参考《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如发现本社区涉嫌抄袭内容,请填写侵权投诉表进行举报,一经查实,本社区将立即删除涉嫌侵权内容。
