当前位置: 首页 > 网络应用技术

Yunyuan符号的最后防御线:节点水位线的设计

时间:2023-03-05 19:00:32 网络应用技术

  简介:由于混合部门是一个复杂的技术,操作和维护系统,包括K8S日程安排,OS隔离,可观察到且遵守范围等。- 独立水位设计。

  作者:南尼

  在Ali Group中,自2014年以来的离线混合技术中,经过七年的两次测试,它在内部进行了大规模推广。每年为Ali集团节省数十亿美元的资源成本。总体资源利用率左右达到了70%,达到了行业的领导才能。在过去的两年中,我们已经通过生产化开始将集团内部的混合技术输出到该行业,并通过标准的本机K8S集群无缝安装插件,并与混合控制,操作和维护功能合作,以增强集群的群集。资源利用率和产品全面的用户体验。

  因为混合部分是一个复杂的技术,操作和维护系统,包括K8S调度,OS隔离,可观察性,等等:前两篇文章:

  经过7年的两次实际战斗,阿里巴巴如何定义Yunnian Hybrid计划的优先级和服务质量?

  如何使用资源配额在云本机混合场景中有效分配集群资源?

  今天,我们必须注意站立台上的混合 - 独立运行时 - 独立的水位设计。

  如上图所示,POD运行时的三个生命周期阶段,配额检查和调度后,最终,不同的QoS-级别的POD在相同的节点上运行。节点上的容器总数,而低 - 而低 - 则优秀的POD是基于高中的实际资源剂量,然后由调度程序计划运行到节点。从下图可以看出,当节点上有更多免费资源时,可以提供给它使用低质量资源。当高/中国-China优质POD的实际资源的实际数量高于某个价值时,资源竞争的时间非常激烈,在节点上运行一个低的excellent Pod只会导致高的服务质量/中型大小的POD将受到损坏,因此目前,我们将不再允许低POD在此节点上运行。为了识别或判断节点资源的激烈竞争,一个非常合乎逻辑的设计是查看是否资源是该节点上的用法太高。如果我们超过一定的用法率,那么我们需要进行低质量豆荚的相应操作。该判断的临界阈值是支架的水位线。

  这里可以看出的另一件事是,水位线仅针对低外观吊舱设置。高/中尺寸的POD不会感知水位线。他们可以使用整个机器的所有资源。所有系统行为均与未打开相同。

  对于倾向于饱和的节点,我们可以为低质量豆荚提供各种操作。如果只是杀死低质量的豆荚,则整个混合系统也可以工作。我们称其为“流放”。

  但是,如果在一段时间后减少了机器上的机器上的竞争,则低孔荚将被杀死并重新启动在其他机器上。在这里,它将大大延长低质量吊舱的单个任务的执行时间。当水位线路时,您需要允许低 - excellent Pod能够在允许的时间范围内“降级”操作。我们进行了低质量POD的第二次操作,以减少其CPU的供应。此操作称为“抑制”。

  同时,如果节点上的资源倾向于饱和,则更合乎逻辑的系统行为是未安排新的低透明pod。

  因此,在节点上的低透射式POD上有三种类型的行为:抑制,驱逐出境和禁止调度,有三种水位线。同时,对于压缩资源和内存,例如压缩资源和内存(例如CPU)。

  注意:压缩资源(例如CPU循环,磁盘I/O带宽)都是可以回收的快速的。对于一项任务可以减少这些资源的数量而无需杀死任务;硬盘空间)一般来说,它不能在不杀死任务的情况下进行回收。[1]

  这些水位线的总体列表如下:

  这些水位线的合理配置值应被排出>抑制>禁止调度。

  但是,在实际的混合生产中,我们通常使用相同的配置值来使用相同的配置值来减少调度水位线并抑制水位线以降低系统操作和维护学生的理解成本以及配置工作负载合并后,将有两条CPU的水位线,即记忆的水位线。

  此图显示了单个机器上的实际系统操作示例

  易于考虑的设计是在驱逐低质量的任务之前设置延迟时间,以便低效率的POD可以有更多的机会等待该系统拥有足够的资源并继续运行。但是,这种设计将导致几个问题引起多个问题

  因此,我们基于基于满意度的低质量POD发明了CPU资源驱逐方法,并定义了以下概念:

  通过这种方式,低脱位POD的驱逐出境条件将成为:

  低质量POD的分类是:

  记忆的驱逐出境方法基本上与CPU的驱逐方法相似,但是没有满意度。在驱逐水位的探险中,它会根据优先级和记忆大小驱逐出去。

  注意:其他节点上低 - excellent POD的重建仍然取决于低excellent Pod的控制系统(例如,离线计算框架spark/flink等)。一致的验证,此重建操作不适合活动性操作在K8S层上的操作,但更适合将其授予上层控制系统或操作员。

  在本文的开头,提到了系统资源竞争的激烈。最简单,最直观的是资源利用率。当然,在实际的大型群集操作过程中,我们还看到,高资源利用率和激烈的资源竞争并不是完全相应的关系。当CPU利用率非常高时,某些应用程序仍在稳定运行。在低CPU利用率中,其他某些应用程序将非常“卡”。

  这意味着,如果我们有新的,更好的指标来衡量系统的利用率,那么我们可以在相应的工作负载上进行更多的“微型操作”操作。

  进入2022年,这种组合已成为ALI的一项非常成熟的技术,每年为Ali节省了数十亿美元的成本。这是ALI数据中心的基本能力。阿里巴巴云还将这些成熟的技术定居在两年后,并开始服务各行各业。财产权。

  在阿里巴巴云的产品家族中,我们将使用ACK的功能和CNSTACK(云堆栈)产品系列来揭示它,并将龙蜥蜴操作系统(OpenAnolis)结合起来,形成一个完整的云中,中央混合部件的整体云datathe集成解决方案是向我们的客户输出。

  参考文档:

  [1]“与Borg在Google 5-6上与Borg进行大规模集群的管理:“:”

  https://my.oschina.net/hardysimpson/blog/517283

  单击此处访问Yunyun的混合动力ACK敏捷版本的整体解决方案!

  原始链接:http://click.aliyun.com/m/1000349412/

  本文是阿里巴巴云的原始内容,未经许可就无法重印。

  原始:https://juejin.cn/post/7122012263304658957