互联网的高速发展使得终端用户对网络内容的加载速度要求越来越高,互联网进入秒级服务和“零容忍”时代。在这样的大环境下,实现系统秒级无故障、有效控制成本对于解决业务数据黑盒问题非常重要,而实现这些目标的核心是引导用户的“智能大脑”到就近的节点进行访问,告诉系统如何无缝容错,智能判断最佳性价比,关联所有业务数据形成数据链,帮助运营决策。这就是白山云的“DOLFIN”技术所做的。11月20日上午,在GITC2015全球互联网技术大会运维环节上,白山云产品架构师傅立佳正式向所有嘉宾解读了白山云四大技术创新之一——“DOLFIN””,让客户享受到更具性价比服务的智能调度系统,让海量大数据业务下的系统和资源更加高效。松耦合和分散架构“DOLFIN”从架构的角度来看是一个分层的松耦合系统。每一层之间以及每一层中的不同程序或插件之间都有标准的词典和解析器,以确保各层之间保持一致。同层程序间通信顺畅。从数据流的角度,检测层会收集调度所需的数据,存储在数据层;数据层将存储动态检测数据和静态配置数据;/increment)通过翻译层的翻译程序传给调度服务器,调度服务器完成动员动作。傅丽佳在会上解释说:“为了达到连接一切的目的,我们将系统设计成核心处理程序+翻译器+字典+模块/插件的形式。如果有新的模块或插件,需要兼容系统才能发挥作用,只需要确认表达方式是否满足现有词典,如果不满足,上传词典映射表后即可使用。”调度服务器的边缘部署形成了一种新的去中心化架构,成功解决了日益复杂的网络环境。在“Master-Slave”的情况下,解决方案较小时安全性低、故障处理能力弱、解决速度差的问题,也解决了“Master-Slave”各种优化架构中优化单一的巨大成本问题的各个方面。那么什么是调度服务器的边缘化呢?”比如在传统架构ns1-8中,全球网民看到的是同一个调度服务器IP,但是在边缘化架构下,北京联通LDNS从北京联通,上海电信看到的ns1-8是到了上海电信的。”傅丽嘉详细解释道。傅立嘉进一步强调:“如果实现了边缘,系统的处理能力会被分配到各个边缘节点,整个调度系统的处理能力会提升很多倍。在这种状态下,我们可以设置TTLDNS为0,即使有些LDNS有修改TTL的功能,因为我们有足够的处理能力和效率,在现在的移动互联网时代(目前移动互联网业务量已经接近40%-60%),我们可以完全绕过LDNS链路,使用Private协议或HTTPDNS,实现实时调度,提升整体性能。”SchedulingbasedondynamicIPlibraryandservicequality基于IP和服务可用性的调度有两个核心逻辑:一个是基于静态区域地址库的IP定位,一个是静态缓存配置表结合可用性检测结果生成最终的缓存+区域服务列表,最后给出分析结果。这两种调度逻辑显然不能满足用户的需求,所以为了解决这个问题,《DOLFIN》将静态地址库改为动态,并在Cache可服务性的评估中加入了更多的参考因素。在地址库动态上,“DOLFIN”以地域划分为基本参考项,根据服务质量,结合客户端IP和LDNS出口IP对应表,对地址库进行二次虚拟分组,代表同样的服务质量组。此外,DOLFIN还在每组内划分1G流量,将能代表1G流量的IP划分为一组,支持精准调度。在缓存服务可用性方面,“DOLFIN”加入了多角度的服务质量调度方案,将可用性评估转化为对整体服务质量、带宽成本、计费模型调度阈值的综合评估,以达到最佳性价比调度逻辑。DOLFIN“DOLFIN”带来的效果会将整个网络业务分成若干个虚拟组进行质量评估。在对各CDN厂商和IDC的服务质量、成本、计费模型和计费数据进行有效评估后,****调度方案。除了大家熟知的IDC-IP的A记录、IDC-IP的cname、不同CDN厂商的cname,由于《DOLFIN》具有乐高插件的特性,所有资源也可以添加到一个大设备中pool,以A记录的形式进行调度,使得整体服务质量可以在更小的粒度上进行,提高出价率。此外,在边缘化部署下,“DOLFIN”还可以通过NS模式将服务切换至指定厂商。这节省了维护调度服务器的成本。Dolfin系统除了在高性价比的调度上有很好的表现,还提供了强大的系统故障自动处理功能:单台服务器故障,由于边缘化和二次推送,消息秒级生效,调度时间可减少3分钟到1S;当机房服务质量变差时,以往的处理方式往往是运维人员手动发现并调整,耗时约半小时,影响服务效果。“DOLFIN”服务质量调度可以将这个时间降低到秒级,处理方式自动化;DNS服务器故障一般是最麻烦的运维,需要大量的调整和验证工作,而在“DOLFIN”模式下,由于基于边缘的架构和对DNS可用性的监控,故障设备可以自动更换服务表现。运维下班后只需集中处理故障设备,提高工作效率;在其他情况下,它可以基于复制配置和最优成本效益调度等功能大大提高调度效率。“在正式业务使用中,‘DOLFIN’减少了60%以上的调度消耗,整体服务质量提升了20%,效果非常显着。”演讲最后,傅立佳提到了“DOLFIN”的一系列标准,包括运维架构标准、运行环境标准、程序设计标准、系统容灾备份管理标准、系统容量管理标准、安全管理标准和监测标准。此外,傅立佳表示,“DOLFIN只是白山云四大技术创新的一部分。白山云自成立以来,一直倡导和倡导开放共享的技术文化,希望分享和讨论自己的研究成果以及主流技术应用经验,这次只是分享的第一站,后续我们会通过更多的平台分享我们的技术,或者直接邀请大家到白山云公司与大家进行技术交流。”
