当前位置: 首页 > 科技观察

关于运维,阿里云、字节、华科的专家如是说

时间:2023-03-20 22:35:42 科技观察

关于运维,阿里云、字节跳动、华科的专家是这么说的。不久前,阿里云联合中国计算机行业协会信息存储与安全专业委员会邀请了阿里云、字节跳动、华中科技大学的专家,共同探讨数字经济时代存储系统的运维问题。1.减少延迟,避免系统性能发生剧烈变化。运维的本质是对网络、服务器、服务生命周期的各个阶段进行运维,在成本、稳定性、效率等方面达到一致、可接受的状态。在ICT行业,运维人常调侃“运维是对应用的承诺,一辈子都不会背弃”。他们就像数据中心和公司IT资源的管家、保安和消防员。阿里云智能高级技术专家、对象存储研发负责人罗庆超对此深有体会。他回忆起以往阿里云大客户要求时延抖动保护的情况,指出当云存储服务请求时延抖动严重时,应用的整体性能会发生过山车式的变化。云端的请求延迟包括网络延迟和存储延迟。云服务的网络非常复杂,包括BGP(边界网关协议)、静态公网和数据中心网络。找出影响时延的拥塞点,合理调度对于避免造成拥塞非常重要。存储服务还需要处理媒体访问的延迟。机械/固态盘也是一个复杂的系统,压力越大,延迟越高。特别是在分布式存储系统中,还会带来传染效应。为了降低延迟抖动,对象存储OSS从快速监控、精准告警、根因分析、优化调度入手,将延迟抖动控制在合理的方差范围内,确保良好的客户体验。华中科技大学研究员、博士生导师吴飞笑称,自己是大学出身,没有亲身感受到运维人员的压力,但他能理解,这不是轻松7*24待命,媲美永动机。当前的云存储可靠性要求是11个9。固态硬盘和传统机械硬盘是云存储中最基本的数据存储单元,维护起来并不容易。前者的存储介质由闪存组成。原则上,闪存就像一扇门,每次打开都会磨损。在使用中难免会老化,逐渐吱吱作响,故障接踵而至;后者后者像机械机器一样不断摆动,但终究会停下来。在由数千块固态硬盘或硬盘组成的存储系统中,要保证如此高的可靠性,运维人员的压力可见一斑。2、时有变化,智能运维大势所趋在企业数字化进程中,运维是重要的一笔。字节跳动数据库存储技术负责人张磊表示,从传统的人工运维,到DevOps的自动化运维,再到AIOps的智能运维,运维技术在过去十年实现了跨越式发展.字节云数据库云存储整个运维体系的开发过程大致可以分为三个阶段。第一阶段,2016年之前,整体数据库和存储量都不是特别大,团队的运维还处于“刀砍石斧”的状态,也就是基本可以手动完成。第二阶段为2017-2021年,业务规模快速发展,云存储系统达到艾字节级别,数据库规模为数千甚至数万库,人工运维达到天花板维护已经出现。团队转向搭建一些自动化运维平台,依靠这些平台来解决运维问题。第三阶段,从2021年年中开始构建依托人工智能等技术的第三代运维体系。将运维人员的知识和经验与大数据、机器学习技术相结合,融入运维体系,替代人力,解决更大范围的运维效率问题。在这三个阶段中,整个业务系统的发展呈现出两个方面的能力飞跃:一是文化、组织、运维能力的提升。通俗的理解是,大家在黑暗中前行,从个体运维到系统化、体系化地建立了专职运维SRE团队进行运维;另一方面,整个运维体系和一些面向服务的技术体系也在不断进步,比如从最早期管理几十台服务器到现在管理几十万台服务器,这是由持续不断的支持技术体系的演进。总而言之,运维的文化和组织,以及运维的技术体系,这两条路是齐头并进的。3、快速定位并诊断问题根源。随着业务上云,运维逐渐“云化”。资源监控、终端管控、安全支撑等运维服务转化为云应用,企业可按需订阅。张雷说,他平时比较关注服务的黄金指标,尤其是和稳定性相关的指标,因为对于大型在线服务来说,稳定性可能是第一位的。另外,他更关注自己所依赖的服务长期的技术演进路径,提前做好规划,确保运维/运维系统在技术发生剧变或发生变化时不落伍。产品形式。罗庆超指出,阿里云OSS作为服务商,必须满足服务承诺的两个关键指标,SLA(服务水平协议)和SLO(服务水平目标)。具体来说,OSS官网承诺了业界领先的99.995%可用性SLA,所以作为服务商,必须根据指标来衡量请求的成功率,千方百计保证这个指标。SLO是更细化的服务项目承诺,比如保证客户请求的整体带宽能够达到一个稳定的Tbps水平,一些典型的请求时延可以保证在100ms量级,不会有太大的波动。近期,阿里云还将发布名为CloudLens的可观测服务,为客户提供主流云产品的运维知识。CloudLens为对象存储OSS提供使用分析、性能监控、安全分析、数据保护、异常检测、访问分析等功能,从成本、性能、安全、数据保护、稳定性、访问六大维度支持客户分析。管理能力。吴飞认为,为了支撑应用的快速发展,存储技术也在不断演进。从传统的磁盘阵列到集中式存储,再到现在系统中有几十台、几万台服务器的分布式存储。从技术上来说,我们首先需要考虑如何保证上千台服务器能够可靠运行。从运维的角度来说,就是没有或很少有故障,或者快速发现故障,实现快速修复、快速恢复、快速检测。近年来,人工智能的发展如火如荼。高校研究人员也在研究利用AI提前预测系统故障,希望在系统故障发生前完成数据迁移,从而有效减轻运维压力。四、产学研用,构建成长共同体运维为业务系统提供的保障,离不开阿里云这样的服务商的布局,也离不开字节跳动这样的产品用户的努力。高校和科研院所作为基础理论技术和前沿技术研究的主体,在许多关键前沿技术上有着深厚的基础技术储备和丰富的理论研究基础。因此,产学研合作创新是产业发展中需要重视的环节。吴飞表示,用“共同成长体”来定义这样的合作关系更为合适。这个链包括创新链、产业链和用户链。正是因为有这样一个联盟,将用户端和研发端联系在一起,促进了彼此的发展。通俗地说,就是产、学、研、用一体化,各方共同成长,推动技术的发展和落地。例如,某大学在研究云存储的可靠性时,提出了一种新的算法。在推动算法应用的过程中,可能需要与字节跳动、阿里云等公司合作,将算法部署到实际系统上,促进产业发展。吴飞还提到,产学研跨界创新也成为高校专家学者职业发展规划的重要内容。许多专家学者在产业界致力于推动技术落地后,选择回归学术界。这被称为“学术休假”。她相信未来学术界和产业界之间会进一步融合。张磊认为,产学研融合是技术从诞生到广泛应用的重要推动力。近年来,云存储系统的一些技术已经固化。他首先希望学术界和研究界能够在基础设施领域带来更多的突破:无论是存储介质,整个云存储架构的突破,还是系统、运维思路、方法上的一些突破,都能带来新的生机到行业。其次,行业也要精益求精,大胆尝试新技术、新方法、新思路,并融入合适的场景。因为行业内规模较大的企业,比如字节跳动,技术体量、服务器、量化存储都比较大,其实有很好的技术杠杆效应。虽然看起来是一个很小的技术优化,但是在大场景下却可以产生很大的价值。因此,产学研各方的相互支持是十分必要的。罗庆超指出,阿里云作为服务商,共同成长的核心点有两点:一是为通用运维能力提供基础服务,二是吸收客户提供的一些输入和先进思想,工业界和学术界,以帮助基地成长。对于两位嘉宾提到的产学研结合,罗庆超表示,共同成长的演进有两个阶段可能非常重要。第一阶段,像CCIA这样的机构提供共同成长的土壤和生态。如果这个CCIA运行的好,可以为运维和技术的共同成长打下坚实的基础。第二阶段,共生体要出成果,比如通过CCIA组织,搭建沟通桥梁,孵化出一些在行业内有影响力的标准白皮书或者技术创新思路。结论:随着高校职能从人才培养、科学研究向社会服务延伸,企业、协会与高校的合作将进一步深化。在此过程中,无论是用户还是厂商都会受益匪浅。