对于大多数人来说,今年的双十一可以说是无感而过。不过,这个“无感”是今年支付宝技术团队的一个重要目标。“双十一”进入第14个年头,这个现象级的标志性活动已经很大程度上融入了国人的日常生活,不再那么特别——天天打折促销,全场秒杀基本上,消费者已经习惯了可以随时随地下单,同城快递隔天到。然而,这些看似平常的体验背后,却是整个零售电商和物流系统能力的大规模提升,而作为其中最关键的数字支付,也和以往一样面临着一系列新的、复杂的技术。年优化挑战。“双十一”从诞生之日起,就是一个极具挑战和实用价值的技术命题。双十一促销工作的优质高效保障涉及基础设施、存储、中间件、业务架构、交互技术和安全等多个技术领域,需要多个部门的密切配合,集中体现整体资源规划团队、技术积累、工程实力和创新能力。2022年双十一期间,除了各项日常业务外,支付宝还将为淘宝/天猫、抖音、快手、拼多多等客户提供在线交易服务(含海外汇款),并支持合作银行、线上线下购物中心和其他机构的支付服务。这些交易请求来自POS机、网银、浏览器、小程序、商户APP等不同平台,涵盖直播闪购、跨店满减、小额免密、先到先得等多种支付场景-付费、推广周期长、多商户线上线下叠加,不仅意味着多个流量高峰,也进一步增加了高峰的不确定性。面对今年“多平台、多场景、多峰”的压力,如何保证系统稳定性,如何在控制成本的同时保证系统容量的可扩展性?本文将从超大规模分布式系统稳定性和高可用构建的角度,尝试理解支付宝技术架构演进过程中的一些关键技术和思想。从点到面,应对多平台、多场景、多高峰为了应对新形势下的双十一,今年3月,支付宝团队启动了“川流计划”,这意味着支付体验顺畅将多年积累的电商服务能力雾化,形成了一套面向全行业的产品解决方案。目标是随时随地快速支持任何商家的推广。技术团队专注于推广服务的常态化能力建设,以业务和需求为导向,确保一贯的稳定、体验、成本和效率。今年,以淘宝/天猫为首的商家将促销时间提前到晚上8:00。11日,恰逢线下购物高峰期。除了其他常规业务外,还要保证不同业务之间充分隔离,能够同时达到稳定状态。支付宝团队利用自适应抗洪和多商户动态异步技术,在更加随机化的推广场景下持续保持支付的可用性和高性能。同时采用分时复用、线上线下混合部署、无感弹性云等技术,大大提高了效率,降低了成本。虽然用户端的感知不强,但为了保证往年双十一期间的峰值稳定,一些非紧急任务会降级推迟。比如花呗账单是查不到的。商家服务无损,交易回单功能也升级,让消费者在定金、即期支付、尾款支付的各个阶段都拥有相同的支付能力。其中,为满足直播时代商家的需求,团队重点打造秒级高可用技术动态维护闪购性能,增加订单闪购支持能力量级,包括通过近端计数和异常感知自动降级弱依赖业务,进一步提升并发,构建无感弹性云等创新技术,实现更快的扩容,确保每个商户都能发起闪购在自己的平台上。双十一的流量高峰以及由此带来的高峰期的高并发处理效果一直是双十一技术支持工作的一大亮点。不过,与以往双十一的流量高峰不同,秒杀服务本质上是一种营销服务。如果把这个秒级交易分配到日常生活中,对服务器成本的要求其实并不高。但随着直播闪购成为常规营销方式,为了满足众多商家在较长的促销周期内随机发起的上千个秒级高峰,需要大量的机器成本投入。“这也是我们今年的底气,我们可以保证双十一期间秒杀这么多商家。”支付宝产品技术负责人单工表示,“从0:00到8:00,用户不用熬夜。对于支付宝来说,我们面临的情况是,不同模式和玩法的高峰期各种平台叠加,然后遇到线下支付的高峰。我们没有把成本转嫁给客户,而是实现了更智能、更绿色、更高效的服务。我们也相信,只有普适性,才能为整体提供可持续的服务社会。”支付宝的高并发、高性能、高可用的架构经过了多年的演进,随着业务特点和规模的发展变化,尤其是在之前双十一的极端需求压力下,比如响应为了满足多平台支付的需求和效率,支付宝已经完成了数次重大的架构演进,逐步形成了一套包括金融级在内的完整的架构和技术体系,包括分布式交易、分布式大数据分析决策、智能风险防控等第一阶段:改造分布式SOA架构,成为互联网电子商务支付工具支付宝最初服务于淘宝网,打通了用户的网购习惯安全交易和支付功能,从2005年开始服务于整个互联网电子商务。换钱。这一阶段,其应用架构开始向分布式SOA架构转型,对交易、支付、账户、收银等核心系统进行服务化改造。为了解决引入分布式系统带来的业务和系统复杂性等问题,团队着重实现了集群一致性,主要包括分布式环境下保证分布式数据一致性和系统监控。对此,支付宝基于两阶段交易原理自研了相应的分布式交易框架和微服务框架,同时搭建了第一代监控系统,摆脱了黑屏命令行监控,并从稳定的分布式事务系统应用架构和体系出发,建立了标准化的监控告警平台,为后续的高可用架构奠定了基础。第二阶段:去除IOE,解决存储单点扩展和稳定性问题,流量从百万级到千万级十一个流量高峰构成了巨大的成本压力,还有很多不确定因素。2011年,启动去IOE战略(不再使用IBM小型机、Oracle数据库、EMC高端存储,转向自控技术)。在此背景下,团队从应对大流量带来的高并发和稳定性风险出发,在核心系统层面解决了稳定性和扩展性问题,奠定了这一代高可用架构的基石。第三阶段:异地多活架构,灵活扩容金融级产品对稳定性的要求极高,需要加速实现金融级异地多活的高可用架构。作为蚂蚁代表技术的逻辑单元LDC(LogicalDataCenter)就是这一阶段提出来的。与传统的IDC(InternetDataCenter-IDC)相比,保证了分布式系统的逻辑协调性和统一性。结合OceanBase数据库,支付宝团队实现了两地三中心、三地五中心的城市级多活高可用架构,主要解决机房扩展、数据容灾、促销期间机房快速弹性。也是从这个时期开始,双十一的峰值和日常业务的峰值差距越来越大。因此,基于LDC架构灵活的流量调度能力,实现了机房级别的弹性扩展能力,在大促前将流量弹回新平台。机房将在活动结束后快速恢复。2016年双十一,支付宝全天完成交易10.5亿笔,支付高峰为每秒12万笔。推广期间,50%流量基于云计算资源弹性伸缩。第四阶段:原生混合云部署,提供全球互联网金融服务随着蚂蚁集团对云原生概念的投入,我们坚信未来的金融应用场景将朝着极致弹性和混合云的方向发展。实现原生架构,蚂蚁全站上云。支付宝开始尝试离线混合和分时调度技术。大促期间,利用了离线技术使用的集群资源,大大提高了集群资源的利用率。在向云原生转型的过程中,很难一步实现不同场景的应用。为了满足不同的业务需求,在云原生化转型中,新旧业务并存、转型。通过统一的研发平台,同时支持虚拟机和容器。双模持续交付促进了整个架构的稳步演进和迁移。考虑到商户服务的全面开放,促销活动的常态化,以及生活服务、保险、理财、公益等多种业务发展和形式的多元化,支付宝团队意识到需要做高可用一个常规的能力,从风险的角度构建一套架构体系,从根源上保证稳定性。应对外部环境剧烈变化(如活动引起的流量激增、机房故障等)、内部节点异常(如数据库宕机、服务器宕机等)和人为变更风险(如代码发布、配置推送等)风险主要分为三类。支付宝建立了变更防控体系、容量风险体系、应急定位体系等风险防控体系。智能化手段进行精细化风险识别,搭建模拟环境,模拟故障,验证问题。从业务,到业务从容应对多峰高并发。从最初的淘宝平台安全交易和支付功能,到提供支付、生活服务、政务服务、理财、保险等诸多能力的数字生活。支付宝构建了中国乃至全球没有先例的互联网三高(高并发、高性能、高可用)架构的代表。2017年,支付宝每秒处理25.6万笔交易的支付峰值,成为全球最大的OLTP处理实体,但同时也继承了互联网公司独有的大规模用户体量(截至2020年,支付宝拥有更多全球超过12亿用户),支付宝技术架构的发展史也可以说是一部不断平衡性能与成本、业务需求与用户体验的三高架构演进史。脱离实际业务需求的技术往往不能为业务产生最大的实用价值。只有在服务业务、保证业务持续可用的过程中沉淀出来的技术,才是最有价值的技术。正是因为双十一的反复创新,支付宝的实践证明,在金融级中间件、数据库和云计算平台的支持下,分布式架构完全有能力应对复杂、高要求的金融级交易。在当今时代,企业要想走得更远,只能提供更好的服务,满足用户更苛刻的需求。建立常态化的双11技术服务能力只是一个开始。随着业务发展和服务类型越来越复杂多样,多峰高并发将不仅仅是支付宝的日常。在万物互联的智能时代,什么样的技术和架构能够应对普适计算,将不仅是支付宝团队需要解决的重大命题。
