抖音27天战期:春晚红包背后的技术考验向全国人民发放12亿个红包。此次活动共引发703亿红包互动,再次将抖音及其背后的公司字节跳动推上热搜榜。我们看到的是字节跳动给全国人民交出的满意答卷,但背后的故事更值得深挖。有人称之为里程碑式的技术验证,也有人将其形容为历经风雨的修行……今天,让我们揭开春晚舞台上这场“战役”的帷幕,一起来看看背后的故事。序言:挑战来了“如果我们在2019年做主场,以当时的技术能力还不能完全把握。但今年,我们义无反顾地迎接了挑战。”2021年1月13日,星期三。字节一如既往的多事之秋。客户负责人肖宇结束了一天的工作,正准备和同事们吃顿大餐。“团建取消,”屏幕上突然出现一则通知,“大家召开紧急会议!”众人都停下脚步,面面相觑,隐隐闻到了战场硝烟的味道。22:00,会议终于开始了。原来白天和央视接触的市场部同事来商量抖音要不要承包2021年春晚的红包项目,问技术方面的同事能不能支持.如果可以的话,他们会在第二天敲定合同细节。小宇打开飞书日历,滚动到二月列表。十一是除夕,还有不到一个月的时间。其实,春晚红包项目对于字节跳动并不陌生。2019年,百度以第一身份、抖音第二身份参与春晚红包项目。“如果我们当时打主场比赛,以当时的技术能力还不能完全确定。”但近两年,随着字节跳动的人才梯队和基础设施的快速发展,“所以当得知2021年我们将率先举办春晚红包活动时,大家都跃跃欲试”,金吴宇回忆起那天见面的场景。技术部毫不犹豫的点了点头。1月15日,合作敲定。尽管尚未正式向公众宣布,但该项目的齿轮已经迅速转动。infoQ表示,“春晚是百度、阿里巴巴、腾讯轮番上阵的科技盛会。毕竟只有足够的用户量,才能有足够的技术能力来支撑春晚的高并发流量。》去年和今年bytes的出现,无疑为这个流传于三大互联网公司的年度“预留节目”注入了新鲜血液。不过,与往年相比,“前辈们”的平均准备时间为50天字节跳动今年只有27天,前所未有的极短准备期,倒计时开始,如此艰巨的任务如何完成?第一幕:发令枪响起,出发!感觉一直在准备高考,突然文化课改成踢足球了,还是世界杯。”中国互联网圈有个笑话:没有国人刷不垮的网站,春晚红包事件就是一部互联网公司宕机事故编年史,高并发能力再强,在超过十亿观众面前显得脆弱至极,曾参与春晚项目的团队笑称,赛事难度级别是“从攀登泰山到攀登珠穆朗玛峰”。预留时间2021年只有27天,响应更加局促。其实从2020年10月开始,抖音就一直在筹备春节活动,毫无预兆的把活动地点搬到了春晚,“感觉一直在准备高考,突然文化课改成了足球,还踢了世界杯”,肖宇笑着感叹,“虽然接下了比赛的任务春晚毫不犹豫,但前三天还是心慌。”项目前期考虑的方向很多,每个环节都不容小觑。就像大海中的巨轮,只要有一点小小的裂缝,就有可能造成数千吨海水涌入的致命后果。因此,在活动筹备阶段,梳理工作脉络,理清核心里程碑节点十分重要。春晚项目组首先进行梳理,全面覆盖项目涉及的各个方向,按照优先级从一级到二级进行梳理。根据春晚,团队确定了9个重要的里程碑节点,包括:3个压力测试,1次灾备演练,4次剧本演练,1次实操。万事俱备,齿轮已经转到了最关键的切入点,真正的困难逐渐浮现在字节人的眼前。第二幕:十八次排练《春晚的放大效果技术团队不能有半点侥幸心理。》谈到春晚红包的技术难点,人物苏颜UG中台负责人坦言,技术场景其实并不复杂。核心是峰值流量预估、资源调度优化和用户体验保障。春晚红包是一个超高并发场景下,流量预估其实是一个trade-off。如果估算过高,资源需求过大,会浪费很多成本;如果预估过低,实际流量会超出预期,可能导致系统过载甚至雪崩,影响用户体验和活动效果。基于容量评估平台的历史数据和业务系统的压力测试结果,技术团??队在短短两天内针对常规增长、口播冷启动、红包活动等场景发布了流量预估。互娱研发架构负责人邢修表示,自春晚项目组成立以来,就制定了明确的战略目标,首先是实现春晚的应有体验。节日联欢晚会。在估算工作为整个工程打下基础后,如何快速解决春晚洪峰处置问题成为当务之急。技术团队从流量管理、服务管理、研发效率等多角度入手,结合火山引擎的云原生能力,提供了具有字节特性的解决方案。流量管理和服务管理是保证用户体验的关键,研发效率是快速高质量完成春晚技术工作的保障。流量治理:融合线路、边缘计算、全链路动态流量调度为给用户更好的春晚红包活动体验,其流量治理建设必须满足高带宽、低时延、自动容灾等特点,恢复快。为此,字节跳动通过快速验证外部CDN服务链路的能力,基于端云协同的一体化加速线路解决方案,提供高效的动态CDN加速和流量分发。调度实现最优的负载均衡和用户体验的分级管理。同时在流量输入端和处理端做了相应的努力,使得流量管理部分可以支持APPID、接口、用户ID等多维度的调度策略,实现流量等调度需求合并隔离,可达1/100,000高级别流量切换精度,亿级在线客户端配置管理,千万级并发请求更新调度配置,3分钟90%配置更新,99.5%24h配置覆盖.在春晚高并发、大流量场景下,该能力为本地容灾、全机房大规模容灾等场景提供了充足的容量支持。其自动容灾能力可以实现故障场景对用户的影响时间缩短到1分钟以内,大大减少了故障场景对用户体验的损失。服务治理:ServiceMesh和线下资源统一调度系统如果把流量治理的建设比作水流的快慢,那么服务治理的建设直接决定了水的流量和水质。良好的服务治理能力需要能够为业务提供最好的灾难恢复和弹性。VolcanoEngine通过ServiceMesh提供灵活的集群内流量调度、负载均衡、过载控制和容灾能力,并通过统一的离线资源调度系统提供高弹性的跨集群、跨冷热的弹性伸缩方案。离线资源借用方案,可以在5分钟内将离线机器转换为在线可用状态。线上混合部门调动方案采用单机维度QoS管理和隔离方式进行资源整合,整合已经部署在多个集群的闲置资源,缓解任务冷启动。即将到来的延迟效果。仅针对春晚大量的?投稿的码率转换和帧绘制相关任务,该方案就可以稳定供应数十万核心算力。研发效率:压测、一站式观测平台和公共组件搭建可购买压测不影响用户体验,同时提供软硬件状态实时监控能力,为研发团队迭代相关业务提供有效反馈信息,加快问题发现-定位-迭代效率的解决。此外,字节跳动利用自研的公共RPC,集中解决和处理主动流量接入的关键性能和稳定性问题,并有针对性地构建了一套性能/稳定性测试系统,模拟了主动流量接入的特性。深度,针对大并发、大包、重负载场景进行了广泛的测试和优化,提前暴露和解决所有可能出现的异常问题,高强度保证框架质量。框架承载的服务峰值QPS达到千万级别(物理机部署服务不算),在线无异常反馈。即使有足够的技术积累,春晚红包活动对于参与者来说仍然是一次风雨兼程的修行。在预钻过程中,团队首先发现了一个意想不到的业务问题。随着定位和测试的深入,整个业务链上下游数据分析、服务端、前端、客户端的同事被一个个拉进“小黑屋”,进行小流量实验。一一进行。对数,一轮一轮分析,找数据,找原因,补埋点,补监控。等到问题解决的时候,已经过去了5个小时。各端负责人表示,春晚的项目开发是对个人和团队对细节把控力的考验:“由于日常迭代频繁,很难做到作品的极致精细化,海啸春晚带来的-级用户量是一个巨大的挑战,放大镜把以往工作中任何不重要的问题都放大,春晚的放大效果不允许技术团队有半点侥幸。“项目立项以来的每一天,团队都发现了一个问题,定位了一个问题,解决了一个问题。脚踏实地的态度支撑着高强度春晚红包活动的迭代。针对可能出现的突发问题,技术团队制定了16个系统的应急预案。每个大方案进一步详细拆解,每个子模块都会有几十个对应的方案。比如网络故障、机房故障、局部过热等问题,每个问题都有解决方案。这些应急预案一一演练,尽可能保证春晚当天的用户体验。同时,为了防止外部资源崩溃的再次发生,字节与外部运营商保持着充分的联系,建立了良好的迭代和沟通机制。系统负责人石宇向我们透露,在这次春节活动中,抖音团队进行了“定向沟通”,并与外部资源进行了非常极端的盘点,根据需求分配供应商。为了在央视春晚顺利送出红包雨,让全国人民体验幸福美满的一年,字节跳动经历了18次技术预演。除了内部用户测试,还利用央视春晚的小活动进行实操。“经过反复的演练,紧张的状态好了很多,以我们的技术实力完成一件比较确定的事情是没有问题的。但在春晚开播前两天,我又开始恐慌了,特别担心错过就像一个快考场的高中生,感觉好像复习得很透彻,只是知识点怕是还漏了一些。肖宇这样描述春晚前夕的忐忑心情。第三幕:未能出现的黑天鹅》抖音作为国民级应用,我们希望追求极致的态度,让用户即使在复杂的网络环境下,也能有更好的游戏体验,尤其是在流量高峰期”转眼间,2月11日的跨年考试到来了,虽然排练了18次,但春晚流量的不稳定性依然是悬在大家头上的一把利剑。20:30,随着顺利的第一波红包雨令下达后,紧张的气氛逐渐平静下来,虽然没有说话,但在场的字节人心中却有一种默契,他们知道这件事已经做好了。00:10,第五波红包雨,伴随着新年钟声的余音和灿烂的烟花,在千家万户的手机屏幕上闪烁,字节的这场表演也落下了帷幕。难得的气氛从家里切换到值班的春晚。数百名学生坐在一起观看春晚,同时监控实时数据。为用户提供红包雨活动是一种自豪感和成就感。”前端负责人李传东回忆起那天晚上的心情,言语中透着抑制不住的喜悦。更令技术团队欣慰的是,预计触发的16个系统问题均未发生,完美避免了黑天鹅事件。就这样,抖音顺利地度过了一次又一次的交通冲击,稳步进入新的一年。“从广义上看,春晚的特点将其稳定性和可靠性要求放在了非常高的优先级,体验保障在一定程度上属于尽量保障的位置。但是,作为一个国家级应用,我们希望以追求极致的态度,让用户即使在复杂的网络环境下,尤其是流量高峰期,也能有更好的游戏体验。”星修总结道。所以,2019年,字节跳动依然没有把握在春晚主场作战。两年后的今天,抖音从容度过了往年绊倒春晚伙伴们的挑战。是什么支持这种技术变革?第四幕:字节跳动如何“以字节目前的技术能力,我们应该做得更快更好。”当被问及春晚红包活动为何能如此快速完美收官时,与会者达成共识:组织模式与技术成长。网络合作模式项目支持团队的组织架构、BP的建立是推进工作流程、同步信息的关键基础。在确定抖音接手春晚项目后,字节跳动立即召集20多个团队全力支持。但合作模式不是自上而下的项目拆解,不是给每个人分配固定的任务,而是设定统一的目标,同步向下对齐,依靠各团队的主动性,逐步推动目标的实现。架构负责人岳建良称这种协作方式“像一张网”。网络化的组织架构连接各个团队,每个连接点都有专人负责对接,任何责任都能得到明确的回应。这是字节文化特征和组织模式的体现。基础设施优化技术团队快速决策的信心,来自于字节跳动长期在各项基础能力建设上的投入。架构负责人岳建良透露,目前字节基础设施的规模已经不一样了。给了业务方更大的灵活性和更大的发展空间。这很关键。没有这么大的规模,很多问题是解决不了的。解决。架构的架构也发生了决定性的变化。每个机房都被建设成一个独立的单元,具有在不同机房之间任意分配流量的能力。此外,今天的字节还有一系列的技术突破,比如完整的存储矩阵;离线和在线计算能力的混合部署;网络层面可控性更强,自建CDN、动态加速、HTTPDNS、流量调度能力;内部服务治理和服务管理也更加完备,拥有各类灾备系统、灾备演练系统、Chaos系统、治理系统,全方位支持业务活动的平稳运行,表现出强大的性能和稳定性。值得一提的是,字节自研的客户端动态引擎框架Lynx在春晚表现尤为出色,大大降低了客户端发布成本,提升了业务迭代效率。这是Lynx首次应用于大型活动。以上都支持抖音在2021年更加从容应对春晚项目。春晚的红包活动,对今天的字节来说不是挑战,更像是一种证明。通过这场流量狂欢,字节跳动验证了其边缘计算能力、自建动态加速和CDN能力,以及在线大规模混合部署和快速调度能力。“其实,我们并没有放大完成这件事的成就感,我们知道,成功的源泉在于组织模式和越来越好的基础设施。以字节目前的技术能力,我们本应该做到的,甚至更快更好’”邓颖说。结语:继续奔跑,努力工作,浪漫“继续探索,永远创业。”“我一直在为用户追求更个性化的极致体验。”谈及春晚项目的遗憾,苏岩认为,如果有更多的时间,可以把玩法做得更好。更好玩。不难看出字节多年来在基础技术能力上的持续投入得到了回报,可以支持更复杂的业务场景并迎接业务挑战,同时结合自身发展特点,积极探索行业新技术在字节场景的新应用。过去都是序幕。告别2021春晚项目,字节继续在路上。“不断探索,永远创业”。这是故事的结尾,也是下一个故事的开始。作者:HaloTech来源:HaloTech耀光栈
