12月23日,由中国计算机用户协会指导、iTechClub(互联网技术精英俱乐部)教育委员会主办的国内互联网技术领域最重要的盛会专业化、最具影响力的大型教育科技行业盛会“中国教育科技大会”在京召开。
作业邦基础设施负责人董晓聪受邀出席本次大会,并在“运维安全——后疫情时代在线教育挑战”分享了作业邦如何通过基于云原生的多云建设解决业务发展过程中存在的问题会议。
稳定性、效率、成本、安全性等问题,实现弹性、弹性、可观察、自动化、可持续的在线架构,以及技术改造带来的一系列好处,并用真实案例来深入阐述技术变革持续推动教育行业加速迭代发展。
面向业务,基于云原生深度布局多云建设。
本届大会以“新业态、新动力、新教育”为主题。
专家、学者等众多互联网教育科技领域的科技巨头齐聚现场,聚焦中国教育科技。
对现状、发展、创新、变革、机遇等问题进行深入分析。
作为充分利用新技术不断推动教育行业优化升级的作业邦领军代表,其在云原生、多云架构领域的新思维、新布局引起了社会各界的高度关注。
会议生活。
目前,作业帮的核心业务主要包括作业帮主APP、作业帮直播课、作业帮口算、丫丫AI课堂、智能硬件喵喵机等教育产品。
其中,作业帮主APP是K12学生整个学段的学习辅导工具。
目前月活跃用户超过1亿,题库超过3亿,拍照搜题图像识别准确率超过95%;而作业帮直播课则是作为一款为K12学生提供全日制在线辅导课程的产品。
目前,已服务学生10000余人。
直播课APP是它的学生端。
还有庞大的教研、教学、辅导工程体系支撑。
作为一个商业优化产品,与吸引新客户、转化、留住客户相关的营销系统也是非常重要的一环。
董晓聪在致辞中表示,作业邦既有传统的流量型互联网产品,也有贯穿教育全链条的行业应用。
正是基于企业业务的快速发展,作业邦在稳定性、资源成本、人员效率、安全性等方面提升了性能。
面临许多新的挑战。
“我们面前的在线教育不是冰冷的UV和PV数字,而是求知的学生。
我们的稳定性一定要好,所以作业帮很早就开始探索多云架构。
董晓聪指出,作业邦作为一家面向业务的公司,通过云原生架构利用基础设施来接管业务中的大量非功能逻辑,实现弹性、复原力、可观察性、自动化、可持续性等特性。
“基于云原生架构,解决了部署问题。
在此之上,我们还实现了可以在云之间自由迁移的多云架构。
”升级容器技术部署模型,实现应用与资源解耦。
目前,作业帮从大的角度来看,云原生架构的整体图景主要包括两层:资源层和应用层。
“在虚拟机架构中,应用层和资源层是耦合的,容器技术的出现真正实现了两者的解耦。
向下,提供了CRI、CNI、CSI、设备插件、等等;向上,实现了运行环境的编排和调度。
”董晓聪说。
容器技术带来的部署模式升级,从根本上解决了虚拟机模式下混合部署、资源碎片化的问题。
作业邦在构建运行环境时遵循云原生的主要原则。
不仅通过一容器一个应用,避免使用特权容器,优化缓存的构建,还达到了稳定性、安全性和性能要求。
“我们的最佳实践,对于PHPpod来说,是有一个PHP主容器和几个通过socket通信的sidecar,通过configMap注入配置,数据库密码信息通过secret加密存储。
Golangpod也类似,但它是不再需要日志等sidecar。
”值得一提的是,作业帮还对前端模块进行了容器化,使得前后端项目都可以一键启动,大大提高了研发效率。
另外,从集群角度来看,在资源拓扑方面,对于CPU和异构计算GPU,JobBang采用的是常规流量+弹性的架构方案。
同时作业帮按照网络隔离域划分集群,按照业务领域划分NameSpace。
突破虚拟机架构的缺点,依托云原生升级服务治理体系。
在介绍了容器技术的部署、运行环境、集群等内容后,董晓聪还重点分析了应用层的服务治理体系。
作业邦进行了彻底的云原生改造后,其服务注册发现机制已被coreDNS+服务机制取代。
如何实现新旧机制的过渡?我们将名称服务信息同步到k8s集群,并创建指向虚拟机服务的端点,从而打通控制平面。
从数据角度来看,虚拟机请求容器是通过服务域名访问东西向Ingress集群来实现的。
因为容器集群已经开放了数据,所以可以使用与容器相同的链路访问虚拟机。
另外,在服务感知维度,坐邦整体的调用链路是从用户侧APP、H5、小程序等,到网关层,到业务应用,最后到中间件。
我们将这些链接的日志收集到kafka中。
目前Kafka集群可支持近千万TPS,峰值平均延迟在10秒以内。
除了业绩指标外,稳定性也是作业邦的重要考核因素。
采用多级缓存,保证数据不丢失。
日志采集汇聚后,下游只需订阅kafka即可,不仅解决了大数据日志来源问题,还解决了日志、追踪、指标等相关问题。
监控不再需要运行在业务机器上与应用程序竞争资源,并且应用程序的入站和出站日志也可以绘制调用链接。
多云架构赋能在线教育新业态,四大维度效益明显。
容器技术解决了计算和外围存储、网络抽象和高可用保证后,新的挑战是如何连接多个云。
在传统互联网应用时代,只需连接多个云厂商即可。
但在线教育新业态下,作业帮需要将讲师、导师的网络环境纳入生产体系。
为此,作业邦选择采用双提供商组网方案,利用BGP+ECMP实现线路负载均衡和秒级自动故障切换,从而真正建立高可用的多云网络拓扑。
在呼叫拓扑层面,作业邦将全业务部署在不同的云上,但流量比例不同,从而实现单云内的流量闭环。
值得注意的是,作业邦今年完成云原生和多云建设后,在四大维度都取得了显着的收获。
首先,稳定性显着提升,应用程序之间不再有任何交互,单个设备故障的影响从几分钟缩短到几秒。
SLA 从 99.95% 提高到 99.99%。
二是运维效率大幅提升。
运维规范在运行环境中得到真正落实,扩容效率从小时级提升到分钟级。
三是成本优化,不仅包括运行环境的升级带来的性能提升,还包括碎片的更充分利用,以及不同业务之间资源的互补利用。
第四,多云部署效率大幅提升,从之前的月度水平提升至目前的周度水平,效率提升80%以上。
演讲最后,董晓聪还对未来提出了更多的展望。
他表示,作业邦希望明年与云厂商容器和EMR团队进一步探索更大规模的线下混合部署,并基于Operation实现云原生中间件服务。
转型,利用servicemesh实现跨语言的服务感知、流量控制解决方案,以及全链路压测和AIOps方面更多新的探索。