当前位置: 首页 > 后端技术 > Python

基于Flink的实时数仓生产实践

时间:2023-03-26 13:59:40 Python

数仓的构建是“数据智能”不可或缺的一部分,也是大规模数据应用中不可避免的挑战。在智慧商业中,数据结果代表着用户的反馈,数据获取的及时性尤为重要。快速获取数据反馈,可以帮助公司更快地做出决策,更好地进行产品迭代。实时数仓在这个过程中起到了不可替代的作用。如何更好的构建实时数仓,有哪些优秀的生产实践经验可以借鉴?11月28-30日,FlinkForwardAsia邀请了来自Netflix、美团点评、小米、OPPO、菜鸟等数据仓库专家,聚焦Flink实时数仓在数据链路中的作用及其在智慧商业中的重要价值。分享实时数仓的应用实践和平台智能化的探索与思考。美团点评基于ApacheFlink的实时数仓平台实践卢昊|美团点评资深技术专家美团点评业务众多,涉及数十条业务线;数据量大,峰值处理量达到每秒1.5亿条,日数据增长量超过3万亿;业务多为事务场景,链路长,状态多样,业务在数仓建设上面临较大挑战。随着企业对即时交付、实时营销等时效性要求越来越高,越来越多的企业对实时数仓提出需求和探索。实时计算团队研究总结了多个业务线在实时数仓方面的建设经验,搭建了一站式实时数仓开发平台,更好地支撑业务发展。本次分享将主要介绍实时计算的业务应用和规模,多业务实时数仓的构建,以及基于Flink的实时计算平台和实时数仓平台。小米流媒体平台架构演进与实践夏军|小米流媒体平台负责人,高级研发工程师小米集群业务线众多,涵盖从信息流、电子商务、广告到金融等多个领域,小米流媒体平台是小米集团各业务提供一体化流数据解决方案,主要包括三个模块:数据采集、数据集成和流式计算。目前日数据量2万亿条,实时同步任务1.5万条,实时计算数据1万亿条。随着小米业务的发展,流媒体平台也进行了三大升级,以满足众多业务的各种需求。最新迭代基于ApacheFlink,对流媒体平台内部模块进行了全面重构。与此同时,小米的各项业务也在逐步从SparkStreaming转向Flink。本次分享主要包括小米流媒体平台架构演进、新版基于Flink的流媒体平台架构设计与产品化、小米典型业务应用实践、未来挑战与计划等。Netflix:将Keystone演化为开放式协作实时ETL平台XuZhenzhong|Netflix高级软件工程师致力于为我们的会员带来欢乐。我们不懈地专注于改善产品体验和高质量内容。近年来,我们一直在大力投资技术驱动的工作室和内容制作。在此过程中,我们发现实时数据平台领域存在许多独特而有趣的挑战。例如,在微服务架构中,领域对象分布在不同的应用程序及其状态存储中,这使得低延迟、高一致性的实时报告和实体搜索发现尤其具有挑战性。在本次演讲中,我们将讨论一些有趣的案例,并分享分布式系统基础知识中的各种挑战和解决方案。我们还将讨论我们在DevOps中学到的知识、开放式自助服务实时数据平台的一些新愿景,以及对我们的实时ETL基础平台的一些新思考。菜鸟供应链实时数仓嘉元桥架构演进及应用场景|菜鸟资深数据技术专家贾远桥先生就职于菜鸟网络供应链数据团队,致力于菜鸟供应链数据仓库建设、数据产品研发和数据技术创新。本次分享主要从数据模型、数据计算、数据服务等方面介绍了菜鸟供应链数据团队在实时数据技术架构方面的演进,以及典型的实时应用场景和Flink在供应方面的实现方案链场景。OPPO基于ApacheFlink的实时数仓实践张军|ApacheFlinkContributor,OPPO大数据平台研发负责人张军,带领OPPO数据中心覆盖“数据接入-数据治理-数据开发-数据应用”全链路全台建设。先后就职于摩根士丹利和腾讯,具有丰富的数据系统研发经验。目前专注于数据仓库建设、实时计算、OLAP引擎方向。他还是Flink开源社区的贡献者。本次演讲主要分享了OPPO是如何基于Flink搭建实时数仓的:1.建设背景2.顶层设计3.实施实践4.未来展望