大家好,我是大胜。最近,公司的数据需求变得更加多样化,导致原有的大数据架构已经不能满足公司现有的需求。领导要升级公司的大数据平台架构,然后把这个任务交给了我。接到这个任务后,和领导简单的联系了一下之后,我也开始了调查。经过十几天的努力,终于确定了公司的大数据平台架构,完成了服务器资源的评估。同时,这是我第一次作为架构师搭建大数据平台,所以在这里我想总结一下,分享给身边的朋友,希望对大家有所帮助。话不多说,以下是整理现有资料的本文提纲。目前的数据主要包括以下几个部分:这是我们之前数据部分已经存在的四种数据类型。抽象和收集也是我做的,所以比较熟悉。如果你在做大数据平台,你没有这几类数据,所以请你根据你公司的业务总结一下应该收集哪些数据,但是大部分都是对这几类数据源的抽象分析数据需求我的数据需求主要包括以下几个部分:这部分其实就是你要对前面整理出来的数据做的事情。这一步通常是和你们公司的具体业务挂钩的,这里就不多说了,大家可以自己想想。大数据平台架构技术选型先说说大数据平台架构技术选型标准:1)业务偏向、实时、离线或即席查询2)对比目前的技术优劣势3)技术人员的技术栈4)运营维护难度5)服务器资源是否可以支撑6)开源社区/周边朋友的使用让我们看一下大数据平台的技术架构图(概览)。这里主要从以下几个层面进行技术选型:1)采集层2)计算层3)存储层4)业务层5)平台管理6)平台调度7)任务调度计算层:这里的计算层主要是构建数据仓库,所以我首先分析了市面上现有的数据仓库类型,如下:传统数据仓库架构基于Flink流-批集成数据仓库架构数据湖流-三种数仓架构批集成对比:传统数仓(简称P1)基于Flink批流一体化的数仓架构(简称P2)数据湖流批一体化(简称P3)(一)业务偏向:P3比较合适(2)技术优缺点:P1采用Lambda架构,P2/P3采用一套架构(3)技术人员技术栈:P1(4)运维难度:P3>P2>P1(5)开源社区:P3>P2>P1其实这一步可以根据公司数据然后分析各个架构的使用场景和优缺点,然后根据之前的技术选择标准进行选择。我对这三种架构进行了深入的研究,但这需要结合公司的业务进行分析。所以这里不方便细说。服务器资源评估服务器资源评估可以按照以下步骤进行:1)估计你有多少数据2)每天有多少数据3)数据预计保存多长时间4)准备几个备份5)知道你需要多少台服务器每台机器的内存、磁盘、CPU选择:内存:比如你的集群运行需要多少内存,任务计算需要多少内存,运行需要多少内存系统操作,以及需要多少冗余内存。总内存就是你的总内存。.磁盘:磁盘更容易计算。可以计算每日数量、三个备份和一年保留。CPU:需要根据你的计算量粗略估计。架构的实现现在主要在CDH的建设中实现,下周会继续实现,等大数据平台搭建好后我会继续更新。总结一下,通过这一套流程,还是学到了很多东西,基本搞清楚了作为大数据架构师应该做什么,架构应该如何选择。其实这里的每一步我都做了深入的研究,画了很多架构图,包括整体的架构选择和每一层的架构选择。还有资源评估的过程,服务器的物理视图等等,还有完整的PPT等等。不过这跟公司的业务和发展有关系,这里不便细说。我只能给大家提供一个大概的架构选择思路。有兴趣的可以关注微信公众号大圣说编程,我们私聊。本文由博客多发平台OpenWrite发布!
