【.com原创文章】大数据和大数据分析成为当今企业关注的焦点,大数据分析平台正在从一个知名企业转变为标准配置,是企业实现“全业务数据,全数据业务”目标的基础平台。本期《大咖来了》邀请到阿里云智能高级解决方案架构师鲍元松,分享《零门槛构建弹性大数据云分析平台》的主题。过程中,对大数据分析平台的建设进行了分阶段,并对每个阶段进行了详细的讲解。下图展示了大数据分析平台建设的四个阶段,分别是自建、云托管、云服务和云原生。自建大数据分析平台建设为什么要自建大数据分析平台?主要原因有三点:一是传统的大数据分析技术已经不能满足大数据分析,需要引入新技术进行改进;第二,早期的大数据技术相对不成熟、不可靠,需要专门的技术人员去研究;3、市场上缺乏行之有效的大数据分析的成功案例和实践,企业需摸着石头过河。自建大数据分析平台属于重资产模式,存在诸多不足,主要表现在:周期长:整个建设周期极长,涉及机房选型、硬件采购、集群部署、测试优化、数据服务、运维管理等诸多方面。高成本:成本分为两类,一类是服务器、存储、网络、运维、IDC等显性成本,一类是隐性成本,如业务影响、闲置资源、弹性扩容、一次性时间资本投资。这些成本的输入是确定的,但输出是未知的。门槛高:近年来,大数据技术蓬勃发展。在数据集成、数据存储、分析计算、数据运营等各个维度都有很多细分的技术。任何技术都需要专门的人员进行深入研究。对于普通企业来说,人才门槛很高。慢结果:大数据分析平台需要自始至终不断迭代修正,直到数据质量达到预期,数据分析结果可信,才能真正做到极致的弹性、高可靠、多场景应用效果。大数据分析平台建设云托管在自建大数据分析平台存在种种不足的背景下,云托管应运而生,原因有三:一是企业摆脱沉重的资产包袱;第二,大数据技术趋于成熟,企业不再专注于大数据技术本身,而是需要一批具有大数据技能的人来做大数据开发;第三,云厂商结合自身优势,提供云端大数据托管平台。自建大数据分析平台通常基于开源的Hadoop平台,而云托管则是将自建的开源Hadoop平台改造为企业级、标准的大数据分析平台,统一集群管理,完善的监控告警、计算存储分离、弹性扩展、按需构建、数据安全、低门槛运维、丰富的??云生态对接等优势。EMR提供基础资源、平台管理、数据存储、数据集成、计算引擎、数据使用、作业管理等平台能力。对所有组件提供完善的监控和告警,任何组件异常都能在第一时间进行告警和通知。同时提供基于平台的智能运维管理、调度等功能。接下来,我们就从基础设施、运维管理、云生态等角度来详细了解一下云主机的一些优势。云主机的基础设施首先,云上有丰富的产品规格族。阿里云整个虚拟机分为通用计算、异构计算、裸机&高性能计算三大类。每个品类满足不同的场景,可以快速搭建不同场景的大数据分析平台;其次,利用云的弹性,计算和存储资源可以自主扩展,以满足业务高峰期或业务对极致性能的追求,也可以按需灵活构建。最后,可以极大优化在云端搭建大数据分析平台的成本,并可以根据业务特点灵活选择购买方式。例如,通过SpotInstance可以大大降低计算节点的成本。云托管的运维管理整个大数据分析平台的运维非常复杂,需要专业的人才和大量的投入。从基础运维到管理运维,再到组件运维,云厂商提供多维度的运维能力。基础运维:云厂商利用自身的大型服务器运维经验构建AlOps系统,能够提前检测分析硬件,发现故障后快速主动运维,降低对业务的影响。管理运维:EMR实现一键部署、开箱即用,同时提供统一的配置管理、平台状态监控、故障告警等功能。组件运维:组件运维是大数据分析平台中最复杂的部分。在升级版本时,由于组件之间有着千丝万缕的关系,保证兼容性是重中之重。组件运维的另一个重要方面是性能优化。云厂商会结合自身的云计算优势,优化底层基础设施,优化内核引擎,帮助开源组件提升性能。云主机的云生态云上有丰富的生态,防止后来者重新发明轮子或白手起家,如下图。底层存储可以在云端提供OSS对象存储和HDFS存储。HDFS存储可以直接无缝访问OSS对象存储,与访问HDFS文件无异。通过这种方式,可以灵活地进行数据归档和成本优化。数据源方面,支持OSS、SLS、RDS、消息队列等服务作为数据源;在计算引擎方面,云端EMR平台可以对接MaxCompute、Flink、Tensorflow引擎;在集成方面,DataWorks服务在云端提供。DataWorks可以统一Hadoop整个上层的元数据管理和数据质量管理。此外,云端还提供DataV、QuickBI等分析展示能力。除了以上概览内容,后续还会有更多云服务和云原生的干货,请点击视频观看:http://aix.51cto.com/activity/10019.html【原创】稿件,合作站点转载请备注作者及原文出处为.com】
