【.com原稿】——从传统数据仓库到大数据的逐步转型数据仓库系统长期以来一直是企业IT架构的重要组成部分。随着开源技术的不断发展和云部署方式的不断深入,传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变化。如何针对大数据技术优化改造数据仓库,是企业IT管理的重要课题。不同阶段的企业如何应用大数据技术?大数据技术如何改造数据仓库?如何优化现有数据仓库?如何在Hadoop中优化性能?这些都成为困扰IT管理者的主要问题。带着诸多疑问,记者采访了Cloudera售前技术经理、高级解决方案顾问徐峰先生。旭峰拥有14年数据仓库项目实施经验,作为总架构师参与过多个大型数据仓库项目的架构设计。和项目规划。徐峰表示,在数字化时代,随着企业内部数据的快速增长和外部数据采集成本的不断降低,传统数据仓库在数据存储和分析应用方面面临巨大挑战。现有数据仓库环境传统数据仓库面临以下局限:存储成本高,难以实现全量、海量数据在线保存的目标;元数据定义死板,难以灵活整合多个数据源,支持即席查询;集群管理复杂,计算资源有限,缺乏统一的管理界面和水平扩展能力;随着数据规模和用户规模的不断增加,无法满足实时分析(例如:欺诈识别)SLA;常用的数据分析和挖掘工具处理全量数据的时间过长。数据仓库呈现三大发展趋势数据仓库需要处理更多类型的全量数据:企业必须能够有效地存储、处理和分析数据,包括结构化数据、半结构化数据和非结构化数据。数据仓库需要提供更广泛的数据访问:数据仓库的访问不再局限于IT部门。所有部门的用户都会要求自助访问真实数据,甚至希望自己能够在没有IT部门协助的情况下准备数据。当然,这个过程中的高访问延迟也是不能接受的。数据仓库需要采用更实时的业务决策:流式数据为理解和调整当前业务决策创造了新的可能性,但前提是我们具备实时处理流式数据的能力。实时计算需要全新的技术架构,不仅要将数据流与现有数据系统打通,还要能够快速分析。企业应该如何进行技术选择?针对这个问题,徐峰认为,企业应该根据自己的不同阶段做出选择:起步阶段:这个阶段的企业大部分都购买了MPP硬件来构建数据仓库。为保证业务连续性,建议初期企业以传统技术为主,大数据技术为辅。比如:ETL处理仍然放在MPP平台上,但是HDFS用于历史数据归档,SparkStreaming用于小批量数据的实时处理。发展阶段:这个阶段的企业用户已经掌握了大数据的核心技能。在发展阶段,建议以大数据技术为主,传统技术为辅。例如:将ETL处理全部转移到Hadoop平台,只将处理逻辑简单的固定报表部分放在MPP上。成熟阶段:推荐使用Hadoop平台作为整体架构,更好地应用大数据技术。数据仓库会不会规划在Hadoop上?“企业可以选择从一开始就将整个数据仓库规划在Hadoop上。传统数据仓库架构的主要创始人RalphKimball博士在2015年的主题演讲中证实了Hadoop是可能的,它完全取代了MPP来构建数据仓库。”旭峰提到,“全球确实有很多公司完全把数据仓库搭建在Hadoop上。”但是从技术角度来说,一些数据仓库和Hadoop相比,技术或者工具已经很成熟了,可能有几十年的历史了。对于这些长期应用的数据库技术,Hadoop并不具备所有的功能或性能。但即便如此,很多用户还是选择在Hadoop架构上构建自己的数据仓库,以期获得更好的扩展性、更高的性价比和更好的灵活性。在实际应用中,即使只有5个节点的小型集群,使用Hadoop的企业也能获得比其他技术选择更好的产出,带来更多的商业价值和竞争力。ClouderaAnalyticalDatabase全面升级针对当前企业数据仓库(EDW)面临的ETL批处理作业运行缓慢、无法按时生成BI报表、业务用户提交查询结果显示延迟等压力,等,结合当前数据仓库的发展趋势,以及企业的云化需求,Cloudera分析数据库版本全面升级,2018年8月Cloudera数据仓库版本正式上线。许峰介绍,ClouderaAnalyticalDatabase已经在全球900多家机构运行,是一款在实战中打磨出来的产品。升级后的Cloudera数据仓库版本提供企业级混合云解决方案,包括混合计算、混合存储、混合控制三大关键要素,专为经济实惠、功能强大、可扩展的自助分析而设计。该产品涵盖了数据仓库的整个生命周期,包括数据访问、存储、管理、查询、健康检查等。Cloudera数仓版适用于以下三种ETL卸载场景:将ETL任务从EDW迁移到Cloudera大数据平台,极大释放EDW的处理能力。基于Hadoop的大规模分布式处理能力,ETL任务将运行得更快,并为包括EDW在内的下游系统提供服务,让之前错过的SLA成为过去。自助式BI和探索性分析:数据完全开放,各部门用户可在其安全策略范围内自助访问真实数据。借助ReadonSchema的灵活性和支持高并发查询的能力,开发人员和分析师可以实现自助数据探索,摆脱对IT部门的依赖,以最快的速度解决新问题。EDW优化:通过Cloudera大数据平台释放EDW处理能力,可以使用EDW系统进行更复杂的报表生成和热点数据处理,而无需长期增加EDW存储或计算资源。EDW与Cloudera大数据平台的mashup结构可以降低数据存储成本,提高数据处理和分析能力,充分发挥两个系统各自的技术优势。ClouderaDataWarehouseEdition的四大优势数据规模和灵活性:Cloudera提供了一个单一的、可扩展的平台,可以处理来自不同来源和类型的全量数据,以推动新的业务洞察力。该版本专为ReadonSchema功能设计,可快速访问源头全真数据,甚至支持实时更新。高性能高并发支持:Cloudera平台提供高性能SQL查询工具,支持大容量、高并发访问海量数据,各部门用户可对数据进行探索性分析。并且,通过与第三方BI工具集成,可以继承业务用户的现有技能。内置安全控制和数据治理模块:开放数据永远不会以牺牲安全为代价,敏感数据的安全至关重要。Cloudera是一个通过PCI安全认证的Hadoop平台,内置安全控制和数据治理模块。无论用户如何访问数据,只要使用Cloudera安全技术为用户预先设置权限或为数据预先设置监管政策,就可以继续数据探索之旅,无需担心数据泄露或未经授权的访问。采用开源技术,可在任何环境移植:无论部署在本地、云端还是混合环境,都完全适用,避免了技术锁定问题。大数据技术如何改造数据仓库?Cloudera大数据平台为企业用户提供强大的技术支持:首先,在数据处理方面,Hive拥有用户熟悉的大规模数据处理能力和SQL支持能力。Hive-on-Spark利用了ApacheSpark的内存处理引擎,可以带来更快的处理速度。Impala作为一个支持高并发查询的类MPP引擎,支持SQL开发人员和分析人员提交交互式查询。开发人员还可以将Hue用作开箱即用的SQL编辑器,为BI最终用户提供更好的自助服务。终端用户也可以选择通过第三方BI工具和平台进行集成,通过Impala查询接口,实现不间断分析。还建议将Kudu与Impala结合使用。这种新型存储引擎通过流计算或持续更新的数据处理,实现自助式BI和探索性分析,获得近乎实时的洞察力,从而更好地推动业务决策。其次,在数据安全方面,Cloudera将多层次的安全策略构建到平台的核心,让企业可以充分利用Hadoop的灵活性和可访问性,而不必担心数据安全。大量并发用户使用不同工具访问大规模用户数据通常意味着安全噩梦,尤其是对于受到高度监管或包含敏感信息的数据。对于用户本身,ApacheSentry允许安全管理员根据用户的角色轻松设置权限,并且跨平台自动保留访问权限。对于数据本身,Cloudera提供了企业级的加密和密钥管理功能。ClouderaNavigatorEncrypt通过底层芯片优化技术,让您在不影响上层分析性能的情况下,对包括元数据、日志等在内的所有数据进行加密。NavigatorKeyTrustee使您的加密密钥更加安全和独立。第三,在数据治理方面,只有Cloudera可以提供对整个Hadoop平台的全面治理,包括支持集中审计、字段级沿袭分析和数据生命周期管理。数据治理不仅对安全合规性至关重要,而且在用户行为验证和信心方面也起着关键作用。一方面,企业的安全团队可以充分了解谁在访问数据,访问的是什么数据;另一方面,数据管理员可以自动管理从数据导入到数据清洗的全过程;并且,业务用户还可以更好地理解数据,探索数据之间的关系,并验证最终的分析结果。此外,在负载管理方面,借助ClouderaManager的资源池工具,管理员可以确保每个部门都拥有满足其SLA和实现更好性能所需的适当资源。借助WorkloadXM,管理员可以轻松监控和调整资源,根据用户需求和当前使用状态对有问题的查询进行诊断和故障排除。配合ClouderaDirector,资源管理甚至可以扩展到云部署环境,可以根据用户需求进行弹性扩展。现代数据仓库环境下现有数据仓库的优化可以分为四个步骤。建议从历史数据和日志数据的处理入手进行技术验证,利用大数据技术处理“海量”混合结构数据,支持实时、在线和离线处理。逐步从客户体验和营销入手,突出商业价值。利用大数据技术提供实时分析能力。逐步全面融合传统数据仓库和大数据架构,让全量数据“可用+可见”,为业务人员提供自助数据服务,培养数据思维。从数据的角度重构现有价值链,从“用数据”到“养数据”,再到“数据经济”,利用大数据技术构建企业数据资产。Hadoop性能优化工具针对Hadoop性能优化,Cloudera提供了专为现代数据仓库设计的智能工作负载管理云服务——ClouderaWorkloadXM。与传统的性能管理工具不同,WorkloadXM提供引导式自助性能分析,以在整个生命周期内提供对工作负载的可见性和有效控制。ClouderaWorkloadXM无需升级或安装任何软件即可运行,这意味着用户可以跳过软件安装部署步骤,即刻使用。徐峰在这里举了一个例子:一个用户想用WXM来诊断当前数据仓库的性能瓶颈。首先,用户通过ClouderaManager收集大数据平台的日志诊断包,然后点击“开始上传”。WXM页面显示诊断包后台分析耗时30分钟左右。后台分析结束后,用户登录WXM仪表盘,从首页查看(8月13日-9月1日),共有676043次查询,查询失败比例为4.9%。仪表盘还显示了其他信息:每天不同类型查询的总数所有查询按持续时间、查询类型和DDL类型进行分类和汇总租户资源消耗排名需要关注的查询(包括前10个查询与最长运行时间;消耗CPU/内存最多的前10个查询;Alanizer规则标记的前10个查询;消耗资源最多的前10个租户等)该用户更关心运行速度很慢的查询.他点击“Distributionofquerieswithduration>5s”,得到如下汇总信息:超过5秒的查询总数和查询失败总数选中的查询按持续时间、查询类型、DDL类型分类。数量及占比%(语法错误、权限校验失败、等待时间长、Alanizerflag)热门查询用户该用户发现慢查询多为元数据查询,因此添加元数据识别过滤并调整时间范围查看详细查询每小时窗口中的信息。由于元数据查询基本上是由管理员提交的,因此将管理员用户添加到过滤器中。通过以上操作,用户最终得出结论,大多数慢查询不是业务查询,而是收集增量统计的查询。某城市商业银行大数据应用案例从传统数据仓库到大数据技术的转型是一项艰巨的工程,因此借鉴有价值的应用案例是众多业务管理者的共同选择。徐峰举了一个中国大型城市商业银行的大数据技术应用案例。城商行于2013年采购了Teradata企业数据仓库平台6650C(20TB),通过建立全行逻辑数据模型,聚合整合所有内部数据,建立全行统一的单一业务视图。但随着业务量的不断增长,原有数据仓库解决方案架构封闭、性价比低、应用范围窄、依赖厂商等诸多问题日益凸显。为避免每年花费大量资金扩充Teradata基础设施,城商行转而采用运行在X86标准硬件上的Cloudera大数据平台,逐步取代Teradata。城商行采用Hive、Impala、Spark、HBase等多种技术处理不同类型的数据,满足批量、实时交互、流式数据等多种数据计算需求。数据安全控制。由于Hadoop平台可以存储更多数据,Impala查询性能有了明显提升,城商行正在基于这些海量历史数据挖掘客户画像、精准营销、风控等新价值。据了解,城商行已将大部分Teradata数据仓库应用迁移至Cloudera大数据平台,包括CRM、监管报告、自助分析、数据检索、风险合规等相关应用。同时,基于大数据平台也产生了一些新的应用,如:实时营销及欺诈监控、在线明细查询等。数据仓库迁移过程中的问题及解决方案城商行也遇到了一些技术挑战。通过研发,结合以往数据仓库开发实践,逐渐找到了相应的解决方案:1.SQL引擎问题:解决TeradataSQL迁移的三大问题,使其能够满足数据仓库应用开发的基本需求:构建基于Python的运行框架,增加SQL解析层,解决SQL兼容问题;封装集成代码模板,解决各种运行状态跟踪及后续回滚处理,实现存储过程的效果;开发数百个自定义功能,覆盖日常使用,提升应用开发效率。2、数据模型改造:传统数据仓库的数据模型存在以下问题:模型过于规范化。模型开发过程繁琐且过于抽象。业务难以理解,无法满足SLA。新的模型转换方式:模型语义精细,反映业务规则;提高访问效率;弱化粒度分裂,降低维护成本;非规范化操作,用空间换取时间。3、数据质量管理:通过搭建数据质量检测平台,加强大数据平台数据仓库的日常数据质量管理。平台支持结合行业数据标准定义,批量配置技术规则和业务规则。目前已配置1000+条检测规则,为大数据平台数据仓库中的数据质量问题提供快速定位和流程化解决方案。Cloudera帮助企业改造传统数据仓库徐峰补充说,Cloudera可以通过以下三个方面帮助企业改造数据仓库:一是企业版功能的增强。Cloudera推出了针对企业应用优化的数据仓库软件版本,包含相应的工具和售后服务。与免费版相比,企业用户可以获得源码级技术支持服务,保障系统持续稳定运行;申请集群服务主动扫描,提前发现潜在风险和问题;使用增强功能的管理和维护工具集来简化系统操作和数据治理。二是大数据咨询与专业服务。Cloudera拥有一支在Hadoop方面具有丰富实践经验的资深专家团队。团队专业为数据仓库项目提供现场服务,包括:提供解决方案架构、应用实施、产品使用、系统优化等方面的咨询服务,定期提供集群健康检查,集群故障时的紧急救援服务,定制化服务根据客户需求等开展开发工作。三是人才培养。Cloudera大学是培训和认证提供商,提供业内最广泛的ApacheHadoop培训和认证。除了针对管理员、程序员、数据分析师和数据科学家等不同角色的商业培训外,还有非营利性和学术性的培训和交流。Cloudera还与清华大学达成战略合作。该项目旨在通过提供Hadoop平台的课程、软件和技术培训,培养更多专业领域的人才。结语传统数据仓库难以适应新时代的发展需求。面向云和大数据的数据仓库转型迫在眉睫。有必要吸取前人的经验,优化现有的数据仓库,才能顺利进行大数据技术的数据仓库改造。优秀的企业实践路径。显然,Cloudera在长期的技术和客户服务过程中总结出了一条切实可行的方法,在数据仓库产品、咨询、服务、工具和人才培养等方面进行了长期的打磨和锤炼。想要升级数据仓库以满足新的业务需求的企业不妨试一试。附:嘉宾简介徐峰,现任Cloudera售前技术经理、高级解决方案顾问,主要负责金融行业Hadoop项目的整体架构设计与实施,以及关键技术研究。在此之前,徐峰在Teradata专业服务部门工作。他拥有14年的数据仓库项目实施经验。长期从事数据存储、处理、分析等相关工作。作为首席架构师参与了多个大型数据仓库项目的架构设计。及项目策划工作,包括浦发银行数据仓库项目、兴业银行数据仓库项目、上海农村商业银行数据仓库项目、交通银行数据仓库数据、东航数据仓库项目等。【原创稿件,转载请注明】合作网站转载原作者及来源为.com]
