【.com快译】本文回顾分析了现代数据架构的几个部分。为了使大数据在实际中大规模使用,许多企业组织都在努力采用易于使用的数据分析技术。也许他们应该考虑将一些功能外包给云端。通过选择可以处理Hadoop、Spark和Hive等大数据技术的资源密集型和耗时操作方面的大数据即服务解决方案,企业可以专注于大数据的好处,而不是关注无聊的东西。工作。大数据的出现引发了以下领域的基本问题:组织如何发挥其潜力如何将其价值引入组织的更广泛部分如何将这些数据与现有的企业数据仓库(如企业数据)集成用于仓库(EDW)和数据集市的主流大数据技术是ApacheHadoop。它经常与Hadoop庞大的生态系统中的其他技术结合使用,例如ApacheSpark内存处理引擎、ApacheHive数据仓库基础设施和ApacheHBaseNoSQL存储系统。企业若想将大数据纳入其核心企业数据架构,必然需要修改或购买大数据服务技术。适合当今需求的现代数据架构应包括以下部分:Hadoop上的高性能、分析就绪数据仓库**实践是您可以使用Hadoop数据湖创建分析数据仓库,将其封装到最常用的数据集,然后建立维度模型。借助Hadoop上分析友好的数据仓库,组织可以获得最快的查询响应。这样的模型很容易让业务用户理解,并且可以很容易地探索业务环境如何随时间发生变化。此分析数据仓库不仅必须支持对已知用例的报告,还必须支持对计划外场景的探索性分析。但是整个过程对于用户来说是无缝的,用户不需要知道是否直接查询Hadoop上的分析数据仓库。便于“业务语言”数据分析的语义层大数据如何在实际业务中更容易为用户所用?为了隐藏原始数据中的复杂性,以通俗易懂的业务术语将数据呈现给业务用户,语义叠加(semanticoverlay)。该语义层是数据的逻辑表示,可以在其中应用业务规则。例如,语义层可以将“高价值客户”定义为“三年以上并经常购买新产品或续签合同的客户”。“高价值客户”的数据可以从不同的表中获取,经过不同层次的计算和转换,最终进入语义层,这一切对于查询“高价值客户”的业务用户来说都是不可见的。以前,业务用户必须直接查询Hadoop,这是不切实际的,或者向IT部门询问信息,这意味着在报告请求队列中等待。语义层使业务用户能够使用熟悉的业务术语分析和探索数据,而无需等待IT确定请求的优先级。它还有助于不同用户重复使用数据、报告和分析,保持一致性并使IT部门不必逐案处理每个请求。多租户大数据环境如何访问整个企业组织的大数据,而不管人们位于何处?由于对数据分析的广泛需求,企业组织需要采用混合的集中式和分散式数据处理方法。这允许不同的术语考虑本地数据集和语义定义,同时访问IT部门创建的公司数据资源。这种混合方法可以通过多租户数据架构来实现。在该架构中,IT部门收集并清洗数据,将其放入共享的Hadoop数据湖中,并使用数据准备一个集中的语义层和分析数据仓库。然后,IT为财务、销售、营销和客户支持等不同业务部门创建集中数据环境的虚拟副本。通过这种方式,IT保留了对数据治理和语义规则的统一权限,而业务组和部门可以真实地看到其日常业务活动对存储在Hadoop中的历史或企业数据的影响。用户友好的消费者分析如何使大数据分析易于用户掌握?处理大数据的最终用户最重要的考虑因素之一是数据将以何种形式表示。这些数据接口将满足每个用户的独特和个性化需求。这种需求包括面向业务用户的高度交互和响应迅速的仪表板、面向分析师的直观可视化发现机制以及面向信息消费者的计划报告。虽然每个都是独一无二的,但最佳做法是确保每个界面都不是独立的工具,以便在创建、协作和发布信息时确保一致性和准确性。这只有通过确保数据值保持一致的语义层才有可能,而数据表示可能因用户界面而异。大数据对企业越来越重要,是企业数据架构的基础组成部分。为充分发挥大数据的潜力,企业需要加快获取能够高效分析和存储数据的技术。大数据和分析的云解决方案使这成为可能。有了这个解决方案,企业可以为未来的数据增长做好充分准备,进而在不断发展的大数据生态系统中脱颖而出。原标题:大数据即服务无需繁重的工作即可提供分析优势
