当前位置: 首页 > 科技观察

数据湖的发展趋势将给企业带来什么

时间:2023-03-19 23:20:01 科技观察

数据湖趋势对企业意味着什么在数据挖掘中产生有竞争力的洞察力的关键工具。Pentaho创始人JamesDixon于2010年创造了“数据湖”一词。他对“数据湖”的描述如下:“如果您将数据集市视为瓶装水的存储场所——经过清洁、包装和结构化以供消费,那么数据湖是一大片水域。”然后,许多人质疑组织是否正在创建具有商业价值的数据湖,或者创建价值有限或没有价值的数据沼泽。考虑到这一点,行业专家MarcoIansiti和KarimLakhani建议,“数据湖(数据是原始来源)是数据平台的一部分,数据从下往上流动……数据平台聚合、清理、提炼和处理在湖中捕获的数据”。考虑到这种更微妙的观点,接下来的问题是:数据湖在其炒作周期中扮演什么角色?为了回答这个问题,行业媒体询问了多位CIO和行业专家的意见。数据湖的结果是什么?CTOSteveJones说:“我的组织部署了很多数据湖,通常它们有三个基础:(1)弥合传统企业数据仓库不一致的鸿沟;(2)使机器学习和人工智能更容易实施;(3)数据的提取和组织工业化。这样做的目的是让组织专注于结果,而IT团队专注于提供数据,而不是将系统集成到数据集市/仓库中。如果你有了它,用例就会变得无穷无尽。”作为数据湖实施者,CIODebGildersleeve表示她的组织已经为业务部门实施了特定主题的数据湖,他们正在获得洞察力,并且在为业务用户提供访问方面确实发挥了重要作用。CIOJimRussell也采取了类似的做法自助服务方法,并为供应商部署了一个数据湖。他说:“这是我们修复数据并开始查看流程的三年成熟度计划的一部分。”它的驱动力很难判断,因为它代表了一个整体范式转变为我们的组织。所以它证明了这一点,但我们并不感到惊讶。与此同时,企业架构师CraigMilroy表示,“我们在不同的平台(AWS、Azure和Cloudera)上继承了一个数据湖。每个领域都专注于从数字到5G的特定业务成果。我认为我们正处于价值驱动之旅的开始。要使业务价值和成果与技术投资保持一致,还需要做更多工作。与此同时,首席信息官MelissaWoo从她的数据湖中看到了不确定的业务成果。“我们的分析主管实施了一个数据湖在它成为现实之前,但对于我们组织而言,并没有那么多需求。我们的客户仍然需要传统的数据仓库和报告功能。我们的公司总裁仍然对拥有适当基础设施的可能结果非常感兴趣,并且非常喜欢数据湖这个词。更糟糕的是,CIOBenHaines说:“许多数据湖正在变成数据沼泽,浪费数据机会。”上述讨论让MarkThiele提出了这样一个问题:“数据湖是否会取代其他数据存储库,还是只是一项增值服务?”与数据仓库相比,数据湖的最大机遇是什么?对于电信行业高管MilRoy来说,数据湖为来自5G终端的大量非结构化数据提供支持。这不适用于传统的数据仓库方法,尤其是在线/实时流数据和分析功能。他表示,针对特定的业务需求,将适合特定用途的工作负载部署到数据湖中。StephendiFilipo同意Milroy的建议并表示,“数据湖提供了收集、存储和分析所有数据、格式和非结构化元数据的能力,而这对于传统的数据仓库存储库来说是不可能的。与类似的观点一样,Gildersleeve看到数据湖最大的机会是能够比传统数据仓库更快地应用焦点和移动。这使得更多人可以访问数据。CTOSteveJones在这一点上断言数据湖数据仓库和数据仓库之间的区别在于能够从“变更数据捕获”转移到所有变更的历史记录。有了数据湖,就可以捕获整个历史记录,而无需仅提取报告所需的数据。Gartner分析师NickHeudecker在评论这个讨论时总结说:“数据湖应该被视为探索系统。它们补充了数据仓库方法。数据湖项目成功或失败的驱动因素是什么?首席信息官们对成功的数据湖项目的性质有着不同的看法。一些人认为,当来自多个业务部门的数据被合并以创建一个融合而不是历史报告的总和时,数据湖是利用它的最佳方式。CIOMelissa说,“它已经成为我们解决问题的一部分。如果不同的群体不愿意提供数据,那么数据就没有什么价值。显然,分析成熟度仍然很重要。但是,成功实现这一点的组织将成为分析公司或竞争对手。”当企业能够为共同目的进行协作时,就像来自许多设备、合作伙伴和重要领域的数据流一样,但我们只是从头开始,”CIOMcBreen说。对于人工智能和机器学习,这可能是使用它们进行增强。“对于CIO来说,重要的是要帮助执行团队了解有价值的数据湖和数据沼泽之间在成功或失败驱动因素方面的区别。常见问题包括:(1)缺乏业务定义的用例/结果。(2)缺乏人际交往能力。(3)资源不足。(4)期望过高。(5)数据素养和流畅性。(6)数据质量。(7)数据治理。经常遇到困难是因为没有确定目标受众。这会影响可用的工具、所需的数据素养水平等。而认为数据湖只是一项服务的观点是不正确的。随着首席数据官的出现,CIO可以在哪些方面增加最大的价值?DiFilipo建议“企业的CIO也将成为为首席数据官提供数据平台的数据资产管理者”。CraigMilroy表示,出于这个原因,CIO应该让分析、数据科学和数据更容易获得高质量、更易于理解的数据,从而推动业务价值和成果。结语CIO继续在数据管理方面发挥重要作用。数据湖为他们提供了增值的潜力。显然,由于采用数据湖的结果喜忧参半,许多组织都面临业务失败。但对于一些将数据湖视为生成数据或使用数据结构进行分析的平台的组织来说,为加速业务转型而付出一些代价是值得的。原标题:KeyTrendsinDataLakes,作者:客座作者