数据湖听上去很简单:将数据或信息汇集到一个集处理速度和存储空间于一身的大数据系统——Hadoop集群或内存解决方案,让业务部门通过访问数据获得收益新见解。然而,与IT行业的许多技术一样,现实比梦想困难得多。Pentaho创始人兼首席技术官JamesDixon是这个词的创造者,他说部分原因是对数据湖应该是什么的误解。他从没想过用数据湖来描述从所有企业应用程序中获取数据的巨大Hadoop存储库。什么是数据湖?Dixon说:“当人们问什么是数据湖时,我告诉他们这就是你曾经在磁带上拥有的东西。把你在磁带上拥有的东西倒入数据湖,然后开始探索这些数据。我们的观点是,只是将您需要的数据倒入Hadoop;如果您想将来自数据湖的信息与客户关系管理(CRM)系统中的信息结合起来,我们将连接起来,仅在需要时执行此数据融合。”尽管Dixon的初衷并非如此,但该术语具有更广泛的含义并具有更大的前景。人们开始将大数据湖视为解决集成挑战的一种方式,方法是将所有数据放入一个超快、易于访问的存储库中。实际上,存储库反而变成了缓慢、僵化的数据沼泽。大数据需要特殊的专业知识来分析数据。使用原始数据得出的结论在数据质量和治理方面引发了危险信号。GartnerIT安全数据和分析组的数据管理研究员NickHeudecker表示:“每个人都想将数据湖视为IT行业的灵丹妙药。以前有过这样的吗?一种银弹?我还在等待。我认为一旦你过了那个发现阶段,还有更多的工作要做。就数据湖而言,同样的基础设施会有所帮助,但是一旦你使用这些数据来回答你生成的问题就需要深入研究专业信息管理的世界。因此,鉴于数据湖的现状,您如何利用它们为您的企业带来最大优势?专家表示,数据湖有四个关键的最佳实践:了解何时使用数据湖不要忘记当前情况一些数据管理最佳实践,例如建立强大的数据管理了解数据湖的业务原理,因为这将确定合适的架构注意元数据1.了解数据湖的用例想要构建一个成功的数据湖,企业需要摆脱数据湖允许您将所有数据收集在一个地方的想法。同样重要的是要了解数据湖不会取代企业数据管理系统和实践——至少在大数据的当前状态下不会。“组织仍在谈论数据湖,但他们也认识到并非所有数据湖都是相同的,”MapR数据和应用程序高级副总裁JackNorris说。您只需要一定数量的功能,或者我们听到人们谈论数据沼泽,很难让数据流入和流出,数据就卡在那里。“鉴于数据湖没有按计划运行,它还实用吗?专家说可以,但前提是你了解它的局限性。”Hodek说:“在我看来,它是数据科学沙箱。你在这里处理数据,试图找到新的见解。一旦你发现了新的见解,将数据保留为原始格式是否有意义?我认为这没有意义,因为您现在需要优化数据。您需要确保数据受到治理,数据在语义上是一致的,并且满足业务用户的要求,所以在我看来,数据湖就像一个实验室。你可以用它做其他事情,但对我来说,当我建议客户时,我试图建议他们以这种方式思考他们的数据湖。“它并不像听起来那么局限。例如,Hodek特别指出,企业使用数据湖从物联网部署中获得洞察力,”TDWIResearch数据管理研究总监PhilipRussom说。数据湖具有多种作用,例如为敏捷数据仓库提供更大的灵活性和报告。数据湖也经常充当Hadoop集群和数据集成的数据登陆和暂存区。Lasom在一封电子邮件中说:“在极端情况下,数据湖直接从数据源获取原始数据,而无需任何清理、标准化、重塑或修改.使用原始的、未更改的详细源数据的目的是,当出现新的和独特的分析需求时,可以在运行时实时更改数据。这假设一旦您更改了特定用途的数据,输出数据在某种程度上限制了其他用途。2.Rusom补充说,利用现有的数据管理最佳实践可以跨越这些更简单的用例,但这需要的不仅仅是将数据转储到数据湖中。他在一封电子邮件中写道:“有些用户多年来一直在使用某种形式的数据湖(甚至在新的Hadoop上),我们可以从他们的成熟度中学习。用户明白更大的效用(即商业价值)可以如果数据湖的某些部分(很少是整个数据湖)需要某种结构,则可以从数据湖派生。“这也意味着,在分析数据湖存储系统或与企业应用程序集成时,企业组织不能忽视硬-赢得了过去两三年的数据经验教训。审计跟踪记录、数据完整性、数据管理、数据治理和数据所有权,这些仍然适用。3.了解数据湖的业务案例技术人员喜欢说IT项目应该从业务开始,但在这里,这是确定如何构建数据湖的关键的第一步。业务基本原理不仅影响架构,而且决定架构。例如,Dixon指出,在公司对Hadoop集群早期采用者的采访中,80%到90%的用例是针对结构化数据而非非结构化数据的。数据。根据Hodek的说法,确定您的数据是否可以构建在传统关系数据库、Hadoop集群或其他NoSQL替代方案中的关键是了解您的业务用例是什么以及它需要什么类型的数据,例如,关系数据库适用于物联网传感器数据,这意味着您可以节省聘请NoSQL人才的成本。业务原理还将决定您是否要在任何NoSQL解决方案上使用某种SQL支持。如果将数据传输到企业分析工具中,那么您必须考虑如何支持数据安全实践。Norris说:“重点永远不会只放在数据上,而是始终放在你要做的事情上。用例是什么,你可以使用哪些应用程序来处理数据并从中受益。4.支持元数据***,关注元数据。元数据一再出现,它是确保数据湖是一个可行的策略而不是数据坟场的关键。这里的好消息是大数据和分析供应商正在推出元数据将数据添加到数据湖和其他大数据存储系统的工具。例如,元数据注入是PentahoBusinessAnalytics6.1的关键部分。Dixon说:“在这个阶段,人们意识到大数据确实带来了其他数据存储系统所没有的东西不能带。现在它的行为与任何其他企业应用程序一样。现在它需要安全性,它需要监控、记录和审计,它需要元数据,它需要更健壮、更实用、更人性化。我认为这是它越来越成为企业IT标准工具的结果。元数据也是Gartner确定的新趋势的关键:“连接,而不是收集,”Hodek说。与其将数据移动到越来越大的集群或数据仓库,不如让数据留在原地更便宜、更容易、更高效。他说:“最大的挑战是元数据和元数据管理,这是企业最应该关注的。如果你对你的数据的元数据有一个非常清晰的认识,你就可以解决很多你可能拖延或拖延的事情,而你工作很忙。所以,只要你有好的元数据,你就可以解决治理问题,你可以解决安全问题,你可以解决任何数据质量问题。“只要你专注于此,你就可以打下坚实的基础,然后在此基础上,随着需求的变化和您对用例的理解变得更加清晰。”
