Gartner警告:不要将数据湖与数据仓库混为一谈2014年年中,市场研究公司Gartner的两位分析师对日益炒作的数据湖概念提出了尖锐的批评。“数据湖的根本问题在于它对信息的消费者做出了某些假设,”Gartner研究总监NickHeudecker说。他们知道如何在没有“先验知识”的情况下合并和协调不同的数据源;假设他们了解数据集的不完整性,无论数据结构如何。”一年半之后,Gartner的担忧似乎并没有得到缓解。虽然有成功的项目,但也有失败的,并且关键的成功因素似乎是对数据湖和数据仓库各自扮演的不同角色的深刻理解。Heudecker说,数据湖经常被供应商描述为应对大数据挑战的一种手段。它实际上可以帮助你找出新的关于你的数据的问题,“前提是你有相应的技能。”这是你想做的,我不太关心数据湖的具体实现。但是如果你的场景是重新实现原来的服务数据仓库到数据湖的级别协议(SLA),风险非常高。”Heudecker数据湖经常针对不同的用例、并发性和多租户级别进行优化,说。“换句话说,不要发疯,将数据湖用作数据仓库。”他说,两者都需要是完全合理的,因为每个都针对不同的服务级别协议、用户和技能进行了优化。从广义上讲,数据湖是一个企业范围的平台,用于分析本地格式的不同数据源,以消除数据摄取的成本和数据转换的复杂性。挑战就在这里:数据湖缺乏语义一致性和受监管的元数据,因此将大部分分析负担交给了熟练的用户。Heudecker说,意识已经提高,但数据湖炒作仍然很普遍。随着实施数据湖的技术选择不断快速变化,该技术的成熟度更难管理。“例如,流行的数据处理框架Spark平均每43天发布一个新版本,”Heudecker说。”他表示,数据湖项目的成功因素归结为元数据管理,是否具备技能并实施适当级别的治理机制。根本找不到任何有价值的信息。其他人根本不知道哪些数据集不准确,哪些是高质量的。与IT行业的其他领域一样,这里没有灵丹妙药。他表示,数据湖是一个架构概念,而不是具体的实现方式。实践。数据湖将继续是使用它们的数据科学家的真实反映。该技术可能会发生变化和改进,并且可能会利用GPU或FPGA之类的东西,但总体目标是发现数据的新用途和机会。》原文:数据湖,不要将它们与数据仓库混淆,Gartnerwarns[.com独家翻译,合作站点转载,转载请注明出处]
