像大数据一样,数据湖一词有时被贬低为支持它的产品的营销标签。但是,该术语被接受为描述任何大数据库的一种方式,在该数据库中,在查询数据之前,该术语未定义的架构和数据要求。
数据湖有望加快向商业社区的信息和见解的交付,而不会因IT以IT中心数据仓储过程施加的麻烦。
数据湖的优势
数据湖使企业用户立即访问所有数据。
湖中的数据不仅限于关系或交易
使用数据湖,您无需移动数据
数据湖赋予业务用户,并使他们摆脱IT统治的纽带
数据湖速度通过使业务部门能够快速站立应用程序来交付
充分帮助生产和高级分析
提供具有成本效益的可伸缩性和灵活性
提供无限数据类型的价值
降低了长期所有权成本
允许档案的经济存储
快速适应更改
数据湖的主要优点是不同内容源的集中化
来自各个部门的用户可能散布在全球范围内,可以灵活访问数据
数据湖缺点
数据处理未知领域
数据治理
处理混乱
隐私问题
传统数据的复杂性
元数据生命周期管理
荒凉的数据岛
集成问题
非结构化的数据可能导致无法控制和无法使用的数据,不同和复杂的工具
增加存储和计算成本
没有办法从与数据一起工作的其他人那里获得见解
数据湖泊的最大风险是安全性和访问控制。一些数据可以放入湖泊中而无需任何监督,因为某些数据可能有隐私和监管需求
未来
有许多组织使这种方法成为现实,在Google,Amazon和Facebook开发的内部基础架构为开发人员提供了Data Lake Dream的优势和敏捷性。对于这些公司中的每一个,数据湖创建了一个价值链,新型的业务价值出现了:
使用数据湖进行Web数据提高了Web搜索的速度和质量
使用数据湖进行点击流数据支持更有效的Web广告方法
使用数据湖进行跨渠道分析客户互动和行为,为客户提供了更完整的视图
数据湖泊可以使零售商从原始数据,日志文件,流音频和视频,文本文件和社交媒体内容等原始数据中获利见解,以快速识别实时消费者行为并将操作转换为销售。这样的360度个人资料视图使商店可以更好地与客户互动,并在现场推动定制优惠,以保留业务或获得新的销售。
数据湖泊可以通过允许研究人员就可以提供高度复杂的数据资产的财富做出更明智的决策来帮助公司提高研发绩效,从而为高度复杂的数据资产的财富提供供应高级预测性和规定性分析。
公司可以使用数据湖泊将各种来源产生的不同数据集中,并运行分析和ML算法是第一个确定商机的数据。例如,一家生物技术公司可以实施一个数据湖,该数据湖接收制造数据,研究数据,客户支持数据和公共数据集,并通过不同的用户界面为各种用户社区的研究过程提供实时可见性。
无论您现在在哪里,都要花一些时间来展望未来。我们正在将企业数据连接在一起的旅程。随着业务越来越纯粹的数字化,访问数据将成为关键的优先事项,开发和部署的速度也将成为关键。数据湖是一个可以符合这些需求的梦想。全球数据湖市场在2019年的价值为79亿美元,预计将以2024年的复合年增长率(CAGR)增长20.6%,达到201亿美元。
艾哈迈德·巴纳法(Ahmed Banafa),作者:
使用区块链和AI安全且智能的物联网(IoT)
区块链技术和应用
参考