在大多数公司的资产负债表上,数据仍然被列为无形资产,其价值往往是不确定的、未被充分理解的。
使用。
IDC 为 Seagate《数据新视界》 报告提供的数据显示,只有 32% 的企业数据得到充分利用。
该研究机构对全球多个受访者进行了调查,发现剩余68%的企业数据未被开发和利用的主要障碍包括低效的数据管理、数据增长和扩展以及确保适当的数据安全。
为了从数据中获取最大价值,越来越多的企业开始构建基于云的数据湖或统一数据存储平台。
数据湖是聚合各种数据存储类型、提供弹性存储容量和灵活I/O吞吐量、覆盖不同数据源、支持多种计算和分析引擎的平台。
正如阿里云智能存储产品高级总监陈起鲲所说:“大数据就像石油,算力就像发动机,云原生企业级数据湖就像F1。
它将大数据和算力有机地结合在一起,帮助企业用户和互联网用户。
”梅赛德斯-奔驰拥有广阔的应用领域。
数据湖的规模可以达到数百PB甚至更大。
通过数据湖,企业希望创建所有数据的统一视图,并有效地理解这些数据集中反映的模式,从而指导他们采取有效措施来解决真正的业务挑战。
任何数据湖项目都存在巨大的风险:如果不进行有效管理,它可能会变成数据沼泽或数据仓库,未开发但具有潜在价值的数据都休眠在存储介质上。
。
大量的闲置数据“沉没”在这样的数据沼泽中,最终用户却无法访问,只能回首叹息——这是一种巨大的浪费。
为了防止数据湖变成数据沼泽,并保持数据湖的新鲜性、动态性和洞察力,CIO、CTO 和数据架构师必须做好以下四件事。
1. 清楚地了解您想要解决的业务问题有了明确的目标,就可以相对容易地确定您需要收集的数据以及从中获取见解的最佳机器学习技术。
大多数业务成果都可以从存储基础设施投资中受益。
此外,公司应寻求量化和评估此类投资的收益。
在广告行业,我们可以利用数据湖分析引擎,选择合适的渠道、触达合适的人群,开展精准营销活动。
在整个数据管理生命周期中,数据湖可用于执行数据收集、存储和分析任务。
通过这种方式,中国营销服务公司一点天下成功地将整体运营成本降低了约50%。
具体到城市道路和交通管理,高德地图和百度随时随地的自动驾驶路线规划和安全提醒服务,成为人们享受数据湖的最佳范例。
对于共享单车公司来说,数据都是通过自行车传感器收集的,并实时存储在基于云的数据湖中。
所有车辆信息(如本地服务、自行车状态信息)被激活,平台运营商可以制定更智能的维护策略,例如在不同区域放置适当数量的共享单车以及修复损坏的自行车,从而优化最终用户体验。
在制造领域,数据湖可以通过集成人工智能算法、深度学习和相关制造参数来提高盈利能力。
为了有效地实现上述目标,必须不断地将新数据引入数据湖中,以便使用适当的软件应用程序来获得最佳结果。
2. 捕获和存储尽可能多的信息 企业必须能够捕获正确的数据、识别数据、将其存储在需要的地方,并以可用的方式提供给决策者。
毕竟,激活数据(使用数据)始于数据采集。
由于物联网应用和5G部署项目的出现导致数据急剧增长,企业目前无法也没有能力捕获所有可用数据。
但是,越来越多的企业正在学习如何捕获和保留尽可能多的数据,以免错过其全部价值,无论是现在可以直接利用的数据,还是可以在新用例的帮助下实现的数据。
未来。
如果不保存数据,这个价值将永远无法实现。
在数据湖发展的早期阶段,只有超级用户才能“跳入”湖中,在其中游泳并找到合适的数据。
现在,结构化查询语言(SQL)已广泛应用于数据湖,为普通用户提供了更多的数据访问权限。
对于这些用户来说,重点是结果,引入人工智能和机器学习可以帮助筛选数据并寻找模式。
机器学习可以推进近实时分析、高级分析和可视化。
数据湖技术发展非常迅速,当前的发展重点是将正确的数据转化为价值。
将数据传输到管理良好的云存储服务可以帮助企业将其业务每天生成的数据转移到可扩展的数据架构中。
例如,中国电信实现了海量网络数据的一体化部署,统一运营并加载到天翼云,云网一体化,实现数据的统一管理。
高容量模块化存储解决方案(例如 Seagate 的全新 Lyve? Mobile)可帮助企业在边缘和云核心之间聚合、存储、移动和激活数据。
Lyve? Mobile 可更快地将大量数据从一个存储位置移动到另一个存储位置。
3.定期评估数据 数据湖需要审查和更新。
企业必须定期验证云中数据湖中管理的各种数据集,否则他们会发现数据湖变得越来越难以使用并且更加混乱。
更糟糕的是,企业数据科学家会发现在他们搜索的数据中找到模式越来越困难,或者他们可能根本无法找到它们。
云存储服务与人工智能和自动化软件相结合,预计将产生积极影响,使庞大的数据湖更易于管理。
它对于挖掘信息也有奇效。
那么挖掘信息最好的方法就是选择一个数据集,选择一种机器学习技术来挖掘信息,得到满意的结果后再应用到其他数据集上。
例如,在银行的欺诈检测中,基于人工智能的系统可以发现哪些类型的交易是欺诈的,然后根据交易频率、交易规模和零售商类型做出进一步的判断。
已经过时或不再相关的数据可以移动到另一个存储库,企业可能永远不知道它何时会提供新的、未被发现的价值。
为此,企业可以再次使用 Lyve 数据传输服务等数据移动服务,该服务旨在跨私有云、公共云和混合云环境移动大量数据,以实现快速、简单且安全的边缘存储和数据传输。
更快地获得见解。
4. 实施海量数据运营 IDC将海量数据运营或DataOps定义为“连接数据创建者和数据使用者的重要纽带”。
数据操作是每个成功的数据管理策略的重要组成部分。
完整的数据管理策略除了数据运营之外,还包括从端点到核心的数据编排、数据架构和数据安全。
数据管理的目标是提供数据的整体视图,以便用户可以访问数据并从中获得最大价值,无论是动态数据还是静态数据。
结论《数据新视界》报告显示,当今的企业正在不断产生海量的企业数据,预计2010年至2018年企业数据的年均增长率将高达42%。
另一项由希捷和希捷委托进行的研究IDC 的调查发现,企业经常在不同存储位置(端点、边缘和云端)之间移动数据。
在接受调查的一千多家组织中,超过一半每天、每周或每月在存储位置之间移动数据,平均数据传输大小超过 1 TB。
公司越快地将这些数据从边缘转移到云端,他们就能越快地发现见解并从数据中获取价值。
随着疫情导致数字化加速,许多企业正在收集和管理比以往更多的数据。
创建动态且富有洞察力的数据湖可以为企业数据管理策略的长期成功奠定坚实的基础,从而推动数字基础设施和业务计划的成功。
完成上述四件事将确保您的企业拥有一个充满活力的数据湖,以实现可扩展、安全和合规的未来数据驱动的业务模型。