企业级数据湖最佳实践

时间：2023-04-02 01:55:43 Java

简介：在2021云原生企业级数据湖云栖大会上，阿里云智能高级解决方案架构师周浩为我们分享了《企业级数据湖最佳实践》。本文主要分享数据湖的核心能力和几个最佳实践案例。以下为精彩视频内容：一、数据统一存储，多引擎对接，运存分离在开始本节之前，我们先来回顾一下数据湖的几个核心能力：集中存储，多引擎对接各类数据集中存储在OSS中，无缝对接EMR等各种计算引擎，支持开源计算生态数据无需处理，直接存储，对接各种数据输入源，提供便捷的数据访问和数据消费渠道，各种类型的数据可以直接以原始形式存储，然后根据需要进行处理。相比传统的数据仓库模式限制结构，更适合业务快速发展的应用场景。更灵活的架构和运算与内存存储和计算的分离带来了非常好的效果。弹性，通过计算和存储的解耦，提供更灵活的系统架构设计空间，让计算和存储资源具有更好的可扩展性，充分提高资源利用率，大大降低运维管理难度，优化TCO。这也是本文所述案例中客户选择数据湖解决方案的重要原因。2、最佳实践案例Yeahmobi-移动互联网广告实践案例Yeahmobi作为一家技术驱动的国际化智能营销服务公司，主要从事智能营销业务，日常业务波动很大。如果采用传统架构，必须根据业务的峰值来准备资源，很多CPU资源得不到充分利用。这也是很多智能营销互联网企业的痛点。基于此，大多数企业选择了数据湖解决方案。存储和计算解耦，可以根据在线业务量的变化动态增减计算资源的使用量，减少资源常驻量。各类计算引擎可以通过数据湖解决方案轻松对接网络广告各种场景所需的分析需求，整体TCO优化达30%，让业务形态更具竞争力。只要将数据存储在数据湖中，计算资源就可以根据业务变化动态扩展和创建，只需要维护最小的常驻计算资源。足够的。在这种情况下，结合EMR的半管理和全管理两种模式动态扩展计算和分析的能力，可以大大降低运维难度。这也是很多智能营销企业选择这个数据湖解决方案的原因。Yeahmobi选择该数据湖解决方案后，TCO降低了30%。数禾科技-互联网金融实践案例数禾科技是一家互联网金融科技公司。由于其行业特点和自身业务场景需求，对数据的安全性和可靠性以及细粒度的数据访问控制有很高的要求。要求。束河服务于大量的内外部用户，数据安全敏感，需要严格的数据权限隔离。其次，整个业务变革也需要非常强大的吞吐能力来支撑计算和存储。其实在束河的发展过程中，最先采用的是最常见最常见的大数据集群搭建方式，就是通过服务器来搭建。但是，很快就发现这种方式跟不上业务的快速发展：首先，存储成本大幅增加，一个标准的HDFS集群有3个冗余备份。在考虑水位和整个文件系统的开销等因素后，存储成本明显增加。其次，由于业务的快速扩张，如果频繁增加HDFS集群节点，会影响业务的可用性。基于以上原因，束河选择了阿里云数据湖解决方案。数据湖以对象存储OSS为基础，无需担心扩容或小文件的增加。文件数量的快速增加会给HDFS集群的NameNode带来很大的压力，但是对象存储结构不需要担心文件数量的增加，即使对象数量达到万亿级水平，没有压力。采用数据湖的方式后，多桶切分和阿里云的RAM系统可以实现非常细粒度的访问控制。比如在软件层通过OSS和EMR优化的JindoFS方案，可以输出超过TBS的吞吐量来支撑整个业务的需求，实际运行体验超越自建HDFS。此外，通过云上的弹性资源能力，任务可以按需弹性扩展到数千个节点，达到降本增效的效果。数据湖经典使用场景——冷热数据分层模式特点应用和业务系统长期积累了大量的冷数据。不断增长的冷数据给现有集群的存储空间带来了不小的压力。既要解决冷数据存储空间，同时又要预留经常访问的热数据，用于性能优化。应优化冷数据的长期存储成本。它应该比热数据的存储成本低很多，冷数据应该易于读取。冷热数据分层是数据湖的经典应用。应用和业务系统的长期运行，会产生大量的冷数据，给整个集群的运维带来很大的压力。一方面，存在规模压力。通用大数据集群中的服务器架构相对同质化，导致冷数据的优化空间很小。如果加入高密度或差异化购买的模型，在实际操作中，集群操作会大大提高维度管理的难度。另一方面，在IDC环境下，如果要快速扩容，物理集群会受到很多因素的限制。这就是为什么许多数据湖客户从传统的大数据集群架构迁移到数据湖的原因。目前，很多客户已经拥抱数据湖，充分使用OSS。当不能一步完成时，客户会先把暖数据和冷数据结算到OSS。早在2016年，OSS就已经与Hadoop生态全面融合。Hadoop3.0可以直接接入OSS，写好的任务无需任何修改直接运行，大大降低了迁移难度。迁移后，OSS上的智能生命周期管理只需配置一个生命周期策略，冷数据就可以进一步按规则入库、冷归档，进一步降低成本。教育科技平台实践案例客户价值通过OSS多存储类型和数据生命周期管理，实现冷数据长期存储的成本优化。通过云端承载冷数据，IDC自建集群无需扩容，解决机房空间问题。通过OSS数据湖的高扩展性，有效帮助客户解决大数据存储的性能吞吐问题，避免元数据节点上自建HDFS文件系统的性能瓶颈。客户已经在计划通过云上的弹性资源进一步扩展计算资源，减少一次性资源投入这是一个冷热分层的实际案例。教育平台涉及的业务场景包括各种日志的收集，通过使用的日志帮助学生提高学习。这个客户也面临一个问题。采集大量日志后，会对空间占用造成很大的压力。客户也自建IDC，物理空间在一段时间内难以完成扩容，最终选择了数据湖方案。IDC与阿里云通过专线连接，利用阿里云的资源对现有IDC进行扩容，再通过专线将线下的冷数据迁移到数据湖，为线下业务腾出空间。压力释放之后，空间变得非常灵活。然后，将很多应用日志直接存储在湖中，利用对象存储和多版本能力，为数据可靠性提供更多保障。同时利用冷归档能力进一步沉淀温数据，降低成本。入湖数据通过专线拉取到本地计算。而在数据湖的使用过程中，如果客户想进一步利用云端的计算资源扩展计算能力，则无需一次性购买离线计算服务器，进一步降低了成本。全球网络游戏实践案例客户价值通过日志服务，打通应用日志的采集和传递，接入实时计算引擎，为后续的用户热图、用户轨迹、用户登录、上线等提供数据支持人口统计。通过OSS数据湖承载所有日志数据的长期存储，结合离线分析引擎，可以对日志数据进行更深入的分析。全球统一架构部署，对于一款面向全球的游戏，可以保证全球任何地区都可以使用相同的部署方式。简化运维部署难度全球化游戏通常服务于全球玩家，需要全球统一架构部署，降低运维难度。阿里云数据湖可以在全球任何区域使用相同的部署方式。充分匹配客户的需求。另外，游戏行业日志的收集非常关键。比如游戏在线用户数的大屏显示，就是收集应用服务器的日志进行分析。对于这个客户，我们使用阿里云的日志服务，从上千台机器的应用服务器实时采集日志，推送到Flink进行实时计算，并将结果实时写入ClickHouse，提供实时查询。在这个场景中，OSS作为日志的永久存储。SLS定期将采集到的日志投递到OSS，通过OSSSDK和一些命令行工具将部分应用日志直接传输到OSS，存储在OSS中的日志可以进一步离线分析，比如通过Spark、Hive进行更大规模的分析，并将深度分析的结果写入ClickHouse，以提供更多的分析查询。小鹏汽车-自动驾驶实践案例数据湖与各类存储产品无缝对接。在这个自动驾驶案例中，我们提供了从采集到存储到分析的完整解决方案。LightningCube提供车载部署能力，解决自动驾驶场景下每天采集的大量道路数据的存储问题。提问，数据上传到OSS后，可以直接使用阿里云的各种计算引擎，包括EMR、MaxCompute等，对数据进行各种清洗、标注和分析。CPFS是阿里云上一款支持大规模并行计算的存储产品。它具有非常高的吞吐量和posix语义。OSS数据湖与CPFS之间的无缝数据流，使得训练数据可以传输到CPFS，在数据GPU上进行分析，最终结果回写到OSS长期存储。不仅在互联网领域，在自动驾驶和高性能计算领域，数据湖也得到了广泛的应用。希望更多的用户能够将阿里云数据湖引入生产业务。原文链接本文为阿里云原创内容，未经许可不得转载。

上一篇：并发-分布式锁质量保证总结

下一篇：玩转Java8 Stream，代码效率飞升

企业级数据湖最佳实践相关文章