简介:2021年Yunqi会议Yunqi Atlantic Enterprise-级数据湖特别节目,阿里巴巴云智能实心解决方案建筑师Zhou Hao为我们带来了“企业数据湖的最佳实践”。
本文主要分享数据湖泊和几个最佳实际情况的核心能力。
以下是一个很棒的视频内容:
在本节开始之前,请查看数据湖的核心能力:
各种类型的数据均匀存储在OSS中,无缝连接到各种计算机(例如EMR),以支持开源计算生态学
停靠各种数据输入源,提供方便的数据访问和数据消费者渠道。可以根据原始形式生成的原始形式直接存储各种类型的数据。
存在分离体系结构具有很好的灵活性。通过计算和存储去耦,它提供了更灵活的系统体系结构设计空间,从而使计算和存储资源具有更好的可扩展性,完全改善了资源利用率的利用率,从而大大减少了操作和维护操作以及维护的运行和维护难度,从而优化了TCO。这也是客户在本文中选择数据湖解决方案的重要原因。
是的,莫比摩托的互联网广告练习案例
是的,作为技术驱动的企业国际智能营销服务公司,主要涉及智能营销业务,日常业务波动非常大。将导致许多CPU资源无法最大化使用。这也是许多智能营销互联网公司的痛苦点。基于此,大多数公司都选择了数据湖解决方案。
只要数据存储在数据湖中,就可以根据业务的变化来动态扩展和创建计算资源。在这种情况下,足以维持最小的居民计算资源。在这种情况下,将EMR动态望远镜计算和一半 - 库斯塔德和完整库的模式的分析的能力大大降低了操作和维护的难度。这就是为什么许多聪明的营销公司选择此数据湖解决方案。是的,Yeah Mobi选择了此数据湖解决方案,TCO减少了30%。
Digo Technology Internet财务实践案例
Duhe Technology是一家Internet Fintech公司。由于其行业的特征及其自身的业务情况需求,数据的安全性和可靠性以及数据访问控制的良好粒径。Digo为大量内部和外部用户提供了服务。数据是安全和敏感的,严格的数据权限是构造的。第二,整个业务变化也需要非常强大的吞吐量才能支持计算和存储。
实际上,在Duhe的开发中,最早使用最常见和最常用的大数据集群构造方法不仅是通过服务器构建的,而且很快会发现该方法无法跟上该方法的快速发展业务:首先,存储成本的增长显着增加,这将大大增加。标准HDFS群集是三个冗余备份。在考虑了整个文件系统的开销之后,存储成本大大增加。第二,由于业务的迅速扩展,如果HDFS群集节点经常增加,它将影响业务的可用性。
基于上述原因,Digo选择了阿里巴巴云数据湖计划。数据湖使用对象存储OSS作为基础,而不必担心容量的扩展或小文件的增加。文件的迅速增加将对HDFS群集的Namenode造成相对较大的压力,但是不必担心对象存储结构中文件数量的增加。即使是万亿级的对象号,也没有压力。采用数据湖方法后,将多支桶分为阿里巴巴云的RAM系统,可以实现非常微妙的访问控制。OSS和EMR在软件层中,它可以输出超过TB的吞吐量能力来支持整个业务的需求,而实际的操作体验超过了自我建造的HDFS.IN,通过云上的灵活资源能力,可以超过自我建造的HDFS.,任务可以是弹性伸缩的,具有成千上万的节点,以达到降低成本和效率的效果。
Data Lake Classic使用场景和热数据库
图案
冷和冷数据层是数据湖的经典使用方式。应用程序和业务系统的长期操作将产生大量的冷数据,这极大地强调了整个集群的操作和维护。手,刻度上的压力。通用大数据群集中的服务器体系结构在冷数据的优化中相对差异。如果它增加了高密度或不同的购买模型,它将在实践中导致集群运输。维度管理的难度已大大增加。另一方面,在IDC环境中,如果您想快速扩展,物理群集将是仅限于许多因素。这就是为什么许多数据湖客户从传统的大数据集群体系结构转移到数据湖。许多客户已经接受了数据湖并以全面的方式使用了OSS。,客户将首先将温暖和冷的数据设置为OSS。早在2016年,OSS已与Hadoop Ecology完全融合在一起。Hadoop 3.0可以直接访问OSS。写任务可以直接运行而无需任何修改,这大大降低了迁移的难度。迁移后,OSS上的智能生命周期管理简单地配置了生命周期策略,可以将冷数据进一步解决到档案类型和根据规则,冷档案以进一步降低成本。
教育技术平台实践案例
客户的价值
这是一个实际的冷热层的案例。教育平台所涉及的业务场景包含各种日志的收集,帮助学生通过所使用的日志改善学习。该客户也面临问题。在收集了大量日志之后,它将对空间占用造成巨大压力。客户是自我建造的IDC,很难在一段时间内完成物理空间的扩展,因此选择了Data Lake解决方案。。释放压力后,释放了压力。空间非常灵活。然后通过对象存储和多次反变功能直接进入湖泊进入湖泊,以提供更多的数据可靠性保证。同时,还使用冷存档能力来进一步下沉温暖的数据以降低成本。进入湖泊的数据进入了特殊线路,但在使用数据湖期间,客户将其拉入本地计算。想要进一步使用云上的计算资源来扩展计算能力,并且无需一次购买离线计算服务器即可进一步降低成本。
全球化在线游戏练习案例
客户的价值
全球游戏通常为全球玩家提供服务。这就需要部署全球统一结构以减少操作和维护的难度。增加游戏行业日志的收集非常关键。例如,在线播放器数量的大屏幕显示是分析应用程序服务器的日志。对于此客户,我们使用Alibaba Cloud的日志服务来收集数千台计算机-Scale应用程序服务器的真实时间日志,请按他们要倾斜以进行真实的计算,并将结果实时写入ClickHouse,以提供真实的QueryessenceOss,以log.sls定期将收集到的日志传递到OSS,并通过OSS SDK和OSS SDK和某些命令行工具,直接传递到OSS的某些应用程序日志可以传递给OSS.Analy.Analy并将深度分析的结果写入ClickHouse,以提供更多的分析和查询。
自动驾驶练习的小米汽车案例
数据湖和各种存储产品是无缝的。在这种自动驾驶案例中,我们提供了一套从收集到存储再到分析的解决方案。闪电立方体提供了车辆的部署能力,该车辆解决了大量的存储问题每天在自动驾驶场景中收集的道路数据。收集收集后,将其迅速通过最近的接入点存储在OSS数据湖中。将数据上传到OSS后,您可以使用Alibaba Cloud的各种计算机,包括EMR,MaxCompute和其他类型的清洁和其他类型的清洁和分析data.cpfs是支持阿里巴巴云上大型平行计算的存储产品。它具有很高的吞吐能力,并且是POSIX语义。OSS数据湖和CPF的无缝数据流可以使训练数据传递给CPF,分析数据GPU,并将最终结果写回OSS,很长- 期间存储。
不仅在互联网领域,包括自动驾驶和高性能计算,它们都有广泛使用的数据湖泊。希望更多的用户可以在生产业务中引入阿里巴巴云数据湖。
资料来源:阿里巴巴云