Apache的四大开源数据和数据湖系统

时间：2023-03-15 11:20:33 科技观察

管理大数据需要的很多功能有事务，数据变异，数据纠错，流媒体支持，架构演化，因为acid事务能力Apache提供了四个,用于会议和管理大数据。ApacheShardingSphere是一个著名的数据库中间件系统。它由三个独立的模块组成，JDBC、Proxy和Sidecar（计划中），但在部署时它们都混合在一起。ApacheShardingsphere提供标准化的数据分片、分布式事务和数据库治理功能，可以针对Java同义词、异构语言和云原生等各种多样化的应用解决方案。今天的电子商务主要依赖于关系数据库和分布式环境，高效查询的激增和数据的快速传输成为企业关系数据库的主要目标。ApacheShardingsphere是一个很棒的关系数据库中间件生态系统，为其开发人员提供合理的计算和存储功能关系数据库。ApacheIcebergApacheIceberg最初是由Netflix设计和开发的。关键思想是组织目录树中的所有文件，如果您需要2018年5月在ApacheiceBerg中创建的文件，您只需找到该文件并只读取该文件，无需读取其他文件你可以阅读该文件而忽略你其他对当前情况不太重要的数据。核心思想是在时间表上跟踪表中的所有变化。它是一个用于跟踪超大表的数据湖解决方案，它是一个轻量级的数据湖解决方案，旨在解决列出大量分区和耗时且不一致的元数据和HDFS数据的问题。它包含三种类型的表格格式woody、Avro和Orc.inApacheiceberg表格格式与文件集合和文件格式集合做同样的事情允许您跳过单个文件中的数据这是一种用于非常大和用于大规模跟踪和控制的新技术格式。它专为对象存储（如S3）而设计。Iceberg中一个比较重要的概念是快照。快照代表一组完整的表数据文件。为每个更新操作生成一个新的快照。ApacheIceberg具有以下特点：ACID事务能力，可以在不影响当前正在运行的数据处理任务的情况下写入上游数据，大大简化了ETL；Iceberg提供了更好的合并能力，可以大大降低数据存储延迟；支持更多的分析引擎优秀的内核抽象使其不绑定特定的计算引擎。目前Iceberg支持的计算引擎有Spark、Flink、Presto、Hive。ApacheIceberg为文件存储、组织、基于流的增量计算模型和基于批处理的全量计算模型提供了统一和灵活的数据。批处理和流处理任务可以使用类似的存储模型，数据不再分离。Iceberg支持隐藏分区和分区演化，方便业务更新数据分区策略。支持Wooden、Avro和Orc三种存储格式。增量读取处理能力iceBerg支持流式读取增量数据，支持流式传输表源。ApacheHudiApacheHudi是一个大数据增量处理框架，试图解决大数据中需要插入、更新和增量消费原语的摄取管道和ETL管道的效率问题。它是一种针对分析和扫描优化的数据存储抽象，可以在几分钟内将更改应用到HDF中的数据集，并支持多个增量处理系统来处理数据。通过自定义InputFormats与当前Hadoop生态系统（包括ApacheHive、ApacheParquet、Presto和ApacheSpark）集成，使该框架对最终用户来说是无缝的。Hudi旨在快速增量地更新HDFS上的数据集。更新数据有两种方式：read-writewrite和read-merge。写模式上的copy是我们在更新数据的时候，需要通过索引获取更新数据涉及的文件，然后读取数据，合并更新数据。这种方式更新数据比较容易，但是涉及到的数据在更新的时候就更新，效率很低；而合并读就是把update写到一个单独的新文件中，然后我们可以选择把update和原来的数据同步或者异步写把来自的数据和原来的合并（可以叫combine），这种模式update会更快因为更新只写新文件。借助Hudi系统，可以轻松采集MySQL、HBase、Cassandra中的增量数据，并保存到Hudi中。然后，presto、spark、hive可以快速读取这些增量更新的数据。ApacheIotdb是一个物联网时序工业数据库，ApacheIOTDB是一个集成、存储、管理和分析物联网时序数据的软件系统。ApacheIOTDB采用高性能、功能丰富的轻量级架构，与ApacheHadoop、Spark、Flink等深度集成，可满足大数据领域大规模数据存储、高速数据读取和复杂数据分析的需求。工业物联网领域。ApacheIOTDB套件由多个组件组成，它们共同构成了“数据采集-数据写入数据存储-数据查询-数据可视化数据分析”等一系列功能。其结构如下：用户可以将设备上传感器采集的时序数据、服务器负载、CPU内存等消息队列中的时序数据、应用程序中的时序数据或其他数据库中的时序数据导入到本地或远程IOTDB的时序数据JDBC。存在。用户也可以直接将上述数据写入本地（或HDFS）的TSFile文件中。可以将TSFile文件写入HDF，实现数据处理平台的异常检测、机器学习等数据处理任务。对于写入HDFS或本地的TSFile文件，您可以使用TSFile-Hadoop或TSFile-Spark连接器来允许Hadoop或Spark处理数据。分析结果可以写回TSFile。IOTDB和TSFile也提供了相应的客户端工具，以满足用户查看SQL、脚本和图形格式数据的需求。

上一篇：中国移动李跃：不打价格战，4G网络扩展至10城

下一篇：小白系列之Flask服务器部署

Apache的四大开源数据和数据湖系统相关文章