什么是ApacheBeam，为什么它比其他选项更受欢迎？

时间：2023-03-14 12:13:12 科技观察

1。概述在本教程中，我们将介绍ApacheBeam并探索其基本概念。我们将首先演示使用ApacheBeam的用例和好处，然后介绍基本概念和术语。之后，我们将用一个简单的例子来说明ApacheBeam的所有重要方面。2.什么是ApacheBeam？ApacheBeam(Batch+strEAM)是用于批处理和流处理数据作业的统一编程模型。它提供了一个软件开发工具包，用于定义和构建数据处理管道以及执行这些管道的运行程序。ApacheBeam旨在提供一个可移植的编程层。实际上，Beampipelinerunner将数据处理管道转换为与用户选择的后端兼容的API。目前，支持这些分布式处理后端：ApacheApexApacheFlinkApacheGearpump（正在孵化）ApacheSamzaApacheSparkGoogleCloudDataflowHazelcastJet3。为什么选择ApacheBeamApacheBeam集成了批处理和流数据处理，而其他组件通常通过单独的API来完成。因此，很容易从流式更改为批式，反之亦然，例如，当需求发生变化时。ApacheBeam提高了可移植性和灵活性。我们专注于逻辑，而不是底层细节。此外，我们可以随时更改数据处理后端。ApacheBeam可以使用Java、Python、Go和Scala等SDK。事实上，团队中的每个人都可以使用他们选择的语言。4.基本概念使用ApacheBeam，我们可以构建工作流图（管道）并执行它们。编程模型中的关键概念是：PCollection–表示可以是固定批次或流的数据集PTransform–一种数据处理操作，它采用一个或多个PCollection并输出零个或多个PCollection。Pipeline–表示PCollections和PTransform的有向无环图，从而封装了整个数据处理作业。PipelineRunner–在指定的分布式处理后端上执行管道。简单地说，PipelineRunner执行由PCollection和PTransform组成的管道。5.字数统计示例既然我们已经了解了ApacheBeam的基本概念，那么让我们设计并测试一个字数统计任务。5.1构建梁管道设计工作流程图是每个ApacheBeam作业的第一步，字数统计任务的步骤定义如下：1.从原文中阅读课文。2.将文本分成单词表。3.所有单词都是小写的。4.删除标点符号。5.过滤停用词。6.计算唯一单词的数量。为此，我们需要使用PCollection和PTransform抽象将上述步骤转换为管道。5.2.依赖在实现流程图之前，先在我们的项目中加入ApacheBeam的依赖：org.apache.beambeam-sdks-java-core${beam.version}Beam流水线运行器依赖分布式处理后端来执行任务。我们添加DirectRunner作为运行时依赖：org.apache.beambeam-runners-direct-java${beam.version}runtime与其他管道运行器不同，DirectRunner不需要任何额外的设置，这对于初学者来说是一个不错的选择。5.3.使用Map-Reduce编程范式（类似于JavaStream）实现ApacheBeam。在讲下面的内容之前，最好对reduce()、filter()、count()、map()、flatMap()有一个基本的概念和了解。首先要做的是创建管道：PipelineOptionsoptions=PipelineOptionsFactory.create();Pipelinep=Pipeline.create(options);六步字数统计任务：PCollection>wordCount=p.apply("(1)Readalllines",TextIO.read().from(inputFilePath)).apply("(2)Flatmaptoalistofwords",FlatMapElements.into(TypeDescriptors.strings()).via(line->Arrays.asList(line.split("\\s")))).apply("(3)Lowercaseall",MapElements.into(TypeDescriptors.strings()).via(word->word.toLowerCase())).apply("(4)Trimpunctuations",MapElements.into(TypeDescriptors.strings()).via(word->trim(word))).apply("(5)Filterstopwords",Filter.by(word->!isStopWord(word))).apply("(6)Countwords",Count.perElement());apply()的第一个（可选）参数是一个字符串，它只是为了提高代码的可读性。以下是上面代码中每个apply()的作用：首先，我们使用TextIO逐行读取输入文本文件。用空格分隔每一行并将其映射到单词列表。字数不区分大小写，因此我们将所有单词小写。以前，我们使用空格来分隔行，但是像“单词！”和“单词？”，我们需要删除标点符号。像“is”和“by”这样的停用词几乎在每篇英文文章中都很常见，因此我们将它们删除。最后，我们使用内置函数Count.perElement()计算唯一单词的数量。如前所述，管道在分布式后端处理。遍历内存中的PCollection是不可能的，因为它分布在多个后端。相反，我们将结果写入外部数据库或文件。首先，我们将PCollection转换为String。然后，使用TextIO写入输出：wordCount.apply(MapElements.into(TypeDescriptors.strings()).via(count->count.getKey()+"-->"+count.getValue())).apply(TextIO.write().to(outputFilePath));现在管道已经定义好了，我们来做一个简单的测试。5.4.运行测试到目前为止，我们已经为字数统计任务定义了管道，现在运行管道：p.run().waitUntilFinish();在这行代码中，ApacheBeam会将我们的任务发送到多个DirectRunners实例。所以最后会生成几个输出文件。它们将包括以下内容：...apache-->3beam-->5rocks-->2...在ApacheBeam中定义和运行分布式作业非常容易。作为比较，字数统计实现在ApacheSpark、ApacheFlink和Hazelcast-Jet上也有6个。结论在本教程中，我们了解了ApacheBeam是什么以及为什么它比其他选项更受欢迎。我们还通过字数统计示例演示了ApacheBeam的基本概念。本文转载自微信公众号《锅外大哥》，可通过以下二维码关注。转载本文请联系锅外老板公众号。

上一篇：前端也必须了解机器学习的其中一个

下一篇：Nuitka简介：编译和分发Python的更好方法_0

什么是ApacheBeam，为什么它比其他选项更受欢迎？相关文章