当前位置: 首页 > 网络应用技术

大数据技术的数据

时间:2023-03-06 00:37:46 网络应用技术

  大家好,我是ya ya先生(o ^^ o)

  最近很忙。

  1.开发真实时流模块。

  2.为有60,000个单词的朋友准备最全面的测试问题。

  但是您有多忙,必须确保连续输出。

  将会有稳定的快乐输入。

  今天,我想与我的朋友分享我使用该项目中更频繁的收集工具。

  在每日大数据生产环境中,通常有相关的数据库和关系数据库,以及关系之间的相互转换和非关系数据库数据之间的相互转换,以及在选择需求扣除的同步工具中的问题的初始解决方案平台。

  好吧,我们开始了今天的文字。

  Datax是阿里巴巴开源离线同步工具的外星数据来源。DATA同步函数。

  为了解决异质数据源同步的问题,数据已将复杂的网格同步链接转换为星数据链接,并且Datax负责将各种数据源连接为中间传输载波。当您需要访问新数据源时,您只需要将此数据源连接到数据源,就可以将无缝数据与现有数据源同步。

  Datax本身是一个脱机数据同步框架,它是使用Framework + Plugin Architection构建的。阅读并将数据源写入读者/作者插件中,并将其整合到整个同步框架中。同步概念为框架+插头的形式。该框架负责内部序列化传输,缓冲,并发,转换等。

  Datax已经具有相对全面的插头系统。已经访问了主流RDBMS数据库,NOSQL和大数据计算系统。当前,数据支持数据如下所示。有关详细信息

  详细说明:Datax完成了单个数据同步的操作。我们称之为工作。数据收到作业后,过程将启动一个过程以完成整个工作同步过程。

  Datax作业模块是单个作业的中央管理节点,该节点进行数据清洁和子任务切割(将单个作业转换为多个子任务)和任务组管理。根据不同的来源结束策略,多个小任务(子任务),以促进同时执行。

  任务是Datax操作的最小单元,每个任务将负责某些数据的同步。切割多个任务后,Datax作业将调用调度程序模块。根据配置的并发数据的数量,将分裂的任务重新组装为将其组装到任务组中。

  每个任务组负责某个并发操作分配的所有任务。默认情况下,单个任务组的并发数量为5。任务组启动了每个任务。任务启动后,将修复阅读器的线程 - > Channel-> Writer以完成任务。

  例如,数据调度过程,用户提交数据操作并配备了20个并发,目的是将100位MySQL数据同步到ODPs.DATAX的计划决策 - 制定想法是:

  下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

  源代码地址:https://github.com/alibaba/datax

  JSON的读者和作者内容根据插件而更改,询问官方网站

  整个过程大致启动如下。

  1.分析配置,包括job.json,core.json,plugin.json配置

  2.将JobID设置为配置

  3.启动引擎,通过Engine.start()输入启动程序

  4.设置Runtime_modeConfiguration

  5.启动JobContainer的start()方法6.执行PreHandler(),INIT(),prepar(),split(),spech(),schedail(), - post(),post(),postthandle()和其他方法。

  7. INIT()方法涉及读者的初始化和根据配置的作者插头,其中涉及JAR包装加热加载并调用插件-IN INIT()操作方法。同时

  8.准备()方法涉及读者和作者插件的初始化。通过调用插件的prepary()方法,每个插件都有自己的jarloader,该方法由Integrated UrlClassloader实现。

  9. split()方法通过AdjateChannelNumber()方法调整通道数。同时,读者和作家的最细微性。为了满足1:1频道模型

  10.频道的计数主要基于字节和记录的速度限制实现。split()函数的第一步是计算通道的大小

  11. split()方法读取器插件将根据频道的值进行分配,但是某些读取器插件 - 可能不会参考频道的值。作者插头-in

  12. split()方法中的mergereaderandWriterTaskConfigs()负责

  13. schedule()方法,根据split()split的任务配置生成任务组对象。根据任务的数量和一个任务组支持的任务数。

  14. schdule()摘要的内部执行摘要(),继续执行startalltaskgroup()方法来创建所有TaskgroupContainer相关的任务。TaskGroupContainerrunner负责运行分配的TaskGroupConeraner执行。

  

  Datax是基于脚本的收集工具,因此朋友会问:收集任务是否有视觉接口?

  这一定有。

  Datax Web是在Datax上开发的分布式数据同步工具,它提供了一个简单易用的操作接口,使用Datax降低用户的学习成本,并缩短任务配置时间。

  用户可以通过页面选择数据源来创建数据同步任务。

  支持RDBMS,Hive,HBase,Clickhouse,MongoDB和其他数据源。RDBMS数据源可以在批处理中创建数据同步任务,支持实时查看数据同步进度和日志,并提供同步函数的终止。

  可以根据官方网站的教程建立朋友。如果您有任何疑问,可以直接与我联系。

  Datax-Web构造

  制作大数据收集模块的过程是根据Datax-Web的源代码进行的,将其用于Docker Universal Micro-Service容器。其他模块可以在远程呼叫中使用,从而大大节省了开发成本。

  好吧,我今天将谈论它,我将继续深入分享。

  祝大家成功和很多收益!

  我是Yaya先生,下次我会看到?

  有关更多令人兴奋的内容,请注意微信公共帐户?“脚先生”?:渴望分享大数据,技术战斗,建筑设计和原型实施的基本原则,并且也喜欢输出一些个人私人案件。更令人兴奋的福利干货,期待您的关注?

  原始:https://juejin.cn/post/7100729437888446471