当前位置: 首页 > 网络应用技术

多少个节点是最大的大数据集群(大数据中心节点)

时间:2023-03-07 01:45:29 网络应用技术

  今天,我将与您分享最大的大数据集群的知识,它还将解释大数据中心节点。如果您可以解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!

  本文目录清单:

  1. MySQL群集功能可以有多少个节点2.在国内外,Hadoop应用程序的当前状态3.服务器群集中有几个节点服务器群集,至少需要3台计算机。但是,节点和SQL节点,其他两个被用作数据节点。使用两个数据节点的目的是增加数据的冗余。管理节点放在独立主机上,以确保如果数据节点失败,请在下面提供仲裁服务。

  温|Zhai Zhouwei

  本文是从“ Hadoop Core Technology”一书中选择的。

  Hadoop是一个开源高效率云计算基础架构平台。它不仅在云计算领域中使用广泛使用,而且还支持搜索引擎服务作为搜索引擎底层的基础架构系统。ScientificComputing和其他字段越来越受欢迎。本文将告诉现状。国内外的Hadoop申请。

  国外的Hadoop的申请状态

  1.yahoo

  雅虎是Hadoop的最大支持者。截至2012年,Yahoo的Hadoop机器总数超过42?最大的单个主节点群集是4,500个节点(每个节点双 - 双公路4-核CPUBOXESW,4×1TB磁盘,16GBRAM)。总群集存储容量更大。超过350%,每月提交的家庭作业数量超过1000万。超过60%的猪的Hadoop操作由Pig编写和提交。

  Yahoo的Hadoop应用程序主要包括以下方面:

  支持广告系统

  用户行为分析

  支持网络搜索

  抗SPAM系统

  会员反滥用

  敏捷

  个性化建议

  同时,猪研究和测试支持大型节点簇的Hadoop系统。

  2. Facebook

  Facebook使用Hadook来存储内部日志和多维数据,并将其用作报告,分析和机器学习的数据来源。目前,Hadoop群集有1,400多个机器节点,总计11至200核心CPU,超过15%的原始存储容量。每个商用机器节点配备8核CPU和12TB数据存储。它主要使用Streamingapi和Javaapi编程接口。Facebook在Hadooop的基础上建立了高端数据仓库框架,而Hive已正式成为基于Hadoop的Apache -Level Project.ind,在HDFS上开发了FUSE实现。

  3.A9.com

  A9.com使用Hadoop为亚马逊构建产品搜索索引。它主要使用Streamingapi和C ++,Perl和Python工具。同时,Java和Streamingapi每天用于分析和处理数百万次会话。A9.com运行亚马逊在大约100个节点的Hadoop群集上构建的索引服务。

  4. Adobe

  Adobe主要使用Hadoop和HBase,与支持社会服务计算以及结构化的数据存储和处理相同。ABOUDHADOOP-HBase Production群集的30个节点直接将数据存储在HBase中,并将HBase用作数据运行MapReduce操作处理的来源,然后将其直接存储到HBase或外部系统中。Adobe于2008年10月将Hadoop和HBase应用于生产群集。

  5.CBIR

  自2008年4月以来,日本的CBIR(基于内容的InformationRetReval)在Amazonec2上使用Hadoop来构建图像处理环境为图像产品推荐系统。使用Hadoop环境生成源数据库以促进对Web应用程序的快速访问,并使用Hadoop分析Hadoop用户行为的相似性。

  6.Datagraph

  数据报主要使用Hadoop分批处理大量RDF数据集,尤其是使用Hadoop来为RDF数据建立索引。Datagraph还使用了长时间运行CEO的离线SPARQL查询。Datagraphdatagraph使用Amazons3和Cassandra来存储RDF数据输入输入数据输入数据输入数据输入和输出文件,并基于MapReduce处理RDF数据-RDFGRID开发了一个Ruby框架。

  数据报主要使用Ruby,RDF.RB和由其自身开发的RDFGRID框架来处理RDF数据,主要使用HadooptReaming接口。

  7.ebay

  单个群集超过532个节点簇,单个节点8核心CPU,容量超过5.3pb存储。大量MapReduce的Java接口,Pig和Hive用于处理大型数据,HBase也使用HBASE也使用HBASE进行搜索优化和研究。

  8.IBM

  IBM LAN Cloud还使用Hadoop来构建云基础架构。IBM Blue Cloud使用的技术包括:XEN和POWERVM虚拟化Linux操作系统图像和Hadoop Parallel Worklasal Workload Scheduling,并发布了自己的Hadoop版本和大数据解决方案。

  9.last.fm

  Last.FM主要用于图表计算,专利声明,日志分析,A/B测试,数据收集等,还使用Hadoop来分析超过一百万个轨道的大型音频特征。

  节点上有100多个机器。群集节点配备了双四核Xeonl5520@2.27GHZL5630@2.13GHz,24GB内存,8TB(4×2TB)存储。

  10.linkedin

  LinkedIn具有带有各种硬件配置的Hadoop群集。主要集群配置如下:

  800节点簇,基于Westmere,24GB内存,6×2TBSATA的HP SL170X和2×4的核心。

  1900个节点群集,基于Westmere的Ultra-Micro-HX8DTT和2×6核心,24GB内存,6×2TBSATA。

  1400个节点簇,基于Sandybridge的核心和2×6,32GB内存,6×2tbsata。

  所使用的软件如下:

  操作系统使用RHEL6.3。

  JDK使用Sunjdk1.6.0_32。

  Apache的Hadoop0.20.2补丁和1.0.4 Apachehadoop补丁。

  Azkaban和Azkaban用于工作计划。

  Hive,Avro,Kafka等

  11. -MobileAnalytic.TV

  Hadoop主要用于并行化算法领域,而涉及的MapReduce应用算法如下。

  信息检索和分析。

  机器文档,文本,音频,视频的内容。

  自然语言处理。

  项目组合包括:

  移动社交网络。

  网络爬网。

  文字转换。

  音频和视频将自动生成。

  12.openstat

  主要使用Hadoop自定义网络日志分析并生成报告。在其生产环境中,有50多个节点簇(双路 - 四方 - Xeon处理器,16GB RAM,4至6个硬盘驱动器)和两个相对较小的群集用于使用个性化分析,每天约500万美元,15亿美元每月交易数据和集群每天产生约25GB的报告。

  使用的技术主要包括:CDH,级联,Janino。

  13.Quantcast

  3,000个CPU内核,3500TB存储,使用完全自定义的数据路径和分隔器Hadoop Scheduers的每日处理超过1pb数据的日常处理,这些数据已为KFS文件系统做出了杰出的贡献。

  14.裂纹

  一个具有80多个节点的群集(每个节点都有2个双核CPU,2TB×8存储,16GBRAM存储器);Hadoop,Hive处理与网络相关的个人数据,并引入了级联,以通过各种处理通过各种处理,通过各种处理通过各种处理,通过各种处理通过各种处理。

  15.Worldlingo

  硬件(2个双核CPU,2TB存储,8GB内存),每个服务器运行XEN,启动一个虚拟机器实例,运行Hadoop/HBase,然后启动一个虚拟机实例以运行Web或应用程序该服务器有88台可用的虚拟机;运行了两组独立的Hadoop/HBase块,它们每个都有22个节点。Hadoop主要用于运行HBase和mapReduce操作,Scan HBase的数据表并执行特定任务。用于保存数百万个文件。目前,存储了1200万个文件,最近的目标是存储4.5亿个文件。

  16.格拉斯哥大学的Terrierteam

  具有30多个节点的实验簇(每个节点均配置了XeonQuadcore2.4GHz,4GB内存,1TB存储)。使用Hadoop来促进信息检索研究和测试,尤其是Trec,对于Terrierir平台。Terrier的开源版本包含一个大型大型版本- 基于hadoopmapreduce的规模分布索引。

  17.大学的HollandComputingCenter

  运行一个中型大小的hadoop组(总计1.6 pb存储)进行存储并提供物理数据以支持计算紧凑型μonspiraliac mirror(CMS)实验。这需要支持可以以速度下载数据的文件系统几个GBP和处理数据以更高的速度处理。

  18. Visiblemerasures

  Hadoop用作可扩展数据线的组成部分,最终用于诸如Visiblesuite.Siss.hadoop摘要,存储和分析与观看与在线视频受众相关的行为相关的数据流的产品。当前网格包括超过128个以上的网格CPU核心,超过100TB的存储空间,并计划显着扩展。

  国内hadoop申请现状

  Hadoop的国内应用主要基于互联网公司。以下主要介绍了大规模使用Hadoop或研究Hadoop的公司。

  1.百度

  百度于2006年开始关注Hadoop,并开始研究和使用。在2012年,其总簇量表达到了近十个,单个群集超过2800个机器节点。Hadoop机器的总数已用于74%以上,每天都有成千上万的作业。每日输入数据量超过7500TB,输出超过1700TB。

  Baidu的Hadoop集群为整个公司的数据团队,大型搜索团队,社区产品团队,广告团队和LBS组提供统一的计算和存储服务。主要应用程序包括:

  数据挖掘和分析。

  日志分析平台。

  数据仓库系统。

  推荐发动机系统。

  用户行为分析系统。

  同时,Baidu还根据Hadoop和Hadoop的深度转换开发了自己的日志分析平台,数据仓库系统和统一的C ++编程接口,开发了Hadoopc ++扩展HCE系统。

  2.阿里巴巴

  截至2012年,阿里巴巴的Hadoop集群约有3200台服务器,大约30个?000物理CPU核心,总存储器100TB,总存储容量超过60%,每天的作业数量超过150至000,蜂巢查询每天超过6,000。每天扫描文件约为4亿,存储利用率约为80%,CPU利用率为65%,峰值可以达到80%。Alibaba的Hadoop群集有150个用户组和4,500个组用户。它为淘宝,Tmall,Yitao,Chatching,CBU和Alipay提供基本的计算和存储服务。主要应用程序包括:

  数据平台系统。

  搜索支持。

  广告系统。

  数据立方体。

  量子统计。

  道数据。

  推荐发动机系统。

  搜索排名。

  为了促进发展,它还开发了Webide的继承开发环境。使用的相关系统包括:蜂巢,猪,Mahout,HBase等。

  3.腾讯

  腾讯也是最早使用Hadoop的中国互联网公司之一。截至2012年底,Tencent的Hadoop群集机总共有5,000多个单元,最大的单集群集约为2,000个节点。同时,它还开发了自己的TDW-DEDE基本开发环境。为各种产品线提供基本的云计算和云存储服务。它支持以下产品:

  腾讯社交广告平台。

  SOSO(SOSO)。

  Paipai。

  腾讯微博。

  腾讯指南针。

  QQ成员。

  腾讯游戏支持。

  QQ空间。

  朋友网络。

  腾讯开放平台。

  Tenpay。

  移动QQ。

  QQ音乐。

  4. Qihoo 360

  Qihoo 360主要使用Hadoop-Hbase作为其搜索引擎So.com的基础Web存储架构系统。360搜索的网页可以记录1000亿元人民币,数据量为PB级别。在2012年底,其HBase群集量表超过300个节点,区域数量大于100,000。使用的平台版本如下。

  HBASE版本:Facebook0.89-fb。

  HDFS版本:Facebookhadoop-20。

  Qihoo 360在Hadoop-Hbase中的工作主要集中在减少HBase群集的开始时间,并优化RS异常出口后的恢复时间。

  5.华为

  华为也是对Hadoop的主要贡献之一。它在Google和Cisco面前排名。华为对Hadoop HA解决方案和HBASE领域进行了深入研究。

  6.中国手机

  中国移动在2010年5月在2010年5月正式推出了Da Yun BigCloud 1.0,群集节点达到1024.China Mobile的Da Yun的DA Yun基于Hadoop的MapReduce实施了分布式计算,并使用HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统Hupallable,Parallel,Parallel,Parallel数据挖掘工具集BC-PDM和并行数据提取转换转换转换转换ConversionBC-ETL,对象存储系统BC-AESTD和其他系统,并打开其自己的BC-HADOOP版本。

  中国手机主要用于电信领域的Hadoop。其计划的应用区域包括:

  社会KPI集中运营。

  评分系统ETL/DM。

  定居系统。

  信号系统。

  云计算资源池系统。

  物联网应用系统。

  电子邮件。

  IDC服务等

  7. Pangu搜索

  Pangu搜索(当前已搜索并合并为中文搜索)主要使用Hadoop群集作为搜索引擎的基础架构支持系统。截至2013年初,集群中的机器数量超过了380个单元,总存储总计为3.66%,主要包括主要包括的主要包含,主要包括在内,如下所示。

  网络存储。

  网页分析。

  构建索引。

  Pagerank计算。

  日志统计分析。

  推荐的发动机等。

  立即搜索(人们搜索)

  正确的搜索(当前与Pangu搜索合并为中文搜索)也将Hadoop用作其搜索引擎的支持系统。截至2013年,其Hadoop群集总共有500多个节点,配置为Shuanglu 6 Core CPU,48G内存,11×2T存储,总群集容量超过10pb,使用率约为78%,数据量,数据量,数据量每天处理的阅读约为500TB,峰值大于1p,平均值约为300TB。

  立即在搜索引擎中搜索SSTABLE格式以存储网页并将Sstable文件直接存储在HDFS上。HadoopPipes编程接口主要用于以下处理。它还使用流界接口处理数据。主要应用程序包括:

  网络存储。

  分析。

  构建索引。

  推荐的引擎。

  结尾

  Windows Server 2003的公司版本和数据中心版本可以支持群集配置高达8个节点;它的典型功能是关键业务应用程序,例如数据库,消息系统,文档和打印服务,并提供高可用性和可扩展性。群集中的多个服务器(节点)仍然不间断。也就是说,如果群集中的节点为由于错误或维护而导致的错误或维护,另一个节点将立即提供服务以实现容错的服务。访问服务的用户可以继续访问,而无需通知该服务已由另一台服务器(节点)提供。

  t,sdm】

  最大的大数据集群中有多少个节点和大数据中心节点的引入结束了。我想知道您是否找到所需的信息?如果您想进一步了解此信息,请记住要收集对该网站的关注。