多少个节点是最大的大数据集群（大数据中心节点）

时间：2023-03-07 01:45:29 网络应用技术

　　今天，我将与您分享最大的大数据集群的知识，它还将解释大数据中心节点。如果您可以解决您现在面临的问题，请不要忘记注意此网站。让我们现在开始！

　　本文目录清单：

　　1. MySQL群集功能可以有多少个节点2.在国内外，Hadoop应用程序的当前状态3.服务器群集中有几个节点服务器群集，至少需要3台计算机。但是，节点和SQL节点，其他两个被用作数据节点。使用两个数据节点的目的是增加数据的冗余。管理节点放在独立主机上，以确保如果数据节点失败，请在下面提供仲裁服务。

　　温|Zhai Zhouwei

　　本文是从“ Hadoop Core Technology”一书中选择的。

　　Hadoop是一个开源高效率云计算基础架构平台。它不仅在云计算领域中使用广泛使用，而且还支持搜索引擎服务作为搜索引擎底层的基础架构系统。ScientificComputing和其他字段越来越受欢迎。本文将告诉现状。国内外的Hadoop申请。

　　国外的Hadoop的申请状态

　　1.yahoo

　　雅虎是Hadoop的最大支持者。截至2012年，Yahoo的Hadoop机器总数超过42？最大的单个主节点群集是4,500个节点（每个节点双 - 双公路4-核CPUBOXESW，4×1TB磁盘，16GBRAM）。总群集存储容量更大。超过350％，每月提交的家庭作业数量超过1000万。超过60％的猪的Hadoop操作由Pig编写和提交。

　　Yahoo的Hadoop应用程序主要包括以下方面：

　　支持广告系统

　　用户行为分析

　　支持网络搜索

　　抗SPAM系统

　　会员反滥用

　　敏捷

　　个性化建议

　　同时，猪研究和测试支持大型节点簇的Hadoop系统。

　　2. Facebook

　　Facebook使用Hadook来存储内部日志和多维数据，并将其用作报告，分析和机器学习的数据来源。目前，Hadoop群集有1,400多个机器节点，总计11至200核心CPU，超过15％的原始存储容量。每个商用机器节点配备8核CPU和12TB数据存储。它主要使用Streamingapi和Javaapi编程接口。Facebook在Hadooop的基础上建立了高端数据仓库框架，而Hive已正式成为基于Hadoop的Apache -Level Project.ind，在HDFS上开发了FUSE实现。

　　3.A9.com

　　A9.com使用Hadoop为亚马逊构建产品搜索索引。它主要使用Streamingapi和C ++，Perl和Python工具。同时，Java和Streamingapi每天用于分析和处理数百万次会话。A9.com运行亚马逊在大约100个节点的Hadoop群集上构建的索引服务。

　　4. Adobe

　　Adobe主要使用Hadoop和HBase，与支持社会服务计算以及结构化的数据存储和处理相同。ABOUDHADOOP-HBase Production群集的30个节点直接将数据存储在HBase中，并将HBase用作数据运行MapReduce操作处理的来源，然后将其直接存储到HBase或外部系统中。Adobe于2008年10月将Hadoop和HBase应用于生产群集。

　　5.CBIR

　　自2008年4月以来，日本的CBIR（基于内容的InformationRetReval）在Amazonec2上使用Hadoop来构建图像处理环境为图像产品推荐系统。使用Hadoop环境生成源数据库以促进对Web应用程序的快速访问，并使用Hadoop分析Hadoop用户行为的相似性。

　　6.Datagraph

　　数据报主要使用Hadoop分批处理大量RDF数据集，尤其是使用Hadoop来为RDF数据建立索引。Datagraph还使用了长时间运行CEO的离线SPARQL查询。Datagraphdatagraph使用Amazons3和Cassandra来存储RDF数据输入输入数据输入数据输入数据输入和输出文件，并基于MapReduce处理RDF数据-RDFGRID开发了一个Ruby框架。

　　数据报主要使用Ruby，RDF.RB和由其自身开发的RDFGRID框架来处理RDF数据，主要使用HadooptReaming接口。

　　7.ebay

　　单个群集超过532个节点簇，单个节点8核心CPU，容量超过5.3pb存储。大量MapReduce的Java接口，Pig和Hive用于处理大型数据，HBase也使用HBASE也使用HBASE进行搜索优化和研究。

　　8.IBM

　　IBM LAN Cloud还使用Hadoop来构建云基础架构。IBM Blue Cloud使用的技术包括：XEN和POWERVM虚拟化Linux操作系统图像和Hadoop Parallel Worklasal Workload Scheduling，并发布了自己的Hadoop版本和大数据解决方案。

　　9.last.fm

　　Last.FM主要用于图表计算，专利声明，日志分析，A/B测试，数据收集等，还使用Hadoop来分析超过一百万个轨道的大型音频特征。

　　节点上有100多个机器。群集节点配备了双四核Xeonl5520@2.27GHZL5630@2.13GHz，24GB内存，8TB（4×2TB）存储。

　　10.linkedin

　　LinkedIn具有带有各种硬件配置的Hadoop群集。主要集群配置如下：

　　800节点簇，基于Westmere，24GB内存，6×2TBSATA的HP SL170X和2×4的核心。

　　1900个节点群集，基于Westmere的Ultra-Micro-HX8DTT和2×6核心，24GB内存，6×2TBSATA。

　　1400个节点簇，基于Sandybridge的核心和2×6，32GB内存，6×2tbsata。

　　所使用的软件如下：

　　操作系统使用RHEL6.3。

　　JDK使用Sunjdk1.6.0_32。

　　Apache的Hadoop0.20.2补丁和1.0.4 Apachehadoop补丁。

　　Azkaban和Azkaban用于工作计划。

　　Hive，Avro，Kafka等

　　11. -MobileAnalytic.TV

　　Hadoop主要用于并行化算法领域，而涉及的MapReduce应用算法如下。

　　信息检索和分析。

　　机器文档，文本，音频，视频的内容。

　　自然语言处理。

　　项目组合包括：

　　移动社交网络。

　　网络爬网。

　　文字转换。

　　音频和视频将自动生成。

　　12.openstat

　　主要使用Hadoop自定义网络日志分析并生成报告。在其生产环境中，有50多个节点簇（双路 - 四方 - Xeon处理器，16GB RAM，4至6个硬盘驱动器）和两个相对较小的群集用于使用个性化分析，每天约500万美元，15亿美元每月交易数据和集群每天产生约25GB的报告。

　　使用的技术主要包括：CDH，级联，Janino。

　　13.Quantcast

　　3,000个CPU内核，3500TB存储，使用完全自定义的数据路径和分隔器Hadoop Scheduers的每日处理超过1pb数据的日常处理，这些数据已为KFS文件系统做出了杰出的贡献。

　　14.裂纹

　　一个具有80多个节点的群集（每个节点都有2个双核CPU，2TB×8存储，16GBRAM存储器）;Hadoop，Hive处理与网络相关的个人数据，并引入了级联，以通过各种处理通过各种处理，通过各种处理通过各种处理，通过各种处理通过各种处理。

　　15.Worldlingo

　　硬件（2个双核CPU，2TB存储，8GB内存），每个服务器运行XEN，启动一个虚拟机器实例，运行Hadoop/HBase，然后启动一个虚拟机实例以运行Web或应用程序该服务器有88台可用的虚拟机；运行了两组独立的Hadoop/HBase块，它们每个都有22个节点。Hadoop主要用于运行HBase和mapReduce操作，Scan HBase的数据表并执行特定任务。用于保存数百万个文件。目前，存储了1200万个文件，最近的目标是存储4.5亿个文件。

　　16.格拉斯哥大学的Terrierteam

　　具有30多个节点的实验簇（每个节点均配置了XeonQuadcore2.4GHz，4GB内存，1TB存储）。使用Hadoop来促进信息检索研究和测试，尤其是Trec，对于Terrierir平台。Terrier的开源版本包含一个大型大型版本- 基于hadoopmapreduce的规模分布索引。

　　17.大学的HollandComputingCenter

　　运行一个中型大小的hadoop组（总计1.6 pb存储）进行存储并提供物理数据以支持计算紧凑型μonspiraliac mirror（CMS）实验。这需要支持可以以速度下载数据的文件系统几个GBP和处理数据以更高的速度处理。

　　18. Visiblemerasures

　　Hadoop用作可扩展数据线的组成部分，最终用于诸如Visiblesuite.Siss.hadoop摘要，存储和分析与观看与在线视频受众相关的行为相关的数据流的产品。当前网格包括超过128个以上的网格CPU核心，超过100TB的存储空间，并计划显着扩展。

　　国内hadoop申请现状

　　Hadoop的国内应用主要基于互联网公司。以下主要介绍了大规模使用Hadoop或研究Hadoop的公司。

　　1.百度

　　百度于2006年开始关注Hadoop，并开始研究和使用。在2012年，其总簇量表达到了近十个，单个群集超过2800个机器节点。Hadoop机器的总数已用于74％以上，每天都有成千上万的作业。每日输入数据量超过7500TB，输出超过1700TB。

　　Baidu的Hadoop集群为整个公司的数据团队，大型搜索团队，社区产品团队，广告团队和LBS组提供统一的计算和存储服务。主要应用程序包括：

　　数据挖掘和分析。

　　日志分析平台。

　　数据仓库系统。

　　推荐发动机系统。

　　用户行为分析系统。

　　同时，Baidu还根据Hadoop和Hadoop的深度转换开发了自己的日志分析平台，数据仓库系统和统一的C ++编程接口，开发了Hadoopc ++扩展HCE系统。

　　2.阿里巴巴

　　截至2012年，阿里巴巴的Hadoop集群约有3200台服务器，大约30个？000物理CPU核心，总存储器100TB，总存储容量超过60％，每天的作业数量超过150至000，蜂巢查询每天超过6,000。每天扫描文件约为4亿，存储利用率约为80％，CPU利用率为65％，峰值可以达到80％。Alibaba的Hadoop群集有150个用户组和4,500个组用户。它为淘宝，Tmall，Yitao，Chatching，CBU和Alipay提供基本的计算和存储服务。主要应用程序包括：

　　数据平台系统。

　　搜索支持。

　　广告系统。

　　数据立方体。

　　量子统计。

　　道数据。

　　推荐发动机系统。

　　搜索排名。

　　为了促进发展，它还开发了Webide的继承开发环境。使用的相关系统包括：蜂巢，猪，Mahout，HBase等。

　　3.腾讯

　　腾讯也是最早使用Hadoop的中国互联网公司之一。截至2012年底，Tencent的Hadoop群集机总共有5,000多个单元，最大的单集群集约为2,000个节点。同时，它还开发了自己的TDW-DEDE基本开发环境。为各种产品线提供基本的云计算和云存储服务。它支持以下产品：

　　腾讯社交广告平台。

　　SOSO（SOSO）。

　　Paipai。

　　腾讯微博。

　　腾讯指南针。

　　QQ成员。

　　腾讯游戏支持。

　　QQ空间。

　　朋友网络。

　　腾讯开放平台。

　　Tenpay。

　　移动QQ。

　　QQ音乐。

　　4. Qihoo 360

　　Qihoo 360主要使用Hadoop-Hbase作为其搜索引擎So.com的基础Web存储架构系统。360搜索的网页可以记录1000亿元人民币，数据量为PB级别。在2012年底，其HBase群集量表超过300个节点，区域数量大于100,000。使用的平台版本如下。

　　HBASE版本：Facebook0.89-fb。

　　HDFS版本：Facebookhadoop-20。

　　Qihoo 360在Hadoop-Hbase中的工作主要集中在减少HBase群集的开始时间，并优化RS异常出口后的恢复时间。

　　5.华为

　　华为也是对Hadoop的主要贡献之一。它在Google和Cisco面前排名。华为对Hadoop HA解决方案和HBASE领域进行了深入研究。

　　6.中国手机

　　中国移动在2010年5月在2010年5月正式推出了Da Yun BigCloud 1.0，群集节点达到1024.China Mobile的Da Yun的DA Yun基于Hadoop的MapReduce实施了分布式计算，并使用HDFS来实现分布式存储，并开发了基于Hadoop的数据仓库系统Hupallable，Parallel，Parallel，Parallel数据挖掘工具集BC-PDM和并行数据提取转换转换转换转换ConversionBC-ETL，对象存储系统BC-AESTD和其他系统，并打开其自己的BC-HADOOP版本。

　　中国手机主要用于电信领域的Hadoop。其计划的应用区域包括：

　　社会KPI集中运营。

　　评分系统ETL/DM。

　　定居系统。

　　信号系统。

　　云计算资源池系统。

　　物联网应用系统。

　　电子邮件。

　　IDC服务等

　　7. Pangu搜索

　　Pangu搜索（当前已搜索并合并为中文搜索）主要使用Hadoop群集作为搜索引擎的基础架构支持系统。截至2013年初，集群中的机器数量超过了380个单元，总存储总计为3.66％，主要包括主要包括的主要包含，主要包括在内，如下所示。

　　网络存储。

　　网页分析。

　　构建索引。

　　Pagerank计算。

　　日志统计分析。

　　推荐的发动机等。

　　立即搜索（人们搜索）

　　正确的搜索（当前与Pangu搜索合并为中文搜索）也将Hadoop用作其搜索引擎的支持系统。截至2013年，其Hadoop群集总共有500多个节点，配置为Shuanglu 6 Core CPU，48G内存，11×2T存储，总群集容量超过10pb，使用率约为78％，数据量，数据量，数据量每天处理的阅读约为500TB，峰值大于1p，平均值约为300TB。

　　立即在搜索引擎中搜索SSTABLE格式以存储网页并将Sstable文件直接存储在HDFS上。HadoopPipes编程接口主要用于以下处理。它还使用流界接口处理数据。主要应用程序包括：

　　网络存储。

　　分析。

　　构建索引。

　　推荐的引擎。

　　结尾

　　Windows Server 2003的公司版本和数据中心版本可以支持群集配置高达8个节点；它的典型功能是关键业务应用程序，例如数据库，消息系统，文档和打印服务，并提供高可用性和可扩展性。群集中的多个服务器（节点）仍然不间断。也就是说，如果群集中的节点为由于错误或维护而导致的错误或维护，另一个节点将立即提供服务以实现容错的服务。访问服务的用户可以继续访问，而无需通知该服务已由另一台服务器（节点）提供。

　　t，sdm】

　　最大的大数据集群中有多少个节点和大数据中心节点的引入结束了。我想知道您是否找到所需的信息？如果您想进一步了解此信息，请记住要收集对该网站的关注。

上一篇：如何检查iPhone合同（2023年的最新饰面）

下一篇：人工智能时代有什么机会？

多少个节点是最大的大数据集群（大数据中心节点）相关文章