今天,我将与您分享最大的大数据集群的知识,它还将解释大数据中心节点。如果您可以解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!
本文目录清单:
1. MySQL群集功能可以有多少个节点2.在国内外,Hadoop应用程序的当前状态3.服务器群集中有几个节点服务器群集,至少需要3台计算机。但是,节点和SQL节点,其他两个被用作数据节点。使用两个数据节点的目的是增加数据的冗余。管理节点放在独立主机上,以确保如果数据节点失败,请在下面提供仲裁服务。
温|Zhai Zhouwei
本文是从“ Hadoop Core Technology”一书中选择的。
Hadoop是一个开源高效率云计算基础架构平台。它不仅在云计算领域中使用广泛使用,而且还支持搜索引擎服务作为搜索引擎底层的基础架构系统。ScientificComputing和其他字段越来越受欢迎。本文将告诉现状。国内外的Hadoop申请。
国外的Hadoop的申请状态
1.yahoo
雅虎是Hadoop的最大支持者。截至2012年,Yahoo的Hadoop机器总数超过42?最大的单个主节点群集是4,500个节点(每个节点双 - 双公路4-核CPUBOXESW,4×1TB磁盘,16GBRAM)。总群集存储容量更大。超过350%,每月提交的家庭作业数量超过1000万。超过60%的猪的Hadoop操作由Pig编写和提交。
Yahoo的Hadoop应用程序主要包括以下方面:
支持广告系统
用户行为分析
支持网络搜索
抗SPAM系统
会员反滥用
敏捷
个性化建议
同时,猪研究和测试支持大型节点簇的Hadoop系统。
2. Facebook
Facebook使用Hadook来存储内部日志和多维数据,并将其用作报告,分析和机器学习的数据来源。目前,Hadoop群集有1,400多个机器节点,总计11至200核心CPU,超过15%的原始存储容量。每个商用机器节点配备8核CPU和12TB数据存储。它主要使用Streamingapi和Javaapi编程接口。Facebook在Hadooop的基础上建立了高端数据仓库框架,而Hive已正式成为基于Hadoop的Apache -Level Project.ind,在HDFS上开发了FUSE实现。
3.A9.com
A9.com使用Hadoop为亚马逊构建产品搜索索引。它主要使用Streamingapi和C ++,Perl和Python工具。同时,Java和Streamingapi每天用于分析和处理数百万次会话。A9.com运行亚马逊在大约100个节点的Hadoop群集上构建的索引服务。
4. Adobe
Adobe主要使用Hadoop和HBase,与支持社会服务计算以及结构化的数据存储和处理相同。ABOUDHADOOP-HBase Production群集的30个节点直接将数据存储在HBase中,并将HBase用作数据运行MapReduce操作处理的来源,然后将其直接存储到HBase或外部系统中。Adobe于2008年10月将Hadoop和HBase应用于生产群集。
5.CBIR
自2008年4月以来,日本的CBIR(基于内容的InformationRetReval)在Amazonec2上使用Hadoop来构建图像处理环境为图像产品推荐系统。使用Hadoop环境生成源数据库以促进对Web应用程序的快速访问,并使用Hadoop分析Hadoop用户行为的相似性。
6.Datagraph
数据报主要使用Hadoop分批处理大量RDF数据集,尤其是使用Hadoop来为RDF数据建立索引。Datagraph还使用了长时间运行CEO的离线SPARQL查询。Datagraphdatagraph使用Amazons3和Cassandra来存储RDF数据输入输入数据输入数据输入数据输入和输出文件,并基于MapReduce处理RDF数据-RDFGRID开发了一个Ruby框架。
数据报主要使用Ruby,RDF.RB和由其自身开发的RDFGRID框架来处理RDF数据,主要使用HadooptReaming接口。
7.ebay
单个群集超过532个节点簇,单个节点8核心CPU,容量超过5.3pb存储。大量MapReduce的Java接口,Pig和Hive用于处理大型数据,HBase也使用HBASE也使用HBASE进行搜索优化和研究。
8.IBM
IBM LAN Cloud还使用Hadoop来构建云基础架构。IBM Blue Cloud使用的技术包括:XEN和POWERVM虚拟化Linux操作系统图像和Hadoop Parallel Worklasal Workload Scheduling,并发布了自己的Hadoop版本和大数据解决方案。
9.last.fm
Last.FM主要用于图表计算,专利声明,日志分析,A/B测试,数据收集等,还使用Hadoop来分析超过一百万个轨道的大型音频特征。
节点上有100多个机器。群集节点配备了双四核Xeonl5520@2.27GHZL5630@2.13GHz,24GB内存,8TB(4×2TB)存储。
10.linkedin
LinkedIn具有带有各种硬件配置的Hadoop群集。主要集群配置如下:
800节点簇,基于Westmere,24GB内存,6×2TBSATA的HP SL170X和2×4的核心。
1900个节点群集,基于Westmere的Ultra-Micro-HX8DTT和2×6核心,24GB内存,6×2TBSATA。
1400个节点簇,基于Sandybridge的核心和2×6,32GB内存,6×2tbsata。
所使用的软件如下:
操作系统使用RHEL6.3。
JDK使用Sunjdk1.6.0_32。
Apache的Hadoop0.20.2补丁和1.0.4 Apachehadoop补丁。
Azkaban和Azkaban用于工作计划。
Hive,Avro,Kafka等
11. -MobileAnalytic.TV
Hadoop主要用于并行化算法领域,而涉及的MapReduce应用算法如下。
信息检索和分析。
机器文档,文本,音频,视频的内容。
自然语言处理。
项目组合包括:
移动社交网络。
网络爬网。
文字转换。
音频和视频将自动生成。
12.openstat
主要使用Hadoop自定义网络日志分析并生成报告。在其生产环境中,有50多个节点簇(双路 - 四方 - Xeon处理器,16GB RAM,4至6个硬盘驱动器)和两个相对较小的群集用于使用个性化分析,每天约500万美元,15亿美元每月交易数据和集群每天产生约25GB的报告。
使用的技术主要包括:CDH,级联,Janino。
13.Quantcast
3,000个CPU内核,3500TB存储,使用完全自定义的数据路径和分隔器Hadoop Scheduers的每日处理超过1pb数据的日常处理,这些数据已为KFS文件系统做出了杰出的贡献。
14.裂纹
一个具有80多个节点的群集(每个节点都有2个双核CPU,2TB×8存储,16GBRAM存储器);Hadoop,Hive处理与网络相关的个人数据,并引入了级联,以通过各种处理通过各种处理,通过各种处理通过各种处理,通过各种处理通过各种处理。
15.Worldlingo
硬件(2个双核CPU,2TB存储,8GB内存),每个服务器运行XEN,启动一个虚拟机器实例,运行Hadoop/HBase,然后启动一个虚拟机实例以运行Web或应用程序该服务器有88台可用的虚拟机;运行了两组独立的Hadoop/HBase块,它们每个都有22个节点。Hadoop主要用于运行HBase和mapReduce操作,Scan HBase的数据表并执行特定任务。用于保存数百万个文件。目前,存储了1200万个文件,最近的目标是存储4.5亿个文件。
16.格拉斯哥大学的Terrierteam
具有30多个节点的实验簇(每个节点均配置了XeonQuadcore2.4GHz,4GB内存,1TB存储)。使用Hadoop来促进信息检索研究和测试,尤其是Trec,对于Terrierir平台。Terrier的开源版本包含一个大型大型版本- 基于hadoopmapreduce的规模分布索引。
17.大学的HollandComputingCenter
运行一个中型大小的hadoop组(总计1.6 pb存储)进行存储并提供物理数据以支持计算紧凑型μonspiraliac mirror(CMS)实验。这需要支持可以以速度下载数据的文件系统几个GBP和处理数据以更高的速度处理。
18. Visiblemerasures
Hadoop用作可扩展数据线的组成部分,最终用于诸如Visiblesuite.Siss.hadoop摘要,存储和分析与观看与在线视频受众相关的行为相关的数据流的产品。当前网格包括超过128个以上的网格CPU核心,超过100TB的存储空间,并计划显着扩展。
国内hadoop申请现状
Hadoop的国内应用主要基于互联网公司。以下主要介绍了大规模使用Hadoop或研究Hadoop的公司。
1.百度
百度于2006年开始关注Hadoop,并开始研究和使用。在2012年,其总簇量表达到了近十个,单个群集超过2800个机器节点。Hadoop机器的总数已用于74%以上,每天都有成千上万的作业。每日输入数据量超过7500TB,输出超过1700TB。
Baidu的Hadoop集群为整个公司的数据团队,大型搜索团队,社区产品团队,广告团队和LBS组提供统一的计算和存储服务。主要应用程序包括:
数据挖掘和分析。
日志分析平台。
数据仓库系统。
推荐发动机系统。
用户行为分析系统。
同时,Baidu还根据Hadoop和Hadoop的深度转换开发了自己的日志分析平台,数据仓库系统和统一的C ++编程接口,开发了Hadoopc ++扩展HCE系统。
2.阿里巴巴
截至2012年,阿里巴巴的Hadoop集群约有3200台服务器,大约30个?000物理CPU核心,总存储器100TB,总存储容量超过60%,每天的作业数量超过150至000,蜂巢查询每天超过6,000。每天扫描文件约为4亿,存储利用率约为80%,CPU利用率为65%,峰值可以达到80%。Alibaba的Hadoop群集有150个用户组和4,500个组用户。它为淘宝,Tmall,Yitao,Chatching,CBU和Alipay提供基本的计算和存储服务。主要应用程序包括:
数据平台系统。
搜索支持。
广告系统。
数据立方体。
量子统计。
道数据。
推荐发动机系统。
搜索排名。
为了促进发展,它还开发了Webide的继承开发环境。使用的相关系统包括:蜂巢,猪,Mahout,HBase等。
3.腾讯
腾讯也是最早使用Hadoop的中国互联网公司之一。截至2012年底,Tencent的Hadoop群集机总共有5,000多个单元,最大的单集群集约为2,000个节点。同时,它还开发了自己的TDW-DEDE基本开发环境。为各种产品线提供基本的云计算和云存储服务。它支持以下产品:
腾讯社交广告平台。
SOSO(SOSO)。
Paipai。
腾讯微博。
腾讯指南针。
QQ成员。
腾讯游戏支持。
QQ空间。
朋友网络。
腾讯开放平台。
Tenpay。
移动QQ。
QQ音乐。
4. Qihoo 360
Qihoo 360主要使用Hadoop-Hbase作为其搜索引擎So.com的基础Web存储架构系统。360搜索的网页可以记录1000亿元人民币,数据量为PB级别。在2012年底,其HBase群集量表超过300个节点,区域数量大于100,000。使用的平台版本如下。
HBASE版本:Facebook0.89-fb。
HDFS版本:Facebookhadoop-20。
Qihoo 360在Hadoop-Hbase中的工作主要集中在减少HBase群集的开始时间,并优化RS异常出口后的恢复时间。
5.华为
华为也是对Hadoop的主要贡献之一。它在Google和Cisco面前排名。华为对Hadoop HA解决方案和HBASE领域进行了深入研究。
6.中国手机
中国移动在2010年5月在2010年5月正式推出了Da Yun BigCloud 1.0,群集节点达到1024.China Mobile的Da Yun的DA Yun基于Hadoop的MapReduce实施了分布式计算,并使用HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统Hupallable,Parallel,Parallel,Parallel数据挖掘工具集BC-PDM和并行数据提取转换转换转换转换ConversionBC-ETL,对象存储系统BC-AESTD和其他系统,并打开其自己的BC-HADOOP版本。
中国手机主要用于电信领域的Hadoop。其计划的应用区域包括:
社会KPI集中运营。
评分系统ETL/DM。
定居系统。
信号系统。
云计算资源池系统。
物联网应用系统。
电子邮件。
IDC服务等
7. Pangu搜索
Pangu搜索(当前已搜索并合并为中文搜索)主要使用Hadoop群集作为搜索引擎的基础架构支持系统。截至2013年初,集群中的机器数量超过了380个单元,总存储总计为3.66%,主要包括主要包括的主要包含,主要包括在内,如下所示。
网络存储。
网页分析。
构建索引。
Pagerank计算。
日志统计分析。
推荐的发动机等。
立即搜索(人们搜索)
正确的搜索(当前与Pangu搜索合并为中文搜索)也将Hadoop用作其搜索引擎的支持系统。截至2013年,其Hadoop群集总共有500多个节点,配置为Shuanglu 6 Core CPU,48G内存,11×2T存储,总群集容量超过10pb,使用率约为78%,数据量,数据量,数据量每天处理的阅读约为500TB,峰值大于1p,平均值约为300TB。
立即在搜索引擎中搜索SSTABLE格式以存储网页并将Sstable文件直接存储在HDFS上。HadoopPipes编程接口主要用于以下处理。它还使用流界接口处理数据。主要应用程序包括:
网络存储。
分析。
构建索引。
推荐的引擎。
结尾
Windows Server 2003的公司版本和数据中心版本可以支持群集配置高达8个节点;它的典型功能是关键业务应用程序,例如数据库,消息系统,文档和打印服务,并提供高可用性和可扩展性。群集中的多个服务器(节点)仍然不间断。也就是说,如果群集中的节点为由于错误或维护而导致的错误或维护,另一个节点将立即提供服务以实现容错的服务。访问服务的用户可以继续访问,而无需通知该服务已由另一台服务器(节点)提供。
t,sdm】
最大的大数据集群中有多少个节点和大数据中心节点的引入结束了。我想知道您是否找到所需的信息?如果您想进一步了解此信息,请记住要收集对该网站的关注。