[.com快速翻译]在1990年代,每个应用程序服务器都倾向于使用直连存储(DAS)。创建存储区域网络(SAN)是为了提供共享存储池,以实现更大的规模和效率。Hadoop逆势而上,让DAS重新流行起来。每个Hadoop集群都有自己的横向扩展直连存储。它帮助Hadoop管理数据局部性,但以共享存储的规模和效率为代价。因此,如果您有一个Hadoop分布的多个实例,那么您就有了这个横向扩展存储的多个孤岛。Hedvig首席执行官兼创始人AvinashLakshman表示:“我们遇到的最大挑战是在数据本地化与规模和效率之间取得平衡。”数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于Hadoop来说,这意味着管理数据节点(DataNodes),而数据节点为MapReduce提供存储资源,使其具有足够好的性能。它有效地工作,但会导致另一个操作问题:大数据存储孤岛。本文介绍的这些要点有助于在Hadoop环境中管理大数据存储。1.分散式存储一段时间以来,集中式存储一直是一种传统架构。但是大数据其实并不适合中心化的存储架构。Hadoop旨在使计算资源更接近数据,同时充分利用HDFS文件系统的大规模横向扩展功能,Infogix的金融服务行业(FSI)战略和运营经理SenthilRajamanickam说。然而,对于Hadoop在管理其自身数据方面效率低下的常见解决方案是将Hadoop数据存储在SAN上。这在性能和规模方面造成了一系列瓶颈。现在,你所有的数据都通过集中式SAN控制器进行处理,控制器破坏了Hadoop的分布式、并行化特性。您需要为多个数据节点管理多个SAN,或者将所有数据节点都放在一个SAN上。Lakshman说:“Hadoop既然是分布式应用系统,就应该能够运行在分布式存储上,让你的存储保持和Hadoop本身一样的弹性。这就需要你积极采用软件定义的存储方式。它运行在服务器上,但它比将Hadoop放在传统的SAN或NAS技术上要高效得多,因为后者对Hadoop造成了瓶颈。2.超融合与分布式但要注意不要将超融合与分布式混淆。一些超融合方法是分布式的,但该术语通常意味着您的应用程序和存储可以共存于相同的计算节点上。解决数据局部性问题很诱人,但它会造成严重的资源争用。Hadoop应用程序和存储平台将竞争相同的内存和处理器资源。Lakshman表示,最好在专用应用层上运行Hadoop,在专用存储层上运行分布式存储,利用缓存和分层技术解决数据局部性和网络性能开销问题。3.避免控制器瓶颈他强调了这样做的一个重要方面——避免通过单个(或可能两个)点处理数据,例如传统控制器。通过确保存储平台并行化,可以显着提高性能。此外,这种方法提供了增量可扩展性。向数据湖添加容量就像添加一些带有内置闪存或旋转磁盘的x86服务器一样简单。分布式存储平台可以在必要时自动增加容量和重新平衡数据。4.重复数据删除和压缩利用大数据的一个关键部分是重复数据删除和压缩。Hedvig认为常见的大型数据集减少了70%-90%。在PB级,这意味着可以节省数万美元的磁盘成本。“现代平台提供在线(而不是后处理)重复数据删除和压缩,”Lakshman说。减少存储数据所需的容量。”5.整合Hadoop分布许多大型组织都有多个Hadoop分布。这可能是由于开发人员需要访问多个“版本”,或者业务部门随着时间的推移采用不同的版本。无论如何,IT总部经常最终负责这些集群的日常维护和操作。当大数据量真正开始影响业务时,现有的多个Hadoop分布会导致效率低下。“你可以创建一个单一的、去重复的、压缩的数据湖,然后可以服务多个Hadoop实例以提高数据效率,”Lakshman说。一场风暴正在企业界刮起。在许多地方,今天超过80%的物理服务器都已虚拟化。然而,由于性能和安全性,许多人避免虚拟化Hadoop。数据局部性问题。Lakshman说:“你可以虚拟化Hadoop或Spark。”7.构建弹性数据湖构建数据湖并不容易,bu大数据存储需求可能需要数据湖。有很多方法可以解决这个问题,但哪一种是正确的呢?正确的架构有望创建一个活跃的、弹性的数据湖,可以以各种格式存储来自所有来源的数据,包括结构化、结构化和半结构化数据。更重要的是,它必须支持在数据源处执行应用程序,而不是从需要移动数据的远程源执行。不幸的是,传统的架构和应用程序(即非分布式)并不令人满意。随着数据集变大,应用程序必须移动到数据,而不是数据到应用程序,因为延迟太高。借助Hadoop/Spark,分析工作流变得更具破坏性,因为数据和应用程序从不同的孤岛执行,迫使数据在多个平台上移动和存储。Hitachi大数据分析高级产品营销经理FredOh表示:“理想的数据湖基础架构可以存储单个数据副本,并让应用程序针对单一数据源执行,而无需移动数据或制作副本。(之间)例如Linux、虚拟机和Hadoop)。”8.IntegratedAnalytics分析并不是一个新的能力,它在传统的RDBMS环境中已经存在多年。不同之处在于基于开源的应用程序的出现以及将数据库表与社交媒体和非结构化数据源(如维基百科)集成的能力。关键是能够将多种类型和格式的数据集成到单一标准中,以便更轻松、更一致地完成可视化和报告。拥有适合工作的正确工具集是确保任何分析/BI项目成功的关键。“在分析方面,重要的是要了解真正的挑战不是可视化,而是数据集成,尤其是集成来自多个来源和多种格式的数据,”Ou说。一套全面的数据集成工具和基于GUI的大数据集成控制台可以克服企业的大数据挑战。”9.大数据遇上大视频大数据已经够糟糕了,大视频却让压力雪上加霜。例如,企业越来越多地使用视频监控,不仅是为了安全,也是为了提高运营和工业效率、简化交通管理、支持合规性以及其他几个用例。很快,这些数据源会生成大量内容。那些处理大型视频的人最好确保他们为此拥有合适的数据存储系统类别,无论是否基于Hadoop。“这些应用程序带来了大量的视频数据,如果没有合适的专用存储解决方案,这些数据可能会导致数据丢失和视频质量下降等问题,”Ou说。许多网站。那么,随着数据存储的急剧增长,它会成为最终的赢家,击败所有其他方法吗?不见得。例如,由于OLTP的先天优势和100%可用性的要求,传统的基于SAN的架构在短期内不会被取代。但是,如果需要对非结构化数据(例如社交媒体)进行分析和集成,那么就有充分的理由评估集成了服务器计算、分布式文件系统、Hadoop/Spark和更新的数据库应用程序的超融合平台。该软件与基于开源的分析工具集成在一起。因此,最好的方法是将超融合平台与分布式文件系统和集成分析软件集成在一起。传统的基于Linux的RDBMS应用程序(DWO、DataMart等)用于此目的,而Hadoop/Spark/MapReduce则使用服务器虚拟化来解决新的社交媒体挑战,以提供灵活性和效率。但是这些环境中的每一个都可以创建不同的数据孤岛。理想的方法是支持所有三种环境并增加在数据源执行应用程序的能力并减少分析工作流中的数据移动。“成功的关键是在实施系统时考虑到可扩展性、分析集成和专业知识。最终,存储专业人员需要预测未来的需求,而不仅仅是关注存储,”Ou说。原标题:大数据存储:扩展Hadoop的十大技巧,作者:DrewRobb
