当前位置: 首页 > 科技观察

为大数据存储做好准备的12个关键

时间:2023-03-12 18:22:49 科技观察

【.com快译】北美正值飓风季节——那些存储从业者似乎认为他们已经度过了大数据存储风暴,最好还是小心为上.精彩的。得益于Hadoop等非结构化数据存储技术,他们开始能够应对年复一年的疯狂数据增长。事实上,他们还没有看到真正的挑战。存储空间的方方面面(本地、私有云、公有云)都即将面临一场数据飓风,这将使过去几年的风暴变得如微风轻拂。Wikibon分析师BertLatamore表示:“虽然大数据和物联网仅占当今公有云工作负载的一小部分,但两者都在快速增长。到2020年,这两个领域将成为公有云市场的主角”以下几点可以帮助你应对大数据的洪流。1.大数据存储,大数据问题StorageIOGroup分析师GregSchulz认为,大数据存储面临的最大挑战之一是大数据有许多不同的类型、层次和方面,其中一些是巨大的、快速数据流,包括视频和监控录像、其他日志、事件和其他遥测数据,此外还有大量传统上非结构化的文件和对象。当然,共同的主题是有些数据更多(体积),有些更大(大小),有些是非结构化的。因此,有必要了解您正在处理的大数据类型,以确保数据得到妥善处理。“挑战在于如何在不增加成本和复杂性的情况下处理和扩展管理,同时解决性能、可用??性、容量和成本问题,”Schultz说。这意味着重新考虑数据的存储方式、存储位置、应用程序位于何处(本地或云端)以及访问方式(块、文件或对象)也很重要。2.应用定位过去,你可以将所有数据集中起来,让“应用定位”,但这种做法往往会产生太多瓶颈。舒尔茨说:“让数据靠近使用数据的应用程序所在的地方;如果那些应用程序在云端,则将数据放在云端;如果应用程序在本地,则将数据放在本地。关键是要了解应用程序,它们所在的位置,它们如何使用数据,然后使用满足要求的适当技术。此外,了解您的应用程序是否需要对象,它们需要访问哪些API,或者它们是否与横向扩展兼容NAS。“例如,某些应用程序最好使用Hadoop分布式文件系统(HDFS)或其他文件共享平台,而其他应用程序则应使用AmazonS3、Swift或其他形式的对象存储,”他补充道。还要记住您将如何存储和管理元数据以支持大数据应用程序。3.分叉存储策略451Research分析师SimonRobinson认为,未来闪存层(高性能)将满足快速存储数据的要求,而其他一切都进入由对象存储支持的成本优化存储层(高容量。)有各种存储分层方案对应于特定的企业需求。这里的关键是在存储层之间无缝自动移动数据,这样最终用户甚至不知道存在分层。4.对大数据给予足够的重视在有效管理不断增长的大数据量方面,花时间制定一项战略是值得的,它不仅能满足短期需求,还能随着时间的推移而扩展,从而有效地支持你。否则,您最终会得到无法再有效扩展的硬件和软件组件。因此,在购买之前,请仔细调查该技术的扩展性。在大数据环境中,最好具有足够的可扩展性来处理存储数据的涌入。DataDirectNetworks(DDN)营销战略和运营高级总监迈克尔金(MichaelKing)表示:管理的时间越来越长,而且添加存储卷的结果似乎并没有带来预期的容量和性能,这表明现有的硬件和软件组件已经到了无法再有效扩展的地步。5.对元数据进行分类data是一个聪明的举动,因为它让你能够知道数据是什么样的,并且能够搜索元数据来找到它。长文件名在过去可能有用,但由于100%year-on-yearSpectraLogic首席技术官马特·斯塔尔(MattStarr)表示:“对数据进行排序是应对数据快速增长的最佳方式之一。一。在创建数据时收集元数据,并将至少两份数据副本存储在不同的介质上,例如一份在磁带上,一份在磁盘上。6.将容量与计算分开另一个技巧是构建将容量与计算分开的横向扩展存储系统。随着数据越来越大,构建可扩展的IT基础架构非常重要,这非常适合实际需求,而不会过度配置资源。Kaminario的首席技术官ShacharFienblit说:“实现这一目标的一种方法是花钱购买可以扩展容量和独立计算的存储基础设施。”大数据存储解决方案应支持多种协议以简化数据处理方式。实时分析使存储工作负载越来越难以预测。这就是闪存成为存储和处理大数据工作负载的首选存储介质的原因。随着闪存介质成本的快速下降,业界将看到越来越多的大数据工作负载运行在全闪存阵列上。7.商品硬件横向扩展对象存储是处理这些问题的最有效方法之一,因为数据得到持续保护并且不需要备份。但是如何降低硬件成本呢?“如果你在商品x86服务器上运行,对象存储允许你无缝升级硬件,因为这些设备作为模块化单元运行,可以在不牺牲效率的情况下组合。”8.放眼长远当谈到大数据预测时,存储管理员显然最好为数据增长做出正确的计划。然而,大多数人看得不够远——他们习惯于只考虑一、两年或三年后的情况。不在于有多么有远见。“想一想五年后、十年后、二十年后的情况,”巴尔贝加洛说。“确保您选择的解决方案可以随着需求而发展,并且不会将您锁定在专有硬件中。”9.不要仅仅依赖磁盘据市场研究公司Gartner称,我们在过去两年中生成的数据比整个人类历史上生成的数据还要多。然而,存储架构的变化并没有跟上数据需求的步伐。根据克莱德定律,每13个月,每英寸磁存储区域的磁盘密度就会翻一番。“如果存储密度遵循克莱德定律,到2020年,公司的两盘2.5英寸硬盘的容量将达到40TB,成本为40美元。”这本身就足够令人印象深刻,但仍不足以处理所有大数据。为了跟上大数据的增长步伐,固态硬盘、磁带和云都是不可或缺的。10.暗数据不被使用的操作数据称为暗数据。Gartner将其称为“企业在日常业务活动过程中收集、处理和存储的信息资产,但通常不用于其他目的。“而且有很多这样的暗数据。”Rajamanikan说:“在大数据环境中防止暗数据需要数据控制来审查/监控数据获取期间的传入数据,并清理大数据环境。11.除了容量,还有速度。围绕大数据的讨论主要集中在拥有足够的容量上。但数据速度是一个同样重要的问题。因此,在设计存储系统架构之前,必须考虑大数据速度的因素。“支持高度实时事件流的存储要求与处理不断增长的日志数据非常不同,”Jarmanikan说。12.全部在云端,还是部分在云端?有些人试图通过将数据保存在本地来处理大数据。但其他人可能更愿意将所有数据转储到云中,以确保对其进行有效管理以控制成本。然而,大多数人可能会找到中间立场。“混合云方法允许您继续在数据中心本地运行系统,”AvereSystems产品管理和营销高级总监JeffTabor说,同时将一些系统迁移到云端运行。如果存储是您的主要关注点,那么第一步是使用存储网关将遗留数据迁移到云端。如果计算是您的主要关注点,云爆发技术允许您将数据留在本地数据中心,并开始在公共计算云中处理它。》【翻译稿件,合作网站转载请注明原译者及出处为.com】