当前位置: 首页 > 科技观察

不同大数据分析的同步或异步存储选择

时间:2023-03-15 15:48:31 科技观察

最近,大数据分析这个词正逐渐成为IT界的一个流行术语,指代对大数据本身的猜想。.但是,如果我们能够对足够多的数据点进行比较和交叉分析,可能会帮助我们找到一些有用的数据,甚至可能有助于避免灾难。问题很明显。所有的分析都需要大量甚至海量的数据,这给今天的IT管理者带来了新的挑战,即如何捕获、访问和分析这些数据,并将从中获得的分析用于后续任务的执行?大数据分析应用程序通常使用网络流量、金融交易记录和敏感数据等数据来替代传统形式的内容。数据本身的价值在于数据之间的比较、关联或参考。大数据的分析通常意味着要处理大量的小数据对象,而这些小数据对象往往对响应延迟有非常高的要求。目前业界主要有两种大数据分析场景,通常根据数据处理的形式来区分:在实时使用场景中,响应效率最为关键,因此大数据存储的设计架构本身需要满足最小延迟的要求。功能。同步,即实时或近实时;另一种是异步方法,首先获取、记录数据,然后使用批处理进行分析。同步分析最早能想到的近实时大数据分析的例子是超市的工作人员如何统计消费者行为,以便提供相应的折扣券。其实对消费者购买行为的计算很可能在用户结账之前就完成了,只是概念本身很相似。另一个相关的例子是在线社交网站可以通过访问用户的行为来建立自己的行为数据库,从而可以根据用户不同的消费习惯提供不同的点对点广告投放。在零售行业,一些大型卖场开始对前来停车场购物的消费者使用人脸识别技术,这样一旦他们路过或路过相应的卖场,相应的促销信息就会随之而来。因此,在这样的实时大数据分析场景中,速度是最重要的因素,因此大数据存储架构需要构建到低延迟的场景中。用于同步大数据分析的存储实时分析应用程序通常运行在NoSQL等数据库上,这些数据库通常支持海量和可扩展的商品硬件。Hadoop,从另一个角度来看,非常适合批量数据处理,这种技术非常适合异步大数据分析。由于在很多情况下,存储本身会成为延迟问题的瓶颈,因此固态存储设备对于实时数据分析非常有帮助。闪存可以以多种形式部署:作为传统存储磁盘阵列的一层,作为NAS系统,或者作为应用程序服务器本身。这种服务器端闪存实现很受用户欢迎,因为它可以实现最低的延迟(因为这种方法中的存储最接近CPU),并且它提供非常灵活的容量选择,可以实现数百GB的容量。SAS/SATA接口的固态硬盘是一种选择,但最近我们看到以PCIe板卡为接口的固态设备逐渐成为性能应用(比如实时分析)的标配,因为相比前者,它们的延迟较低。今天,业界有许多公司提供PCIe闪存,包括Fusion-io、LSI、美光科技、SanDisk、sTec(现在是HGST的一部分,作为西部数据的一个部门)、ViolinMemory和Virident(也被收购)西部数据)。所有其他主要服务器和存储供应商也提供PCIe解决方案,大多数是通过与这些公司的OEM协议。虽然PCIe卡的最大容量接近10TB,但仍然不能满足用户的需求,因此还需要考虑共享存储资源池。一种解决方案是使用Virident的FlashMAXConnect软件,它可以通过服务器上的InfiniBand实现PCIe卡资源的资源池化。这对于扩展闪存容量会有很大的帮助,特别是对于那些PCIe插槽不足的服务器或者需要VMwarevSphere的StoragevMotion功能的时候。这些解决方案通过跨不同服务器汇集闪存来支持冗余和高可用性。另一种选择是使用通过InfiniBand、光纤通道甚至PCIe连接的全闪存阵列。全闪存阵列的容量范围从10TB到100TB,并且可以进行模块扩展。全闪存阵列等高端解决方案至少可以提供100万次IOPS,对应100万微秒。大多数主流存储厂商都有相应的全闪存阵列类别。除了IBM收购TexasMemory外,小厂商也有类似的产品,提供更多的选择。其中包括Kaminario、NimbusDataSystems、PureStorage、Tegile、即将被Cisco收购的Whiptail和ViolinMemory。异步大数据分析异步处理的大数据分析遵循捕获、存储和分析的过程。在此过程中,数据通过传感器、网络服务器、销售终端、移动设备等获取,然后存储在相应的设备上进行分析。.由于这些类型的分析是通过传统的关系数据库管理系统(RDBMS)进行的,因此需要将数据格式转换或转化为RDBMS可以使用的结构类型,例如行或列,并且需要与其他数据。连续的。处理过程称为提取、转换、加载或ETL。首先从源系统中提取和处理数据,然后将数据标准化并发送到相应的数据仓库进行进一步分析。在传统的数据库环境中,这个ETL步骤相对简单,因为分析的对象通常是熟悉的财务报告、销售或营销报告、企业资源规划等。但是,在大数据环境中,ETL可能会变得相对复杂,因此对于不同类型的数据源,转换过程的处理也不同。当分析开始时,首先会从数据仓库中提取数据,放入RDBMS中,生成所需的报表或支持相应的商业智能应用。在大数据分析过程中,大部分的原始数据和转换后的数据都会被保存下来,因为后面可能需要再次转换。适用于异步大数据分析的存储设备在异步大数据场景下,存储调整主要来自容量、可扩展性、可预测性,尤其是提供这些功能的成本。当数据仓库产生大量数据集时,磁带存储的延迟会很大,无法满足业务需求。换句话说,传统的向上扩展的磁盘存储架构往往无法在相同容量标准下实现成本节约。横向扩展存储。横向扩展存储以模块或节点的方式将资源集群化,以文件系统的形式作为接口服务于大数据分析。示例包括DellEqualLogic、EMCIsilon、Exablox(也是基于对象的)、Gridstore、HPStoreAll(以前称为Ibrix)和IBMScale-OutNAS(SONAS)。在这些解决方案中,每个节点都包含处理能力和磁盘容量,可以实现容量和性能的并行扩展。Hadoop技术也应用于存储架构,使企业能够以更低的硬件成本和更高的灵活性构建自己的高度可扩展的存储系统。Hadoop运行在集群的不同节点上,每个节点都有自己的存储和计算资源,尤其是在面临数据处理需求的时候。其他节点会协调这些处理任务,在一个分布式资源池中进行处理,通常采用Hadoop分布式文件系统HDFS的形式。为什么Hadoop对大数据意义重大Hadoop在大数据应用中的广泛应用得益于其在数据提取、转换和加载(ETL)方面的天然优势。Hadoop的分布式架构,让处理引擎尽可能靠近存储,比较适合ETL等批处理操作,因为这类操作的批处理结果可以直接进入存储。Hadoop的MapReduce功能实现了单个任务的打散,将分片的任务发送(Map)到多个节点,然后以单个数据集的形式加载(Reduce)到数据仓库中。但是对于Hadoop,尤其是Hadoop分布式文件系统(HDFS)来说,数据至少需要三份才能支持数据的高可用。对于TB级数据,HDFS看似可行,但是当达到PB级海量数据时,其带来的存储成本压力也不容小觑。即使是水平可扩展的存储也无法避免压力本身。一些制造商选择使用RAID技术来实现卷级别的保护,而在系统级别他们使用复制。对象存储技术可以为大型环境面临的数据冗余问题提供解决方案。对象存储。基于对象的存储架构可以通过使用单个索引来关联灵活的数据对象来取代分层存储架构,从而大大增强横向扩展存储的优势。这将解决无限缩放问题,从而提高性能本身。对象存储系统包括不需要RAID或复制作为数据保护的纠删码,大大提高了存储使用效率。与HDFS方式需要两三个冗余数据副本和额外的RAID机制不同,对象存储系统的纠删码只需要增加50%-60%的容量就可以达到更高的数据保护级别。在大数据存储层面,存储本身的节省将是巨大的。许多对象存储系统也可用,包括Caringo、DataDirectNetworksWebObjectScaler、NetAppStorageGRID、QuantumLattus以及开源OpenStackSwift和Ceph。一些对象存储系统,例如Cleversafe,甚至可以与Hadoop兼容。在这些项目的实施中,Hadoop软件组件可以运行在这些对象存储节点的CPU上,对象存储系统将取代存储节点的Hadoop分布式文件系统。大数据存储的底线大数据分析逐渐成为IT行业的热门话题,越来越多的企业相信它将推动企业走向成功。然而,任何事情都有两个方面。从这件事情来看,就是现有的存储技术本身。传统存储系统无论是需要极低延迟响应、实时大数据应用,还是面向海量数据仓库的数据挖掘应用,都会遇到瓶颈。为了保证大数据分析业务的正常运行,相应的存储系统需要足够快、可扩展且具有成本效益。对于闪存解决方案,无论是服务器端闪存卡还是全闪存阵列,都提供了一些高性能、低延迟、大容量存储的替代方案。具有可擦除编程的基于对象的可扩展架构为传统的RAID和复制存储结构提供了一种更高效、成本更低的替代方案。原文链接:http://www.36dsj.com/archives/6933