【.com快译】通过分析大规模数据集,可以帮助我们掌握隐藏的模式、客户偏好、未知关联、市场趋势等有价值的商业信息。在此基础上,企业可以实现成本降低,便于决策,提供更有针对性的产品和服务。在今天的文章中,我们将分享和了解2016年出现的几个大数据技术发展趋势。ApacheSparkApacheSpark是一套优秀的开源处理引擎,专为复杂分析、高速处理和易用性而打造.Hong为程序员提供了一个基于数据结构的应用程序编程接口,这种数据结构称为弹性分布式数据集,属于以容错方式分布在设备集群上的多组只读数据集。弹性分布式数据集(或简称RDD)有助于实现交互式算法。该算法多次访问数据集,实现交互式或描述性数据分析。使用这样的交互式算法作为机器学习系统的训练机制是ApacheSpark项目的初衷。在它的帮助下,样本数据分析变得相当简单。让我们来看看ApacheSpark在大数据领域脱颖而出的重要原因。在处理大数据时,极快的处理速度一直很重要。ApacheSpark可以将Hadoop集群应用程序的运行速度在内存中提高100倍,在磁盘上提高10倍。Spark通过减少对磁盘的读取或写入量来实现此效果。中间处理数据存储在内存中。易于使用和支持多种语言Sparks允许您使用Java、Scala甚至Python快速为其编写应用程序。此外,Spark本身还内置了80多条高级操作指令。支持复杂分析ApacheSparks支持复杂分析、数据流和SQL查询。此外,用户还可以将所有功能合并到同一个工作流程中。实时流处理ApacheSparks可以轻松处理实时数据流。它在实时操作数据时使用SparkStreaming。可与Hadoop集成,现有Hadoop数据Sparks可独立执行,也可与Hadoop2的YARN集群管理器结合,读取Hadoop数据。这意味着Spark适合迁移任何现有的纯Hadoop应用程序。基于Hadoop的多核服务器企业正逐渐从昂贵的大型机和企业数据仓库平台转向Hadoop多核服务器。Hadoop是一个基于Java的开源编程框架,可以支持在分布式计算环境中处理和存储超大规模数据集。低成本存储和数据归档Hadoop可用于存储和集成点击流、交易、科学、机器、社交媒体和传感器生成的数据,这主要是受商品硬件成本下降的推动。低成本的存储解决方案可以让我们暂时保留看似不重要的信息以供日后分析。沙箱中的发现和分析Hadoop可以处理各种数据类型和格式以运行各种分析算法。Hadoop上的大数据分析机制帮助企业实现高效运营,发现机会,从而提升自身的竞争优势。在这方面,沙盒解决方案可以显着降低实施成本。数据湖借助数据湖,数据可以原始格式或精确格式存储。这样,数据科学家和分析师将能够使用原始或精炼的数据视图进行发现和分析。互补的数据仓库Hadoop与数据仓库环境并行存在,一些数据集也可以从数据仓库转移到Hadoop或其他Hadoop可以直接使用的数据平台。由于每个企业的实际业务目标不同,所采用的数据存储和处理方式也不同。物联网和Hadoop物联网的核心在于庞大的数据流。Hadoop通常用于处理此类数据的存储。巨大的存储和处理能力允许Hadoop用作沙箱环境来发现和监控潜在模式以建立规范指令。预测分析和物联网利用数据、统计算法和机器学习技术,我们可能会根据历史数据判断未来的情况,这是预测分析的基本思想。预测分析可用于欺诈检测、营销优化、运营改进和风险控制。物联网是指可以连接到互联网并具有开/关控制的小型设备。物联网市场整体规模增长迅速,预计未来20年物联网将为全球GDP贡献10至15万亿美元。2016年,大数据的上述发展趋势已基本明朗,一系列实践证明其在降低风险、改善运营、发现欺诈等方面的良好功效。通过将实时数据源与大规模历史数据相结合而产生的洞察力是预测分析解决方案的基础。毫无疑问,Spark、Hadoop和物联网将引领大数据新时代。原标题:2016年大数据趋势,作者:PatrickCole
