【.com快译】去年,大数据市场完全围绕着围绕Hadoop生态系统的技术展开。从那时起,重点一直放在通过已证明可通过增加收入、提高生产力和降低风险带来投资回报的用例“让大数据发挥作用”。现在,大数据继续取得胜利。明年我们预计会有更多的主流企业采用大数据和物联网,大中型企业中保守和怀疑的企业组织将开始一头扎进去。数据融合将比几年前我们刚开始使用Hadoop时更加重要。通过一个先进的分析平台,结合社交数据、移动应用程序、客户关系管理(CRM)记录和购买历史,这使营销人员能够通过揭示有关当前和未来购买行为的隐藏模式和有价值的信息来洞察未来。自助数据分析的激增,加上云计算和Hadoop的广泛采用,正在给整个行业带来变革,许多公司将抓住这一机会,或者忽视这些变化,后果自负。事实上,工具仍在不断涌现,Hadoop平台的前景还没有达到企业离不开它的地步。以下是将塑造明年大数据行业的五个趋势:物联网(IoT)公司越来越希望从所有数据中获取价值;制造、销售和支持物理对象的大型工业公司正在将与其“事物”相连的传感器连接到互联网。组织将不得不改变技术以与物联网数据交互。这在数据治理、标准、健康保障、安全和供应链等领域创造了无数新的挑战和机遇。物联网和大数据是同一枚硬币的两面;数十亿联网的“事物”将产生海量数据。然而,这本身并不会引发另一场工业革命、改变日常数字生活或提供早期预警系统来拯救地球。来自设备外部的数据使企业与众不同。在上下文中捕获和分析此类数据为公司开辟了新的可能性。研究表明,与计划维护相比,预测性维护最多可节省12%的成本,从而降低30%的维护成本,并将因设备故障导致的停机时间减少70%。对于制造工厂或航运公司而言,从数据驱动的决策制定中获得这些结果意味着改善运营和节约成本的重要机会。深度学习深度学习是一组基于神经网络的机器学习技术,仍在发展中,但在解决业务问题方面显示出巨大潜力。它使计算机能够在大量非结构化和二进制数据中找到有趣的内容并推断关系,而无需特定模型或编程指令。这些算法的源动力主要来自人工智能领域。人工智能的总体目标是模拟人脑的观察、分析、学习和决策能力,特别是处理极其复杂的问题。深度学习方法的一个关键概念是数据的分布式表示,从而实现对输入数据抽象特征的大量组合,从而使每个样本都得到紧凑的表示,最终得到更丰富的泛化。深度学习主要用于从大量未标记/无监督数据中学习,因此对于从大数据中提取有意义的表示和模式具有吸引力。例如,它可以用来识别许多不同类型的数据,例如视频中的形状、颜色和对象,甚至图像中的猫,就像谷歌在2012年开发的神经网络所做的那样。因此,企业很可能看到更多的注意力集中在半监督或无监督的训练算法上,以处理大量传入数据。内存分析与对存储在服务器硬盘驱动器上的数据运行查询的常规商业智能(BI)软件不同,内存技术查询加载到内存中的信息,这可以减少甚至消除磁盘I/O瓶颈,从而显着改进分析表现。就大数据而言,正是由于TB级系统和大规模并行处理,才使内存分析变得更加有趣。现阶段大数据分析的核心其实是发现数据。如果没有毫秒级的延迟,就不可能在面对数百万/数十亿次迭代时运行迭代来查找数据点之间的相关性。在内存中处理比在磁盘上处理快三个数量级。2014年,Gartner创造了术语HTAP(混合事务/分析处理)来描述一种允许在同一内存数据库中处理事务和分析的新技术。它允许应用程序领导者通过更好的态势感知和改进的业务敏捷性进行创新,但这需要对遗留架构和相应的技术和技能进行彻底改变,以使用内存计算作为推动者(enabler)。许多公司已经在充分利用混合事务/分析处理(HTAP);例如,零售商可以快速识别过去一小时内最畅销的时尚单品,并立即为该单品定制促销活动。但是围绕HTAP的炒作很多,很多公司都在过度使用它。如果用户需要每天多次以相同的方式查看相同的数据,而数据不会发生显着变化,那么使用内存技术就是浪费金钱。尽管您可以使用HTAP更快地执行分析,但所有事务都必须驻留在同一个数据库中。问题在于,当今的大多数分析工作都是将来自许多不同系统的交易汇集在一起??。云计算混合云和公共云服务越来越受欢迎。大数据成功的关键是在弹性基础设施上运行(Hadoop)平台。我们将看到数据存储和分析融合,从而产生新的更智能的存储系统,这些系统经过优化以存储、管理和分类巨大的PB级数据集。展望未来,我们可以期待看到基于云的大数据生态系统继续全面发展,而不仅仅是“早期采用者”。许多公司希望自己打造可扩展的平台,而这无法通过大量投资最终刚性的数据中心来实现。例如,人类基因组计划最初是一个千兆字节规模的项目,但很快就达到了TB和PB级。一些龙头企业已经开始以双模方式拆分工作负载,将部分数据工作负载运行在云端。许多人预计随着此类解决方案深入采用周期,这一趋势会加速。现在非常重视API以可重用的方式发现数据和功能,许多公司希望在云和数据中心运行他们的API。本机API提供了一种无缝方式来挖掘遗留系统并将它们与云应用程序连接起来,这对于希望实施云优先战略的公司来说至关重要。更多公司将在云中运行API,提供弹性以更好地处理需求高峰和高效连接,使他们能够比竞争对手更快地适应和创新。ApacheSparkApacheSpark点亮大数据。流行的ApacheSpark项目提供了SparkStreaming技术,该技术通过主要采用内存微批处理方法近乎实时地处理数据流。它已经从Hadoop生态系统的一部分变成了受到许多企业青睐的大数据平台。Spark是现在最大的大数据开源项目,它提供了比Hadoop快得多的数据处理速度;因此,对于程序员来说是极其自然、极其准确、极其方便的。它为并行执行提供了一个高效的通用框架。SparkStreaming是Spark的主要部分,它用于在处理器内核的帮助下流式传输大块数据。为此,大数据被分成更小的数据包,然后进行转换,从而加速弹性分布式数据集(RDD)的创建。这在今天非常有用,因为数据分析通常需要一组串联运行的机器的资源。然而,值得一提的是,Spark旨在改进而不是取代Hadoop架构。为了从大数据中获得更大的价值,许多公司考虑结合使用Hadoop和Spark以获得更好的分析和存储能力。日益复杂的大数据需求意味着创新压力将居高不下。许多公司将开始明白,如果不使用数据,就无法实现客户成功。不利用数据分析的公司开始倒闭,而成功的企业认识到增长的关键是数据细化和预测分析。原标题:2017年大数据5大趋势,作者:BHARADWAJ'BRAD'CHIVUKULA
