大数据将取代云计算成为新一代的热门话题。这是一个必然的结果:随着时间的推移,企业产生的数据量越来越大,这些数据包括客户购买偏好趋势、网站访问和习惯、客户评论数据等;整理成综合形式的数据集怎么样?在处理海量企业数据时,传统的商业智能(BI)工具(关系数据库和桌面数学包)已不再适用。当然,数据分析行业也有支持数据研究人员和分析师挖掘大型数据集并能承受信息负载的开发工具和框架。 对于大公司来说,处理海量数据并不是什么新鲜事。例如,推特和领英已经是著名的大数据用户。两家公司通过挖掘其海量数据仓库来识别趋势,各自形成了一套独特的竞争优势。那么中型企业的CIO应该做什么呢?幸运的是,手边有可用的工具。 这些工具之一是免费的,基于Java的ApacheHadoop编程框架。这一框架在过去一年到一年半的时间里在大数据领域获得了巨大的市场。世界各地的行业专家和用户称Hadoop为事实上的数据挖掘标准。纵观现有其他大数据产品的表现,再考虑到ApacheHadoop1.0版本于2011年11月下旬发布,Hadoop获得如此认可确实令人意外。Hadoop非常受欢迎,以至于Hortonworks首席执行官EricBaldeschwieler预测到2017年它将处理全球一半的数据。Hadoop很有可能在来年以某种方式接近您的组织。 Hadoop主要面向开发人员。其主要框架MapReduce支持程序员处理分布式计算机群的大规模数据量。缺点是它是一种非常重型的产品。此外,Hadoop可以区分直接操作数据仓库的技术人群与数据消费者人群和数据翻译人员。 考虑到中型CIO的预算限制,这里有一些建议可以帮助克服海量数据的挑战: 不要忽视趋势。大数据不会消失,对大块数据进行分析转化和分析数据趋势的能力不容忽视。花一些时间了解Hadoop和其他大数据产品的功能和结构。思考您拥有数据的方式可以改善您的公司。 为合格的数据科学家寻找预算空间。这些家伙是您的BI交响乐的打击乐器。合格的数据科学家在市场上供不应求。即使在去年11月的Hadoop世界大会上,培训也是一个大话题。要使用免费的培训预算聘请最优秀的人才,保持他们的数据分析技能是最好的。 了解大型数据集的存储提示。大数据实际上是在没有结构性障碍的情况下,近乎实时地从多个地方和多个数据库中挖掘海量数据。这使存储在您的基础架构中的工作方式变得复杂。对于这些从表,云存储是否可以更加灵活和敏捷?与您的数据挖掘策略团队合作,优先了解利用Hadoop处理能力的存储需求的类型和数量。 准备好使用Hadoop工具集。了解Microsoft在这个领域的进入,尝试Hadoop-Excel和Hadoop-SQLServer集成,看看您可以提供什么类型的结果。也看看IBM的工具,看看哪一个更适合您在桌面和最终用户软件方面的现有投资。 大数据竞赛已经开始。您很可能已经落后于数据挖掘革命。忽视数据分析领域的CIO实际上是在拿他们的职业生涯冒险。然而,对于跳入大数据领域并提取关键见解的CIO来说,世界将触手可及。
