大数据技术近年来取得长足进步,大数据软件框架Hadoop的迅速崛起引领行业趋势的大数据。Spark作为一种新型的类Hadoop计算框架,自2014年从Apache孵化出来后,短短两年时间就为大数据技术赋予了新的活力,这种基于内存的分布式计算框架已经在众多行业得到应用。随着近期2.0版本的发布,Spark向大数据市场展示了其性能提升空间,其对Streaming概念的进一步增强为实时流处理和查询加载提供了更有力的保障。在大数据领域,Spark已经逐渐成熟,正在走向更多的行业,更多的企业。面对这种日益强大的数据计算架构,IBM着力开发Spark项目,将其定位为数据分析的操作系统,并基于Spark构建IBM数据分析产品的整个体系。IBM对Spark的“押宝”,可以从社区贡献、产品建设、人才培养、创新应用四个维度解读。贡献社区,打造产品IBM与Spark互惠互利,共同进步2015年,IBM成立了Spark技术中心(STC,SparkTechnologyCenter),专注于Spark解决方案的完善和技术交流,为Spark内核构建、SparkStreaming、SparkML和SparkR汇集了一个由专家、提交者和贡献者组成的社区。在短短一年内,IBM通过这个技术中心向Spark社区贡献了大约800个JIRA,并提供了Spark认证,进一步鼓励基于Spark的开发。目前,IBM致力于在Spark社区推广SparkSQL、SparkML、Benchmark和Swift对象存储。此外,IBM将其机器学习框架SystemML作为Apache孵化器项目贡献给Apache社区,为机器学习用户快速优化算法和模型。开源领域的新成果层出不穷,但从技术代码到企业级应用,从开发成果到企业级产品,还有很长的距离。除了为Spark社区做贡献,IBM还基于Spark构建自己的产品和服务,协助企业将开源成果转化为可以很好应用的IT产品和服务,提升企业在开源应用中的体验。IBM基于Spark组件提供各种大数据解决方案,包括BigInsights、DataScienceExperience、dashDB数据仓库和SparkasaService。Sparkasaservice直接将Spark产品作为云服务交付,并在此过程中赋予它们更高的安全性、数据存储能力和多租户特性。在IBM自己的解决方案中,IBM提供了基于Spark的面向分析的数据引擎,通过Spark将传统的单机核心引擎转变为分布式,在Watson分析等领域以更高性能、更分布式的方式处理数据。分析和处理。在与Spark的集成方面,IBM直接将数据复制到Spark中进行分析,并提供了SPSS建模模块和分析服务器、CloudantNoSQL数据库、InfoSphereStreams流分析等解决方案。除了在软件和服务层面支持Spark之外,IBM还使用PowerSystems来提升Spark在硬件架构层面的性能。基于内存的Spark采用数据集中分析,可以充分发挥Power芯片的优势。在实际测试和应用案例中,Spark运行在Power上的性能是x86方案的两倍。未来,IBM将使用更多Spark相关产品服务于更多企业客户的大数据分析需求。培养人才,创新应用IBM在大数据领域推动大数据的社会化利用,人才是最重要的资产。面对市场对数据科学家、数据分析师、数据工程师、数据架构师等不同角色的大数据人才需求,IBM成立了数据科学学院。多方面促进大数据人才培养成长。该公益组织在IBM发起的“大数据大学”平台提供免费课程,通过开设Hadoop、Spark、R、机器学习等课程,提升大数据人才的专业技能。大数据大学针对不同的学习目标配备了专门的学习路径,在全球网和中文网提供数据工程和数据分析学习的免费课程。在这个平台上,学习者、数据科学家、数据工程师不仅可以提升理论知识,还可以使用R语言和Spark集群进行数据清洗、分析、可视化操作,在实践中检验真理。此外,在大数据社区,IBM推出了丰富多彩的互动活动,包括大数据峰会、Spark竞赛等。以Spark竞赛为例,目前IBM正在开展的全球Spark竞赛已经收到了来自中国的近20个参赛作品,激发了本土的创新。通过与合作伙伴、孵化企业的免费合作,提供技术支持,让Spark等大数据解决方案在各行业落地并提供服务。近期,IBM正在开展基于Spark的创新项目,以充分发挥Spark的作用。在智能交通领域,IBM通过收集物联网数据,在SparkStreaming上对公共出行数据进行处理、过滤、去噪、数据标准化,建立了基于Spark的数据模型,实时分析人口聚集和流动,预测交通拥堵为交通管理部门和运维部门采取管控措施提供参考,进一步改善公众出行体验。此外,IBM对Spark的创新应用也为天气预报提供了改进的解决方案。未来,IBM将继续结合Spark的大数据能力和多方交互机制,为大数据在企业的应用搭建桥梁。
