在2013年大数据全球技术峰会上,电子科技大学教授周涛教授提出了大数据发展的三个阶段。大数据1.0:企业利用自己的数据优化业务。比如老板想看的各种报表、CRM系统,都是数据使用的初级阶段。当然,有些公司不使用数据。大数据2.0:企业使用外部数据来优化业务。比如银行也会用上网行为记录来评价征信体系,今日头条的推荐也会用到微博数据。在这个互联网泛滥的时代,跨界无处不在被谈及。大数据的一个重要特征就是消除行业壁垒,用数据连接各行各业。目前,已经出现了数据交易、数据交换等多种业务现象。大数据3.0:当数据交易和数据交换规模扩大,相关法律法规趋于完善,处理和分析数据的工具更加丰富,企业可以将内部数据打包成产品对外服务。比如百度推出的APISTORE就是一种数据交易方式。上面有各种天气数据、金融数据、地理数据,按使用频率付费。只是目前这些服务都是由在大数据运用上比较前沿的公司提供的。这是平民化的趋势。只要你有独一无二的、有价值的数据,你就可以变现。我个人非常认同这种大数据发展的趋势。大数据3.0时代其实就是要消除企业之间的数据孤岛,让各类数据协同发挥价值。弄清楚大数据未来的发展方向之后,我们再来说说目前大多数企业面临的大数据困境——数据孤岛。企业发展到一定阶段,会出现多个事业部,每个事业部都有自己的数据。业务部门之间的数据往往是分开存储和定制的。各个业务单元的数据就像一座座孤岛,无法(或极难)与企业内部的其他数据进行连接和交互。我们将数据孤岛分为两类:物理孤岛和逻辑孤岛。物理孤岛:数据在物理上相互隔离,单独存储和维护。这将导致重复制轮和资源浪费。每个业务部门需要维护一套存储系统,每个业务部门申请的机器资源丰富,每个业务部门配备专人负责。每个业务部门都把数据的采集和存储看成是一项繁琐、辛苦、肮脏的工作,因为他们的KPI不在这里。当需要进行跨业务的数据协作时,往往需要进行大量的数据迁移和复制,大部分人力资源花费在数据准备阶段。逻辑孤岛:数据在逻辑上是孤立的。每个业务部门都有自己的数据规范。在从各自的角度理解和定义数据时,相同的businessid和userid往往会有不同的定义。当需要进行跨业务的数据协作时,往往会发现通信成本极高。这种企业内部的孤岛现象很普遍,尤其是一些集团企业孤岛效应更为明显。大数据未来的发展是要消除各行业数据孤岛现象,创造各种渠道和模式,让数据协同更好。无论从大时代的角度,还是从发挥自身数据价值的角度,我们都需要积极改变这个孤岛的现状。消除物理孤岛:统一采集、集中存储、开放计算。消除逻辑孤岛:制定数据规范,定义数据标准,构建和维护元数据。让数据:易收集、易存储、易理解、易加工、有价值!在后续的文章中,我们将介绍如何消除企业内部的数据孤岛现象。
