大数据是今年的热门话题,以至于纽约时报等媒体纷纷宣称大数据时代已经到来。挖掘大数据可以产生洞察力以及利用大数据进行明智决策和行动所需的激励和结构。而挖掘这些金矿的矿工都是数据科学家,所以这类矿工也被冠以未来最性感职业的称号。但是今天任何关于大数据的文章***都不可避免地得出数据科学家严重短缺的结论。麦肯锡2011年一项备受讨论的调查指出,许多组织普遍缺乏此类技能人才。但如何绕过这个瓶颈,让大数据直接为商业黑客所用,却鲜有人讨论。软件行业以前已经这样做了,现在我们可以再做一次。为了实现这一目标,首先需要了解数据科学家在大数据中的作用。目前,大数据是Hadoop、NoSQL、Hive和R等分布式数据架构和工具的大熔炉。在这个高科技环境中,数据科学家充当这些系统和业务端领域专家之间的信息传输者和中介。从广义上讲,数据科学家具有三个主要角色:数据架构、机器学习和分析。虽然这些角色很重要,但并不是每家公司都需要像谷歌和Facebook这样高度专业化的数据团队。只要能够开发出适合用途的产品并将技术复杂性保持在尽可能低的水平,大数据的力量就可以直接交到业务用户手中。例如,我们可以回顾世纪之交的网络内容管理革命。网站风靡一时,但领域专家不断碰壁,因为IT是瓶颈。每次添加新内容时,都需要精心编排,有时甚至需要由IT精英进行硬编码。这个问题是如何解决的?我们将这些基本需求概括和抽象成一个内容管理系统,然后把它们做得非常简单,即使是非技术人员也能使用。瓶颈就这样被打破了。接下来,我们将在在线业务的背景下分别研究数据科学家的这三种角色。降低数据架构复杂性的关键是限制范围。几乎所有电子商务公司都关心捕获用户行为——活动、购买、线下交易和社交数据。几乎每个电子商务公司都会有产品目录和客户资料。通过将范围限制在这个基本功能上,可以为标准数据输入创建模板,从而大大简化数据捕获和管道。在2/8原则下(80%的大数据用例可以用20%的技术实现),我们不需要打包所有不同的数据架构和工具(Hadoop、Hbase、Hive、Pig、Cassandra和驯象师)。机器学习嘛,数据架构好像是系统搞定的,但是机器学习肯定是要人来训练的。如果需求是高度定制的,那么可能需要数据科学家。里面很多东西都可以抽象出来,比如推荐引擎,个性化系统。例如,数据科学家的很大一部分工作是创建“特征”模式,即组合输入数据,以便机器能够有效地学习。这个过程几乎就是数据科学家摆弄数据并将其塞入机器,然后按下“开始”。数据科学家的工作只是帮助机器以有意义的方式看世界。但是,如果您查看单个域,也可以对特征创建进行模板化。例如,每个电子商务网站都有购买流量和用户细分的概念。如果领域专家可以直接将自己的想法编码到系统中,将领域反映到系统中,是否可以省去数据科学家的翻译和中介工作?分析从数据中自动提取最有价值的信息从来都不是一件容易的事。但是可以提供关于单个领域的观点——这允许业务专家进行实验,就像数据科学家一样。这似乎是最容易解决的问题,因为市场上已经有各种特定领域的分析产品。但是这些产品对于领域专家来说限制太多而且不容易访问。界面友好性肯定有提升的空间。我们还需要考虑机器如何从分析结果中学习。这是业务专家想要修改的关键反馈循环。这是提供模板化界面的另一个机会。与CMS世界中的情况一样,这些解决方案并不是放之四海而皆准的解决方案。但是,针对一组普遍的数据问题采用技术解决方案可以缓解数据科学家的瓶颈。一旦领域专家可以直接与机器学习系统协作,我们就可以进入大数据的新时代——一个人类和机器可以相互学习的世纪。也许到那时,大数据能够解决的问题多于它所造成的问题。原文链接:http://gigaom.com/2012/12/22/we-dont-need-more-data-scientists-just-simpler-ways-to-use-big-data/【编辑推荐】让大数据成为我们捕捉网络安全威胁的眼睛大数据案例分析:电信行业Hadoop应用分析解决大数据的开源工具IBMBigInsights大数据应用开发实践
