借Intel&Cloudera数据分析媒体交流会的机会,笔者对Cloudera这家在中国成立仅18个月的公司进行了专访。Cloudera的首席架构师、HadoopCloudera之父DougCutting先生和Cloudera大中华区总经理、公司副总裁凌奇先生接受了笔者的专访。 1。超过70%的市场采用率 谈到Cloudera在中国18个月的发展,凌奇先生说Cloudera中国于2014年12月10日在上海成立,第三天我去了北京参加国内大数据会议。Cloudera高级架构师DougCutting在大会上做了主题演讲。从那以后已经18个月了。在这18个月的时间里,Cloudera在中国取得了非常好的进展。目前已在北京、上海、广州设立服务机构。此外,由于业务的快速发展,在北京的业务也将不断扩大。在组织性质上,除了与Intel的研发和项目合作外,Cloudera在业务上形成了较为完善的售前、营销、专业服务体系,并建立了客户支持中心,负责整个亚太地区。在上海设立了客户支持中心。Cloudera首席架构师、Hadoop之父DougCutting先生表示,到目前为止,Cloudera的业务已经覆盖了电信、金融、制造等行业,基础设施相关和零售相关的业务也已经全面展开。我们很高兴国内各大企业已经开始广泛采用基于ApacheHadoop的Cloudera商业发行版,我们在免费版的发行和采用率上至少有70%的国内市场采用率。当然,商业版的用户主要是电信、金融、制造、零售等行业的大型企业。 除了服务项目,Cloudera还与各大高校联合推出培训服务。在谈到这项业务时,凌奇先生表示,Cloudera的大数据人才培训业务已经与国内五大培训合作伙伴签约,并在各地开展了大规模的人才培训。Cloudera培训的13门课程全部在中国开放。未来,Cloudera还将与清华大学等高校合作培养人才。 2.以极低的价格加密和解密所有文件 谈到与Intel的合作,DougCutting先生说Cloudera和Intel已经合作了两年。我们与英特尔的合作是基于一个目的,那就是让大家的软件能够更好的运行在英特尔的硬件上。此外,Cloudera和英特尔也在联合寻求合作伙伴,以确保越来越多的大数据应用部署在数据中心,更好地利用英特尔硬件的部分功能。 他表示,这两年双方的合作非常成功。在很多领域,双方的工程师通力合作,确保Cloudera的软件能够很好的运行在英特尔的硬件平台上。在某些方面,我们做了进一步的优化,使它们能够与英特尔的技术完全集成。例如,现在可以以极低的价格进行解密,从而使所有文件都可以加密,并且在解密和加密过程中不会有任何延迟。影响使用和作业效率,既保证安全又不影响整体作业效率。这是一个非常安全可靠的解决方案。此外,在编码方面,通过Cloudera与英特尔的合作,可以获得更多的数据采集,从而通过运行在其上的软件进一步完善英特尔硬件的所有功能。 另外,在stack的基础上,Impala到HDFS都是合作领域。要保证它们能在英特尔硬件上完美运行,这就需要大家使用相同的软件。当然,无论是Cloudera的客户还是Intel的客户,都非常满意。同时,我们还在Spark和Impala上进行合作。Cloudera大中华区总经理兼公司副总裁凌奇先生表示,我在英特尔工作了20年,英特尔本身与高校有很多合作。包括在软件学院、半导体学院、863计划等方面的合作。Cloudera以初创公司的身份进入中国。在工作中,我借鉴了很多在英特尔工作的经验,这对我们和英特尔的合作起到了很好的作用,尤其是在一些企业研究机构。Cloudera和英特尔有很多共同的研究项目,比如与清华大学的合作。英特尔与清华大学有着长期的合作关系。作为一家新公司,Cloudera此次也与清华大学进行了广泛的合作。 3。叫不叫Hadoop,只看技术的发展。越来越多的Hadoop技术模块将被更新的技术所取代,现在我们看到了一个快速发展的生态系统。Cloudera致力于推动和支持整个生态系统,不管它的名字是不是Hadoop,我们都会关注这项技术的发展。 对于Hadoop的未来,DougCutting表示我们其实已经发现了很多新技术。比如Spark,已经成为一个非常好的技术,给人们带来了很多的价值。最近也看到了Kudu,这也是我们非常兴奋的一项技术。它还实现了关系模型的快速更新。这是一种分布式技术,是开源堆栈的一部分。其实开源领域有很多新的发展,但是大数据的下一步是什么,主流的新技术有哪些呢?由于这个系统还在不断发展,现在很多人都在做实验和新的开源项目。有些人认为有用,然后他们成为Cloudera和Intel等供应商可以使用的标准化平台。Spark不是我们两家公司发明的,而是诞生于伯克利大学。当然,很多人做出了更新更好的平台,我们也会拥抱和接受。真正技术的未来就是这种进化,技术受到整个用户社区的启发。 4。它不仅是开源的,而且是一个标准的DistributionofApacheHadoop是ClouderaApacheHadoop的发行版。除了Cloudera,市面上很多厂商也在发布一个版本。作为一个开源产品,每个人都可以获得它的源代码,分发也不是很困难。但关键在于两个,***,你对Apache软件项目贡献了多少?你为代码贡献了多少?创新多少,这个很关键。原始制作和发行之间仍然存在很大差异。这个区别首先在于你的贡献率,其次在于你对未来前瞻技术的看法。当前版本的任何更新或补丁是否会在未来成为主流是另一个问题。 其次,关于开源和闭源,以及开源和标准的问题,Cloudera非常关注并且对开源有着非常坚定的承诺,这也是为什么市面上的开源版本,大部分都是免费的下载版本,保守据说70%以上是CDH版本。在过去18个月的工作中,我们拜访了很多客户。我们拜访新客户的时候,一般会问你有没有用过Hadoop,有的话用的是什么版本。通常有两个答案,要么是CDH版本,要么就是不知道是什么版本。除了大学和学术单位的Apache原生版本外,大部分都是CDH版本,也就是Cloudera的免费下载版本。这代表了市场对我们的认可。你可以发布你的版本,但是上面有没有创新很重要。 也有一些厂商为了区别现有的开源版本,改了一些东西,然后就不再开源了。这完全违背了开源精神。Cloudera希望开源意味着每个人都可以贡献自己的聪明才智,为整个开源社区贡献新的东西。如果你从开源社区拿走一些东西并进行改进,它就不是开源的。这违背了开源精神。以后没有办法进入主流升级,对不开源的用户影响很大,对以后的改进和补丁造成不兼容。所以我们推荐开源,参与开源社区的工作。 ***,说到开源和标准问题,Cloudera的所有主要模块都是开源的,也保证了这些工具会有不止一家厂商提供支持和开发。有的产品开源说只有他家能做。就算他开源了,也没有第二个。一旦客户使用它,它就会被绑定。但是Cloudera保证目前做的每一个模块都得到了业界的认可,同时还有很多厂商一起帮助开发和支持。所以它可以成为一个标准,而标准就是多个厂商同时支持这个模块,所以它不仅是开源的,也是一个标准。
