当前位置: 首页 > 科技观察

Hadoop之父:从普通程序员到顶级公司CTO之路

时间:2023-03-15 19:13:15 科技观察

做大数据开发的朋友肯定都用过Hadoop这个工具,它是一种支持数据密集型应用的分布式应用。Hadoop基于分布式文件系统和MapReduce技术,通过节点划分的方式将海量数据处理任务分发到多台机器上,然后将各台机器处理的结果进行聚合整合。虽然其逻辑原理并不复杂(即简单的分而治之的思想),但有很多技术难点需要攻克,比如早期被诟病的安全问题、文件存储压缩问题等等。能开发出这样一款工具的人,肯定各有所长,下面就和Chick一起来了解一下被誉为Hadoop之父的DougCutting吧。他是谁?什么是值得我们的?去哪里读书?学习计算机可以早日还清贷款道格来自加利福尼亚州纳帕谷的农村。1981年,他被斯坦福大学录取。虽然考上了大学,但家庭并不富裕的道格却百感交集。他负担得起的唯一方法是贷款。斯坦福大学在斯坦福大学,Doug选修了语言学和计算课程。他觉得计算机课程很有趣,更重要的是,他发现学习计算机可以帮助他更快地还清贷款。因此,在即将毕业的时候,他并没有选择继续深造,而是在施乐公司工作(看过《乔布斯传》的朋友应该知道这家公司,这家公司在当时非常有名,主要研究领域是印刷相关技术。)找到了一份薪水不错的工作,工作内容是做自然语言处理和人工智能相关的研究,所以也有幸参与了一个当时比较新的领域-searchXerox的工作环境见证了搜索行业的兴起在谷歌之前,有很多公司探索过搜索领域,而这些公司在谷歌之后就被遗忘了。施乐就是其中之一,可以说是搜索领域的先行者。当然,他们对搜索的探索主要集中在自己的主营业务上。众所周知,施乐一直从事打印复印相关业务。当时他们的研究方向是如何将纸制品数字化。纸制品电子化面临的主要问题不仅是如何正确识别纸制品上的文字,更重要的是如何快速检索这些电子文档。道格当时主要从事后者的工作。这段时间工作经验的积累,大大提高了他搜索技术的广度和深度,如雨后春笋般涌现。道格见证了整个搜索行业的崛起。当时,为了方便用户检索互联网信息,雅虎采用了分类整合的解决方案,即每当有人创建新网站时,雅虎都会将其添加到雅虎的网站库目录中,然后将网站划分为金融、新闻、体育、娱乐等版块雅虎中国首页雅虎的解决方案可以帮助人们快速找到符合自己需求的站点,但不能帮助用户细粒度地找到自己的个性化需求。这时,谷歌出现了。它采用基于PageRank的搜索算法,可以准确定位人们的搜索目标,帮助人们找到想要的结果。凭借这一关键技术创新,谷歌的搜索业务迎来了跨越式发展时期。PageRank算法被简化并说明了两次。经过两次动手培训,收获了两个开创性的工具。Doug在Xerox积累了很多搜索技术的经验,但他探索的搜索技术都是基于离线环境,所以数据量不可能很大。道格觉得自己的技术经验有点纸上谈兵。于是在1997年底,Doug决定利用业余时间编写一个开源项目。他每周花两天时间在家里进行开发。不久之后,第一个开源的文本搜索功能库——LuceneLucenelogoGoogle的飞速发展诞生了。Doug遇到了危机,他担心网络搜索引擎数量的减少可能会导致信息检索行业出现新的商业垄断。Doug随后开始与同事合作开发Nutch,这是第一个与Google竞争的主要开源网络搜索引擎项目。Nutch虽然已经开发出来了,但是和以前一样,Nutch工具还没有经过实战测试。Doug接下来要做的是在大量数据下对Nutch进行压力测试。但是大数据压测意味着要购买大量的设备和数据。但当时道格在家失业,没有足够的财力购买这些设备和数据。Nutch架构图Hadoop比Webmap快33倍。当Doug为测试而烦恼时,谷歌随即发布了一份研究报告,其中介绍了谷歌为支持自家产品而开发的两个软件平台,一个是GFS(GoogleFileSystem),用于存储不同设备产生的海量数据.另一个是MapReduce,它工作在GFS上,用于分布式大规模数据处理。基于这两个平台,Doug开发了著名的HadoopHadoop标识,解决了长期困扰Doug的压测问题。以前可能需要一台超级计算机才能完成的工作,现在只需要分布在几台廉价计算机上。上面也可以这样做。Doug称赞谷歌的开源,“我们开始设想用4-5台电脑来实现这个项目,但在实际操作中,涉及到很多繁琐的步骤,需要手动完成。谷歌的平台将这些步骤自动化,为我们奠定了为实施整体框架奠定了良好的基础。”简化的MapReduce工作流程出于时间成本的考虑,Doug决定结束他的自由职业生涯。为了进一步完善自己的Hadoop项目。他首先接触了IBM,但IBM对他早期的Lucene项目更感兴趣。这时,雅虎负责人雷米·斯塔塔热情邀请他加入雅虎,并立即优化改造搜索业务项目。加入雅虎后,道格如虎添翼。他有一个一百人的团队帮助他完善Hadoop项目,极大地加速了Hadoop项目的发展。不久之后,雅虎将其搜索业务架构迁移到了Hadoop。两年后,雅虎推出了基于Hadoop的一流项目Webmap——一种计算网页间链接关系的算法。将项目迁移到Hadoop的效果立竿见影。在相同的硬件环境下,基于Hadoop的Webmap响应速度比之前的系统快33倍。锅上的蚂蚁。内部管理、产品定位、技术服务等诸多问题得不到解决,雅虎的处境真的是每况愈下。由于公司只专注于产品,不想在技术上投入太多,Doug跳槽到ClouderaClouderalogoCloudera是一个为某些公司提供技术服务和咨询的平台,其客户大多来自传统行业。传统行业的客户拥有大量数据,却不知道如何合理使用。这与Doug在Hadoop平台上处理更大量数据的想法不谋而合。他这里有大量的客户业务数据可以辅助他。最好完成Hadoop项目。值得一提的是,在Doug为传统企业服务的过程中,越来越多的互联网巨头也开始加入Hadoop团队(如Facebook、eBay、LinkedIn等),Hadoop团队在无形中进一步壮大,除了是Hadoop之父,Doug还有另一个身份——Cloudera高级架构师。Cloudera可以说是Hadoop生态系统中最著名的公司。其核心产品是为客户构建基于Hadoop的大数据平台,帮助企业安装、配置和运行Hadoop来处理海量数据。Cloudera版本演进谈到HadoopTrend目前的发展,Doug非常惊讶。“我从来没有想过Hadoop除了搜索引擎还能在其他方面发挥作用,它现在的关注度已经完全超出了我之前的想象。”DougCutting谈到了他的成功事迹,Doug认为主要归功于两点:热情。他喜欢攻克技术难题带来的成就感,享受自己的程序被千万人使用的感觉。另一个脚踏实地。Doug的所有成就都是一点一滴积累起来的,头顶天,脚踏实地,时间会给人最好的回报