【.com原稿】WOT2016大数据峰会将于2016年11月25-26日在北京JW万豪酒店举行,数十位大数据领域的一线专家和数据技术先驱将齐聚现场,就机器学习、实时计算、系统架构、以及NoSQL技术实践。同时分享大数据领域***实用和最热门的行业应用。会前,记者采访了百度网络搜索基础架构团队技术总监闫世光。他是WOT2016大数据峰会的演讲嘉宾之一,与我们分享了海量计算和搜索引擎的最新技术。闫世光2011年加入百度,前期从事Spider系统架构的研发工作。期间主持百度第三代Spider系统的设计与实现。目前的主要研究方向是大规模分布式系统。百度海量数据库Tera、百度文件系统BFS、集群操作系统Galaxy的主要作者。热衷于开源,先后推动了百度多个重量级系统的开源。以下为采访实录。1、作为中国最大的搜索平台,您认为百度面临的最大挑战是什么?目前是如何解决的?百度面临的挑战很多。我只能谈谈网络搜索技术。目前,更大的挑战是覆盖面和时效性。覆盖率可以认为是百度能检索到的网页范围,越大越好。一般来说,时效性是指从互联网上产生一个新网页到百度能够检索到它之间的延迟。从表面上看,它似乎是矛盾的。我们目前的解决方案是增量流式处理,它不同于普通的流式处理技术。搜索引擎处理每一个网页,网页的内容是否正确,网页的权重(PageRank),不仅仅取决于它自己,而是依赖于互联网上的全球信息。因此,增量处理的核心是一个数据库,它可以存储互联网上所有的网页和超链接信息,并且可以实时读写。这个数据库的背后是百度文件系统、集群调度系统等一系列基础设施。2、在分布式技术出现之前,百度搜索靠什么进行计算?在目前的增量处理技术出来之前,百度主要依靠MapReduce和Spark进行数据处理。都是批计算的思路,所以延迟比较高。Spark可以做到10分钟级别,但是它能处理的数据量是有限的。对于依赖海量全局信息的计算,只能使用MapReduce,延迟可达数周。MapReduce的局限性还体现在可扩展性上。如果说处理100亿个网页需要1000台机器,那么处理1万亿个网页需要10万台机器,这几乎是难以承受的成本。所以在此之前,无论是处理数据,还是可以处理的数据量,都受到了极大的限制。3、在万亿级计算方面,百度有什么经验可以分享给大家?数万亿的计算核心挑战系统的可扩展性和负载均衡。承载万亿级数据,无论是数据库、调度系统还是底层的分布式文件系统,都需要能够高效地扩展到几万个单元的集群。这里主要考虑的是在没有单点设计的情况下保证一致性。最终,大多数系统选择分布式主集群来管理元数据,用户数据和计算由对等的从节点承载。对于负载均衡问题,我们会谨慎处理局部热点,因为一个区间内的热点可能会拖慢整个计算任务。在系统的设计中,特别是在数据库系统的设计中,实现了快速的热点拆分和跨机迁移。有很多考虑和妥协,具体内容会在本次大会的演讲中与大家分享。4、您如何看待当前流行的开源技术?闫世光表示,他在百度主要从事开源项目。他目前的工作核心是百度的开源基础设施(分布式存储、集群管理、网络通信框架)。这是百度自主研发的一套大数据处理平台,对应hadoop生态。.百度文件系统BFS对应Hadoop的HDFS,海量数据库Tera对应Hadoop的HBase,分布式协同服务Nexus对应Zookeeper,集群调度系统Galaxy对应Yarn,计算框架shuttle对应MapReduce。由主办方主办的高端技术峰会【WOT2016“大数据技术峰会”】将于11月25-26日在北京粤财JW万豪酒店隆重揭幕,40多位行业重量级嘉宾齐聚一堂,剖析大数据实践技术与行业应用结合,福利推广,主办方将邀请更多讲师来到“WOT讲师访谈室”,深度解析技术干货WOT2016更多专访WOT2016田超:大数据能给信息平台带来什么?WOT2016王安:看金融与大数据的火花【WOT讲师】国家信息中心邵国安主任:大数据安全需求WOT讲师刘哲:听AdMaster的Lambda架构实践WOT讲师赵强:Redis高性能缓存与坚持【原创稿件,合作网站转载请注明原作者及出处.com】
