当前位置: 首页 > 科技观察

5位阿里嘉宾的3篇分享:HBaseConAsia2017干货满满

时间:2023-03-17 16:27:28 科技观察

HBaseCon是ApacheHBase官方举办的技术大会。主要目的是分享和交流开源分布式大数据存储HBase的使用、开发和发展。HBaseCon于2012年发起,通常HBaseCon在美国举办,这次是HBaseCon首次在亚洲举办,命名为ApacheHBaseCon2017Asia。而且,本次大会的举办地是中国深圳,足以说明HBase在中国的火爆程度,以及中国开发者为HBase社区做出的杰出贡献。ApacheHBase是一个基于ApacheHadoop的分布式、可扩展的Key-Value数据库,在大数据环境下提供高性能的随机读写能力。作为中国第一家研究、使用和再开发HBase技术的企业,阿里巴巴从2010年开始使用HBase,经过近7年的发展,目前已有超过1000家企业使用HBase存储,拥有上万个HBase集群规模,HBase上存储的数据已经达到PB级别。阿里秉承开源共享的精神,不断将HBase的实践经验和改进反馈给HBase社区,如BucketCache、ReverseScan等,对HBase技术的发展带来了非常深远的影响。同时还为HBase社区培养了2名PMC和2名Committer,可见阿里在HBase社区的影响力。那么这次HBaseCon2017Asia。阿里派出一名HBasePMC,两名Committer,两名高级HBase开发人员,给大家带来了很多干货。阿里干货系列一、强同步复制传统的HBase主备集群同步方案是异步复制,会导致主从集群之间的数据暂时不同步。用户不得不放弃容灾的强一致模型。不能放弃强一致性语义的用户必须编写一套复杂的逻辑来保证主备集群之间数据的读写一致性。阿里HBase技术专家天音在本次HBaseConAsia为大家带来了强大的同步复制解决方案。据天音介绍,强同步复制方案采用主从并发写入和RemoteLog技术,使得同城网络条件下同步复制的吞吐量仅比异步复制低2%。当请求到达主数据库时,它会同时写入本地和备用数据库。同步写入备库不需要经过完整的写入路径,直接写入RemoteLog,减少了同步写入的开销和延迟。除了同步链接之外,还有一组异步链接,用于将数据从主库复制到备库。所以一般情况下,不需要将RemoteLog的数据回放到备库。当主库不可用时,只需要回放RemoteLog中的数据,对于那些还没有通过异步复制链路同步到备库的数据,异步复制只有几秒的数据延迟,保证了主库到备库的切换可以在很短的时间内完成。这一解决方案在大会现场引起了强烈反响。许多HBase用户表示,这是他们期待已久的功能,希望尽快使用。天音表示,该功能目前基于阿里内部分支实现、运营和完善,未来将回馈社区。2、SQLonHBase阿里HBase服务于大量内部用户,新用户不断接入。但是,使用HBase的用户很大一部分是从传统SQL数据库转过来的,HBase的rowkey设计和API使用习惯对他们来说并不友好。为了降低这些转型用户的门槛,阿里在HBase上引入了SQL层。来自阿里的资深HBase开发工程师田牧详细讲解了如何在HBase上玩转SQL。通过优化,使用SQL访问HBase和阿里原生API的速度相差无几,并且在SQL语法方面,创造性地支持了HBase多版本、时间戳等NoSQL才有的功能。此外,HBase还支持全局二级索引和本地二级索引。支持用户在多列上建立索引,简化业务设计,提高请求效率,降低使用成本。3、跨集群分区复制HBase通常承载着海量数据,而在日常生产过程中,由于业务发展和公司数据中心规划,这些海量数据需要经常迁移,这对于运营来说通常是非常重要的和维护。这是一个非常头疼的问题。来自阿里的HBase社区Committer在做,分享了阿里跨集群分区复制的场景和成熟方案。正彦首先介绍了阿里内部常见的需要进行数据拷贝的场景。比如新建一个数据中心,需要将HBase集群整体搬迁到新的机房;再比如不同机房的HBase集群的增量数据同步。Replication但是,目前还没有针对现有数据更高效的解决方案;另一个常见的场景是数据恢复,传统的HBase备份和恢复工具无法控制数据恢复的范围。为此,阿里开发了HBase内置的RangeDataCopy功能,提供了一种简单高效的数据复制功能,可以自动处理各种错误情况和容灾。使用此函数将一个200TB的表复制到另一个集群。所需时间少于5小时。4、读写链路的优化在使用HBase的过程中,阿里对HBase本身做了很多读写性能的优化。来自阿里HBase社区的PMC绝顶和Committer天照分享了阿里在这方面的一些成果。1、使用Netty替代HBase原生的RPC服务器,大大提高了HBaseRPC的吞吐量,降低了延迟;2、引入新的HFileBlock编码格式,将顺序查找变为二分查找,提高HBase的随机读能力3、拆分写入链路,释放阻塞的handler资源,提高HBase写入的吞吐量;这些来自阿里的优化黑科技,将HBase的能力提升到了一个新的高度。并且这些优化和功能已经回馈社区,所有HBase用户在使用新版本时都可以获得这些技术加成。总结除了阿里带来的技术分享外,现场的很多其他公司也带来了他们在使用HBase方面的改进和经验。比如小米实现了AsyncClient,填补了HBase没有原生异步API的空白;知乎使用kubernetes自动扩容HBase集群,灵活适应快速业务发展和快速变化;BeaconNetwork隔离读写资源,让近线查询更稳定等等。除了上面提到的精彩技术分享,本次HBaseCon大会的每一场都非常精彩,为大家带来一场场思维碰撞的盛宴。ApacheHBase“掌门人”MichaelStack也参加了会议,并与HBase开发者举行了圆桌会议,讨论HBase的现状和未来。此次HBaseCon的火爆,直接体现了国内企业和开发者对HBase的热情和期待。HBaseCon大会不仅为HBase用户带来最新鲜的技术进步,交流信息,吸取其他公司的先进经验;也成为HBase用户与开发者沟通的桥梁,让开发者看到行业动态和用户需求,共同将HBase打造成更易用、更高性能、更稳定的大数据存储。这次HBaseCon大会是一个好的开始。希望HBaseConAsia越办越好,给大家带来更多的干货!***如果您对大数据在线存储、HBase感兴趣,或者想更好的使用HBase,开发更多NB的产品,欢迎联系我们(zhengyan.ywl@alibaba-inc.com),一起交流,互相学习其他!作者简介:杨文龙,花名正妍,阿里巴巴存储技术事业部研发高级,HBase开源社区Committer。开源技术爱好者,在分布式存储系统的设计和实践方面有丰富的大规模生产经验。

猜你喜欢