CTO训练营郭江亮:百度私有云中的大数据平台与开放云BigDataPlatformsinPrivateandOpenClouds”。其内容主要介绍了百度私有云中的大规模分布式计算技术以及百度私有云中的大数据产品和技术架构。百度的开放云,以及百度目前对开放云+大数据+行业的思考,目前百度在云计算与大数据、金融、医疗等领域的结合上,有一定的产品思路和经验积累,百度一直在做分布式存储,最近几年一直在做分布式计算,比如Hadoop,比较新,从2014年开始,百度就推出了在外面孵化的公有云业务,是一个开放的云,类似于阿里云、AWS等企业级服务Serve.私有云的分布式计算私有云分布式计算技术栈是基于Matrix的资源调度做分布式计算。分布式计算和底层资源相当于适配器,这两者的结合对应社区。往上有各种计算引擎,有离线计算,也有实时计算。其中两个底层资源是实时计算平台。中间是DCE,是一个类似于Hadoop的计算引擎。旁边有个ELF的平台,spark在最右边。所有的百度机器都资源化了,所有的资源都管理起来了,然后下线,下线就是全部都存起来了。现在百度也在逐渐做一些线上的业务,因为线上业务和线下业务还是有区别的,所以百度的机房也分线上机房和线下机房。为什么百度之前要自己研究?因为百度本身有一些内部诉求,也涉及到一些其他的问题。百度本身就是一家做搜索的大数据公司,而不仅仅是一家数据公司。它面临的数据挑战是巨大的,超过了社区面临的问题。所以,百度一开始也参考了社区的一些想法,但后来由于需求量大、速度快,社区的想法跟不上,开始走上了自主发展的道路.这相当于百度的整个技术站。除了谷歌,百度应该是全球最大的离线计算集群,或者说离线计算平台。一开始是从Hadoop出来的,中间做了很多C++的扩展,因为要解决很多性能问题。百度离线计算为百度提供高通量离线计算服务。10W+服务器,20+集群。单机集群最大规模为1.3W。日均吞吐量100PB,日均作业数50W+。创新计算服务,毫秒级时延,近1W集群规模,80+应用产品线。提供通用流式连接解决方??案的另一个想法。搭建这些平台还需要相应的技术专家、一些集群资源和其他网络,以及成本。成本相对较高。但是如果不想自己搭建,可以选择公有云,比如百度开放云。百度开放云是一个开放的云和大数据平台,可用于数据应用,支持R+用户数据。主要对象是一些APP,比如手机百度,百度地图。所有的数据也是统一收集和处理的,所以有很多的支持,每个产品都有专业的技术专家支持。百度开放云产品概述大数据处理如果遇到一个数据需求,会有一个完整的流程方案,从数据采集到存储,中间可能会有传输。从采集、传输、存储,到数据处理和变形,再到最后的数据分析和应用,是一个完整的流程。但目前的数据与以往不同。比如CRM,现在从互联网到移动互联网,数据的种类越来越多,对数据的时效性要求也很高。那么如何快速采集和传输也是一个问题。对于收集,百度面临各种类型的原始数据,例如格式、位置、存储和时效性。它采用从异构数据源中收集数据并转换成相应格式的方法,以便于处理。存储的需求多种多样,有些行业有特殊需求,比如基因行业、基因大数据、测序等。如果要测试我们其中一个人的基因数据,需要用到大量的G,而且数量也比较大。还有时效性要求。比如广电是有网络要求的,但是广电有一些网络,都是在线的。此外,还有一个硬盘IP。对于现有数据,硬盘是一种更方便的方式。当然,里面有一些数据安全,一些加密,甚至协议。可能是硬盘快递的方式。现有数据全部上传完毕后,后续的增量数据会先通过公网慢慢通过,即使断电也会继续缓慢上升。这是存储。因为是大数据的处理,所以必须先存储。采集到的数据需要根据成本、格式、查询、业务逻辑等需求存储在合适的存储中,以方便进一步分析。变形,原始数据需要经过变形和增强后才适合分析。例如,将网络日志中的IP地址替换为省市、传感器数据纠错、用户行为统计等。分析,通过整理数据,分析发生了什么,为什么发生,正在发生什么,将要发生什么,多问这样的问题,帮助企业做决策。百度开放云大数据栈的优势依托于百度技术。百度搜索收集了全球超过一万亿个网页,每天承载着中国网民数十亿次的请求。大数据技术支撑了20多个产品,拥有超过1亿用户和数百万企业客户。2013年百度建成全球最大的Hadoop集群,2014年百度排序凭借大数据处理能力获得国际排序大赛冠军。开源和开放。提供开源产品托管服务或接口完全兼容的产品,方便互联网公司和传统企业的平滑迁移,用户无需担心被特定平台或技术束缚。先进的产品。做强开源产品,使开源产品更加稳定、高效、安全,成熟度大幅提升。云托管服务让用户可以专注于业务,而不是修复缺陷和运营。产品经过百度测试,适合企业部署生产环境。BMRBMR是一种Hadoop/Spark托管服务。为了方便使用MapReduce、Spark、Hbase、Hive、Pig、Kafka等进行大数据处理,是国内唯一完全兼容开源Hadoop的大数据服务。您可以在几分钟内创建一个集群,而无需担心节点分配、部署和优化;丰富的示例和场景教程,让您快速上手,实现业务目标。并且适用的集群可大可小,支持动态伸缩,可以有效避免资源浪费;支持计算和存储分离,集群可以在BOS云存储服务上进行处理和存储。全面兼容开源社区版Hadoop/Spark,客户无需任何修改即可使用开源标准API编写作业上云。集群中的Hadoop、Spark、Hbase等关键组件支持高可用特性,保证服务可用性。适用的业务场景包括日志分析、数据排序、实时流处理等。PaloPB级在线分析处理(OLAP)引擎,在线报表和多维分析服务,具有稳定、高效、低成本的优势。业界领先的MPP查询引擎、列式存储、智能索引、向量执行;高度兼容SQL标准,提供库内分析、窗口函数等高级分析功能。数据和元数据多副本存储,停机期间查询服务不受影响,机器故障副本自动迁移。在不停止服务的情况下创建物化视图和更改表结构;支持灵活高效的数据恢复。可视化集群管理,数据导入便捷;支持标准的SQL操作。适用业务场景包括在线分析、多维分析、在线报表等。BML面向海量数据的云托管分布式机器学习平台,帮助客户轻松使用最前沿的机器学习技术,获得大数据预测分析能力。基于百度内部多年积累的机器学习算法库(含深度学习),国内首创机器学习服务。大同特征函数、模型训练、模型评估和预测服务的整个过程都是拖拽式操作。分布式全内存集群提供强大的计算能力,轻松处理海量数据。配备多种分类、聚类、回归、主图模型、推荐和深度学习算法。提供数字广告营销、推荐系统、文本分析、故障检测等多个完整解决方案,使用户能够快速将机器学习技术应用到业务系统中。适用的业务场景包括数字广告营销、产品和业务推荐、主题和摘要提取。现在很多创业公司很难搭建公有云大数据平台,因为公有云是数据和应用的结合体,服务器成本、网络成本等,技术难度大,基本属于第一批。当然,体制内的,比如政企,都会有自己的公有云,不用BAT。BAT规模的公司做公有云,或者公有云大数据,他们的成本都是数据。未来数据可能会越来越成为一种资产,也可以说数据的作用会越来越大。每个人可能都有每个人的数据,每个小餐馆、小公司都有自己的数据、客户数据、运营数据,这些都可以进行价值交换。郭江亮认为,公有云大数据平台有很多潜在的机会。目前百度数据和公有云也在做,但由于百度是综合信息市场,在应用上还存在一些不足。
