十年来大数据技术极大地改变了企业存储、处理和分析数据的方式。
如今,大数据技术逐渐成熟,涵盖计算、存储、数据仓库、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。
未来,大数据技术将不断延伸到引擎容器化、大数据机器学习、数据湖等方面。
近日,腾讯大数据技术沙龙第一站——天使专场在深圳举行。
腾讯大数据团队详细披露了腾讯大数据十年发展历程,全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力,并对微信支付、效果广告、微众银行等场景的应用案例进行了深入分享。
会上,腾讯大数据负责人刘煜宏正式发布“星火计划”。
他表示:“腾讯大数据的十年发展过程中,我们不断追求技术创新,集群数量从30个增加到0多个。
2017年,我们在Sort Benchmark上打破了4项世界纪录,素有计算奥运会之称的腾讯大数据的发展得益于开源精神,今天我们也推出了“星火计划”进行技术分享,希望对大家有所帮助。
并反哺大数据生态圈的繁荣。
作为大数据领域的前沿探索者,腾讯的大数据经历了离线计算、实时计算和机器学习三个阶段。
今年以来的学习,在实践中积累了经验。
经验丰富。
据刘煜宏介绍,2000年之前,腾讯主要使用传统的关系数据库。
今年以来,传统单机数据库提供的服务在系统扩展性和性价比方面已经不再适合腾讯业务的爆发式增长。
面对这种变化,腾讯大数据转向分布式,基于开源Hadoop系统构建了腾讯第一代大数据平台,并构建了离线计算平台,主要注重规模化。
腾讯大数据由此进入第一阶段。
三年时间,腾讯实现了从关系型数据库到自建大数据平台的全面迁移。
到2020年,腾讯大数据单个集群规模突破10万台。
2017年,移动互联网爆发。
为了满足及时、快速的业务数据统计需求,腾讯大数据从Hadoop转向Spark和Storm系统。
在吸收开源技术的基础上,根据腾讯自身的需求进行了重写,并探索了流计算。
、二级采集系统和企业级实时数据分析系统的建设,腾讯大数据发展进入第二阶段。
今年以来,腾讯大数据进入第三阶段。
随着数据挖掘和数据应用的深入,腾讯大数据再次迭代。
2017年推出自主研发的机器学习平台Angel,专门针对复杂计算场景,可以进行大规模数据训练,支持内容推荐、广告推荐等AI应用。
场景。
它由腾讯和北京大学联合开发,兼顾工业界的高可用性和学术界的创新性。
它不仅支撑了腾讯自身的业务需求,更是行业的里程碑。
来自海量业务,专注图计算场景,作为第三代机器学习高性能计算平台,腾讯天使在稀疏数据高维模型训练方面具有独特优势,擅长推荐模型和图计算网络模型相关领域。
目前业界主流的大规模图计算系统主要有Facebook的Big Graph、Power graph、Data Bricks的Spark GraphX等,但这些系统并不都支持图挖掘、图表示学习三大类算法,和图神经网络。
据腾讯天使开发者负责人小品介绍,腾讯天使来自腾讯海量业务场景,是一个超大样本、超高维度的机器学习平台。
从性能角度来看,Angel优于现有的图计算系统,可以支持数十亿节点、数千亿边的传统图挖掘算法,以及数百亿边的图神经网络算法需求。
它可以运行在多任务集群和公有云环境中,具有高效的容错恢复机制,并且可以更轻松地支持新算法。
同时,Angel能够更好地支持图挖掘、图表示、图神经网络算法,并具备图学习能力。
如今,Angel已广泛应用于QQ、微信支付、腾讯广告、腾讯视频等腾讯产品,并向微众银行等行业合作伙伴全面开放。
一般适用于智能推荐、金融风险评估等图计算业务场景。
走向开源并积极为社区做出贡献。
仅一年后,腾讯天使正式开源。
2019年8月,腾讯将Angel捐赠给专注于人工智能的Linux子公司LFAI基金会。
结合基金会的成熟运营,全面升级的Angel与国际开源社区深度互动,致力于让机器学习技术更容易研究和应用。
“Angel在2016年加入LF AI基金会孵化后,一直按照开源社区模式运营,成长非常快,增加了特征工程、自动机器学习等许多新功能,并新增了超过1个Linux基金会亚太区大中华区总监杨旋表示:“Angel是LF AI基金会旗下最活跃的项目之一。
相信不久的将来,Angel将会进入LF AI的顶尖项目。
”目前,Angel在GitHub上star数已超,fork数已超,提交代码贡献者一共有39人面向未来,腾讯天使在深度学习和图计算能力上的深度融合,也符合大数据行业的发展方向。
未来,腾讯大数据将继续聚焦数据湖、批流合一、人工智能+大数据、云计算+大数据四个主要方向。
云计算和大数据密不可分。
Angel从大数据平台成长为全栈机器学习平台,也验证了这个行业的方向。
未来,我们将把腾讯的大数据能力和技术与AI结合起来,与云深度融合,进一步实现大数据的价值,更好地协助合作伙伴和用户。
据了解,腾讯大数据星火计划是腾讯针对大数据爱好者发起的基于腾讯大数据的技术共享系统。
腾讯凭借10年的数据研发和运营经验,全面开放了在大数据领域的技术积累。
通过社区开源、线上课程、线下沙龙、技术峰会等形式深耕大数据领域十余年,本次天使专场是Spark项目的首次线下活动。
@font-face{font-family:"宋体";}@font-face{font-family:"宋体";}@font-face{font-family:"等线";}@font-face{ font-family:"微软雅黑";}p.MsoNormal{mso-style-name:正文;mso-style-parent:"";margin:0pt;margin-bottom:.pt;mso-pagination:none;text -align:justify;text-justify:inter-ideograph;font-family:等线;mso-bidi-font-family:'Times New Roman';font-size:10.pt;mso-font-kerning:1。