当前位置: 首页 > 科技观察

时序数据库的现状和核心技术

时间:2023-03-18 19:46:29 科技观察

演讲的主题是时序数据库的现状和核心技术/问题,因为技术是为了解决特定的问题而创造的。我们将从以下三个角度分别分享:领域趋势,与大家聊聊时序数据库的现状和未来发展空间。从核心技术的角度,跟大家聊一聊时序数据库面临的实际问题,会用什么技术手段来解决。下面从应用场景和价值创造的角度,简单说一下如何让时序数据库在具体的应用场景中产生商业价值。那么,在开始今天的分享之前,先简单介绍一下我的个人信息:我是孙金城,阿里的小名是“金珠”。在阿里巴巴工作近10年,以ApacheFlink为起点在流计算领域贡献了5年。目前是阿里巴巴物联网分析团队负责人,正在探索基于ApacheIoTDB的时序数据存储领域。在开源领域,目前是两个Apache顶级项目的PMC成员,也是ApacheMember。同时,他也在支持本地Apache社区的发展。他是ALCBeijing成员,Apache孵化器IPMC成员,OpenAtom开源基金会孵化器导师。嗯,在参与和贡献很多开源的同时,我个人也喜欢做一些技术博客和视频分享。也欢迎大家关注我的个人公众号,可以保持持续的线下交流。好了,开始今天的第一部分。我们来看看时序数据库目前的发展趋势,是什么让时序数据库发展如此迅速?从我的角度来说,在谈存储的时候,我喜欢从数据的角度出发。.不仅仅是数据时代,数据的规模也是惊人的。我们处在一个大数据时代。那么我们所说的大数据时代的数据规模究竟是怎样的呢?据某研究机构发布的数据显示,近年来,随着人工智能、5G、AIoT等技术的推动,全球数据量正在无限增加。2018年全球数据总量为33ZB,2019年将达到45ZB左右,按照这一增长趋势,到2025年,全年将产生175ZB的数据。在希捷的主页上,有一句话想分享给大家:全球数据领域将从2019年的45ZB增长到2025年的175ZB,全球近30%的数据需要实时处理.您的企业准备好了吗?同样带着这个疑问,我们看看实时数据库领域准备好了吗?那么,到2025年每年175ZB的数据从何而来?我们从三个角度来看数据的创建和存储:云/边缘/端。随着网络的快速发展,尤其是5G时代的到来,越来越多的数据进入云端。那么我们所说的核心/边缘/端点(云/边缘/端)是什么意思?云(核心)——这包括企业内指定的计算数据中心和云提供商。它包括各种云计算、公有云、私有云和混合云。边缘-边缘是指不位于核心数据中心的企业级服务器和设备。这包括服务器机房、现场服务器和一些更靠近设备的小型数据中心,以便更快地响应。端点——端点包括网络边缘的所有设备,包括PC、电话、联网汽车、可穿戴设备和工业传感器。那么这些数据源中有哪些是我们日常工作和生活中可以感知到的呢?举个例子简单分析一下:在阿里工作了将近10年,感觉最新的数据就是一年一度的双11全球狂欢。我们发现,从2009年开始,每年双11的成交额增长迅速,到2020年将达到4982亿。这张图的背后,展示的是大量数据的产生。但与175ZB的数据相比,这些交易数据和监控数据只是冰山一角。为什么这样说呢?让我们继续阅读。..这里还有一个关于全球设备连接的统计数据。到2020年,全球将有500亿台设备数据上云。这些设备涵盖了很多实际场景,比如:智慧生活、智慧城市、智慧农业,更值得大家关注的是智能制造,也就是工业物联网领域。在5G和工业4.0的背景下,工业物联网也将是下一个技术趋势。..当我们谈论技术发展趋势时,Gartner的数据是每个人都信赖的。2021年,Gartner确定了9大技术趋势。如果你关注Gartner的报告,我们会发现这9大战略技术趋势与前三年有一些不同。种类。2018年强调云向边缘推进。2019年倡导边缘赋能。2020年强调流量的处理要更靠近本地设备,其实就是端和边缘的计算技术。连续三年明确提到端/端,即物联网领域。那么2021年的战略趋势与物联网有什么关系呢?2021年强调的分布式云是强调物联网领域已经进入云边端融合的过程,分布式云将取代私有云。分布式云的架构强调了中心云计算能力下沉的时代趋势。分布式云的多样性还包括物联网和边缘计算的技术方向。那么在这么大的技术趋势下,时序数据库目前处于什么阶段呢?国家非常重视物联网领域,尤其是工业物联网领域。早在2017年,就提出指导意见,明确了三个阶段性发展目标:2025年前以基础设施建设为重点,到2035年以基础设施建设为重点,2010年具备平台能力,最终达到预期的实施水平。事实上,各大厂的发展都超前于本指导意见的发展目标。目前,各家云厂商基本形成了自己的工业物联网平台。后续重点放在平台提升和实际应用上。创新发展。那么在这样一个高速发展的阶段,各大厂商是否都在解决这样的问题呢?事实上,物联网领域产生的大部分数据都来自于工业物联网。刚才大家看到了,2020年物联网领域的设备连接数已经超过500亿。我们以一台挖掘机工矿信息为例,一台设备有5000个很多工况指标需要待采集,每秒不断采集数据。数据量惊人。那么,面对千亿级别的工矿数据和ZB级别的时序数据,我们面临什么样的问题呢?每个人都会想到数据到云端的带宽流量成本,但幸运的是,在过去的20年里,有线宽带服务的每兆比特成本下降了98%,从2000年的平均28.13美元下降到2020年的0.64美元。因此,在流量成本较低的情况下,ZB级别的存储成本问题就更加显着。技术是为领域问题而生的。面对这样的领域问题,存储领域有这样的技术变革吗?根据DB-Engines的统计,我们发现在各种数据库存储产品中,时序数据库的发展最为火爆,发展也最为迅速。也就是说,5G和工业4.0的发展以及大量时序数据的产生,推动了时序数据库的快速发展。那么,目前有哪些时序数据库产品呢?同样的统计数据也来自DB-engines网站。目前我们有几十个时序数据库产品,有的是开源的,有的是各大厂商开发的商业产品。目前大约有20%+的商业产品,近80%来自开源社区。这里再补充一点,拥抱开源也是大势所趋。好的,我们已经了解了这里的趋势。下面我们就来详细了解一下现在时序数据库的特点,如何分类,以及时序数据库的特点。