当前位置: 首页 > 科技观察

为什么时序数据库突然成为宠儿?

时间:2023-03-13 11:38:24 科技观察

为什么时序数据库突然成了宠儿?——非结构化、分布式的时序数据库(TSDB)能够以数字化的形式承载整个真实的物理世界,从而实现数字孪生、CPS、决策分析。推荐一个开源的时序数据库:OpenTSDB——一个基于Hbase的分布式、可扩展的时序数据库,Hbase本质上是一个列式存储。OpenTSDB简介什么是OpenTSDB?主要目的是什么?官方文档是这样描述的:OpenTSDB是一个分布式的、可扩展的时间序列数据库(TSDB),写在HBase之上;译文是一个基于Hbase的分布式、可扩展的时序数据库。主要目的是做一个监控系统;例如,收集大型集群(包括网络设备、操作系统和应用程序)的监控数据并存储和查询。在OpenTSDB中引入continue存储的数据,是基于metric的。metric是一个监控项。例如,在服务器的情况下,会有CPU使用率和内存使用率等指标;OpenTSDB使用HBase作为存储。由于其良好的设计,因此支持metric的数据存储到秒级;OpenTSDB支持全量数据存储,即保存的数据不会主动删除;并且原始数据会永久保存(有些监控系统会聚合保存很久以前的数据)OpenTSDB存储相关概念在介绍这些概念的时候,我们先来看一个实际场景。例如,假设我们收集一台服务器(hostname=qtest)的CPU使用率,发现该服务器在21:00时CPU使用率达到99%。下面结合实例来看看OpenTSDB存储的一些核心概念1)Metric:也就是我们通常所说的监控项。比如上面的CPU使用情况2)Tags:就是一些标签。在OpenTSDB中,Tags由tagk和tagv组成,即tagk=takv。标签用于描述指标。比如上面为了标记服务器A的CpuUsage,tags可以是hostname=qatest3)Value:AValue代表一个metric的实际值,比如上面的99%。4)Timestamp:时间戳,用来描述Value是什么时候;例如上面的21:005)DataPoint:某个Metric在某个时间点的值。DataPoint包括以下部分:Metric、Tags、Value和Timestamp。上面描述的服务器21:00的cpu使用率是一个保存到OpenTSDB的DataPoint,也就是无数个DataPoint。OpenTSDB整体架构openTSDBarchitectureServers:就是服务器,上面的C指的是Collector,可以理解为OpenTSDB的代理,通过Collector收集数据,推送数据;TSD:TSD是一个对外通信的无状态服务器,Collector可以通过TSD简单的RPC协议推送监控数据;此外,TSD还提供了一个用于数据查询的webUI页面;另外,可以通过脚本查询监控数据,监控数据可以告警HBase:TSD收到监控数据后,使用AsyncHbase库将数据写入HBase;AsyncHbase是一个完全异步、非阻塞、线程安全的Hbase客户端,它使用更少的线程、锁和内存来提供更高的吞吐量,特别是对于大量的写操作。众所周知,物联网时代创造的数据,将无法与互联网时代的数据相提并论。物联网时代,汽车甚至冰箱都有独立的ip地址,可以根据自身系数的变化产生数据。物联网的发展离不开大数据,依托大数据可以提供足够的有利资源;同时,大数据也促进了物联网的发展。新时代的发展提出了更高的要求。这是一种新的智能形式。它的外在表现是物联网,内涵表现在大数据。简单地说,物联网应用的内在本质就是利用大数据。大数据是物联网的血液。大数据代表物联网的信息层(数据海洋),是智慧和意识产生的基础。物联网是互联网的应用扩展。与其说物联网是网络,不如说物联网是业务和应用。因此,应用创新是物联网发展的核心,以用户体验为核心的创新是物联网发展的灵魂。下图就是一个例子。物联网大致分为以下几层:感知层、网络层和应用层。感知层相当于人的感官和神经末梢,用于感知和收集应用环境中的各种数据。包括温度、湿度、速度、位置、振动、压力、流量、气体等传感器。在万物互联的场景下,每天都有大量的传感器终端在返回数据。物联网大数据有以下与一般大数据不同的特点:1.物联网数据量更大物联网最重要的特点之一就是节点数量多。等等是物联网的组成节点,其数量规模远大于互联网;同时,物联网节点的数据产生频率远高于互联网。例如,大部分传感器节点处于全时工作状态,数据流是连续不断的。2、物联网中的数据速率更高一方面,物联网中的海量数据必然需要骨干网汇聚更多的数据,数据传输速率也会更高;另一方面,由于物联网与真实的物理世界直接相关,很多时候需要实时访问和控制相应的节点和设备,因此需要较高的数据传输速率来支持相应的实时性能。3、物联网中的数据更加多样化。物联网涉及广泛的应用。不同的领域和行业需要面对不同类型和格式的应用数据。因此,物联网中的数据多样性更加突出。4物联网对数据真实性要求更高。物联网是真实的物理世界和虚拟的信息世界的结合。它对数据的处理和基于它的决策将直接影响物理世界。物联网中数据的真实性尤为重要。重要的。大数据是物联网大数据中必不可少的关键技术,两者的结合可以为物联网系统和应用的发展带来更好的技术基础。为了更好地将大数据技术应用于物联网应用,通过大数据挖掘分析,为物联网和移动互联网提供有用的分析,并获得价值。大数据的存储模型经历了几个发展阶段。其中,关系数据库是计算机数据管理发展史上的一个重要里程碑。数据结构、绝对冗余、程序和数据独立性高、易于扩展、应用程序易于编程等优点,使其长期广泛应用于数据存储、处理和分析。随着技术和软件技术的飞速发展,人们发现关系数据库系统虽然已经非常成熟,但其局限性也很明显:它可以很好地处理所谓的“表格数据”,但对于越来越复杂的数据类型无力。然而,在物联网时代,传统的关系型数据库已经不适用于物联网大数据。由于物联网设备数据的不间断回传,人们对数据时效性的要求越来越高。物联网时代数据时效性的价值对大数据存储和处理数据的时效性提出了更高的要求。对于物联网时间序列数据的存储,时间序列数据是在不同时间点采集的数据,反映了事物随时间变化的过程。某锅炉在过去24小时内每分钟的温度是一个典型的时间序列数据,其特点是每个时间戳对应一个值(这个值就是温度)。在不同的应用场景下,这个值可以是电流、电压、速度、浓度、分贝、频率,无论是哪种测量,每个值都对应一个特定的采集时间戳。物联网大数据对存储设施的要求不同于传统的关系型数据库。新的数据存储设施需要专门针对物联网时序数据的存储、查询和展示进行优化,从而获得极高的数据压缩能力、优异的查询性能,特别适用于需要处理海量时序数据的物联网应用场景数据,在工业制造、环境、能源、水务、物流等领域有着巨大的需求。