当前位置: 首页 > 网络应用技术

TSDB时正时数据库正时数据压缩减压技术浅分析

时间:2023-03-08 11:09:34 网络应用技术

  简介:目前,智能互连技术(例如物联网,工业互联网和车辆互联网)在各种工业场景中迅速普及,从而导致互联网传感器和智能设备的数量急剧增加以及数量时间 - 订单监视数据存储和所遵循的处理问题也是如此。对于时间序列数据库压缩和存储数据功能,提出了更高的要求。通过大量数据存储来确定物联网的顺序,尽管标准压缩方法还可以发挥其价值,一些方案提出了对定时数据压缩和解压缩技术的效率和性能的新需求。本文介绍了现有的时间 - 序列数据压缩和减压技术,分类介绍了特征和优势和不同算法的缺点。

  摘要:目前,智能互连技术,例如物联网,工业互联网和车辆互联网在各种行业场景中迅速普及,从而导致互联网传感器和智能设备的急剧增加。在时间 - 序列的数据库压缩和存储数据功能。尽管标准压缩方法也可以发挥其价值,但用大量数据存储来确定物联网的顺序,但某些方案提出了对效率和性能的新需求这篇文章介绍了现有的时间序列数据压缩和减压技术,分类介绍了不同算法的特征,优势和缺点。

  时间订单数据通常在物联网,工业互联网和车辆互联网中。物联网设备已经在各种行业场景中传播。从可穿戴设备到工业生产设备,可以生成许多数据。高通量数据处理通常可用。选择定时数据压缩算法需要数据收集,存储和分析的各个方面。重要的是要注意,业务应用程序目前正在分析业务应用程序的当前和历史数据分析。选择不正确的压缩算法将导致关键信息的丢失并影响分析结果。对于业务,定时数据压缩技术的应用是定时数据库。对于定时数据库,压缩和解压缩是关键数据处理步骤。压缩算法的性能直接影响定时数据库构建的ROI。

  对于数据压缩算法,该行业通常具有更常见的解释,通常用于一般方案和与业务相关的方案,例如视频,音频和图像数据流压缩。本文侧重于时间定时数据设计的常见压缩算法可以在顺序数据处理中使用的数据库或通用压缩算法。我们选择分析的算法能够在更通用的场景中连续生成正时数据压缩处理,并为IOT IOT IOT SECONARIO SECOROR SESER SESOR数据的以下特性做出特殊设计压缩:

  1.冗余:某些特定模式的时机以一个或多个时间序列出现。

  2.振动性:可以根据预定函数估算某些传感器生成的时序数据生成模式。

  3.可预测性:可以通过算法来预测某些顺序数据未来趋势,例如使用回归,深神经网络和其他技术。

  图计时数据压缩算法分类

  压缩技术被分类,详细指出上图,并比较和分析主要算法的性能。

  在引入压缩算法之前,我们首先定义了定时数据,压缩和质量索引的几个关键概念。

  1个时间顺序数据(时间序列)

  按时间戳(TI)序列按时间订单数据索引安排的数据集可以分为:

  1.单变量时间序列(UTS):收集的数据转移组收集的数据金属组是一个实际数字变量。

  2.多元时间序列(MTS):每个收集的数据金属组集合都由多个实数组成,每个组件都是时间表的特征。

  例如,图2中指定的时间窗口中股票价格的波动可以定义为单个变量的定时数据,以及每日交易信息(例如:开放,收盘价,交易量等)。作为多变量的计时数据。

  图库存交易UTS定时数据样本

  使用数学范式表达式可以定义为:

  2个数据压缩

  数据压缩(也称为源编码,源编码),根据David Salmon在“数据压缩:完整参考”一书中的定义,可以简要地描述为“将原始数据流的输入转换为字符流(位流)或输出数据流的过程较小的压缩流”。此过程遵循J. G. Wolff提出的简单功率(SP)理论,该过程旨在尽可能地保持数据信息以消除数据冗余。

  数据解压缩(也称为源解码,源解码),执行和压缩相反的过程重组数据流,以满足更有效的数据应用程序层在数据表达和对数据的理解上的需求。

  现有的压缩算法可以根据实施原则的差异将以下类别分为以下类别:

  对于特定的时序数据流压缩解压缩过程,压缩算法实例(编码器)输入s的时序数据流ts,并返回压缩体积s'的时序数据流ts',而s>'''''''字段E(TS)= TS'。解压缩算法实例的执行过程(解码器)是来自压缩数据流的原始计时数据流的原始计时数据流D(ts')= ts。

  3个质量指数

  为了衡量定时数据压缩算法的性能,通常考虑三个点:压缩率,压缩速度和准确性。

  1.压缩率:测量原始定时数据压缩比的压缩算法,可以定义为:

  ρ= s

  其中,S'表示定时数据被压缩后的音量,S是定时数据压缩之前的原始体积。为的转换也称为压缩因子,质量指数是用于表达压缩的索引收入。它被定义为:

  cg = 100loge1 =

  2.速度:测量压缩算法的执行速度,通常使用每个字节压缩周期(CPB)的平均执行时间。

  3.准确性:也称为失真标准(DC),在保留压缩算法重建后测量定时数据保留信息。为了满足不同方案的需求,您可以使用各种测量指标来确定。常用的指标是:

  平方误差:

  根平方错误:

  信号与噪声比:

  峰信号与噪声比:

  当前常用的定时数据压缩算法主要是:

  1.1。特里斯坦1.2。康拉德1.3。A-LZSS 1.4。D-lzw

  2.1。分段多项式近似(PPA)2.2。Chebyshev多项式变换(CPT)2.3。离散小波变换(DWT)

  3.1。复发性神经网络自动编码器(RNNA)

  4.1。Delta编码,Run-Levelh和Huffman(DRH)4.2。Sprintz 4.3。

  5.1。

  1个字典背部(DB)

  DB算法实现的实现与通过数据顺序数据存在的片段相同,并将片段定义为原子片段,并且是更换的标记以替换它。当使用字典用于使用时,将徽标用作密钥恢复。虽然降低了数据压缩比,但降低了错误率。该技术实现的压缩可能会丢失,具体取决于实现。该架构是:

  Tristan是基于数据库策略的算法。Tristan算法将压缩分为两个阶段。适应性学习的第一阶段和第二阶段数据压缩。在学习阶段,Tristan词典表是通过学习训练数据集或原子片段与专家经验结合定义特定模式的原子片段生成的。在压缩阶段中从以下公式中检索W。

  S = W·D W 0 {0,1} k

  其中,d是一个字典表,s是一个原子片段,k是压缩正时表之后数据的长度。Tristan解压缩过程是解释字典表D解释数据W的过程,以获取原始的时序。数据。

  CORAD算法在Tristan的基础上添加了自动数据关联信息,并基于两个序列数据芯片来测量Pearson相关系数。使压缩比和数据减压精度添加。

  Accelemeter LZSS(A-LZSS)算法是基于LZSS搜索匹配算法的DB策略实现。A-LZSS算法使用Huffman编码,并通过统计数据概率分布生成。

  差分LZW(D-LZW)算法的核心思想是创建一个非常大的字典表,该表将随着时间的推移而生长。一旦创建字典表,如果在字典中找到了缓冲区块,它将被它替换为相应的索引。否则,新块将插入字典作为新的条目。对新的缓存块进行介绍是为了确保实现非循环压缩的原理,并且增加的增加不限于限制。Scenes,例如输入时间数据流由有限的短语或枚举字符集组成。

  ZSTANDARD(ZSTD)是一种基于Huffman编码熵编码器实现的快速非循环DB压缩算法。词典表作为可选的支持参数控件打开。该算法由Facebook实现,该算法支持压缩速度和压缩率之间的按需调整。它可以通过牺牲压缩速度来交换更高的压缩率,并使用类似的算法进行vice vise.com,ZSTD算法的性能可以参考下面的数据。

  表ZSTD算法性能比较

  2功能近似(FA)

  假定可以将时间顺序表示为时间函数的功能定时压缩算法FA的主要设计思想。由于很难避免无法处理的新值,因此找到一个可以准确的函数是不可行的描述整个时间顺序。因此,我们可以将时间顺序分为多个片段,并找到一个近时间函数来描述每个段。

  因为找到一个可以完全描述时间序列的函数f:t→x是不可行的,所以我们需要考虑找到一个函数群集,并且互操作性的参数以描述段的顺序数据相对可行,但这是同样可能,但这也是可能存在的压缩算法,这是一个松散的实现。

  相反,FA类算法优势是它不取决于数据值的范围,因此无需基于示例数据集的训练阶段。如果采用了回归算法,我们只需要单独考虑分隔的单个时间片段即可。

  分段多项式AppProximation(PPA)是FA类算法的常见实现。该技术将时间顺序划分为固定长度或可变长度的多个段,并尝试找到接近细分的最佳多项式表达式。尽管受到损坏,但可以在原始数据的最大偏差下进行修复,以达到给定的重建精度。PPA算法应用程序是贪婪的,三种不同的在线回归算法来接近恒定功能,直线和多月瘤。

  Chebyshev多项式变换(CPT)实施原理类似于PPA算法,但它们仅提高支持使用不同类型的多面位瘤的使用能力。Discrete小波转换(DWT)使用小波小波小波转换来转换序列数据描述0的起始值的函数,中间值在此之间波动。

  3个自动编码器

  AutoCoder是一个特殊的神经网络,经过训练以生成定时数据。该算法体系结构由两个对称部分组成:编码器编码器和解码器解码器。在给定n个维度的定时数据输入的前提下.DECODER解码器可以将M维输出恢复为n-维输入。RECURRENT神经网络自动编码器(RNNA)是典型的自动编码器的实现,该实现使用RNN实现压缩时间的计时数据。

  图自动编码器算法实现结构

  4序列化算法顺序算法(SA)

  序列化算法SA实现的原理是依次整合各种简单的压缩技术以实现时间订单数据压缩。常见技术是:

  Delta编码,运行长度和Huffman(DRH)算法是Delta编码,Huffman编码,运行长度编码和Huffman编码的四种技术的压缩算法。还适用于需要应用的数据,这些数据需要用于简短的收集处理数据,例如物联网,工业互联网和物联网。

  Sprintz是一种专门用于设计事物互联网的SA算法。在算法设计中,它考虑了波动率的方法,例如算法设计中事物场景中的能耗和速度。该算法设计针对以下需求进行了专门优化:

  1)快速处理较小的片段数据

  2)压缩和减压底部的计算复杂性适应边缘端的有限计算资源

  3)快速压缩和减压计时数据的时间收集

  4)非平移压缩

  为了对物联网物联网环境的定时数据获得更好的压缩效果,Sprintz算法通过预测数据生成趋势来改善数据的压缩性能。主要实施算法过程包括以下部分:

  1)预测:基于Delta编码或FIRE算法,通过统计历史顺序数据来预测新样本数据的形成;

  2)位包装:包装预测错误信息数据和Baotou描述向解压缩数据描述的信息;

  3)运行长度编码:如果在压缩过程中未通过预测算法找到错误信息,则位置包装过程的错误消息发送以及记录在包装数据包标题中略微传递的数据的数据预测错误信息下次发生错误下一个时间长度;

  4)熵编码:使用Huffman编码来编码由大包装生成的软件包文件。

  运行长度的二进制编码(RLBE)算法也是IoT IoT方案的数据压缩算法,该方案是适用于物联网边缘的常用非循环SA定时数据压缩算法,以及存储资源和存储资源和存储资源的边缘环境。运行长度编码和斐波那契编码技术是三种技术。执行过程如下图所示。

  图运行长度二进制编码(RLBE)算法执行过程图标图标

  Rake算法原理是通过检测数据稀疏性来实现数据的压缩。Rake是两个主要过程:非循环压缩过程,执行过程包括预处理和压缩。在预处理过程中,Rake AlgorithM旨在转换该转换词典表中的原始数据。压缩过程对预处理数据进行了稀疏检测,以压缩相邻相邻的相同数据。

  5其他类型算法

  主要的极端提取器(MEE)算法通过指定时间段的计划数据和时间段的最小值来压缩数据。细分合并(SM)算法将计时数据抽象成时间戳和值和偏差的片段,该片段可以由meta -group(t,y,δ).deviation.conluble Hidden Markov链(CHMC)算法使用Markov链概率模型将时间数据定义为一系列有限的状态节点集s和链接节点。

  时间订单数据是Internet,工业互联网和汽车网络中数据类型中最比例的。有效的压缩算法不仅可以降低数据存储成本,还可以从边缘传输到中心,中心到云数据传输。在此过程中,我们可以节省网络带宽资源并减少数据同步时间。压缩算法作为时间 - 序列数据核心存储中心更为重要。前言引擎是阿里巴巴云道德模型的核心数据库引擎之一,具有构建的 - 自我开发,高效率数据压缩优化智能和互连场景的算法,例如物联网,工业互联网和车辆互联网,进一步增强了时间的回报率 - 序列数据存储。新一代的Yunnian智能互连系统的新一代提供了必要的支持。

  作者|Renwei来源|阿里技术公共帐户