当前位置: 首页 > 科技观察

革命变形金刚!清华大学提出新骨干网长期预测实现SOTA

时间:2023-03-21 12:15:47 科技观察

尽可能延长预测时效是时间序列预测的核心问题,对能源、交通、和经济,以及气象灾害和疾病的预警。清华大学软件学院机器学习实验室的研究人员最近发表了一篇论文,探讨了利用有限信息预测更长期未来的难题。针对以上问题,作者对Transformer进行了大刀阔斧的革新,提出了一种新的Autoformer模型,在长期时间序列预测方面达到了SOTA,在效率和性能方面超越了Transformer及其变体。论文链接:https://arxiv.org/abs/2106.13008研究背景尽管基于Transformer的模型近期在时间序列预测方面取得了一系列进展,但Transformer固有的设计在处理长期序列方面仍然存在不足:与对于预测时间的延长,直接使用自注意力机制很难从复杂的时间模式中找到可靠的时间依赖关系。由于self-attention的二次复杂度问题,模型不得不使用其稀疏版本,但会限制信息利用效率,影响预测效果。受到时间序列分析经典方法和随机过程经典理论的启发,作者重新设计了模型,打破了Transformer原有的结构,得到了Autoformer模型:深度分解架构:突破时间序列分解的传统方法为预处理,并设计序列分解单元以嵌入深度模型实现渐进式(progressively)预测,逐渐得到更多可预测的分量。Auto-Correlation机制:基于随机过程理论,摒弃point-wiseconnection的self-attention机制,实现series-wiseconnection的自相关机制,具有打破信息利用瓶颈的复杂性。针对长期预测问题,Autoformer在能源、交通、经济、气象、疾病五大领域实现了38%的大幅提升。方法介绍作者提出了Autoformer模型,包括内部的序列分解单元,自相关机制,以及相应的encoder和decoder。(1)DepthDecompositionArchitectureAutoformerArchitecture时间序列分解是时间序列分析的经典方法,可以将时间序列分解成几类潜在的时间模式,如周期项、趋势项等。在预测任务中,由于未来的不可知性,通常先分解输入,然后分别预测每个分量。但这限制了对分解效果的预测,并忽略了组件之间的长期未来相互作用。针对以上问题,作者提出了深度分解架构。在预测过程中,趋势项和周期项逐渐从隐变量中分离出来,实现渐进分解。并且模型交替进行预测结果优化和序列分解,可以实现两者的相互促进。A、序列分解单元基于移动平均的思想,对时间序列进行平滑处理,将周期项和趋势项分开:其中,是待分解的隐变量,分别是趋势项和周期项项,上式记为.B.CodecEncoder:通过上面的分解单元,模型可以分离出周期项,基于这种周期性,进一步利用自相关机制()聚合不同时期的相似子过程:Decoder:分别预测趋势项和周期项。对于周期性项,利用自相关机制,根据序列的周期性挖掘依赖关系,聚合具有相似过程的子序列;对于趋势项,使用累积法从预测的潜在变量中逐渐提取趋势信息。(2)自相关机制观察到不同时期的相似阶段通常表现出相似的子过程,利用该序列固有的周期性设计自相关机制,以实现高效的序列级连接。自相关机制包括基于周期的依赖性和时间延迟聚合。自相关机制,右侧延迟信息聚合A.基于周期的依赖发现基于以上观察,为了找到相似的子过程,需要估计序列的周期。根据随机过程理论,对于一个真实的离散时间过程,其自相关系数可以计算如下:其中自相关系数表示序列与其延迟之间的相似性。在自相关机制中,将这种延迟相似度作为非归一化周期估计的置信度,即周期长度的置信度为。实际上,根据Wiener-Khinchin理论,自相关系数可以用快速傅立叶变换(FFT)得到,其计算过程如下:其中,和分别代表FFT及其逆变换。因此,复杂度为。B.LatencyInformationAggregation为了实现序列级别的连接,需要聚合相似的子序列信息。autocorrelation机制基于预估的周期长度,首先使用操作对齐信息,然后聚合信息:这里,仍然使用query、key、value的multi-head形式,这样self-attention机制可以无缝衔接更换。同时,选择最有可能的周期长度,避免融合不相关甚至相反的相位。整个自相关机制的复杂度仍然是.C.Auto-CorrelationMechanism和Self-Attention的对比分析更好的信息聚合打破了信息利用的瓶颈。实验作者对6个数据集进行了测试,涵盖能源、交通、经济、气象、疾病五个主流领域。(1)主要结果总体实验结果Autoformer在多个领域和各种输入输出长度设置的数据集中取得了一致最优(SOTA)的结果。在input-96-predict-336设置下,与之前的SOTA结果相比,Autoformer实现了ETT能源数据集MSE提升74%,Electricity能源数据集MSE提升24%,Electricity能源数据集MSE提升64%交易所经济数据集。input-24-predict-60设置下traffic数据集提升了14%,Weather数据集提升了26%,ILIdisease数据集提升了30%。在以上六个数据集中,Autoformer在MSE指标上平均提升了38%。(2)比较实验深度分解架构的通用性:将提出的深度分解架构应用于其他基于Transformer的模型可以得到显着提升,验证了该架构的通用性。同时,随着预测时限的延长,改善效果更加明显,这也印证了复杂时间模式是长期预测的核心问题。ETT数据集上MSE指标对比,Origin表示直接预测,Sep表示先分解后预测,Ours表示深度分解架构。Autocorrelationmechanismvs.self-attentionmechanism:同样基于深度分解架构,在许多输入输出设置下,自相关机制始终优于self-attention机制及其变体,例如经典Transformer中的FullAttention,和线人。PropSparseAttention等在ETT数据集上的对比实验中,将Autoformer中的自相关机制替换为其他self-attention机制,得到了以上结果。(3)模型分析时序依赖可视化:对于序列的最后一个时间点,将每个模型学习到的时序依赖可视化。图(a)中的红线表示学习过程的位置。从上图可以验证,Autoformer中的自相关机制能够正确发现每个循环中的下降过程,没有出现误识别或漏识别,而其他注意力机制则存在遗漏甚至错误。效率分析:效率比较,红线是自相关机制。在显存占用和运行时间这两个指标上,自相关机制都表现出了出色的空间和时间效率,两个层面都超过了self-attention机制及其稀疏变化。身体,表现出高效的复杂性。总结针对长期序列预测中存在的问题,作者提出了基于深度分解架构的Autoformer模型和基于经典时间序列分析方法和经典随机过程理论的自相关机制。Autoformer通过渐进分解和序列级连接来应对复杂的时间模式和信息利用瓶颈,极大地改善了长期预测结果。同时,Autoformer在五个主流领域都展现出了出色的长期预测结果。该模型具有良好的效果稳健性,具有很强的应用价值。