当前位置: 首页 > 科技观察

2022年深度学习在时间序列预测和分类方面的研究进展综述

时间:2023-03-14 09:16:39 科技观察

时间序列预测transformer的没落和时间序列embedding方法的兴起,以及异常检测和分类也取得了进展。2022年,整个领域将在多个不同的前沿取得进展,本文将尝试介绍过去一年左右出现的一些更有前途和关键的论文,以及FlowForecast[FF]预测框架。时间序列预测1.Transformers对时间序列预测真的有效吗?https://arxiv.org/pdf/2205.13504.pdfTransformer相关研究对比了Autoformer、Pyraformer、Fedformer等,它们的效果和问题遵循Autoformer(Neurips2021)、Pyraformer(ICLR2022)、Fedformer(ICML2022)、EarthFormer(Neurips2022)和Non-StationaryTransformer(Neurips)等模型,时间序列预测架构的Transformer系列不断壮大)。但这些模型准确预测数据并优于现有方法的能力仍然存在疑问,特别是根据新研究(我们将在稍后讨论)。Autoformer:扩展和改进了Informer模型的性能。Autoformer具有自动关联机制,使模型能够比标准注意力更好地学习时间依赖性。它旨在准确分解时态数据的趋势和季节性成分。Pyraformer:作者介绍了“PyramidAttentionModule(PAM),其中尺度间树结构在不同分辨率下总结特征,尺度内相邻连接在不同尺度下模拟时间依赖性。”Fedformer:该模型侧重于捕捉时间序列数据中的全局趋势。作者提出了一个季节性趋势分解模块,旨在捕捉时间序列的全局特征。Earthformer:可能是这些论文中最独特的一篇,它特别侧重于预测地球系统,例如天气、气候和农业。引入了一种新的长方体注意力架构。这篇论文应该很有潜力,因为很多经典的Transformer在河流和山洪预测的研究上都失败了。Non-StationaryTransformer:这是最新一篇使用Transformer进行预测的论文。作者旨在更好地调整Transformer以处理非平稳时间序列。他们采用两种机制:不稳定注意力和一系列稳定机制。这些机制可以插入任何现有的Transformer模型,作者测试将它们插入Informer、Autoformer和传统的Transformer可以提高性能(在附录中,还表明它可以提高Fedformer的性能)。论文评估方法:与Informer类似,所有这些模型(Earthformer除外)都在电力、交通、金融和天气数据集上进行评估。主要根据均方误差(MSE)和平均绝对误差(MAE)指标进行评价:这篇论文很不错,但只是对比了Transformer相关的论文,实际上应该和更简单的方法进行对比,比如simplelinearregression,LSTM/GRU,甚至是XGB等树模型。另一件事是它们不应该局限于某些标准数据集,因为我还没有看到其他时间序列相关数据集的良好表现。例如,informer在准确预测河流流量方面存在巨大问题,与LSTM甚至vanillaTransformers相比,它的表现往往很差。此外,由于与计算机视觉不同,图像维度至少保持不变,时间序列数据在长度、周期、趋势和季节性方面可能变化很大,需要更大的数据集。在OpenReview的Non-StationaryTransformer评论中,一位评论者也表达了这些担忧,但在最终的元评论中被否决了:“由于该模型属于Transformer领域,并且Transformers之前在许多任务中执行过最先进的任务,我认为没有必要与其他‘家庭’方法进行比较。”这是一个非常有问题的论点,导致研究在现实世界中缺乏适用性。众所周知:XGB在表格数据上的压倒性优势没有变,那么Transformer闭门造车的意义何在?每一次超越,每一次被吊打。作为一个在实践中重视最先进的方法和创新模型的人,当我花了几个月的时间试图让一个所谓的“好”模型工作时,却发现它的表现不如一个简单的线性回来,这几个月有什么意义?这种所谓的“好”模型有什么意义?所有Transformer论文都存在同样的有限评估问题。我们应该从一开始就要求更严格的比较和明确的缺点陈述。一个复杂的模型最初可能并不总是优于简单的模型,但这需要在论文中明确指出,而不是掩饰或简单地假设情况并非如此。但是这篇论文还是很不错的。例如,Earthformer在MovingMNIST数据集和N-bodyMNIST数据集上进行了评估。作者用它验证了cuboidattention的有效性,并评估了它的降水即时预报和厄尔尼诺周期。预报。我认为这是一个很好的例子,将物理知识融入到模型架构中,然后设计出好的测试。2.Transformers对时间序列预测有效吗(2022)?https://arxiv.org/pdf/2205.13504.pdf本文探讨了Transformer预测数据的能力和基线方法。结果在某种程度上再次证实,变形金刚通常比更简单的模型表现更差,而且难以调整。本文中有几个有趣的观点:用基本线性层替换自注意力并发现:“Informer的性能随着逐渐简化而增长,表明至少对于现有的LTSF基准,自注意力方案和其他复杂模块是不必要的”调查了增加回溯窗口(look-backwindow)是否会提高Transformer的性能,发现:“SOTATransformers的性能略有下降,表明这些模型只从相邻的时间序列序列中捕获相似的时间信息”探索位置嵌入是否真的能很好地捕捉时间序列的时间顺序。它通过将输入序列随机混洗到Transformer中来做到这一点。他们在几个数据集上发现,这种改组并没有影响结果(编码很麻烦)。在过去的几年中,无数使用Transformer模型进行的时间序列实验在绝大多数情况下都取得了不太理想的结果。很长一段时间,我们认为我们一定是做错了什么,或者遗漏了一些小的实现细节。所有这些都被认为是下一个SOTA模型的想法。但是这篇论文有一个一致的思路吗?如果一个简单的模型优于变形金刚,我们应该继续使用它们吗?是所有变形金刚都存在固有缺陷,还是只是目前的机制?我们是否应该回到lstm、gru或像简单的前馈模型这样的架构?我不知道这两个问题的答案,但这篇论文的整体影响还有待观察。到目前为止,我认为答案可能是退后一步,专注于学习高效的时间序列表示。毕竟最初BERT成功地在NLP环境中形成了良好的表征。也就是说,我认为我们不应该认为时间序列变形金刚完全死了。Fedformer的表现非常接近简单模型,并且在各种消融加扰任务上表现更好。虽然在许多情况下基准很难预测,但它们对数据的内部表示非常好。我认为需要进一步了解内部表示与实际预测输出之间的脱节。此外,正如作者所建议的那样,改进位置嵌入可以在提高整体性能方面发挥关键作用。最后还有一个在各种异常检测数据集上表现非常出色的Transformer模型,下面会介绍。3.AnomalyTransformer(ICLRSpolight2022)https://arxiv.org/abs/2110.02642相当多的研究都集中在将transformers应用于预测,但是关于异常检测的研究相对较少。本文介绍了一种(无监督)Transformer来检测异常。该模型使用特殊构建的异常注意机制结合minmax策略。本文评估了模型在五个真实世界数据集上的性能,包括服务器机器数据集、PooledServerMetrics、SoilMoistureActivePassive和NeurIPS-TS(它本身由五个不同的数据集组成)。虽然有人可能对这个模型持怀疑态度,尤其是关于第二篇论文的观点,但这个评估是相当严格的。Neurips-TS是最近创建的数据集,专门设计用于对异常检测模型进行更严格的评估。与更简单的异常检测模型相比,该模型似乎确实提高了性能。作者提出了一种独特的无监督Transformer,它在过多的异常检测数据集上表现良好。这是过去几年时间序列Transformer领域最有前途的论文之一。因为预测比分类甚至异常检测更具挑战性,因为你正试图预测未来许多时间步的巨大范围的可能值。这么多的研究都集中在预测上而忽略了分类或异常检测,我们不应该从简单的Transformers开始吗?4.WaveBound:DynamicErrorBoundsforStableTimeSeriesForecasting(Neurips2022):https://openreview.net/forum?id=vsNQkquutZk论文介绍了一种新的正则化形式,可以提高深度时间序列预测的训练模型(特别是上述变压器)。作者通过将其插入现有的Transformer+LSTNet模型对其进行评估。他们发现它在大多数情况下显着提高了性能。尽管他们只测试了Autoformer模型而不是像Fedformer这样的新模型。新形式的正则化或损失函数总是有用的,因为它们通常可以插入任何现有的时间序列模型中。如果将Fedformer+非平稳机制+Wavebound结合起来,您可能会在性能上击败简单的线性回归:)。时间序列表示尽管Transformer不擅长预测方向,但Transformer在创建有用的时间序列表示方面取得了很大进步。我认为这是时间序列深度学习领域中一个令人印象深刻的新领域,应该进行更深入的探索。5.TS2Vec:TowardsUniversalRepresentationofTimeSeries(AAAI2022)https://arxiv.org/abs/2106.10466TS2Vec是学习时间序列表示/嵌入的通用框架。这篇论文本身有些过时,但它确实开启了时间序列表示学习论文的趋势。使用表示进行预测和异常检测进行评估,优于许多模型,例如Informer和LogTransformer。6.LearningLatentSeasonal-TrendRepresentationsforTimeSeriesForecasting(Neurips2022)https://openreview.net/forum?id=C9yUwd72yy作者创建了一个模型(LAST),该模型使用变分推理来创建趋势的季节性和分离表示。作者在下游预测任务上评估他们的模型,他们通过在表示上添加预测器(参见上图中的B)来实现。他们还提供有趣的图表来显示表示的可视化。该模型在多个预测任务以及TS2Vec和成本方面优于Autoformer。在某些预测任务上,它看起来也可能比上面提到的简单线性回归表现更好。虽然我仍然对仅评估标准预测任务的模型持怀疑态度,但这个模型确实很出色,因为它侧重于表示而不是预测任务本身。如果我们查看论文中提供的一些图表,我们可以看到该模型似乎确实学会了区分季节性和趋势。不同数据集的视觉表示也嵌入到同一空间中,如果它们显示出实质性差异,那将很有趣。7.CoST:ContrastiveLearningofDisentangledSeasonal-TrendRepresentationsforTimeSeriesForecasting(ICLR2022)https://openreview.net/forum?id=PilZY3omXV2这是2022年初发表在ICLR上的一篇论文,与LaSTin非常相似学习季节和趋势表示。由于LaST已经在很大程度上取代了它的性能,这里不再过多描述。但是对于那些想要阅读它的人来说,链接在上面。其他有趣的论文8,DomainAdaptationforTimeSeriesForecastingviaAttentionSharing(ICML2022)https://arxiv.org/abs/2102.06828当缺乏训练数据时,预测对DNN来说是一个挑战。本文对数据丰富的领域使用共享注意力层,然后对目标领域使用单独的模块。它提出的模型使用合成数据集和真实数据集进行评估。在综合环境中,对冷启动学习和少样本学习进行了测试,发现它们的模型优于vanillaTransformer和DeepAR。对于真实数据集,采用了Kaggle零售数据集,该模型在这些实验中大大优于基线。冷启动、少样本和有限学习是极其重要的主题,但很少有论文涉及时间序列。该模型为解决其中一些问题提供了重要的一步。这意味着它们可以在更多样化的有限现实世界数据集上进行评估,并与更多基线模型进行比较。微调或正则化的好处是可以调整任何架构。9.WhentoIntervene:LearningOptimalInterventionPoliciesforCriticalEvents(Neurips2022)https://openreview.net/pdf?id=rP9xfRSF4F虽然这不是一篇“典型”的时间序列论文,但我选择将其包含在这个列表中是因为本文的重点是找到在机器发生故障之前进行干预的最佳时间。这被称为OTI或干预评估的最佳时间OTI的问题之一是潜在生存分析的准确性(如果不正确,评估将不正确)。作者根据两个静态阈值评估了他们的模型,发现它表现良好,并绘制了不同策略的预期性能和命中率。这是一个有趣的问题,作者提出了一个新颖的解决方案,Openreview上的一位评论者指出:“如果有一张图表显示失败概率和预期干预时间之间的权衡,这个实验可能会更有说服力,这样人们就可以直观地看到这条权衡曲线的形状。”最新的数据集/基准是基准MonashTimeSeriesForecastingArchive(Neurips2021):该归档旨在为不同的时间序列数据集形成基准“主列表”,并提供更权威的基准。该存储库包含20多个不同的跨越多个行业的数据集,包括健康、零售、拼车、人口统计等。https://forecastingdata.org/SubseasonalForecastingMicrosoft(2021):这是微软公开发布的数据集,以方便使用机器学习改进次季节预报(例如提前两到六周)。次季节预报帮助政府机构更好地为天气事件和农民的决定做准备。微软为此任务提供了多个基准模型,与其他方法相比,深度学习模型的表现通常较差。最好的DL模型是简单的前馈模型,而Informer表现很差。https://www.microsoft.com/en-us/research/project/subseasonal-climate-forecasting/RevisitingTimeSeriesOutlierDetection:本文回顾了许多现有的异常/异常值检测数据集,以及35个新的合成数据集并提出了4个真实世界的数据集用于基准测试。https://openreview.net/forum?id=r8IvOsnHchr开源时间序列预测框架FFFlowForecast是一个开源的时间序列预测框架,包括以下模型:VanillaLSTM(LSTM)、SimpleTransformer、Multi-HeadAttention,Transformerwithalineardecoder,DARNN,??TransformerXL,Informer,DeepAR,DSANet,SimpleLinearModel等。这是学习使用深度学习进行时间预测的很好的模型代码来源。如果你有兴趣,你可以看看。https://github.com/AIStream-Peelout/flow-forecastSummary在过去的两年里,我们看到了Transformer在时间序列预测方面的兴起和可能的衰退以及时间序列嵌入方法的兴起,以及异常检测方面的额外突破和分类。但对于深度学习时间序列:可解释性、可视化和基准测试方法仍然缺乏,因为模型在哪里执行以及性能故障发生在哪里非常重要。此外,未来可能会出现更多形式的正则化、预处理和迁移学习以提高性能。也许Transformer对时间序列预测有好处(也许不好),就像VIT一样,如果没有Patch,Transformer可能仍然会被认为不适合,我们会持续关注时间序列方面Transformer的发展或替代。