科技

ICML2026 |SEER：自动增强+替换Patch，同时搞定噪声、异常、缺失、分布偏移的新SOTA模型！

原文作者：公众号-时序大模型原文链接：https://mp.weixin.qq.com/s/ZJfbE2OFeV9kZ6kBrLTsDg 雷峰网转载本篇论文来自ICML2026，最新前沿时序技术，针对时间序列预测，提出了名为SEER的Transformer鲁棒时序预测框架，首次实现多类型低质量时序数据的统一鲁棒建模。

文章信息论文名称：SEER:Transformer-based Robust Time Series Forecasting via Automated Patch Enhancement and Replacement 论文作者：Xiangfei Qiu、 Xvyuan Liu、 Tianen Shen、 Xingjian Wu、 Hanyin Cheng、 Bin Yang1 Jilin Hu 研究背景时间序列预测是支撑金融经济研判、智慧交通调度、医疗健康监测、电力能源调控、环境气象预警等诸多关键领域的核心基础技术，精准的长短期时序预测结果能够为行业资源动态调配、风险提前预警、智能化精准决策提供核心数据支撑，具备极高的学术研究价值与工程落地价值。在时序预测模型迭代发展历程中，传统循环神经网络（RNN、LSTM、GRU）依赖串行迭代计算，存在长距离时序依赖捕捉能力弱、并行度低、训练效率差的固有缺陷；CNN类模型仅能聚焦局部邻域特征，无法建模长时序关联；而传统线性时序模型泛化能力不足，难以适配复杂非线性时序场景。近年来，基于Patch分块建模的Transformer时序模型凭借创新性的时序切割思路，成为时序预测领域的主流SOTA方案，代表性模型包含PatchTST、Triformer、Crossformer、xPatch等。这类模型的核心优势是打破逐时间步建模的局限，将连续完整的长时序序列均匀切分为若干具备完整局部语义的子序列分块，以Patch分块作为基础建模与Transformer输入单元，能够高效捕捉长距离时序依赖关系，完美突破了传统时序模型的性能瓶颈，大幅提升了常规理想数据场景下的预测精度。尽管现有Patch时序模型在实验室理想数据集上表现优异，但在真实工业传感、户外监测、设备采集等落地场景中，时序数据的采集、传输、存储全过程极易受到外界环境干扰与设备硬件影响，几乎无法得到纯净、无缺陷的理想时序数据，普遍存在各类非理想质量缺陷。这类低质量数据会产生大量语义残缺、特征扭曲、信息无效的劣质时序分块，严重干扰模型特征学习与预测推理，也是当前鲁棒时序预测领域亟待解决的核心难题。白噪声（White Noise）：主要来源于传感器硬件轻微抖动、环境电磁干扰、人工记录误差等随机因素，服从标准高斯分布，具备全域覆盖、无固定规律、随机性强的特点。白噪声会叠加在原始有效时序信号上，模糊正常时序的波动规律与特征边界，导致模型无法精准捕捉真实时序趋势，持续降低模型预测稳定性；异常值（Anomalies）：由设备突发故障、系统运行报错、极端突发场景扰动等异常事件产生，表现为离散单点异常或连续多段时序偏移，且真实预测场景中无任何异常标注数据，属于无监督劣质数据干扰。异常值会彻底扭曲局部时序的数值分布与变化规律，误导模型学习错误的时序特征关联，大幅提升预测误差；缺失值（Missing Values）：产生于数据传输中断、设备临时宕机、信号遮挡、存储故障等场景，表现为部分时间步时序数据完全空缺。为统一实验标准、贴合真实场景处理逻辑，本文实验中统一将缺失位置数值置0，该处理方式会直接造成局部时序语义空缺、特征断层，破坏时序数据的连续性与完整性，导致局部Patch分块完全丧失有效预测信息；分布偏移（Distribution Shift）：属于时序数据的隐性缺陷，时序数据的生成机制会随时间、环境、设备工况的变化持续演化，导致同一时序序列的不同分段服从完全不同的概率分布，满足。分布偏移会造成训练集与测试集分布不一致、模型域泛化能力失效，是导致模型在真实场景性能骤降的核心隐性原因。现有模型存在三大核心缺陷： Patch建模机制僵化，缺乏动态自适应能力：当前所有主流Patch类时序模型均采用固定静态的时序等分策略，将所有时序分块无差别纳入模型前向传播过程，全程不做任何质量评估、筛选与优化替换。这种一刀切的静态建模方式，无法区分优质有效分块与劣质干扰分块，让大量含噪声、异常、缺失、偏移的劣质分块与优质分块同等参与特征学习与预测推理，持续向模型传递负向梯度信号，严重干扰模型正常的特征拟合过程，是模型在低质量数据场景失效的核心原因；表征学习方式单一，抗干扰能力薄弱：传统Patch嵌入方式仅依赖单一线性投影层完成时序分块的令牌映射，仅能构建单一固定的线性表征空间，特征表达维度单一、语义丰富度不足。面对真实场景复杂多变的时序扰动，单一表征空间无法有效区分正常时序特征与噪声、异常等干扰特征，极易出现特征混淆问题，导致模型无法精准提取有效时序规律；鲁棒性设计通用性差，落地局限性极强：现有鲁棒时序预测模型的优化设计均为单一场景定制化开发，仅能针对性解决某一类数据缺陷，例如DUET模型专注适配时序分布偏移问题、Merlin模型侧重处理数据缺失问题，无法同时兼容白噪声、异常值、缺失值、分布偏移四类混合劣质数据场景。而真实工业场景的时序缺陷往往是多类型叠加出现，单一鲁棒模型无法适配复杂混合扰动场景，极大限制了模型的实际落地应用范围。针对上述现有模型的核心痛点与行业落地难题，本文创新性提出了SEER（Spatio-temporal Enhanced and Replacement framework）基于Transformer的通用鲁棒时序预测框架。模型框架区别于传统静态Patch建模、单一维度鲁棒优化的设计思路，SEER的核心创新逻辑为动态Patch特征增强+智能劣质分块全局替换，彻底摆脱了传统时序分块模型僵化固定的建模范式，通过双模块协同设计，同时实现时序特征的精细化增强与劣质数据的自适应修复，全面适配多类型低质量时序场景。 SEER整体遵循“预处理降噪→特征增强→缺陷修复→特征细化→预测输出”的层级化设计逻辑，整体架构清晰、模块分工明确、适配性极强。完整推理流程分为五大核心层级，依次为：数据归一化预处理、双分支增强嵌入模块（AEM）、可学习Patch替换鲁棒修复模块（LPRM）、多头自注意力全局特征细化、自适应降维预测头。其中AEM模块负责从源头增强时序特征丰富度、构建全局优质修复原型，LPRM模块负责精准修复劣质时序缺陷，两大可训练核心模块协同配合，共同支撑模型的高精度与强鲁棒性。任务定义文章聚焦多变量时序预测这一主流工业任务，给定包含N个特征通道、T个历史时间步的多变量历史时序数据（其中为时序特征通道数，为模型固定回看时间步长），模型通过深度学习训练学习从历史时序到未来时序的非线性映射函数，最终精准预测未来连续F个时间步的时序数据。区别于常规时序预测任务，文章重点解决的鲁棒时序预测任务，特指在输入时序数据存在白噪声、数值异常、数据缺失、分布偏移等各类真实缺陷的前提下，依然保证模型预测的高精度与稳定性，突破现有模型劣化失效的瓶颈。前置预处理：实例归一化真实场景时序数据普遍存在非平稳性问题，不同时间段、不同通道的数据分布差异较大，直接输入模型会导致训练与测试数据分布不一致，严重影响模型收敛效果与泛化能力。因此本文在模型特征输入前，引入可逆实例归一化操作对原始时序数据做统一预处理，通过标准化变换抹平数据分布差异、消除非平稳性带来的建模干扰，同时保留可逆特性保证预测结果可还原，为后续特征增强、缺陷修复与精准预测奠定均匀、稳定的数据基础。增强嵌入模块（AEM）—— 双分支表征构建增强嵌入模块（AEM）是SEER实现特征优质化的基础模块，核心设计思路为双分支差异化表征构建，包含增强块嵌入（局部特征精细化）与增强序列嵌入（全局原型构建）两个并行分支。其中局部分支负责细化每一个时序分块的细节语义、丰富局部特征维度，全局分支负责聚合全时序、全通道的优质信息，构建无缺陷的全局修复原型，为后续劣质分块替换修复提供高质量基准，双分支互补，兼顾细节与全局。增强块嵌入为适配Patch分块建模范式，模型首先对完整原始时序序列进行均匀切分，将维度为的时序数据重构为分块序列，其中为单个时序分块的长度，为整体时序切分后的分块总数量。为解决传统单一线性嵌入表征单一、特征区分度低的问题，本文摒弃传统固定映射方式，引入MoE混合专家机制构建多异构特征空间，实现分块特征的自适应增强：单专家线性映射 MoE架构中包含多个独立的专家网络，每个专家本质是一个独立的线性投影层，具备差异化的参数权重与特征映射逻辑。不同专家擅长提取不同类型的时序模式特征，能够将原始分块数据映射到维度为的差异化隐藏特征空间，突破传统单一空间的表达局限，为后续特征融合提供丰富的异构特征基础。噪声门控路由机制传统门控路由机制易出现训练不稳定、专家利用率低的问题，本文引入带高斯噪声的随机门控机制，通过线性变换结合噪声扰动的方式计算各分块对所有专家的适配权重，再通过KeepTopK操作筛选出适配度最高的Top-k专家参与特征计算。该机制既保证了路由的稀疏性、降低计算冗余，又通过噪声扰动提升了训练稳定性与特征表征多样性，有效避免模型过拟合。多专家特征融合为兼顾通用时序模式与个性化局部特征，本文采用“共享专家+路由专属专家”的融合策略。个共享专家负责提取所有时序分块通用的基础时序规律，保证特征的普适性；Top-k个路由专属专家负责根据各分块的独有特征，提取个性化、差异化的局部语义。两类特征加权融合后输出最终增强块表征，大幅丰富局部分块的特征语义，提升模型对复杂时序模式的拟合能力。增强序列嵌入仅依靠局部分块增强无法修复已存在的劣质时序缺陷，因此需要构建全局无缺陷的优质序列令牌，作为后续劣质分块的替换修复基准。增强序列嵌入分支的核心目标，就是聚合全时序、全通道的有效信息，过滤局部噪声与异常干扰，生成具备全局最优语义的修复原型：通道特征映射全局核心特征聚合首先通过线性映射将原始时序转换为通道级特征，再通过MLP完成特征升维变换，最后采用随机池化操作聚合所有通道的全局有效信息，过滤局部单点干扰，生成维度为的全局核心原型令牌。该原型整合了整条时序的最优变化规律，不含局部劣质缺陷，是高质量的修复基准特征。序列原型维度对齐扩展由于全局单原型无法适配多通道时序的差异化特征，本文通过广播拼接的方式将全局原型适配到每一个特征通道，再通过第二层MLP完成维度对齐与特征微调，最终生成与分块特征维度一致、适配各通道特性的全局修复原型，为后续精准替换修复奠定维度基础。可学习Patch替换模块——鲁棒性核心可学习Patch替换模块（LPRM）是SEER实现强鲁棒性的核心关键，彻底解决了传统模型无法处理劣质时序分块的痛点。模块整体分为「自动令牌质量筛选」和「替换因果注意力特征修复」两个递进式阶段，最核心的设计亮点是全程采用可微分计算逻辑，规避了传统离散筛选操作的梯度消失问题，保证模型能够实现端到端的完整训练，兼顾鲁棒性与训练有效性。自动令牌筛选令牌质量评分与筛选掩码该公式组是模型实现劣质分块智能识别的核心。模型通过可学习的线性层与Sigmoid激活函数，为每一个增强后的分块令牌生成0-1区间的质量评分，评分越高代表该分块有效信息越充足、质量越高。通过预设阈值完成优劣分块划分，同时引入梯度分离的恒等矩阵设计，解决了离散筛选操作无法回传梯度的行业难题，让筛选策略能够嵌入整体模型参与端到端优化。替换因果自注意力梯度感知掩码生成劣质令牌全局替换基于梯度感知掩码完成精准的分块替换逻辑，实现优质特征保留、劣质特征修复的双重效果。当掩码值时，判定为优质分块，保留原始增强特征；当时，判定为劣质分块，自动替换为对应通道的全局优质原型特征，从根源上剔除噪声、异常、缺失等劣质信息的干扰，补全局部语义空缺。多头因果注意力特征细化完成分块替换后，模型将全局原型令牌拼接入时序序列前端，通过多头因果自注意力机制（MCSA）细化全局与局部特征关联。因果掩码的设计严格保证了时序预测的不可逆性，即每个时间步仅能关注历史时序信息与全局原型，无法感知未来信息，既符合时序预测的物理逻辑，又能让修复后的劣质分块融合全局历史上下文，保留完整的时序连续性与位置语义。全局特征融合通过常规多头自注意力机制（MSA）完成全局特征深度融合，进一步拉近优质局部分块、修复后分块与全局原型的特征关联，统一整体时序特征分布，消除替换修复后可能存在的特征断层问题，输出平滑、统一、高质量的全局时序特征。预测输出模块自适应特征降维最终预测生成经过前文的特征增强与缺陷修复后，时序特征维度较高、存在大量冗余信息，直接预测会增加计算量、降低推理效率。因此模型设计自适应降维模块，通过线性投影压缩特征维度、过滤冗余噪声信息，在保留核心有效特征的前提下实现模型轻量化。最后通过特征展平与线性映射，输出未来F个时间步的最终预测结果，完成完整的时序预测推理流程。实验数据数据集体系：为全面验证模型的通用精度与鲁棒性，搭建了三级数据集验证体系，实现从常规理想场景、可控扰动场景到真实劣质场景的全覆盖。第一级为8大通用标准数据集，涵盖电力、气象、能源、交通四大主流时序领域，用于验证模型常规预测精度；第二级为4类合成扰动数据集，通过人为注入不同梯度的白噪声、异常值、缺失值、分布偏移，可控验证模型的抗干扰能力；第三级为8类真实低质量工业数据集，覆盖金融、传感、环境等真实复杂场景，用于验证模型的实际落地鲁棒性；基线模型全覆盖：为保证实验结果的权威性与说服力，选取2023-2025年时序预测领域所有主流SOTA模型作为对比基线，覆盖传统线性模型、静态Patch模型、新型鲁棒模型三大类。包含经典基线DLinear、PatchTST，以及近年高性能模型iTransformer、FredFormer，同时包含最新鲁棒SOTA模型SRSNet、DUET、Amplifier、xPatch，实现全方位横向性能对标；评估指标：针对多元时序预测任务，采用行业通用的MSE（均方误差）、MAE（平均绝对误差）作为核心评估指标，精准量化预测偏差大小；针对一元短时时序预测任务，采用MASE（平均绝对标度误差）、msMAPE（平均百分比误差）评估模型泛化能力，多指标结合保证实验结果客观全面；统一超参设置：所有模型统一固定回看窗口长度为96，设置96/192/336/720四种主流预测步长，覆盖短、中、长期时序预测场景；统一采用NVIDIA Tesla-A800 GPU训练、ADAM优化器、L1损失函数，所有实验环境、超参完全对齐，彻底排除实验变量干扰，保证对比结果的公平有效。重点实验结果多元时序预测结果：在全覆盖的超参组合与数据集测试中，SEER展现出碾压式的SOTA性能，在45组核心实验参数组合中，34组取得MSE最优值、39组取得MAE最优值，整体最优率远超所有基线模型。与2025年次优SOTA模型xPatch相比，SEER实现MSE降低7.3%、MAE降低4.9%的显著性能提升。尤其在ETT电力这类非平稳性强、数据波动大的复杂时序数据集上，SEER的特征增强与缺陷修复优势被充分放大，性能优势最为突出；一元短时时序预测结果：短时时序数据具备样本量少、波动随机性强、预测不确定性高、极易过拟合的特点，是时序预测的难点场景。基于TFB基准的8068组真实短时波动时序完成测试，结果显示SEER的MASE、msMAPE指标全面优于所有基线模型。核心原因是SEER的动态分块替换机制能够有效规避短时时序的噪声干扰，抑制模型过拟合，大幅提升短时时序的泛化预测能力。鲁棒性量化结果合成梯度扰动场景结果：本文通过注入0%/1%/5%/10%/15%不同比例的扰动噪声，模拟不同程度的数据劣质化场景，精准测试模型鲁棒性上限。实验结果表明，在白噪声、数值异常、数据缺失三类强干扰场景下，SEER的MSE、MAE误差值均显著低于所有对比基线，抗干扰能力碾压传统模型与现有鲁棒模型；在分布偏移这类隐性非平稳场景下，SEER与当前最优的非平稳适配模型SRSNet性能持平，展现出极强的隐性缺陷适配能力；真实低质量场景结果：人为合成扰动数据规律单一、干扰简单，无法完全替代真实复杂场景。因此选取8类真实行业劣质数据集，覆盖高缺失率、强分布偏移、高频异常、强环境噪声等极端场景。实验结果证明，SEER在所有真实劣质场景中性能稳居第一，能够适配复杂混合缺陷干扰；SRSNet作为专用鲁棒模型性能次之，而DLinear、iTransformer等传统模型在真实劣质场景下性能大幅跳水，鲁棒性极差，充分验证了SEER的工程落地价值。消融实验与参数敏感性模块消融实验移除MoE专家机制：去除多专家异构表征模块后，模型退化为传统单一线性嵌入模式，特征表达维度单一、无法拟合复杂时序模式。在ETTh2、ETTm2等复杂非平稳时序数据集上，模型MSE与MAE误差显著上升，性能大幅下降。这充分证明MoE混合专家机制能够有效构建多样化异构特征空间，丰富时序语义信息，是提升模型特征表达能力、适配复杂时序的核心基础；简化全局序列嵌入：将本文自适应优质全局原型替换为传统简单MLP序列嵌入后，模型无法生成高质量、无缺陷的全局修复特征，劣质分块替换机制完全失效。在各类低质量数据集上模型性能出现断崖式下跌，证明高质量全局序列原型是劣质分块修复的核心前提，通道自适应感知与全局聚合机制对模型鲁棒性起到决定性支撑作用；移除令牌筛选模块：取消分块质量评分与筛选机制后，模型无差别保留所有优质、劣质分块，大量含噪声、异常、缺失的干扰分块参与预测推理，持续引入负向特征干扰。在高噪声、强非平稳的劣质数据集上模型性能急剧下降，充分验证了动态令牌筛选机制能够有效剔除负向干扰，是保障模型鲁棒性的关键核心环节；移除特征降维模块：取消自适应特征压缩后，模型特征维度冗余、参数量大幅增加，特征中残留大量无效噪声与冗余信息，不仅提升了计算复杂度、降低推理速度，还导致预测精度整体下降。证明自适应特征降维不仅能够实现模型轻量化、提升推理效率，还能过滤冗余噪声、精炼核心特征，正向助力模型预测性能提升。超参敏感性分析 MoE专家数量：实验测试不同专家数量的模型性能，结果显示专家数量设置为8时，模型在所有数据集上综合性能最优。专家数量过少会导致异构特征空间不足、特征表达单一；数量过多会造成参数量冗余、模型过拟合，出现性能下降问题； Patch分块长度：分块长度是Patch建模的核心超参，实验证明16、24为最优区间。分块长度过短会导致单个分块时序信息不足，丢失局部时序关联；分块长度过长会引入过多冗余噪声信息，破坏局部语义纯度，均会导致模型性能劣化；特征降维比例：降维比例为0.5、0.75时模型综合性能最优，该比例能够完美平衡特征完整性与模型轻量化程度。降维比例过大会压缩丢失核心有效特征，比例过小无法实现冗余信息过滤与模型瘦身；令牌评分阈值：阈值的最优取值与数据质量强相关，低质量、高扰动数据集需要设置非零阈值，主动剔除劣质干扰分块，提升鲁棒性；Solar这类高质量纯净数据集无多余干扰，阈值设置为0可完整保留所有有效特征，最大化预测精度，该特性让模型具备极强的场景自适应能力。小小总结文章提出了名为SEER的Transformer鲁棒时间序列预测框架，针对现有基于分块的时序预测模型无法动态筛选分块、在含缺失值、分布偏移、异常值与白噪声的低质量数据上预测鲁棒性不足的问题，设计了增强嵌入模块与可学习分块替换模块两大核心组件：前者通过混合专家架构丰富分块级表征，并借助通道自适应感知机制生成全局序列级令牌；后者通过两阶段流程先动态识别并剔除含无效信息的劣质分块，再用全局序列令牌替换劣质分块并通过因果注意力机制优化表征，最终在多个通用时序数据集上取得了 SOTA 预测精度，同时在四类低质量数据场景下展现出显著优于现有基线模型的鲁棒性。

雷峰雷峰网更新于 2天前1 分钟阅读

🤖 AI AI 摘要 & AI 点评

⟳ AI 正在分析这篇文章…

正在拉取原文正文，下次刷新即可看到完整段落。当前仅展示摘要与 AI 分析。