CSformer:结合通道独立性和混合的稳健多变量时间序列预测

article/2025/8/22 13:58:50

 原文地址:2312.06220

发表会议:AAAI 2025

代码地址:暂无

作者:王浩鑫

团队:四川大学


  1. 本博客内容主要介绍了此论文到底做了什么?以及我阅读中遇到的一些问题。

  2. 因为我本人就是时序预测方向的所以我直接借用AI助手对这篇论文中有疑问的问题进行解读,有可能会有忽略的地方,所以有新问题的朋友欢迎大家在飞书评论区进行讨论而且飞书中也有方法所有关键公式介绍和实验图说明:

Docshttps://h1sy0ntasum.feishu.cn/wiki/L2Kqwb8ssiGSKYkr6KhcImmln3b?from=from_copylink

研究背景与挑战

  • 多变量时间序列预测的重要性:在交通管理、电力系统和医疗保健等领域至关重要,但面临时间序列数据中复杂长期依赖关系和变量间相互关系的挑战。

  • 现有方法的局限性:基于Transformer的模型在MTSF任务中存在争议,一些研究表明简单的线性模型DLinear在某些情况下表现更优。现有方法要么直接混合信道导致潜在噪声引入,要么采用信道独立方法导致信息丢失

CSformer模型的核心贡献

  • 信道独立与混合的结合:提出了先信道独立后混合的策略,通过两阶段多头自注意力机制,分别提取信道特异性和序列特异性信息,并通过参数共享增强这两种信息的协同效应

  • 维度增强嵌入技术:在嵌入过程中提升序列维度,同时保持原始数据的完整性,为后续的注意力机制处理做好准备。

  • 两阶段多头自注意力(MSA)机制:

    • 信道 MSA:在时间步长上应用信道注意力,识别信道间的依赖关系。受到自然语言处理中大规模模型适配的微调技术启发,集成了适配器技术,优化信道信息的提取

    • 序列 MSA:将信道 MSA的输出重塑后作为序列 MSA的输入,使用与信道 MSA共享的参数,提取序列特征。

  • 适配器的应用:在每个MSA机制后加入适配器,确保两个阶段的自注意力机制能够提取不同的特征,增强模型对不同维度信息的识别能力

模型框架

(a) 维度增强嵌入(Dimension-augmented Embedding)

  • 输入数据:模型的输入是一个多变量时间序列数据,形状为N×L,其中N是变量(信道)的数量,L是时间序列的长度。

  • 维度增强操作:通过将每个时间序列数据扩展到一个新的维度,创建一个形状为N×L×1的三维张量。这一步是为了在不丢失原始信息的情况下增加数据的维度,为后续的嵌入操作做准备。

  • 嵌入操作:使用一个可学习的向量ν与增强后的序列进行逐元素相乘,生成嵌入输出H形状为N×L×D,其中D是嵌入的维度。

(b) 多头自注意力机制(MSA)

  • 输入数据:嵌入后的数据H被输入到MSA模块中。

  • 线性变换:对输入数据进行线性变换以生成查询(Q)、键(K)和值(V)矩阵。

  • 缩放点积注意力:计算查询和键之间的点积,进行缩放处理后应用Softmax函数得到注意力分数。这些分数用于对值矩阵进行加权求和,生成输出特征。

(c) 适配器(Adapter)

  • 输入特征:MSA模块的输出被输入到适配器中。

  • 下采样和上采样:适配器包含两个全连接层,第一个层将输入特征下采样,第二个层将特征上采样回原始维度。中间使用GELU激活函数以增加模型的非线性表达能力。

  • 残差连接:适配器的输出与输入特征进行加法融合,形成残差连接,这有助于缓解梯度消失问题并提高模型的稳定性。

(d) CSformer整体架构

  • 嵌入层:输入数据首先经过维度增强嵌入操作,然后进入嵌入层进行特征转换。

  • 两阶段MSA和适配器:

    • 信道MSA和信道适配器:首先在信道维度(N)上应用MSA,以捕获变量之间的相互依赖关系,然后通过信道适配器进行特征调整。

    • 序列MSA和序列适配器:接着在序列维度(L)上应用MSA,共享信道MSA的参数,以捕获时间序列中的时间依赖关系,然后通过序列适配器进行特征调整。

  • 参数共享:信道MSA和序列MSA共享参数,这种设计增强了不同维度信息之间的交互和融合

  • 输出层:经过两阶段的MSA和适配器处理后,数据被输入到线性层进行最终的预测。

整个CSformer框架通过维度增强嵌入、两阶段的MSA机制和适配器设计,有效地结合了信道独立性和信道混合的优点,提升了多变量时间序列预测的性能。

阅读问题:

可学习的向量ν的向量是什么?他是怎么变化的?

ν的含义和作用

  • 维度增强嵌入:ν的作用是将输入数据从形状N×L×1嵌入到高维空间,生成形状为N×L×D的嵌入输出H。通过将原始输入数据与可学习的ν进行逐元素相乘操作,输入数据的每个时间步和每个信道的信息被映射到一个更高维的空间,从而增强了模型对序列和信道信息的表达能力。

  • 信息整合:ν的引入使得模型能够学习如何将原始输入数据的不同特征整合到一个更高维的表示中,为后续的多头自注意力机制(MSA)处理做好准备。

ν的变化方式

  • 初始化:在模型训练开始之前,ν被随机初始化。通常,它会使用一些标准的初始化方法,如Xavier初始化或Kaiming初始化,以确保初始值在合理的范围内。

  • 更新:在模型的训练过程中,ν作为模型的一部分参数,会通过反向传播算法和优化器(如Adam)进行更新。优化器会根据损失函数的梯度信息来调整ν的值,以最小化预测误差。

  • 动态调整:随着训练的进行,ν会逐渐学习到如何更好地将输入数据嵌入到高维空间中,以捕捉输入数据中的重要特征和模式。这种动态调整是通过梯度下降法实现的,每次迭代都会根据当前的损失函数值来更新ν的值。


http://www.hkcw.cn/article/ewPkBGGsoo.shtml

相关文章

springcloud openfeign 请求报错 java.net.UnknownHostException:

现象 背景 项目内部服务之间使用openfeign通过eureka注册中心进行服务间调用,与外部通过http直接调用。外部调用某个业务方提供的接口需要证书校验,因对方未提供证书故设置了忽略证书校验代码如下 Configuration public class IgnoreHttpsSSLClient {B…

深度学习核心网络架构详解:从 CNN 到 LSTM

深度学习领域中,不同的网络架构适用于处理各种复杂的任务。本文将深入探讨几种必须掌握的核心网络架构,包括卷积神经网络 (CNN)、循环神经网络 (RNN) 及其变体长短时记忆网络 (LSTM) 和门控循环单元 (GRU),并结合具体案例和代码实现进行详细讲解。 一、卷积神经网络 (CNN) …

美国上诉法院暂时恢复实施特朗普政府关税政策

当地时间5月29日,美国联邦巡回上诉法院批准特朗普政府的请求,暂时搁置美国国际贸易法院此前做出的禁止执行特朗普政府依据《国际紧急经济权力法》对多国加征关税措施的行政令的裁决。联邦巡回上诉法院在裁决书中说,美国政府的请求已获批准,在本法院审议相关动议文件期间,美…

全球最大医院原院长涉嫌严重违纪违法 医疗界震动

全球最大医院原院长涉嫌严重违纪违法!今日,河南省纪委监委发布消息,河南省政协人口资源环境委员会主任阚全程因涉嫌严重违纪违法,正接受纪律审查和监察调查。此消息在医疗领域引发广泛关注。阚全程曾长期执掌“亚洲最大医院”郑大一附院,使得该事件备受瞩目。阚全程1963年…

“亚洲最大医院”原院长被查 医疗反腐再掀波澜

“亚洲最大医院”原院长被查 医疗反腐再掀波澜!河南省纪委监委今日发布消息,河南省政协人口资源环境委员会主任阚全程因涉嫌严重违纪违法,正接受纪律审查和监察调查。这一消息在医疗领域引起广泛关注。阚全程曾长期担任“亚洲最大医院”郑大一附院的院长,使得该事件更加引人…

设计模式:观察者模式 - 实战

一、观察者模式场景 1.1 什么是观察者模式? 观察者模式(Observer Pattern)观察者模式是一种行为型设计模式,用于定义一种一对多的依赖关系,当对象的状态发生变化时,所有依赖于它的对象都会自动收到通知并更…

首发!PPIO派欧云上线DeepSeek-R1-0528

今天凌晨,“小版本试升级”的 DeepSeek-R1-0528 在 Hugging Face 正式开源。 经 PPIO派欧云工程师测试,这个所谓的“小版本”更新在代码领域大幅增强,凭借简单朴素的提示词就能生成小游戏、图片、精美的网页,生成效果可媲美 Claud…

国务院任免21名干部 涉及多个重要职位调整

国务院任免21名干部 涉及多个重要职位调整!据人社部网站5月29日消息,国务院任免了21名国家工作人员。郭彩云(女)被任命为审计署副审计长,王军为海关总署副署长,蔡自力为国家税务总局副局长,邹晓东为国务院参事室主任,赵世通为国务院台湾事务办公室副主任,李长喜为国家…

【STM32开发板】电源设计(电压基准、滤波电容)

一、基准电压源 基准电压源是一种能提供稳定、精确、不随温度、负载、电源电压变化而波动的电压源。它广泛应用于电子电路中,尤其是在需要高精度和稳定性的场合,如模数转换(ADC)、 数模转换(DAC)、稳压电路…

男大学生正在批量减少:教育竞争中的性别差异显现

男大学生正在批量减少:教育竞争中的性别差异显现!毕业季即将来临,校园里随处可见穿着学位服的毕业生在草坪上拍照。她们对着镜头比出剪刀手,或是抱着鲜花和室友笑成一团。图书馆前台阶上,三五成群的学生捧着论文材料匆匆走过,教室里答辩结束的学生红着眼眶与导师拥抱。仔…

K8S StatefulSet 快速开始

其实这篇文章的梗概已经写了很久了,中间我小孩出生了,从此人间多了一份牵挂。抽出一些时间去办理新生儿相关手续。初为人父确实艰辛,就像学技术一样,都需要有极大的耐心,付出很多的时间。 一、引子 1.1、独立的存储 …

【笔记】suna部署之获取 Daytona API key 及 Daytona Sandbox 设置

#工作记录 Daytona 注册 Daytona 账户 访问Daytona 官方网站。点击注册按钮,按照提示填写相关信息完成注册。 获取 Daytona API 密钥 登录 Daytona 账户。进入账户设置页面,查找生成 API 密钥的选项,生成并复制 API 密钥,用于 S…

昇腾首发支持,阶跃星辰 “改图大师” Step1X-Edit开源并上线魔乐社区

4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit ,性能达到开源 SOTA 。该模型总参数量为19B (7B MLLM 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型&…

int和Integer的区别

Java是面向对象的语言,一切操作都以对象为基础,像集合里面也只支持存储Object类型数据,普通类型无法通过集合存储, 在Java中,int和Integer是两种不同的类型,它们有以下主要区别: 一、类型分类…

Oracle/openGauss中,DATE/TIMESTAMP与数字日期/字符日期比较

ORACLE 运行环境 openGauss 运行环境 0、前置知识 ORACLE:DUMP()函数用于返回指定表达式的数据类型、字节长度及内部存储表示的详细信息 SELECT DUMP(123) FROM DUAL; -- Typ2 Len3: 194,2,24 SELECT DUMP(123) FROM DUAL;-- Typ96 Len3: 49,50,51 -- ASCII值&am…

应用于公路路面破损状况检测的视觉系统

随着公路交通的日益发展,公路交通也是经济命脉,路面病害检测直接关系到交通安全,公路路面检测是养护管理的核心环节,及时识别裂缝、坑槽、车辙等病害,避免因路面损坏引发交通事故。 公路路面基病害检测系统是基于数字图…

ZeroSearch: 无需搜索即可激发LLM的搜索能力

论文地址:https://arxiv.org/abs/2505.04588v2 摘要 有效的的信息搜索对于增强大型语言模型 (LLM) 的推理和生成能力至关重要。 最近的研究探索了使用强化学习 (RL) 通过与现实世界环境中的实时搜索引擎交互来提高 LLM 的搜索能力。 虽然这些方法显示出可喜的结果&…

Linux实操篇-进程管理

目录 传送门前言一、进程管理概念二、进程管理实战1. **查看进程**ps 命令top 命令htop 命令 2. **进程的启动和终止**启动进程停止进程使用 pkill 或 killall 3. **进程优先级管理**nice 和 renice 命令top 中调整进程优先级 4. **进程的查看与控制**pgrep 命令pstree 命令str…

DAY 14 SHAP库的绘制

上面这个图就是一个比较直观的解释。机器学习模型一般都是一个黑盒。比如某个模型要进行一些预测任务,首先对模型输入一些已知条件(Age65,SexF,BP180,BMI40),然后模型根据输入进行训练,最终训练完的模型可以对该条件输…

如何避免客户频繁更换对接人

避免客户频繁更换对接人的关键措施包括建立稳定的客户关系、提高客户对接人的专业素养、建立高效的沟通机制、增强客户满意度等。其中,建立稳定的客户关系是避免客户频繁更换对接人的核心,只有当客户信任你的对接人并认可其专业性,才会持续稳…