Dif-Fusion:第一个基于扩散模型实现的红外光与可见光图像融合的论文

article/2025/8/27 13:06:09

1. 论文介绍

        论文主要创新点:提出了第一个基于扩散模型 (Diffusion) 实现的红外光与可见光图像融合模型,但模型不止简单的依赖于 Diffusion,而是一个新颖的 two-stage 的图像融合模型。 

        Dif-Fusion 利用扩散模型的生成能力,直接在潜在空间中建模多通道数据的分布,避免了传统方法中对颜色信息的损失。

      传统的红外与可见光图像融合方法通常将多通道图像转换为单通道进行处理,忽略了颜色信息的保留,导致融合图像色彩失真

问题痛点:

  • 现有融合方法(如基于CNN、Transformer)通常忽略颜色保真,导致生成图像偏灰、偏色。

  • 很多方法将RGB图像转为灰度处理,忽略了色彩通道的耦合性与重要性。 

2. 关键背景知识

        相比于多聚焦/多曝光图像融合这种能够获得 ground-truth(即真实融合图像) 的任务,红外光与可见光图像融合中的 ground-truth 是不可获取的。这导致我们无法使用 ground-truth 作为 label 进行训练,这使得这个任务变得困难。因为对于有 ground-truth 的任务(如图像超分/去噪/增强),训练一个 Conditional Diffusion Model(条件扩散模型)是很容易的。

  • 多聚焦图像融合的 GT 是 “全聚焦图像”(通过光学设备直接拍摄同一场景的清晰图像);
  • 多曝光图像融合的 GT 是 “高动态范围(HDR)图像”(通过相机多次曝光合成或专业设备采集)
  • 维度多聚焦 / 多曝光融合(有 GT)红外与可见光融合(无 GT)
    监督信号强监督(像素级 GT)弱监督(自监督、下游任务监督、感知损失)
    损失函数MSE/SSIM 等直接度量像素差异重构损失、对比损失、任务损失等间接损失
  • 该论文的创新在于:首次在无 GT 场景中证明,扩散模型的生成能力可替代传统监督信号,

3. 模型结构

    整体架构: 两阶段融合框架

    Dif-Fusion 采用两阶段架构,分别为

  1. 扩散建模阶段(Diffusion Modeling Stage)

    • 输入:红外图像(1通道)与可见光图像(3通道)拼接为4通道数据。

    • 过程:通过正向扩散过程添加高斯噪声,训练去噪网络学习反向扩散过程,建模多通道数据分布

  2. 特征融合阶段(Feature Fusion Stage)

     从去噪网络中提取多通道扩散特征,输入融合模块,生成高保真的三通道融合图像

Dif-Fusion 的总体结构如下:

Dif-Fusion 是一个二阶段(two-stage)的图像融合模型,包括两个相互独立的模型:

  • 1、Diffusion 模型:将 Diffusion 的噪声预测网络作为一个特征学习和提取器

           噪声预测网络工作机制:Diffusion 模型中的噪声预测网络,在前向扩散过程中,图像不断被添加噪声,逐步从清晰态变为噪声态。反向扩散时,网络依据含噪图像预测噪声,进而尝试还原清晰图像 。在这个过程中,网络并非单纯去噪,而是在学习图像特征。对于红外与可见光图像融合任务,它能捕捉到红外图像的热辐射特征、可见光图像的纹理细节特征等。

           特征提取优势:相比传统基于卷积神经网络(CNN)的特征提取方式,Diffusion 模型的噪声预测网络具有独特优势。传统 CNN 特征提取往往受限于固定的卷积核与网络结构,对复杂特征的捕捉能力有限。而 Diffusion 模型通过逐步去噪过程,可从不同噪声水平下对图像特征进行深度挖掘,它可以在不同尺度和层次上提取特征,适应红外与可见光图像在特征分布和物理特性上的差异。

  • 2、特征融合模型:提取噪声预测网络中的特征,通过两种 loss 的约束,获得融合如下

           从 Diffusion 模型的噪声预测网络中提取特征后,特征融合模型开始发挥作用

      损失函数约束:

                多通道梯度损失:该损失函数聚焦于图像的梯度信息。在图像融合中,梯度代表着边缘和细节。通过约束多通道梯度损失,能确保融合后的图像在边缘和细节上,既保留可见光图像丰富的纹理细节,又兼顾红外图像中目标的热边界信息。

                多通道强度损失:主要关注图像的强度信息,也就是图像的亮度、灰度等。在红外与可见光图像融合时,两种图像的强度分布差异大。通过多通道强度损失约束,可使融合图像在整体亮度和灰度上更协调、自然。例如,避免融合后图像出现局部过亮或过暗区域,让红外热源与可见光背景在强度上能更好融合。

           Diffusion 模型专注于特征学习和提取,无需考虑后续融合的具体策略;特征融合模型则专心依据提取的特征进行融合,并通过损失函数优化。

3.1 Diffusion 模型
         多通道扩散模型的特性:输入设计:直接以    三通道可见光图像 + 单通道红外图像作为多通道输入(如 concat 为 4 通道数据),避免传统方法中 “RGB 转 YCbCr 丢弃颜色通道” 的问题,确保颜色信息在特征提取阶段不被丢失

        红外光与可见光图像融合的训练集中只有源图像,没有 ground-truth;而多聚焦图像融合既有源图像,也有 ground-truth,因此很容易以 ground-truth 作为 label 训练网络。

        Diffusion 的输入是单通道的 Infrared(红外光图像)和三通道的 Visible(可见光图像),输出是三通道的融合图像。在实际操作中,本文将 Infrared  和 Visible 在通道方向合并为四通道图像进行输入,这是条件生成模型的常用手段。

        由于没有 ground-truth 的融合图像,作者另辟蹊径,将四通道源图像作为 ground-truth 训练一个自监督的 Diffusion 模型。

前向扩散过程:对四通道源图像加噪,扩散步长 T = 2000 
逆向扩散过程:以高斯噪声为label,训练噪声预测网络

3.2.2 损失函数

为了训练特征融合模型,作者使用了两种损失函数:

多通道梯度损失(multi-channel gradient loss):保持融合图像的纹理细节,特别是从可见光图像中继承丰富的纹理信息。

多通道强度损失(multi-channel intensity loss):让融合图像的亮度/整体强度分布尽可能接近输入图像(红外和可见光)中较为突出的强度信息

4. 消融实验:验证扩散模型的有效性

5实验与评估

        作者引入了 Delta E 作为新的评估指标,用于量化色彩保真度,并在多个公开数据集上与现有方法进行了比较,结果显示 Dif-Fusion 在色彩保真度方面表现优越。

        Delta E 将 “色彩保真度” 从模糊的主观描述转化为可计算的客观指标,使不同方法的色彩表现具有可比性。

     设计了颜色保真度度量指标 Delta E,用于量化融合图像的颜色失真。

        红外与可见光融合的核心挑战之一是保留可见光图像的真实色彩(如道路标识的红色、植被的绿色),而传统指标(如 PSNR、SSIM)侧重亮度和结构,忽略色彩保真度。

        Dif-Fusion 的 Delta E 显著低于其他方法,表明其融合图像的色彩与原始可见光图像更接近,尤其是在高饱和色(如红色、绿色)区域表现更佳。


http://www.hkcw.cn/article/hEtkrRSupA.shtml

相关文章

Java开发经验——阿里巴巴编码规范实践解析5

摘要 这篇文章主要介绍了阿里巴巴Java开发规范中关于安全和性能优化的实践解析。内容涵盖了配置文件密码加密、用户输入内容风控、SQL注入防护、参数有效性验证、XSS攻击防护、CSRF安全验证、文件上传安全检查、防重放机制等多个方面,通过正反示例和推荐做法&#…

如何在python3.8环境中安装pytorch

我的conda配置了两个独立环境: base环境 - 安装有Python 3.12及各类依赖包;pytorch环境 - 基于Python 3.8创建,包含特定功能包。 在Anaconda Prompt中激活您的PyTorch环境: 访问PyTorch官网历史版本页面(https://pyt…

源的企业级网络安全检测工具Prism X(棱镜X)

Prism X(棱镜X)是由yqcs团队自主研发的开源网络安全检测解决方案,专注于企业级风险自动化识别与漏洞智能探测。该工具采用轻量化架构与跨平台设计,全面兼容Windows、Linux及macOS操作系统,集成资产发现、指纹鉴别、弱口…

ADB识别手机系统弹授权框包含某段文字-并自动点击确定按钮

ADB识别手机系统弹授权框包含某段文字-并自动点击确定按钮 --蓝牙电话App自动部署 上一篇:手机打电话时将对方DTMF数字转为RFC2833发给局域网SIP坐席 下一篇:编写中。 一、前言 蓝牙电话方案中,我们提供了将手机通话的语音拦截后转发到局域…

kafka 常用知识点

文章目录 前言kafka 常用知识点1. kafka 概念2. 消息共享和广播3. 分区和副本数量奇偶数 前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会太差&#xff0…

什么是接口测试,我们如何实现接口测试?

1. 什么是接口测试 顾名思义,接口测试是对系统或组件之间的接口进行测试,主要是校验数据的交换,传递和控制管理过程,以及相互逻辑依赖关系。其中接口协议分为HTTP,WebService,Dubbo,Thrift,Socket等类型,测试类型又主要…

我这三年……测试开发工作的一点感悟

从职场小白到测试开发,已经三年有余。回首这段职业旅程,踩过坑,吃过饼,背过锅,也拿过奖。和产品互掐,和开发干仗……也许这就是成长的代价和难忘的经历吧。今天忍不住跟宝子们分享分享我的这段心路历程 初…

[HIT计算机系统大作业] 程序人生-Hello‘s P2P

2025年5月 摘 要 本文以Hello程序为研究载体,系统探究其从源代码到可执行文件再到进程生命周期的完整流程,深度解析计算机系统多层面协同机制。首先阐述预处理、编译、汇编及动态链接的核心步骤:通过gcc工具链生成hello.i(预处…

HIT-ICS 2025春计算机系统大作业 程序人生-Hello’s P2P

摘 要 本报告通过分析hello程序从hello.c源代码到进程终止的完整生命周期,系统阐述了计算机系统的多层次协作机制。首先,通过预处理、编译、汇编与链接阶段,将C语言源代码转换为可执行文件;其次,结合进程管理、存储管理及输入输出管理,深入探讨了进程创建、地址空间转换…

Hello的程序人生

计算机系统 大作业 题 目 程序人生-Hello’s P2P 专 业 未来技术模块 学   号 2023111680 班   级 23WLR14 学 生 姜虹伯 指 导 教 师 吴锐   计算机…

程序人生hello.c

计算机科学与技术学院 2024年5月 摘 要 本文系统分析了HELLO程序从源代码到执行的完整生命周期,揭示了编译系统与操作系统协同工作的底层机制。研究以Ubuntu环境和GCC工具链为基础,覆盖预处理、编译、汇编、链接四大阶段:预处理阶段展开宏…

哈尔滨工业大学HIT-ICS2024大作业-程序人生-Hello‘s P2P

第1章 概述 1.1 Hello简介 ①P2P:这一过程是指 Hello如何从C源文件经过预处理转变为可执行文件,这一过程共需经历四个阶段: 1)预处理器处理,生成文本文件hello.i 2)编译器处理,生成汇编程序…

开源项目的认识理解

目录 开源项目有哪些机遇与挑战? 1.开源项目的发展趋势 2.开源的经验分享(向大佬请教与上网查询) 3.开源项目的挑战 开源项目有哪些机遇与挑战? 1.开源项目的发展趋势 1. 持续增长与普及 - 开源项目将继续增长&#xff0c…

HIT-CSAPP大作业-程序人生

摘 要 本文概述了hello.c源文件从预处理、编译、汇编、链接到最终执行的关键步骤,阐述了程序在操作系统中的加载与运行过程。同时,通过对hello程序在进程管理、存储结构和输入输出控制方面的介绍,帮助读者对程序的整个生命周期有了基础认识…

普通人的四年程序人生

还记得当初自己为什么选择计算机? 当初你问我为什么选择计算机,我笑着回答:“因为我梦想成为神奇的码农!我想像编织魔法一样编写程序,创造出炫酷的虚拟世界!”谁知道,我刚入门的那天&#xff0…

【老张的程序人生】一天时间,我成软考高级系统分析师

今年下半年,我心血来潮报考了软考高级系统分析师。彼时的我,工作繁忙至极,一周十四节课,班主任的职责压身,还兼任教学管理事务,每日忙得晕头转向,那点可怜的闲暇时光,也都奉献给了游…

HIT-2024CSAPP 程序人生-Hello‘s P2P大作业

摘要 本文借助hello.c程序,结合本学期计算机系统课程所学习的大部分内容,分析了hello.c这个程序的一生,探讨了从源程序到可执行程序转变的全过程,包含预处理,编译,链接,生成等步骤,在…

第七届下一代数据驱动网络国际学术会议(NGDN 2025)

在线投稿: 学术会议-学术交流征稿-学术会议在线-艾思科蓝 张彦,挪威奥斯陆大学信息工程学院教授,IEEE Fellow,IET Fellow。入选欧洲科学院院士,挪威皇家科学院院士,挪威工程院院士,2018-2022连续五年全球“高被引科学家”近期主要研究方向为新一代无线通信网络和智…

Selenium 测试框架 - Kotlin

🚀Selenium Kotlin 实践指南:以百度搜索为例的完整测试示例 随着测试自动化的普及,Selenium 已成为 Web 自动化测试的事实标准,而 Kotlin 凭借其简洁语法和高安全性,越来越受到开发者欢迎。本指南将通过一个完整的实战案例——在百度中执行搜索操作,来展示如何使用 Sele…

记录一次wkhtmltopdf生成pdf造成oom问题

问题现象 有个生成pdf的接口,到处pdf为空;docker环境必现,但是本地环境无法复现 1、代码增加各处错误判断,发现docker环境调用接口出现 Loading pages (1/6) [> …