Dif-Fusion：第一个基于扩散模型实现的红外光与可见光图像融合的论文-海口c网

Dif-Fusion：第一个基于扩散模型实现的红外光与可见光图像融合的论文

article/2025/8/27 13:06:09

1. 论文介绍

论文主要创新点：提出了第一个基于扩散模型 (Diffusion) 实现的红外光与可见光图像融合模型，但模型不止简单的依赖于 Diffusion，而是一个新颖的 two-stage 的图像融合模型。

Dif-Fusion 利用扩散模型的生成能力，直接在潜在空间中建模多通道数据的分布，避免了传统方法中对颜色信息的损失。

传统的红外与可见光图像融合方法通常将多通道图像转换为单通道进行处理，忽略了颜色信息的保留，导致融合图像色彩失真

问题痛点：

现有融合方法（如基于CNN、Transformer）通常忽略颜色保真，导致生成图像偏灰、偏色。
很多方法将RGB图像转为灰度处理，忽略了色彩通道的耦合性与重要性。

2. 关键背景知识

相比于多聚焦/多曝光图像融合这种能够获得 ground-truth（即真实融合图像）的任务，红外光与可见光图像融合中的 ground-truth 是不可获取的。这导致我们无法使用 ground-truth 作为 label 进行训练，这使得这个任务变得困难。因为对于有 ground-truth 的任务（如图像超分/去噪/增强），训练一个 Conditional Diffusion Model（条件扩散模型）是很容易的。

多聚焦图像融合的 GT 是 “全聚焦图像”（通过光学设备直接拍摄同一场景的清晰图像）；
多曝光图像融合的 GT 是 “高动态范围（HDR）图像”（通过相机多次曝光合成或专业设备采集）

维度	多聚焦 / 多曝光融合（有 GT）	红外与可见光融合（无 GT）
监督信号	强监督（像素级 GT）	弱监督（自监督、下游任务监督、感知损失）
损失函数	MSE/SSIM 等直接度量像素差异	重构损失、对比损失、任务损失等间接损失

该论文的创新在于：首次在无 GT 场景中证明，扩散模型的生成能力可替代传统监督信号，

3. 模型结构

整体架构：两阶段融合框架

Dif-Fusion 采用两阶段架构，分别为

扩散建模阶段（Diffusion Modeling Stage）：
- 输入：红外图像（1通道）与可见光图像（3通道）拼接为4通道数据。
- 过程：通过正向扩散过程添加高斯噪声，训练去噪网络学习反向扩散过程，建模多通道数据分布
特征融合阶段（Feature Fusion Stage）：
从去噪网络中提取多通道扩散特征，输入融合模块，生成高保真的三通道融合图像

Dif-Fusion 的总体结构如下：

Dif-Fusion 是一个二阶段（two-stage）的图像融合模型，包括两个相互独立的模型：

1、Diffusion 模型：将 Diffusion 的噪声预测网络作为一个特征学习和提取器

噪声预测网络工作机制：Diffusion 模型中的噪声预测网络，在前向扩散过程中，图像不断被添加噪声，逐步从清晰态变为噪声态。反向扩散时，网络依据含噪图像预测噪声，进而尝试还原清晰图像。在这个过程中，网络并非单纯去噪，而是在学习图像特征。对于红外与可见光图像融合任务，它能捕捉到红外图像的热辐射特征、可见光图像的纹理细节特征等。

特征提取优势：相比传统基于卷积神经网络（CNN）的特征提取方式，Diffusion 模型的噪声预测网络具有独特优势。传统 CNN 特征提取往往受限于固定的卷积核与网络结构，对复杂特征的捕捉能力有限。而 Diffusion 模型通过逐步去噪过程，可从不同噪声水平下对图像特征进行深度挖掘，它可以在不同尺度和层次上提取特征，适应红外与可见光图像在特征分布和物理特性上的差异。