【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

article/2025/8/21 6:47:53

文章目录

  • 一、摘要
  • 二、问题
  • 三、Method
    • 3.1 Latent Diffusion Model
    • 3.2 Motion-guided Diffusion Sampling
    • 3.3 Temporal-aware Decoder Fine-tuning
  • 四、实验设置
    • 4.1 训练阶段
    • 4.2 训练数据
  • 贡献总结

论文全称: Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution
代码路径: https://github.com/IanYeung/MGLD-VSR
更多RealWolrd VSR整理在 https://github.com/qianx77/Video_Super_Resolution_Ref

一、摘要

现实世界中的低分辨率(LR)视频存在多样化和复杂的退化现象,这对视频超分辨率(VSR)算法在高质量地再现其高分辨率(HR)对应物时提出了巨大的挑战。最近,扩散模型在图像还原任务中展现出了令人信服的生成真实细节的性能。然而,扩散过程具有随机性,使得控制还原图像内容变得困难。当将扩散模型应用于视频超分辨率(VSR)任务时,这个问题变得更加严重,因为时间一致性对视频的感知质量至关重要。
在本文中,我们通过利用预训练的潜在扩散模型的优势,提出了一种有效的实际应用视频超分辨率算法。为了确保相邻帧之间内容的一致性,我们利用低分辨率视频中的时间动态,通过优化潜在采样路径并引入运动引导损失,来指导扩散过程,从而确保生成的高分辨率视频保持一致且连续的视觉流。为了进一步减轻生成细节的间断性,我们在解码器中插入了时间模块,并使用一种创新的序列导向损失对其进行微调。所提出的基于运动引导潜在扩散(MGLD)的超分辨率算法在真实世界的超分辨率基准数据集上实现了显著优于现有技术的感知质量,验证了所提模型设计和训练策略的有效性。代码和模型可在 https://github.com/IanYeung/MGLD-VSR 获取。

二、问题

1、CNN Transformer架构表现不好
2、diffusion模型时序细节稳定性差

三、Method

图片

3.1 Latent Diffusion Model

介绍下LDM基本过程

3.2 Motion-guided Diffusion Sampling

在采样过程中引入了一种创新的运动引导模块,以测量跨帧的潜在特征的变形误差。
1、计算光流(前向和反向),下采样光流图去适应latent feature的尺寸
2、warp latent feature到相邻帧,然后计算两个方向上的累计误差
图片
3、计算occlusion区域,增加一个mask,仅这些位置提供梯度
图片

3.3 Temporal-aware Decoder Fine-tuning

latent的稳定性得到提升了,但是毕竟latent尺度是x8以下的,放大后可能又不稳定了,所以VAE-Dec也需要微调下
1、如图2所示,其中时序方面(temporal convs)的卷积是 1D convolutions(计算成本小)
2、从encoder通过CFW模块引入编码器特征,实现保真的效果
3、训练时候冻结原始空间卷积spatial convs
4、ℓ1 loss and perceptual loss、GAN-loss、frame difference loss、结构加权一致性损失 Lswc (structure weighted consistency loss)
图片
其中w=1+wS,代表着边缘位置,这个损失看起来是为了让前后帧的特征对齐
总的loss
图片

四、实验设置

4.1 训练阶段

两个训练阶段
1、finetune 去噪U-Net,权重使用sd2.1初始化,插入1D temporal convolution ,原始U-Net权重冻结,仅训练条件 和 时序模块
条件模块:包括小的时间感知的encoder,负责编码LR,然后注入去噪U-Net (使用SFT模块注入)
时序模块 :每个卷积块后面的1D temporal convolution
batch size设置24,序列长度设置6,latent尺寸设置64x64
2、首先生成干净的latent 序列,然后finetune 时间感知序列decoder (使用LR序列、生成的latent序列、HR序列)
这个阶段固定的VAE的decoder,然后插值时序模块和CFW模块来训练
batch size 设置4,序列长度设置5,图像尺寸设置512x512

4.2 训练数据

GT: REDS
LQ: RealBasicVSR的降质

贡献总结

1、提出了一种基于运动引导损失的扩散采样过程,使得输入帧的时间动态可以用于生成时间一致的潜在特征。
2、提出了一种时间感知序列解码器,以及两个面向序列的损失,以进一步增强生成视频的连续性。


http://www.hkcw.cn/article/IYwrGHTotn.shtml

相关文章

Linux安装mysql5.7详细教程

🍓 简介:java系列技术分享(👉持续更新中…🔥) 🍓 初衷:一起学习、一起进步、坚持不懈 🍓 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正🙏 🍓 希望这篇文章对你有所帮助,欢…

@高考考生和家长 别带违禁物品、勿信“押题”

2025年高考临近,一些不法分子受利益驱使,散布高考相关虚假信息,制造贩卖焦虑,组织实施诈骗,甚至诱导考生作弊,严重损害考生和家长切身利益,严重扰乱考试招生秩序。为此,教育部会同相关部门梳理汇总了近年来出现的一些典型案例,提醒广大考生和家长切勿相信谣言,谨防上…

Linux文件管理

1 查看文件内容 在 Linux 操作系统中,绝大多数的配置文件是以普通文本格式保存的,这些配置文件决定着系统及相关服务、程序的运行特性。查看及检索文本文件的内容,能够快速了解相关配置信息,以便为管理、维护操作系统提供有效的参…

法国回应“阵风”疑被击落说明什么 首次实战损毁引关注

法国军方首次对“阵风”战机疑似被击落事件作出回应,称如果情况属实,这将是该机型服役以来首次在实战中损毁。印度空军引进了这款战斗机。据媒体报道,法国国防部军方发言人5月27日在例行记者会上表示,若相关信息准确无误,这将是“阵风”战斗机自服役20年来首次在实战中受损…

python2解决反编译乱码

文章目录 得到.pyc文件调用以下脚本(二进制转明文)得到源码文件 得到.pyc文件 见文章:《python2反编译部分》 执行到这一步就能得到.pyc文件:3、 解包.exe文件(以PyInstaller为例) 调用以下脚本&#xf…

Vue中nextTick()的理解

目录 前言 一、JavaScript的事件循环机制 1.1执行栈 1.2任务队列 1.2.1宏任务 1.2.2微任务 1.3事件循环 1.4宏任务与微任务执行例子 二、Vue的异步更新策略 2.1为什么Vue选择异步更新 2.2Vue的异步更新实现 2.3nextTick 2.4使用nextTick的最佳时机 前言 在了解n…

详细说说Redis分布式锁和ZK分布式锁

在分布式系统中,分布式锁是实现资源互斥访问的核心机制。Redis 和 ZooKeeper(ZK)是两种常用的分布式锁实现方案,但它们的实现原理、优缺点和适用场景存在显著差异。 一、Redis 分布式锁 实现原理 基础命令: SET key v…

特朗普关税政策获批暂时恢复实施 法院裁决反转

当地时间5月29日,美国联邦巡回上诉法院批准特朗普政府的请求,暂时搁置了美国国际贸易法院此前做出的禁止执行特朗普政府依据《国际紧急经济权力法》对多国加征关税措施的裁决。联邦巡回上诉法院在裁决书中表示,在审议相关动议文件期间,美国国际贸易法院作出的判决和永久性禁…

官方通报小车超速坠桥致5死 事故原因正调查

官方通报小车超速坠桥致5死 事故原因正调查!5月19日18时23分,苏某驾驶一辆小汽车搭载4人沿环莞快速路行驶。在虎门一水库特大桥路段,车辆因超速冲破防撞沙桶和护栏后坠桥,导致车上5名司乘人员受伤。尽管被紧急送往医院抢救,但最终不幸全部死亡。事故发生后,市镇两级政府迅…

MTK平台-- 如何在屏幕关闭时过滤组播和广播的数据包

一 前言: 这段时间做了一些MTK平台的开发,关于一些WIFI的优化和大家分享下 当DUT(被测设备)连接到wifi网络时,有许多不重要的组播或广播数据包会在屏幕关闭时唤醒DUT的主机,为了降低功耗,DUT需要过滤这些数据包; MTK固件提供一些客户自定义的功能,如关闭过滤组播和…

交通违法拍照数据集,可识别接打电话,不系安全带的行为,支持YOLO,COCO JSON,VOC XML格式的标注数据集 最高正确识别率可达88.6%

交通违法拍照数据集 数据集概述 数据来源:交通监控摄像头、执法记录仪、公开数据集数据类型:图像、视频、元数据(时间、地点、车辆信息)违法类型标注:接打电话、未系安全带 数据采集与标注方法 采集设备&#xff1…

DMBOK对比知识点对比(2)

1.违背伦理进行数据处理的风险 违背伦理进行数据处理的风险风险

特朗普:5月30日将是马斯克在政府效率部最后一天

当地时间5月29日,美国总统特朗普在社交媒体上发文表示,5月30日将是埃隆马斯克在政府效率部的最后一天,他将于美国东部时间30日13时30分在椭圆形办公室与马斯克举行新闻发布会。美国企业家、政府效率部负责人埃隆马斯克28日在社交媒体上说,他作为“特殊政府雇员”的任期结束…

易经六十四卦象解释数据集分享!智能体知识库收集~

今天给大家分享一个易经六十四卦象解释数据集 ,继续来积累AI相关的资料。 六十四卦,记载于《易经》,每一卦的图像均由两个八卦上下组合而成,每一卦各有六个爻。南宋朱熹说,先画八卦于内,后画八卦于外&#…

使用Zxing导出底部带有文字的二维码

1、引入依赖 <!-- Maven 依赖 --> <dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.4.1</version> </dependency>2、生成二维码 import com.google.zxing.BarcodeFormat; i…

Linux文件操作、文件夹操作

一、文件操作 二、文件夹操作

胖东来红内裤事件案宣判 百万粉丝博主赔偿40万

2025年5月28日,许昌市魏都区人民法院公开审理了许昌市胖东来商贸集团有限公司与段某之间的名誉权纠纷案,并当庭宣判。法院判决段某在其个人抖音账号“两个小段(小)”发布书面道歉信的视频,内容需经法院审核,且发布后30日内不得删除;同时,段某需赔偿许昌市胖东来商贸集团…

【Stable Diffusion 1.5 】在 Unet 中每个 Cross Attention 块中的张量变化过程

系列文章目录 文章目录 系列文章目录前言特征图和注意力图的尺寸差异原因在Break-a-Scene中的具体实现总结 前言 特征图 (Latent) 尺寸和注意力图(attention map)尺寸在扩散模型中有差异&#xff0c;是由于模型架构和注意力机制的特性决定的。 特征图和注意力图的尺寸差异原…

男子酒驾闯卡撞伤交警被刑拘 肇事司机已被控制

5月27日晚,交警在陕西西安莲湖区文景南路与农兴路十字路口附近设卡执勤时,一名男子驾车冲卡,冲毁护栏并撞伤了一名交警。该男子涉嫌酒驾,已被刑拘。事发后,该男子弃车逃离现场,但很快被执勤交警抓获。据事发地商户描述,听到撞击声后,一辆由北向南行驶的黑色商务车冲过道…

南京一公园内出现大量竹节虫 生态环境良好标志

近日,有网民在社交媒体上分享了南京老山国家森林公园内出现大量竹节虫的视频。从视频中可以看到,栏杆上布满了绿色的竹节虫,显得非常密集。29日上午,南京老山国家森林公园的工作人员确认,近期园内确实出现了不少竹节虫。不过,工作人员表示这种昆虫是无害的,不会攻击人类…