精度更高、速度更快!从RT-DETR到RF-DETR全面突破实时检测瓶颈

article/2025/8/21 11:59:42

【导读】

YOLO虽快,但其依赖的非最大抑制(NMS)后处理拖累速度与精度。DETR架构首次实现无需NMS的“一对一”预测,却受限于计算成本。如今,RT-DETR 通过混合编码器、不确定性查询选择等创新突破实时瓶颈;RF-DETR 更进一步,成为首个在COCO上突破60 AP的实时模型,兼顾高精度与边缘部署效率。>>更多资讯可加入CV技术群获取了解哦~

目录

一、NMS 如何影响 YOLO?

二、DETR:告别 NMS 的全新尝试

三、RT-DETR :向实时性能靠拢

混合编码器

查询选择器

改进的解码器结构

四、RF-DETR:推理加速的新突破

五、重新定义实时检测的边界:Coovally 平台全面集成

六、结论


传统上,YOLO(You Only Look Once)凭借其轻量级和直接的设计,一直是实时物体检测的首选模型。尽管 YOLO 因其在速度和准确率之间的平衡而广受欢迎,但它也面临着挑战,尤其是在非最大抑制 (NMS) 方面。


一、NMS 如何影响 YOLO?

现有的实时检测器(例如 YOLO)通常采用基于 CNN 的架构。尽管 YOLO 在速度和准确率之间进行了合理的权衡,但它需要 NMS 进行后处理,非最大抑制 (NMS) 是一种计算机视觉方法,用于从多个重叠实体(通常是物体检测中的边界框)中选择一个实体。该方法会丢弃低于特定概率阈值的实体,并重复选择概率最高的实体。任何与先前选定的边界框的并集 (IoU) ≥ 0.5 的剩余边界框都将被丢弃。此过程会降低推理速度并引入超参数,从而影响 YOLO 的速度和准确性。


二、DETR:告别 NMS 的全新尝试

screenshot_2025-05-28_15-16-46.png

因此DETR(Detection Transformer)便出现了,通过Transformer的全局注意力机制彻底摒弃NMS,实现检测框的“一对一”预测。随着开发人员的创新,如今DETR的变体模型也是越来越优秀,从最初RT-DETR到前不久刚刚发布发布的RF-DETR。

论文链接:https://arxiv.org/pdf/2005.12872

在 Coovally 平台上,无论是经过深度优化、专为实时任务打造的 RT-DETR,还是融合最新改进方案、表现更为强劲的 RF-DETR,都已正式集成上线!用户可以一键调用模型进行训练、测试或部署,也可直接下载模型文件灵活接入自己的应用流程,无需繁琐配置,真正实现模型即服务,推理即开箱即用。

screenshot_2025-05-28_15-29-06.png

screenshot_2025-05-28_15-29-20.png

接下来,我们就来详细看看这两款在实时检测领域大放异彩的 DETR 架构变体——它们是如何一步步突破传统目标检测的瓶颈、又是怎样在 Coovally 平台实现高效落地的。


三、RT-DETR :向实时性能靠拢

DETR模型可以解决YOLO的NMS问题,但其高昂的计算成本使其无法满足实时检测的要求。无NMS架构并未展现出推理速度优势。因此,提出了RT-DETR,RRT-DETR是基于DETR架构的端到端对象检测器,完全消除了对NMS的需求。

论文链接:https://arxiv.org/abs/2304.08069

然而,RT-DETR面临着许多问题,引入多尺度特征虽然有利于加速训练收敛,但却显著增加了输入编码器的序列长度。多尺度特征相互作用产生的高计算成本使 Transformer 编码器(Transformer编码器是Vaswani等人在论文《Attention is All You Need》中提出的Transformer模型架构的一部分。它利用自注意力机制并行处理输入序列,使其在自然语言处理和计算机视觉等各种任务中高效运行。)成为计算瓶颈,需要重新设计编码器。

0D35739C-9B16-401e-AC97-F39BD5278598.png

此外,当前直接采用分类分数的查询选择方法忽略了检测器同时建模物体类别和位置的必要性。这可能导致选择定位置信度较低的编码器特征作为初始查询,从而增加不确定性并降低性能。RT-DETR 实现了多种方案来克服这些挑战:

  • 混合编码器

高效混合编码器是标准编码器的重新设计版本,它结合了多种技术来优化性能。它解耦了尺度内交互(处理同一尺度内的特征)和跨尺度融合(融合不同尺度的特征),从而降低了计算成本并提高了处理速度。

rt-detr-hybrid-encoder.png

为了避免选择定位置信度较低的编码器特征作为对象查询,RT-DETR 引入了不确定性最小查询选择。该方法明确地优化了不确定性,为解码器提供了高质量的初始查询,从而提高了准确率。

AIFI(自适应交互融合集成):它融合了来自不同级别的主干(S3、S4、S5)的特征,以创建更丰富的表示。python实现代码:

import torch
import torch.nn as nn
import torch.nn.functional as Fclass AIFI(nn.Module):def __init__(self, in_channels_s3, in_channels_s4, in_channels_s5, out_channels):super(AIFI, self).__init__()# 假设S3, S4, S5的通道数分别为in_channels_s3, in_channels_s4, in_channels_s5# 使用1x1卷积来调整通道数self.conv_s3 = nn.Conv2d(in_channels_s3, out_channels, kernel_size=1)self.conv_s4 = nn.Conv2d(in_channels_s4, out_channels, kernel_size=1)self.conv_s5 = nn.Conv2d(in_channels_s5, out_channels, kernel_size=1)# 自适应加权模块,利用全连接层进行权重计算self.fc = nn.Linear(out_channels * 3, 1)def forward(self, s3, s4, s5):# 对不同层次特征进行处理s3_out = self.conv_s3(s3)s4_out = self.conv_s4(s4)s5_out = self.conv_s5(s5)# 融合特征(可以通过拼接或者加权)fused_features = torch.cat((s3_out, s4_out, s5_out), dim=1)  # 拼接通道# 计算加权系数attention_weights = self.fc(fused_features.view(fused_features.size(0), -1))  # 平展后输入全连接层attention_weights = F.sigmoid(attention_weights)  # 使用Sigmoid激活函数确保权重在0-1之间# 加权融合后的特征weighted_fusion = fused_features * attention_weights.unsqueeze(-1).unsqueeze(-1)return weighted_fusion.sum(dim=1)  # 对通道维度进行求和,得到最终融合特征

CCFF(跨尺度通道融合):该模块进行多层次的融合,结合来自不同尺度的特征,以保持高级语义信息和低级细节特征之间的平衡。

图片

CCFF模块通常采用跨通道注意力机制或简单的加权平均来完成这一任务:

class CCFF(nn.Module):def __init__(self, in_channels_list, out_channels):super(CCFF, self).__init__()self.convs = nn.ModuleList([nn.Conv2d(in_channels, out_channels, kernel_size=1) for in_channels in in_channels_list])self.attn_fc = nn.Linear(out_channels * len(in_channels_list), 1)def forward(self, features):# features是一个包含多个尺度特征的列表processed_features = [conv(f) for conv, f in zip(self.convs, features)]  # 每个尺度的特征通过1x1卷积处理# 融合多个尺度的特征fused_features = torch.cat(processed_features, dim=1)  # 拼接各尺度特征# 计算注意力权重attention_weights = self.attn_fc(fused_features.view(fused_features.size(0), -1))  # 使用全连接层计算加权系数attention_weights = F.sigmoid(attention_weights)  # 使用sigmoid激活函数# 对融合特征进行加权weighted_fusion = fused_features * attention_weights.unsqueeze(-1).unsqueeze(-1)  # 加权融合return weighted_fusion.sum(dim=1)  # 对通道维度进行求和,返回融合后的特征
  • 查询选择器

不确定性最小查询选择是一种通过最小化不确定性来为解码器选择最佳初始查询的技术。这确保了所选特征具有较高的定位置信度,从而提高了目标检测过程的准确性和可靠性。

  • 改进的解码器结构

RT-DETR的解码器结构经过优化,使其能够更高效地生成物体的位置和类别,无需重新训练即可适应各种实时场景。在传统的DETR中,解码器通常需要大量的计算来匹配物体和查询,但RT-DETR在此基础上进行了改进,通过更高效的解码机制加速了计算过程。

BF982E9F-D119-4edc-A01E-5F1AF182E385.png


四、RF-DETR:推理加速的新突破

前不久刚刚发布的RF-DETR,是第一个在Microsoft COCO基准测试中超过 60 AP 的实时模型,同时在基础尺寸下具有竞争力。它还在 RF100-VL 目标检测基准测试中实现了最先进的性能,该基准测试衡量模型对现实世界问题的领域适应性。RF-DETR 的速度与当前实时目标检测模型相当。 它专为需要高速、高精度且计算资源有限(例如边缘计算或低延迟)的模型的项目而开发。

RF-DETR 有两种型号:RFDETRBase 和 RFDETRLarge,同样它足够小巧,可以在边缘设备上运行,能同时兼顾精度和实时性,使其成为需要强大准确性和实时性能的部署的理想模型。

screenshot_2025-05-28_15-10-32.png

RF-DETR 采用基于可变形 DETR 论文中阐述的基础架构。可变形 DETR 采用多尺度自注意力机制,而 RF-DETR 则从单尺度主干网络中提取图像特征图。并通过将 LW-DETR 与预训练的 DINOv2 主干相结合,创建了 RF-DETR。


五、重新定义实时检测的边界:Coovally 平台全面集成

对于模型基础有所了解后,大家是否都想进行使用训练呢?借助Coovally提供的无代码训练环境和灵活的模型部署能力,用户可以一键调用这两款模型进行训练、验证与部署,适用于工业检测、智能安防、农业识别等多种场景。

IMG_2733.GIF

平台不仅免去了繁琐的算法配置流程,还支持多种格式转换与数据增强方式,让模型应用变得前所未有地简单高效。无论你是算法研究者,还是产业应用者,都可以在Coovally上轻松上手、快速试验并落地你的目标检测任务。

IMG_3047.GIF

!!点击下方链接,立即体验Coovally!!

平台链接:https://www.coovally.com

如果你希望在不牺牲精度的前提下提升检测速度,又想体验无 NMS 架构的未来潜力,不妨现在就来试试 RT-DETR 和 RF-DETR —— Coovally 平台已经为你准备好一切。


六、结论

从YOLO的NMS枷锁,到RT-DETR的实时化突破,再到RF-DETR的精度-效率平衡,实时检测技术正加速向端到端、轻量化演进。“无需NMS”不仅是一场技术革命,更是工业落地的必然选择。通过Coovally平台,企业可快速调用RT-DETR与RF-DETR的顶尖能力,让AI真正成为产线“鹰眼”。


http://www.hkcw.cn/article/cSPKBFWexy.shtml

相关文章

提升搜索效率:深入了解Amazon Kendra的强大功能

从智能文档搜索到精准的自然语言处理,Amazon Kendra为企业提供了一个强大的解决方案,帮助我们突破传统搜索引擎的局限,快速实现信息的高效整合与检索,接下来让我们一起探索Amazon Kendra如何成为工作中的得力助手,提升…

社群营销:信任比流量值钱

你肯定见过那种群里天天甩链接的,动不动就所有人,点进去全是促销信息——这种玩意儿不叫社群营销,顶多是广告轰炸。 搞社群得先把自己当人,也把别人当人。别整那些机器人自动回复,谁半夜两点发消息都秒回,…

嵌入式工作项目中的线程管理(监控线程和重启线程的具体实现)

嵌入式工作项目中的线程管理(监控线程和重启线程的具体实现) 1. 背景 环境:ARMv7,Linux; 软件所处位置:应用层; 问题出现概率:偶先,概率极小; 问题描述: 一个负责校时的进程,里面有一个是网络校时的线程和一个 GPS 校时的线程,还有处理其他一些业务的线程;出现…

【图像处理基石】立体匹配的经典算法有哪些?

1. 立体匹配的经典算法有哪些? 立体匹配是计算机视觉中从双目图像中获取深度信息的关键技术,其经典算法按技术路线可分为以下几类,每类包含若干代表性方法: 1.1 基于区域的匹配算法(Local Methods) 通过…

Unity QFramework 简介

目录 什么是MVC模式? QFramework 架构提供了 Model 的概念 QFramework 架构引入 Command 的方式 QFramework 架构引入 Event事件机制 四个层:表现层、系统层、数据层、工具层 委托和回调函数的关系 命令和事件的区别 工具篇 QFramework整体基于M…

非线性声学计算与强化学习融合框架:突破复杂环境人机交互的新技术

随着人工智能的快速发展,尤其是在深度学习和强化学习领域,声学计算和人机交互进入前所未有的扩展和创新阶段。尽管传统声学方法取得了显著成功,但这些线性或准线性方法在实际环境中往往存在关键的不足,尤其在动态、复杂或混响环境…

广东河源再发3.0级地震 近期无大震风险

广东河源再发3.0级地震 近期无大震风险!中国地震台网正式测定,5月30日2时21分在广东河源市源城区(北纬23.72度,东经114.68度)发生3.0级地震,震源深度10千米。河源市地震局表示,目前未收到人员伤亡和财产损失报告。该局会商研判认为,本次地震是前一天5月29日13时17分发生…

极致视频压缩日记 - 1.2GB=>200MB - 低码率高画质 - 批量多目录自动转换脚本

效果图 格式av10.3M的码率,跟格式h.2645M的码率,画质竟然差不多! GPU拉满全速编码! 目标 1.视频瘦身储存,画质不变 2.自动批量压缩视频,多层目录递归处理 (脚本https://www.amjun.com/2327.html) 3.免费 (…

媒体:升学不再只有“独木桥” 职教贯通培养拓宽道路

媒体:升学不再只有“独木桥” 职教贯通培养拓宽道路!随着职教贯通培养模式的不断推进,我国学生的升学选择已经更加多元。高考不再是唯一的出路。5月28日,教育部公布2025年全国高考报名人数为1335万人,比2024年的1342万人减少7万人。这是自2017年以来高考报名人数首次减少。…

多地曝“谷子店”闭店消息 “谷子经济”面临转型挑战

手办模玩生产车间里,年轻人正在参与“谷子”涂装工作。消费者正在挑选“谷子”。“谷子经济”还能像过去那样“丰收”吗?挣“二次元”的钱,难不难?不只是做单一的“谷子”销售,还自主开发产品,做IP代运营,一步一步介入“谷子经济”全链条。自己开发App,为平台用户建立“…

我国入境游出境游持续升温 双向奔赴激发市场活力

走进2025上海国际旅游交易博览会现场,可以感受到入境和出境旅游市场的繁荣。中外客商、展商根据满满的时间表,听宣讲、看项目、谈合作,为世界旅游市场注入动力。今年的上海国际旅游交易博览会于5月27日至29日举行,吸引了来自全球80多个国家和地区的700多家展商参展,展会规…

白宫称美国法院“叫停”关税是司法越权

美国联邦巡回上诉法院当地时间29日批准特朗普政府的请求,暂时中止美国国际贸易法院此前做出的禁止执行特朗普政府对多国加征关税措施的行政令的裁决。自美国国际贸易法院28日裁定禁止执行美政府多个关税行政令后,特朗普政府多名官员就指责这一裁决,提起了上诉。△白宫新闻秘…

运镜决定节奏:AI视频创作中的动态叙事法则

在AI视频创作工具日益普及的今天,如何通过镜头语言精准掌控节奏,成为创作者的核心竞争力。运镜——即镜头的移动方式(如推、拉、摇、移)与视角选择(如仰拍、俯拍、主观视角)——不仅是技术操作,…

【Redis】string

String 字符串 字符串类型是 Redis 最基础的数据类型,关于字符串需要特别注意: 首先 Redis 中所有的键的类型都是字符串类型,而且其他几种数据结构也都是在字符串的基础上构建的。字符串类型的值实际可以是字符串,包含一般格式的…

Java 文件操作 和 IO(3)-- Java文件内容操作(1)-- 字节流操作

Java 文件操作 和 IO(3)-- Java文件内容操作(1)-- 字节流操作 文章目录 Java 文件操作 和 IO(3)-- Java文件内容操作(1)-- 字节流操作观前提醒:1. Java中操作文件的简单介…

MySQL进阶篇(存储引擎、索引、视图、SQL性能优化、存储过程、触发器、锁)

MySQL进阶篇 存储引擎篇MySQL体系结构存储引擎简介常用存储引擎简介存储引擎的选择 索引篇索引简介索引结构(1)BTree索引(2)hash索引 索引分类索引语法SQL性能分析指标(1)SQL执行频率(2)慢查询日志(3)profile详情(4)explain或desc执行计划 索引使用引起索引的失效行为SQL提示覆…

造血干细胞移植中,选择合适供者需综合多因素考量

KIR 单体型即杀伤细胞免疫球蛋白样受体(KIR)单体型,是指 KIR 基因在染色体上特定的组合形式 。主要内容如下: 分类 着丝粒单体型(C 型):含有较多的抑制性 KIR 基因,这些基因编码的…

四.MySQL数据类型

数据类型分类 一.数值类型 1.tinyint类型 MySQL 整数类型范围(有符号 / 无符号) 类型字节最小值(有符号/无符号)最大值(有符号/无符号)TINYINT1-128 / 0127 / 255SMALLINT2-32,768 / 032,767 / 65,535ME…

深度解构:Profinet转Profibus网关如何重塑产品分离装置的控制逻辑

PROFINET是一种基于以太网的工业以太网通讯协议,而PROFIBUS则是一种国际化的现场总线标准。在很多工业生产环境中,这两种通讯方式都有其各自的应用场合和优势。当产品分离装置需要同时使用PROFINET和PROFIBUS进行通信时,无锡耐特森PROFINET转…

EasyVoice:开源的文本转语音工具,让文字“开口说话“

名人说:博观而约取,厚积而薄发。——苏轼《稼说送张琥》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、EasyVoice是什么?1. 核心特性一览2. 技术架构概览 二、安装部署指南…