一文清晰理解目标检测指标计算

article/2025/8/23 19:25:45

一、核心概念

1.交并比IoU

        预测边界框与真实边界框区域的重叠比,取值范围为[0,1]

        设预测边界框为B,真实边界框为B_{gt}

        公式: IoU计算为两个边界框交集面积与并集面积之比,图示如下

        IoU值越高,表示预测边界框与真实边界框的对齐越好,意味着定位性能越优异。

2.置信度

        分类器预测一个锚框中包含某个对象的概率。衡量了模型对一个预测框中包含特定类别对象确定程度

        置信度的计算方式有多种,与检测方法是相关的,具体可以参考下面的内容:

目标检测预测框置信度(Confidence Score)计算方式-CSDN博客

3.TP、FP、FN

        一些讲解视频列出的评判标准,但是这个不是很容易理解,具体实现的时候直接用下面的各种情况判定即可。

(1)TP:True Positive

        预测框判定为真阳性,需同时满足两个条件:

        ① 其与一个真实边界框的IoU大于或等于预设阈值(通常为0.5);

        ② 其预测类别标签与真实类别标签正确匹配 。

        值得注意的是,每个真实目标只能被一个预测边界框匹配为TP。

(2)FP:False Positive

        预测边界框被归类为假阳性,如果它在以下任一情况下发生:

        ① 其与所有真实边界框的IoU都低于指定阈值;

        ② 它是对已匹配真实目标的重复检测 ;

        ③ 它虽然正确定位了目标(IoU达到阈值),但分配了错误的类别标签 。

(3)FN:False Negtive

        模型未能检测到图像中实际存在的真实目标时,就会发生假阴性。这包括两种主要情况:

        ① 没有预测边界框与某个真实目标对应 ;

        ② 存在与真实目标有足够IoU的预测边界框,但其类别标签不正确 。在目标检测AP计算中,通常不明确评估真阴性(正确识别的背景)。

(4) TN:True Negtive

        此指标无意义,忽略。

二、核心指标

        注:在目标检测中谨慎使用混淆矩阵概念【这块容易误导理解】

1.Precision精确度

        衡量模型正向预测的准确性。其定义为真阳性(TP)与模型所有正向预测(TP + FP)之比 。高精度意味着模型误报率低。

precision=\frac{TP}{TP+FP}

        也叫查准率,是在识别出的物体中,正确的正向预测 (True Positive,TP) 所占的比率,越接近1越好。

2.Recall召回率

        也叫查全率,正确识别出来的目标(TP)占所有需要检测的目标(也就是GT内的标记数量)比例。        

recall=\frac{TP}{TP+FN}=\frac{TP}{GT}

        越接近1越好。

3.AP和mAP

        Average Precision,AP是非常流行的目标检测度量指标,通常来说一个越好的分类器,AP值越高。P(纵轴)-R(横轴)曲线与横轴的面积,一般采用插值法计算得到。

下面介绍一下COCO AP的计算过程(101点插值法):      

        (1) 按置信度排序预测: 对于数据集中每个目标类别,所有预测边界框都按其置信度分数降序排列 。

        (2) 分类结果(TP/FP): 遍历排序后的预测。对于每个预测,根据其与真实边界框的IoU以及类别匹配情况,判断其是真阳性(TP)还是假阳性(FP),并使用特定的IoU阈值 。

        (3) 计算累积指标: 随着预测的逐个处理,累积的TP和FP计数被维护,并计算累积精度和召回率值 。

        例:每处理一个预测框,计算当前的召回率和精度

处理到第 k 个预测框累计 TP累计 FP召回率 r = \frac{\text{TP}}{G}精度p = \frac{\text{TP}}{k}
k=1101/5 = 0.21/1 = 1.0
k=2202/5 = 0.42/2 = 1.0
k=3212/5 = 0.42/3 ≈ 0.667
k=4313/5 = 0.63/4 = 0.75
k=5414/5 = 0.84/5 = 0.8
k=6424/5 = 0.84/6 ≈ 0.667
k=7434/5 = 0.84/7 ≈ 0.571
k=8535/5 = 1.05/8 = 0.625
k=9545/5 = 1.05/9 ≈ 0.556
k=10555/5 = 1.05/10 = 0.5

得到原始点对(10个):( r , p )

(0.2,1.0), (0.4,1.0), (0.4,0.667), (0.6,0.75), (0.8,0.8), (0.8,0.667), (0.8,0.571), (1.0,0.625), (1.0,0.556), (1.0,0.5)

         (4) 精度插值: 为了平滑PR曲线并使其单调递减,对精度进行插值。对于每个召回率水平 r ,插值精度取为在召回率 r' 大于或等于 r 时观察到的最大精度 。COCO评估专门使用101个等间距的召回率水平(从0到1,步长为0.01)进行此插值 。

        例:与上面例子对应,如果此时选择 r 为0.8,那么召回率大于等于0.8时的最高准确率为0.8,那么此时的PR曲线的 r = 0.8 处的 p 即为 0.8。

        (5) 计算单个IoU阈值下类别的AP: 特定类别在给定IoU阈值下的AP,通过平均这101个插值召回率水平上的精度值来计算 。也就是用101个点构建出PR曲线,计算对应面积即为特定IoU阈值下单类别的AP。如果IoU阈值为0.5,那么一般表示为AP50或者AP@0.5,当多类别时需要计算平均值,即为mAP50或mAP@0.5。

        (6) 计算类别AP(跨IoU阈值平均): COCO AP的一个关键特点是,它将步骤(5)中计算的AP值在多个交并比(IoU)阈值上进行平均。具体而言,COCO使用10个IoU阈值,范围从0.50到0.95,步长为0.05(即0.50、0.55、0.60、...、0.95)。此指标通常表示为AP@[0.5:0.95]或简称为AP50:95。这种多阈值平均方式(AP50:95 = (AP50 + AP55 +... + AP95) / 10) 特别奖励那些具有更优异定位准确性的检测器 。

        (7) 计算最终AP(mAP): 最终报告的AP(COCO通常将其称为mAP,因为它在类别上进行平均,没有明确区分)是步骤(6)中计算的AP值在数据集中所有目标类别上的平均值 。这种多层次的平均是其有时被俗称为“平均、平均、平均精度”的原因 。

这里对上面方法有些需要注意的地方总结一下

        ① 确定IoU阈值,然后在这样的阈值下计算TP、FP、FN等指标

        ② 随着一个一个预测框的处理,我们需要不断地记录用动态的TP、FP、FN等指标计算得到动态的P和R(这个地方很重要,对应于上面的(3)计算累积指标和(4)精度差值),进而使用插值法得到PR曲线图的面积值,即当前IoU阈值下的AP。

        ③ 不同的算法指标说法(YOLO或DETR等)可能不一样,要详细看看计算方式是什么做出正确的判断。

4.COCO AP的深层含义

        COCO AP指标通过其多IoU阈值(0.50至0.95)的平均计算方式 ,对定位准确性给予了显著的权重,这与传统的PASCAL VOC仅使用0.5 IoU阈值形成鲜明对比 。这种设计选择意味着COCO不仅奖励模型检测目标的能力,更重要的是奖励其精确地定位目标的能力。一个预测框与真实框的IoU达到0.9的模型,其价值远高于仅勉强达到0.5阈值的模型,即使两者在0.5阈值下都被计为TP。

        这推动了模型预测更紧密、更准确的边界框。因此,COCO AP已成为行业标准,因为它反映了自动驾驶、机器人操作和医学影像等实际应用中对精确目标边界日益增长的需求。

        COCO AP的“平均、平均、平均精度”这一概念 ,精辟地概括了该指标的多维度特性。它意味着在召回率点(101个水平)、IoU阈值(10个水平)以及所有目标类别上进行多层次平均。

三、区分不同检测模型输出处理方式

1.基于RPN/NMS的模型(例如Faster R-CNN)

(1) 架构概述:RPN与Fast R-CNN

        Faster R-CNN是两阶段目标检测器的典型代表,以其高准确性而闻名 。其架构逻辑上分为两个主要阶段

第一阶段:区域提议网络(RPN)

这是一个全卷积神经网络,旨在高效生成大量可能包含目标的候选区域(边界框)。

        RPN通过在共享CNN骨干网络提取的特征图上应用一个小的滑动窗口来操作 。

        在每个滑动窗口位置,RPN利用一组预定义的锚框。这些锚框是具有不同尺度和长宽比的参考框(例如,每位置3种尺度x3种长宽比=9个锚框),旨在捕获不同大小和形状的目标 。

        对于每个锚框,RPN预测两个关键参数:“目标性分数”(一个二元概率,指示锚框是否包含目标)和相对于锚框的边界框调整量(偏移和尺度)。

第二阶段:Fast R-CNN检测器

该组件接收RPN生成的区域提议,并执行最终的目标分类和精确的边界框回归 。

        它使用ROI池化(或ROI Align)层从RPN提议的每个感兴趣区域(ROI)中提取固定长度的特征向量,无论原始提议的尺寸如何 。

        这些提取的特征向量随后被送入全连接层,输出最终的类别概率(N+1个类别,包括背景类别)和进一步精细化的边界框坐标 。

(2) 非极大值抑制(NMS)在过滤检测结果中的作用

        RPN通常会生成大量高度重叠的区域提议,一张图像中可能多达数百甚至数千个 。

        非极大值抑制(NMS)是一种关键后处理算法,应用于这些原始预测结果。其主要目的是消除冗余和高度重叠的边界框预测,确保每个检测到的目标只保留一个最自信和最准确的边界框 。

        NMS过程:

        ① 所有预测边界框(针对特定类别)根据其置信度分数降序排列 。

        ② 选择置信度分数最高的边界框,并将其添加到最终检测结果列表中。

        ③ 抑制所有与已选边界框显著重叠的其他边界框(即,它们与已选边界框的IoU超过预定义的NMS阈值,通常为0.5或0.7)。

        ④ 重复步骤②和③,直到没有剩余的(未被抑制的)边界框。

        NMS是一个启发式过程,独立于神经网络的端到端训练。它对于生成用于评估和实际使用的干净、非冗余的最终检测结果集至关重要 。

(3) 详细示例:从原始预测到NMS过滤后的检测结果及随后的AP/混淆矩阵计算

        场景: 假设一张图像中有一个真实目标:“狗”,其坐标为``。

        ① 原始RPN/检测器输出(NMS之前): 模型可能为这只“狗”生成多个高度重叠的预测,同时还有一些虚假检测:

                P1:类别:狗,边界框分数:0.98(与真实框IoU = 0.9)

                P2:类别:狗,边界框分数:0.95(与真实框IoU = 0.88)

                P3:类别:狗,边界框分数:0.92(与真实框IoU = 0.85)

                P4:类别:猫,边界框分数:0.70(无真实猫)

                P5:类别:人,边界框分数:0.60(无真实人)

        ② NMS应用(NMS IoU阈值 = 0.5):

                按分数排序预测:P1 (0.98), P2 (0.95), P3 (0.92), P4 (0.70), P5 (0.60)。

                选择P1。将P1添加到最终检测结果。

                抑制重叠边界框:P2和P3与P1有高IoU(例如,> 0.5)。抑制P2和P3。

                下一个最高分数是P4。选择P4。将P4添加到最终检测结果(P4不与P1重叠)。

                下一个最高分数是P5。选择P5。将P5添加到最终检测结果(P5不与P1或P4重叠)。

        ③最终NMS过滤后的检测结果:

                D1:类别:狗,边界框分数:0.98

                D2:类别:猫,边界框分数:0.70

                D3:类别:人,边界框分数:0.60

(4) 对AP计算的影响

用于计算AP的TP/FP/FN仅基于这些NMS过滤后的检测结果。

        对于AP:

        D1(狗)与真实狗:IoU > 0.5,类别正确 -> TP。

        D2(猫)与真实目标:无真实猫 -> FP。

        D3(人)与真实目标:无真实人 -> FP。

        如果存在其他未被检测到的真实目标,它们将是FN。

精度-召回率曲线随后根据这些TP/FP计数构建。

2.端到端方式的直接预测(以DETR为代表)

(1) 架构概述:Transformer编码器-解码器与直接集合预测

        DETR(DEtection TRansformer)代表了目标检测领域的一次范式转变,它将目标检测任务重新定义为一个直接的集合预测问题 。这种创新方法从根本上消除了对传统手工设计组件(如锚框生成和非极大值抑制(NMS))的需求 。

(2) 核心组件

        ① CNN骨干网络: 类似于基于RPN的模型,CNN(例如ResNet-50)从输入图像中提取层次化的特征图 。

        ② Transformer编码器: 该组件处理扁平化的图像特征。利用其自注意力机制,编码器捕获图像中全局上下文信息和长距离依赖关系,从而实现对目标关系的更整体理解 。

        ③ Transformer解码器: 解码器是DETR直接预测的核心。它接收固定数量的“目标查询”(学习到的位置嵌入)作为输入。每个查询通过对编码器输出的交叉注意力,直接预测一个边界框及其对应的类别标签 。

        ④ 预测头: 连接到每个解码器输出的简单前馈网络(FFN)。这些预测头直接输出归一化后的边界框中心坐标、高度、宽度,以及所有可能类别标签的softmax概率分布 。

        DETR旨在输出一个固定大小的N个预测结果集(例如,原始论文中N=100),其中N通常远大于图像中实际目标的预期数量。为了处理目标数量少于N的情况,一个特殊的“无目标”类别(∅)用于表示未使用的预测槽位 。

(3) 二分匹配(匈牙利算法)在消除NMS中的作用

        由于DETR直接输出一个预测集合,并且这些预测的顺序是任意的(由于Transformer的置换不变性),因此在训练期间需要一个复杂的匹配机制来唯一地将每个预测目标分配给一个真实目标 。

        二分匹配(匈牙利算法): 这种强大的图论算法用于在固定大小的N个预测集与真实目标集(用∅“无目标”条目填充以匹配大小N)之间找到最优的一对一分配(特定排列)。目标是最小化配对预测和真实目标之间的总匹配成本 。

        匹配成本: 匹配预测框ŷ_i与真实框y_j的成本函数通常同时考虑类别预测(负对数概率)和边界框相似度(例如L1损失和广义IoU损失)。

        消除NMS: 由于匈牙利算法建立了一对一的唯一映射,它从根本上解决了重复检测问题,并为每个真实目标分配最多一个预测,从而消除了单独的NMS后处理步骤的需求 。

(4) 详细示例:从原始预测到二分匹配检测结果及随后的AP计算

        场景: 相同的图像,包含一个真实目标(“狗”)。DETR输出N=100个预测。

        原始DETR输出: 解码器输出100个预测(类别、边界框、分数)元组。其中许多将属于∅(无目标)类别。一些可能指向“狗”(例如,P1:狗,bbox1,0.9;P2:狗,bbox2,0.85;P3:∅,bbox3,0.1;...)。即使P1和P2都预测为“狗”,它们最初也是独立的预测。

        二分匹配应用(训练期间): 匈牙利算法将为单个真实“狗”与N个预测中的一个找到最佳匹配。它很可能将真实狗与“P1”匹配,因为它具有最高的“狗”类别置信度以及良好的IoU。所有其他N-1个未匹配的预测将被隐式分配给∅(无目标)类别。

        推理与评估:在推理后,通常会丢弃具有∅标签或置信度分数非常低的预测(例如,< 0.05)。由于训练目标,剩余的预测本质上是非冗余的。在我们的示例中,过滤后可能只剩下“P1”(狗,置信度0.98,边界框)。这个单一的、过滤后的边界框(P1)随后用于计算TP/FP/FN,并与真实目标进行比较。如果它与真实狗匹配(IoU > IoU_阈值且类别正确),则为TP。如果它不匹配,则为FP。如果真实狗完全被漏检(即没有预测为“狗”的边界框通过置信度阈值),则为FN。

关键点: DETR的训练目标(二分匹配)从根本上处理了冗余,消除了推理后NMS的需求。这简化了评估的后处理流程,因为模型直接输出一个稀疏的、高质量的、非重叠的检测结果集。


http://www.hkcw.cn/article/PtDmNREsMX.shtml

相关文章

一文讲懂fork函数(c语言linux)

c语言的fork函数是拿来创建子进程的, 进程 pcb(process control block) 代码和数据 子进程中的代码和数据与父进程的一致(共享父进程的代码和数据),没有自己的代码和数据. 如果父进程或者子进程要修改数据,操作系统就会把要修改的数据拷贝一份新的,让目标进程修改这份拷贝…

LVDS系列14:Xilinx Ultrascale系可编程输入延迟(四)

本节讲解Ultrascale IDELAYE3的TIME模式仿真&#xff1b;  TIME模式下参数和时序&#xff1a; 必须例化IDELAYCTRL&#xff0c;IDELAYCTRL时钟频率与REFCLK_FREQUEMCY参数相同&#xff1b; 有温度电压补偿&#xff0c;EN_VTC在修改抽头值时拉低&#xff0c;修改完毕后拉高&a…

RTX腾讯通停服后,有哪些兼容Linux及移动端的升级途径?

一、RTX腾讯通停服后的核心挑战 1.国产系统与移动端适配中断 RTX腾讯通停更后无法适配统信UOS、银河麒麟等国产操作系统&#xff0c;原有Windows版本在Linux内核环境下运行异常&#xff0c;且缺乏Android、iOS移动端支持&#xff0c;阻碍跨平台协作。 2.大规模组织架构同步失…

美团启动618大促,线上消费节被即时零售传导到线下了?

首先&#xff0c;从市场推广与消费者吸引的角度来看&#xff0c;美团通过联合众多品牌开展大规模促销活动&#xff0c;并发放高额优惠券包&#xff0c;旨在吸引更多消费者参与购物。这种策略有助于提高平台的活跃度和交易量&#xff0c;同时也能够增强用户粘性。对于消费者而言…

TDengine 运维——巡检工具(安装前预配置)

背景 TDengine 的安装部署对环境系统有一定的依赖和要求&#xff0c;安装部署前需要进行环境预配置操作&#xff0c;本文档旨在说明安装前预配置工具在安装 TDengine 前对环境的预配置内容和工具的使用方法。 预配置工具使用方法 工具支持通过 help 参数查看支持的语法 Usa…

收集飞花令碎片——C语言(数组+函数)

C语言的函数&#xff08;Function&#xff09;是程序的基本构建块&#xff0c;用于封装一段可重用的代码&#xff0c;完成特定任务。函数可以提高代码的模块化、可读性和复用性。 目录 函数库函数标准库头文件自定义函数&#xff08;1&#xff09;基本语法&#xff08;2&#x…

2013-2021年各省电子商务数据

2013-2021年各省电子商务数据 1、时间&#xff1a;2013-2021年 2、来源&#xff1a;国家统计局、各省年鉴 3、指标&#xff1a;统计年度、地区代码、地区名称、电子商务销售额 4、范围&#xff1a;31省 5、指标说明&#xff1a;电子商务销售额是指通过电子商务平台进行商品…

企业级开发的 “技术主权保卫战”:iVX 源码自主性实践指南

在数字化转型的浪潮中&#xff0c;技术主权已成为企业核心竞争力的关键组成部分。iVX 作为全栈可视化开发平台&#xff0c;通过源码自主性实践&#xff0c;为企业构建了从开发工具到行业落地的全栈解决方案&#xff0c;在安全架构、国产替代、合规优势三大领域实现了技术突破与…

Python-12(函数)

函数的主要功能是可以打包代码&#xff0c;最大程度的实现代码的重用&#xff0c;减少冗余代码&#xff0c;可以将不同功能的代码进行封装&#xff0c;从而降低结构的复杂度&#xff0c;提高代码的可读性。 创建和调用函数 使用def语句来定义函数。 def myFunc():print(&quo…

罗德里格斯公式动图演示

一. 罗德里格斯公式形式: R o t ( ω ^ , θ ) e [ ω ] ^ θ I s i n θ [ ω ^ ] ( 1 − c o s θ ) [ ω ^ ] 2 Rot(\hat{\bold{\omega}}, \theta)e^{\hat{\bold{[\omega]}}_{\times} \theta}\bold{I}sin\theta[\hat{\bold{\omega}}]_{\times}(1-cos\theta)[\hat{\bo…

多家医院回应药企向上百名医生行贿 调查正在进行中

近日,一则关于某药企被举报向四川多家医院上百名医生行贿的消息引发广泛关注。举报材料中提及了四川省内包括成都市、绵阳市、广安市在内的多个城市的37家医疗机构。达州市第一人民医院工作人员表示,举报信中提到的医生并不在院方员工名单中,且该院去年才成立,往年员工名单…

高密爆炸警钟长鸣:AI为化工安全戴上“智能护盾”

一、高密爆炸&#xff1a;一声巨响&#xff0c;撕开化工安全“伤疤” 2025年5月27日&#xff0c;山东高密友道化学有限公司的车间爆炸声&#xff0c;像一把利刃划破了化工行业的平静。剧烈的冲击波将车间夷为平地&#xff0c;黑色蘑菇云腾空而起&#xff0c;刺鼻的化学气味弥漫…

微软 Azure AI Foundry(国际版)十大重要更新

2025 年被广泛视为 “AI 智能体元年”。在过去半年&#xff0c;微软密集发布众多创新技术&#xff0c;构建起从基础设施层、开发工具层到场景应用层的完整技术矩阵&#xff0c;加速推动诸多具备自主决策能力的 “超级助理” 智能体落地&#xff0c;形成完整的 AI 赋能生态&…

撒贝宁在广东水陆两栖过端午,广东过端午到底有多嗨?

撒贝宁在广东水陆两栖过端午。“龙舟漂移”惊险刺激,荔枝让苏轼灵感迸发,还有机器人参与的赛博端午节……广东过端午到底有多嗨?撒贝宁近日现身佛山叠滘,沉浸式体验龙舟季活动。在蜿蜒狭窄的河道上,他勇敢挑战龙舟漂移,完成高难度C弯动作时,自信高呼粤语有各位大哥在这里…

【HarmonyOS 5】鸿蒙中的UIAbility详解(二)

【HarmonyOS 5】鸿蒙中的UIAbility详解&#xff08;二&#xff09; 一、前言 今天我们继续深入讲解UIAbility&#xff0c;根据下图可知&#xff0c;在鸿蒙中UIAbility继承于Ability&#xff0c;开发者无法直接继承Ability。只能使用其两个子类&#xff1a;UIAbility和Extensi…

滚珠导轨:电子制造“纳米级”精度的运动基石

在电子制造与半导体设备追求“微米级工艺、纳米级控制”的赛道上&#xff0c;滚珠导轨凭借高刚性、低摩擦与高洁净特性&#xff0c;成为精密运动系统的核心载体。从芯片封装到晶圆检测&#xff0c;其性能直接定义了设备生产的极限精度与可靠性。滚珠导轨在电子制造与半导体设备…

高端装备制造企业如何选择适配的项目管理系统提升项目执行效率?附选型案例

高端装备制造项目通常涉及多专业协同、长周期交付和高风险管控&#xff0c;因此系统需具备全生命周期管理能力。例如&#xff0c;北京奥博思公司出品的 PowerProject 项目管理系统就是一款非常适合制造企业使用的项目管理软件系统。 国内某大型半导体装备制造企业与奥博思软件达…

MS37549/MS37545三相无感正弦波 BLDC 驱动

产品简述 MS37549 和 MS37545 是无感三相直流电机预驱芯片&#xff0c;采用 正弦波驱动方式&#xff0c;具有低噪声及低震动的特点。 芯片通过一个速度控制脚来控制电机的速度。并且电源电压 可以低到 4V 来适应调整电机的转速。 MS37549 和 MS37545 采用 QFN16 …

TCP协议

有连接&#xff0c;可靠传输&#xff0c;面向字节流 16位源端口号 16位目的端口号 4位首部长度 报头的长度&#xff0c;报头中包含了“选项” optional >可选择的&#xff0c;0 - 15 &#xff0c;4个字节&#xff0c;TCP 报头的最大长度是 60 字节 保留位&#xff08;6位…

国标GB28181设备管理软件EasyGBS视频监控平台:社会治安防控的高效解决方案

一、引言​ 随着城市的快速发展和人口的不断增长&#xff0c;社会治安问题日益受到关注。为了有效提升社会治安防控能力&#xff0c;保障人民群众的生命财产安全&#xff0c;视频实时监控系统成为现代城市治理的重要手段之一。EasyGBS作为一款基于GB28181标准的视频监控平台&a…