Python----目标检测(《YOLOv3:AnIncrementalImprovement》和YOLO-V3的原理与网络结构)

article/2025/6/24 7:12:52

一、《YOLOv3:AnIncrementalImprovement》

1.1、基本信息

  • 标题:YOLOv3: An Incremental Improvement

  • 作者:Joseph Redmon, Ali Farhadi

  • 机构:华盛顿大学(University of Washington)

  • 发表时间:2018年

  • 代码地址:Joseph Redmon - Survival Strategies for the Robot Rebellion

论文地址:

         [1804.02767] YOLOv3: An Incremental Improvement

        我们对YOLO进行了一些更新!我们做了一些小的设计更改来使其更好。我们还训练了这个新的网络,非常不错。它比上次稍大,但更加准确。不过它依然很快,请放心。在320x320的情况下,YOLOv3在28.2 mAP中以22毫秒的速度运行,准确性与SSD相当,但快了三倍。当我们查看老旧的5IOUmAP检测指标时,YOLOv3表现得相当不错。在Titan X上实现了579AP50,而RetinaNet在198毫秒内实现了575AP50,性能相似,但快了3.8倍。像往常一样,所有代码可以在Joseph Redmon - Survival Strategies for the Robot Rebellion上找到。 

1.2、主要内容

核心改进

        结合残差网络(ResNet)思想,提出新的主干网络 Darknet-53(53层卷积),兼顾速度与性能。

        采用 多尺度预测(3种尺度),融合浅层细粒度特征与深层语义特征,提升小目标检测能力。

        使用 维度聚类生成锚框(9个聚类,分3个尺度),通过逻辑回归预测目标存在概率。

性能表现

        速度:在Titan X GPU上,320×320分辨率下仅需22毫秒,比RetinaNet快3.8倍。

        精度:AP50指标达57.9,与RetinaNet(57.5)相当,但速度显著占优。

        局限性:高IOU阈值(如AP75)下性能较弱,边界框精确定位能力不足。

失败尝试

        线性激活替代sigmoid导致mAP下降。

        Focal Loss未提升性能(可能与YOLOv3的独立目标性预测机制冲突)。

        双IOU阈值训练策略效果不佳。

1.3、作用影响

技术贡献

        推动实时目标检测的实用化,平衡速度与精度,适用于嵌入式设备和实时系统。

        Darknet-53成为高效主干网络设计的参考,影响后续轻量化模型(如YOLOv4、YOLOv5)。

行业影响

        广泛应用于安防监控、自动驾驶、工业检测等对实时性要求高的场景。

        引发对目标检测评估指标的反思(如AP50 vs. COCO复杂指标)。

1.4、对未来展望

        那么,其他那些为视觉研究提供大量资金的人是军方,他们从来没有做过任何可怕的事情,比如用新技术杀死很多人,哦等等.....我对大多数使用计算机视觉的人充满希望,他们只是用它做快乐、好的事情,比如在国家公园里计算斑马的数量,或者跟踪它们的猫在家里游荡。但是计算机视觉已经在被用于有问题的用途,作为研究人员,我们有责任至少考虑我们的工作可能造成的伤害,并考虑减少它的方式。我们欠世界这么多。

二、YOLOV3

        下图中可以看到,2018年测试性能的数据集变成了COCO数据集,可以看到 YOLOV3的速度是非常快的,但是它的mAP并不是非常的高(mAP50 95)。

        下图中可以看到,当IOU=0.5的时候,即mAP-50时,可以看到YOLOV3的速 度不仅快的,而且还非常准。 

2.1、输入处理(Input)

        YOLOV3在输入上没做任何的变化。

2.2、骨干网络(Backbone)

修改骨干网络为darknet53

         YOLOv3的Backbone在YOLOv2的基础上设计了Darknet-53结构。 Darknet-53结构引入了ResNet的残差思想,类似于ResNet。

        同时,darknet53网络并没有池化层(池化层指的是下采样的池化,并不是 全局平均池化)。 

2.3、Neck结构

        YOLOv3引入了FPN的思想,以支持后面的Head侧采用多尺度来对不同size 的目标进行检测,越精细的grid cell就可以检测出越精细的目标物体。 YOLOv3设置了三个不同的尺寸,分别是19×19,38×38和76×76,他们之间 的比例为1:2:4。

其中,在Neck结构CBL*5中,5层CBL分别是:1x1,3x3,1x1,3x3,1x1 的卷积。

在Neck结构CBL中,是1x1的卷积。 输入时608,

经过Backbone的第一个Res8之后,得到的特征张量缩放比为 8:608/8=76,即76x76x256。

经过Backbone的第二个Res8之后,得到的特征张量缩放比为16: 608/1638,即38x38x512。

Concat是在通道上进行相加。

Neck结构的基础上顺势而为融合了3个尺度,在多个尺度的融合特征图上分 别独立做检测,19x19的检测大尺寸物体,38x38的检测中尺寸物体, 76x76的检测小尺寸物体。

2.4、 检测头(Head)

        255是与Anchor Box有关的,那么在YOLOV3中,Anchor Box的尺寸也是有 聚类算法产生的,经过聚类算法,有9个尺寸的Anchor Box,分别为: (10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90), (156x198),(373x326),YOLOV3会在三个预测特征层上进行预测,所以每 个预测特征层都有3个Anchor Box(按照先后顺序排好的,3个为一组,也 就是每个预测特征层有3个Anchor Box)。

特征图层特征图大小Anchor Box尺寸(修正后)Anchor Box数量
特征图层1(大目标)13x13(116x90),(156x198),(373x326)13x13x3
特征图层2(中目标)26x26(30x61),(62x45),(59x119)26x26x3
特征图层3(小目标)52x52(10x13),(16x30),(33x23)52x52x3

 那么COCO数据集有80类,3x(4+1+80)就得到255了。

三、正负样本分配

3.1、正样本分配原则

        与GT BOX的IOU最大的Anchor Box最为正样本。 如果一个Anchor Box与GT BOX的IOU不是最大的,但是又大于某个阈值, 那么就丢掉,既不是正样本又不是负样本。

3.2、负样本分配原则

        除去正样本和丢弃的样本剩下的就是负样本。 如果某个Anchor Box不是正样本,那么它就没有定位损失和类别损失, 只有置信度损失。

        其实我们可以看出来,这种正负样本分配的方式时有问题的,他会导致正负 样本数量失衡,从而影响训练结果,所以在几年前人们用YOLOV3的时候, 他们选择正样本的方式是:只要某个grid cell中的Anchor Box和GT BOX的 IOU大于某个阈值就视为正样本,这样正样本的数量就更多了。

四、损失函数

        原文中没有详细的给出,这里根据源码给出:

        YOLOV3的损失函数也包括三部分:定位损失、置信度损失、类别损失。

        其中定位损失与YOLOV2是完全一致的。

        但是置信度损失、类别损失采用了逻辑回归的策略,正常情况下,要实现多 分类是由Softmax+多元交叉熵组成,但是在YOLOV2中,采用的是 Softmax+回归的思想,这本身就很奇怪了,但是YOLOV3更为震撼,它用了 Softmax+二元交叉熵来解决该问题。

        损失函数用了多个独立的用于多标签分类的Logistic分类器,取消了类别之 间的互斥(即one-hot),可以使网络更加灵活。YOLOv2使用Softmax+回 归器,认为一个检测框只属于一个类别,每个检测框分配到概率最大的类 别。但实际场景中一个检测框可能含有多个物体或者有重叠的类别标签。 Logistic分类器主要用到Sigmoid函数,可以将输入约束在0到1的范围内,当 一张图像经过特征提取后的某一检测框类别置信度经过sigmoid函数约束后 如果大于设定的阈值,就表示该检测框负责的物体属于该类别。

4.1、置信度损失

4.2、分类损失


http://www.hkcw.cn/article/oTyNcPmZAt.shtml

相关文章

ck-editor5的研究 (5):优化-页面离开时提醒保存,顺便了解一下 Editor的生命周期 和 6大编辑器类型

前言 经过前面的 4 篇内容,我们已经慢慢对 CKEditor5 熟悉起来了。这篇文章,我们就来做一个优化,顺便再补几个知识点: 当用户离开时页面时,提醒他保存数据了解一下 CKEditor5 的 六大编辑器类型了解一下 editor 实例对…

unity开发棋牌游戏

使用unity开发的棋牌游戏,目前包含麻将、斗地主、比鸡、牛牛四种玩法游戏。 相关技术 客户端:unity 热更新:xlua 服务器:c Web服务器:ruoyi 游戏视频 unity开发棋牌游戏 游戏截图

2025GDCPC广东省赛游记(附赛时代码)

我觉得算是给swan的自证之旅画上一个句号吧...说实话HDU给我带来的不止是排位上的压力,更多的是对自己能力的怀疑,特别是pluto不明说但是我很清楚的看不起(没有责备本人的意思),evil和jxj之类的总感觉看到我就是看小丑…

元器件基础学习笔记——双极结型晶体管 (BJT)

一、概述 1.1 基本结构 双极结型晶体管(Bipolar Junction Transistor)由发射极(Emitter)、基极(Base)和集电极(Collector)三个掺杂程度不同的半导体区域组成,分别对应有…

2024最新DEM数据

数据简介 今天我们分享的数据是在2024年最新更新的全球DEM数据,并将其裁剪成中国区域以及各个省份与各个城市的数据,方便大家研究使用。 该数据来源于GEBCO,GEBCO是一个由测绘专家组成的国际小组,在国际水文组织(IHO&a…

小车冲进屋10岁姐姐神速救起妹妹 惊险瞬间化险为夷

小车冲进屋10岁姐姐神速救起妹妹 惊险瞬间化险为夷!老头乐作为一款低速电车,深受广大百姓的喜爱,甚至一些年轻人也对这种小车子爱不释手。然而,随着老头乐的不断发展,一些问题也随之而来,有些厂家甚至制造出了“老头乐半挂”,让人感到非常离谱。人们并不是讨厌这种车子,…

杨天真发视频回应留学争议 活出所有可能性

杨天真发视频回应留学争议 活出所有可能性。6月1日,壹心娱乐的杨天真在社交媒体上发文回应了她“出国留学”的消息。她表示:“我为什么去留学?用人生给自己写一封情书。为什么总是在改变?因为我渴望在有限的人生里活出所有的可能性。”杨天真在发布的视频中提到,由于长期不…

2岁娃遭遇危险卖菜大叔救助 警民合力寻回家长

近日,在湖北阳新县兴国镇的一个农贸市场,一名2岁男童独自一人从市场走向车流密集的马路。幸好一位在市场门口卖菜的村民及时发现,立刻上前拉住了他。孩子受惊后哭闹不止,村民把他带到自己的菜摊边,和路人一起耐心陪伴安抚,并报警为孩子寻找家长。民警赶到后带着孩子在市场…

全球首个4冠QQ用户即将诞生 回忆杀重现

全球首个4冠QQ用户即将诞生 回忆杀重现!你有多久没登录过自己的 QQ 了?自从 QQ 和微信开始小程序互通后,我偶尔会重新关注这个尘封已久的社交平台。最近,QQ 又迎来了一条新闻:全球第一个 QQ 等级达到 4 个皇冠的用户即将诞生。很多人可能已经忘记了“QQ 等级”这件事。200…

Matlab绘图

Matlab绘图 MATLAB 绘图一、基本绘图函数 plot1.1 基本语法1.2 样式字符串 s 的格式: 二、函数绘图 ezplot2.1 显函数绘图2.2 隐函数绘图2.3 参数方程绘图 三、其他二维图3.1 条形图 bar3.2 阶梯图 stairs3.3 杆图 stem3.4 填充图 fill3.5 极坐标图 polar3.6 饼图 p…

【学习笔记】On the Biology of a Large Language Model

On the Biology of a Large Language Model 1 Introduction 目标是对这些模型的内部工作机制进行逆向工程,从而更好地理解它们,并评估它们是否适合特定用途。 正如细胞是生物系统的基本构建单元,我们假设特征是模型内部计算的基本单位。仅仅…

打开、重新打开、关闭项目

目录 打开、重新打开、关闭项目打开项目从命令行打开项目 重新打开最近项目使用Run Anything命令打开项目从最近的项目列表中删除项目 关闭项目关闭当前项目关闭所有项目关闭除当前项目外的所有项目 打开多个项目更改项目打开策略取消附加项目合并项目窗口 (macOS)已知问题 打开…

“网红”副局长彭勃任新职 调任开发区管委会

去年因推介东北大米而走红的沈阳于洪区文旅局副局长彭勃,近期已调任新职。据“沈阳农工”微信公众号消息,近日,农工党沈阳市委员会举行第10期“咖咖辽悦建言”沙龙活动,彭勃以沈阳永安经济开发区管委会局长的身份参加了相关调研活动。报道显示,彭勃已调任沈阳永安经济开发…

陈梦妈妈谈与陈梦相处:除了训练吃饭睡觉,没精力谈恋爱

陈梦妈妈谈与陈梦相处。6月2日,在最新一期综艺节目中,陈梦妈妈表示:陈梦除了训练吃饭睡觉,哪有精力谈恋爱。陈梦妈妈提到自己与陈梦的相处,表示:“9岁前,她必须听我的,不听我的就不行。她毕竟是个小孩儿,有些东西她不懂。”“9岁她就进省队了,她的工资卡永远在我手里…

杨毅发文祝贺王楚钦夺冠 世乒赛荣耀加冕!

杨毅发文祝贺王楚钦夺冠世乒赛荣耀加冕。王楚钦世乒赛夺冠的热度可谓是非常高,热度已经突破了15亿。先农坛体校作为王楚钦梦开始的地方,为庆祝夺得双冠在校内立起了宣传板,满满的骄傲与自豪。杨毅作为篮球评论员也在社交平台发文大方的恭喜王楚钦夺得双冠,此前他也因为一些…

张文宏又添新身份 获聘港理工荣誉教授

张文宏又添新身份 获聘港理工荣誉教授!近日,香港理工大学举办了首场理大名师讲堂,张文宏受邀担任主题讲者。在讲座现场,张文宏被授予了香港理工大学医疗科技及资讯学系荣誉教授的聘任证书。香港理工大学秉承校训“开物成务励学利民”的精神,致力于成为创新型世界级大学,在…

哈佛寻求解冻25亿美元资金 因拒绝白宫要求

6月2日,美国哈佛大学请求一名联邦法官发布一项简易判决,以解冻特朗普政府冻结的25亿美元资金。自4月14日以来,哈佛大学因拒绝白宫提出的一系列要求,已收到957份命令,要求冻结与国家安全威胁、癌症和传染病等研究相关的资金。在提交的法庭文件中,哈佛大学详细说明了被终止…

我家门前有条河 防汛宣传进村入户

我家门前有条河 防汛宣传进村入户!为提升沿黄群众的防汛安全意识和应对洪水灾害的能力,利津河务局近日深入利津县滩区人口最为集中的南宋滩区各村庄,开展黄河防汛宣传活动。宣传小组前往沿黄村的文化广场、村口、集市等人员密集场所设立宣传点,通过悬挂横幅、摆放宣传展板、…

乌克兰放手一搏改变不了战略被动,俄乌在土耳其开始第二轮和谈

乌克兰放手一搏改变不了战略被动。乌克兰发动无人机袭击后,俄乌在土耳其开始第二轮和谈。谈了大概一个小时,草草结束。土耳其透露,谈判以“非消极”的方式结束。也真难为了土耳其,总不能说不积极,那就说非消极吧。5月16日谈了第一轮,6月2日谈了第二轮。第三轮,估计又得两…

男子高速上救助两只受伤马犬 生死相依感动全网

一只公马犬重伤倒地,命悬一线。身旁的母马犬不顾危险,在车流中焦急穿梭、哀恸守护,甚至试图拦车求助。5月12日,鹤大高速大连湾方向下道口车流迟缓,途经此处的市民张先生目睹此景,被母犬的执着与温情深深打动,果断停车展开救援。他将救助过程拍摄发在网络上,视频迅速引发…