R-CNN 模型算法流程梳理

article/2025/6/22 1:30:03

目录

一、R-CNN整体流程

二、需要注意的地方


论文连接:[1311.2524] Rich feature hierarchies for accurate object detection and semantic segmentation

     

       如果你之前了解过RNN,很容易混淆认为R-CNN也具有RNN的时序循环功能,这种理解是错误的:

  • RCNN 里的 “R” 是 Region(区域),它其实是一种 目标检测结构,和循环无关;
  • 它属于 区域提议 + CNN分类器 的思路,而不是时间序列建模。

       RCNN(Regions with Convolutional Neural Networks)是 Ross Girshick 等人在 2014 年提出的目标检测方法,它是深度学习在目标检测领域的早期重要成果之一。RCNN 将传统目标检测方法与卷积神经网络(CNN)结合起来,实现了更高的检测精度。

         它把 图像分类器(CNN目标检测(Region Proposal + 分类 + 回归) 结合在一起,流程清晰但处理效率不高。

一、R-CNN整体流程

下面是完整的 RCNN 整体流程梳理:

+----------------+|  输入图像      |+--------+-------+|v+---------------------------+|  候选区域提取 (Selective Search) |+---------------------------+|v+------------------------------+| 每个候选区域裁剪并缩放成固定大小 |+------------------------------+|v+---------------------------+|  CNN(如 AlexNet)特征提取  |+---------------------------+|v+---------+         +----------------+|  SVM 分类 | <--->  | 边界框回归(BBox) |+---------+         +----------------+|v+----------------+|   检测结果输出   |+----------------+

此处需要注意R-CNN利用CNN完成特征提取后,SVM分类,和边界框BBOX偏移量的计算是相互独立的。

🔵 RCNN 的主要流程

1️⃣ 候选框生成(Region Proposal)     

使用选择性搜索(Selective Search)从整张图像中生成大约 2000 个候选框(region proposals)。

  • 输入:整张图像
  • 输出:若干个可能包含目标的候选框(bounding boxes)

特点:

  • 这一步是纯传统算法,和深度学习无关
  • 每个候选框区域尺寸不同

2️⃣ 候选框裁剪与特征提取          

 对每个候选框区域裁剪、缩放到固定尺寸(如 224×224),然后输入到 CNN 中提取特征。

  • CNN 使用 ImageNet 上预训练的分类网络(如 AlexNet)
  • 特征来自全连接层前(如 fc7 层输出)
  • 每个候选框 → 得到一个固定长度的特征向量(例如 4096 维)

结果形式:

        特征向量列表: [f_1, f_2, ..., f_N],每个 f_i ∈ ℝ^4096

3️⃣ 分类          

使用提取到的 CNN 特征向量,训练一个类别分类器(通常是 SVM)

  • 对每个类别都训练一个二分类 SVM(one-vs-rest)
  • 判断一个框是不是某个类(狗、猫、飞机...)

4️⃣ 边界框回归(BBOX Regression)         

训练一个线性回归器(bbox regressor)对框的位置做微调

  • 输入:特征向量
  • 输出:位置偏移(t_x, t_y, t_w, t_h),对原始框做微调
  • 每类一个回归器

边界框回归通常使用四个值(t_x, t_y, t_w, t_h)表示相对的调整:

在预测阶段,网络预测出 (t_x, t_y, t_w, t_h),再反算出 refined BBOX

解码公式(decode):

p_x = t_x * d_w + d_x

p_y = t_y * d_h + d_y

p_w  = exp(t_w) * d_w

p_h  = exp(t_h) * d_h

结果形式

每个 region → 分类分数 + 位置偏移量

模型训练时的准备工作:

内容

说明

候选框准备

使用 Selective Search 生成候选框(约2000个)

标注匹配

将候选框与 ground truth 计算 IOU,设定正负样本阈值(如 IOU>0.5为正)

CNN 特征提取

将正负样本图像送入 CNN,提取特征

训练分类器(SVM)

用 CNN 特征 + 标签训练若干个二分类 SVM

训练BBOX回归器

用 CNN 特征 + 偏移量训练 bbox 回归器

二、需要注意的地方

1. RCNN 的流程中,特征向量(fc7)是怎么同时用于分类(SVM)和边界框回归(BBOX regression)的

RCNN 本身(2014 年)没有端到端的多任务学习,它的处理是分开的,流程是这样的:

CNN 提取特征
输入:候选框(裁剪+resize)
输出:fc7 特征向量(4096 维)

SVM 分类

  • 对所有候选框,使用提取的 fc7 特征向量,分别送到不同的 SVM(每个类别一个 SVM + 一个背景类别)。

  • 这个步骤不在神经网络中,是离线训练的。

回归器

  • 同样使用 fc7 特征向量,单独训练一个线性回归器(或者每个类别一个回归器),回归框的偏移量 (Δx, Δy, Δw, Δh)。

也就是说,SVM 分类和 BBOX 回归是完全分开的,它们只共享 CNN 的 fc7 特征向量,而不是神经网络内部“多任务”输出。

所以在 RCNN:

  • 网络本身只负责提取 fc7 特征。

  • SVM 分类和 BBOX 回归是独立的模型,单独训练,单独使用。

🔴 RCNN 中容易被忽略的细节

 1️⃣ CNN 不是端到端训练

  • RCNN 的 CNN(例如 AlexNet)是用 ImageNet 分类数据集预训练的。

  • 在 RCNN 里,CNN 只做特征提取,不会在目标检测任务上更新权重。

  • 这意味着 RCNN 检测任务中的 CNN 权重是冻结的(不会 end-to-end 训练)。

2️⃣ SVM 和 BBOX 回归器是分开的

  • SVM 分类器和边界框回归器在 RCNN 中是离线训练的,和 CNN 特征提取完全分开。

  • 这导致 RCNN 训练步骤很繁琐,要单独训练三部分:CNN(预训练),SVM(每类一个),BBOX 回归器(每类一个)。

3️⃣ 训练样本采样的不平衡问题

  • RCNN 用到 Selective Search 生成 2000+ 候选框,但大多数都是背景(负样本)。

  • 训练 SVM 和回归器时,需要采样一部分负样本和正样本来避免类别极不平衡。

4️⃣ ROI(Region of Interest)裁剪和变形

  • RCNN 把候选框直接裁剪成固定大小(如 227x227)。

  • 这会导致几何变形(原始候选框长宽比和 227x227 不一样)。

  • 变形会影响后续检测精度。

5️⃣ 不同类别 SVM 的处理

  • RCNN 为每个类别都单独训练一个二分类 SVM。

  • 最终推断时,多个 SVM 各自给分数,通常取分最高的类别。

  • 这个和后来端到端网络中常见的 softmax 多分类不同。

6️⃣ 速度极慢

  • 因为每个候选框都要跑一次 CNN,导致非常低效(在 GPU 上也是每张图要几秒)。

  • 这是后来 SPPNet、Fast RCNN、Faster RCNN 诞生的主要动因。

另外:

候选框质量对结果影响巨大

  • Selective Search 是基于分割的启发式算法,质量有限。

  • 如果候选框漏掉了物体(召回率不够),再好的 CNN 也没用。

训练和推理步骤分裂

  • RCNN 在训练时用的是裁剪过的图像(Warping),和真实推断时可能有 domain gap。

  • 也就是推断时依赖 CNN 提取的全局图像特征,训练时是局部 warp 后的框,可能会有些微 mismatch。

多阶段训练带来的复杂性

  • RCNN 训练时流程比较长:
    1️⃣ CNN 预训练(ImageNet)
    2️⃣ SVM 训练
    3️⃣ BBOX 回归训练

  • 每步都有很多超参数,容易出错。

🟢 小结:RCNN 的易错点/易忽略点

项目细节或坑
CNN 训练只在 ImageNet 上预训练,不在检测数据上 finetune
分类 vs 回归SVM(离线) vs 回归器(离线),CNN 只提特征。
ROI 裁剪固定尺寸裁剪(如 227x227),导致几何变形。
多阶段训练不同阶段需单独训练,容易数据集不匹配或忘记某一步。
速度问题每个候选框都跑 CNN,推理速度非常慢。
负样本比例需要好好处理负样本采样,否则 SVM 训练偏移(负样本占大多数)。
SVM 结果处理推断时是多 SVM 二分类结果合并(不是 softmax)。

🔵 总结
RCNN 是目标检测从 region proposal + CNN 特征提取起步的里程碑,但它的多阶段训练、慢速推断和非端到端的结构在后续被 Fast RCNN / Faster RCNN 所改进。

补充:

BBOX回归器:

在 RCNN 里,回归器只在“正样本”候选框上做训练。
所谓“正样本”= 与 GT 框的 IoU ≥ 0.5 的候选框。

流程
1️⃣ 先对所有候选框(从 Selective Search 来的)和真值框(GT)算 IoU。
2️⃣ 每个候选框,找与它 IoU 最大的 GT 框。
3️⃣ 如果这个最大 IoU ≥ 0.5,认为它是“正样本”。否则,认为是“负样本”。

在回归器训练时,只保留正样本,用它们的特征和回归目标(偏移量)做训练。

所以,回归器的 Loss 只对正样本计算

(负样本直接跳过,不参与计算 Loss)

BBOX 回归器结构示意

         +-----------------+|   fc7 特征向量   |  (4096,)+-----------------+||v+------------------------+|  线性回归层(仿全连接)  ||  W: (4096, 4)          ||  b: (4,)               |+------------------------+|v+-----------------+| 4 维 BBOX 偏移量  |  (tₓ, tᵧ, t_w, t_h)+-----------------+

 训练阶段

 输入

  • 4096 维的 fc7 特征向量(由 CNN 提取出来)
     目标

  • 4 维的 GT 偏移量 (Δx*, Δy*, Δw*, Δh*)
     优化

  • 最小化 L2 回归损失(只对正样本)

 推理阶段(测试)

在测试时:
 将 proposal(候选框)经过 CNN 提取 fc7 特征
 用回归器预测 4 维偏移量
 把原候选框 (x, y, w, h) 和预测的 (tₓ, tᵧ, t_w, t_h) 反算出最终的 refined BBOX

关键点

  • 这个回归器其实是一个非常简单的“全连接层”结构(线性层),没有隐藏层或激活函数。

  • 只不过在 RCNN 中它是单独训练(不是网络 end-to-end 联合优化)。


http://www.hkcw.cn/article/eYpHuApweH.shtml

相关文章

豪车车主因赖账被代驾举报酒驾 5元停车费引发风波

近日,浙江宁波一名兰博基尼车主酒后请代驾将车开到小区,随后自己开车进车库。由于不愿支付代驾小哥垫付的5元停车费,被对方举报酒驾。经检测,该车主血液中的酒精含量达59mg/100ml,达到酒驾标准。其驾驶证被扣12分,暂扣6个月,并被处以2000元以下罚款。代驾小哥石先生回忆…

儿童节前走失男孩遗体已找到 确认溺水身亡

6月2日晚,山东省滕州市公安局发布警情通报。5月31日22时35分许,滕州市公安局接到孔某某报警,称其外孙赵某某(10岁)于当日17时许离家后失联。接警后,公安机关迅速调阅监控、走访群众,并联合当地政府和社会救援力量,利用搜救警犬和无人机持续搜寻。6月2日15时许,在邻村一…

南昌政法委书记吴建平主动交代问题 正接受审查调查

江西省纪委监委6月3日发布消息,南昌市委常委、政法委书记吴建平涉嫌严重违纪违法,主动向组织交代问题,目前正接受江西省纪委监委纪律审查和监察调查。吴建平在江西省赣州市工作多年,曾担任上犹县委常委、副县长,于都县委常委、组织部长,定南县委副书记、县长等职务。2019…

女子多次持刀砍邻居家门 警方介入 疑似精神疾病患者

近日,辽宁大连有网友发视频称,疑似患有精神疾病的邻居多次持刀上门砍其家门。当事人刘女士向媒体透露,楼下邻居60多岁,自去年10月搬家入住后便反复上门“找事”。闹事女子声称刘女士一家是脑控组织,意图入侵她的大脑,并指责他们吵了她13年。然而,刘女士表示自己是外地人…

案例:TASK OA

案例&#xff1a;TASK OA 准备工作 jsx语法&底层渲染机制、函数组件&类组件、合成事件、webpack&脚手架…… server资料 axios配置 跨域配置 组件库介绍 多语言-中文包&#xff0c;汉化antd内部会自动按需导入&#xff0c;打包只会打包引入的&#xff1b;想用哪个组…

美机构民调:全球对中国好感度上升 美国评分跌入负区间

晨间咨询公司的最新民调数据显示,全球对中国的好感度持续上升,而对美国的好感度则跌入负区间值。美国的贸易政策似乎以牺牲自身利益为代价,助推了中国的崛起。美国声誉下滑正给自身带来经济损失。白宫政策导致外国游客数量减少,美元贬值。晨间咨询公司的政治情报主管麦克曼…

汽车生产模式正在发生什么样的变革 电动化与智能化重构生态

汽车生产模式正在发生什么样的变革 电动化与智能化重构生态。2025年第三届未来汽车先行者大会于5月31日在深圳召开,上汽集团总裁贾健旭在演讲中探讨了汽车产业的未来发展趋势。他指出,汽车行业正经历颠覆性变革,竞争已不再是传统对手之间的较量,而是被跨界者重新定义规则所…

重庆一女子打伤男子被立案,男子:我问她遛狗为何不牵绳,她打我耳光 取保候审引争议

重庆一女子打伤男子被立案,男子:我问她遛狗为何不牵绳,她打我耳光 取保候审引争议!重庆的刘先生反映,2月24日晚,他在小区质问两名女子遛狗为何不牵绳,结果被其中一名女子打成轻伤二级。刘先生报警后,警方拟刑事立案,但后来女子取保候审,这让刘先生难以接受。6月2日,…

软件测试概念

目录 需求的概念用户需求软件需求 开发模型模型的概念软件的生命周期常见开发模型瀑布模型螺旋模型增量模型、迭代模型敏捷模型 测试模型V模型W模型 感谢各位大佬对我的支持,如果我的文章对你有用,欢迎点击以下链接 &#x1f412;&#x1f412;&#x1f412; 个人主页 &#x…

新加坡前外长谈中国如何化解误解!

新加坡前外长谈中国如何化解误解!中美关系作为世界上最重要的一组大国关系之一,一直备受世人关注。最新一期《这就是中国》,主持人何婕、复旦大学中国研究院的院长张维为教授,与本期特邀嘉宾新加坡前外交部长杨荣文一起展开深入探讨,共同剖析中美关系的现状与未来。杨荣文…

樊振东说到做到了:不会退役,会努力参与更多不同赛场

德甲联赛萨尔布吕肯乒乓球甲级俱乐部宣布,奥运冠军樊振东加盟。在俱乐部官方声明中,樊振东表示:我真的很期待在萨尔布吕肯和德甲的新挑战,体验新的环境——并与球队一起赢得更多的胜利。官宣声明发布后,与樊振东成为俱乐部队友的莫雷加德也表态称,能和樊振东成为队友很荣…

总决赛大比分概率:雷霆4-1最被看好 雷霆胜率领先

NBA总决赛即将开打,雷霆将对阵步行者。数据媒体Polymarket Hoops发布了系列赛比分的概率预测。雷霆4-0战胜步行者的概率为24%,4-1获胜的概率为30%,4-2获胜的概率为17%,4-3获胜的概率为16%。步行者4-3战胜雷霆的概率为7%,4-2获胜的概率为6%,4-1获胜的概率为2%,4-0获胜的概…

兰亭妙微十六年高水准交互设计公司

北京兰亭妙微&#xff08;蓝蓝设计&#xff09;成立于 2008 年&#xff08;前身为设计工作室&#xff0c;2011 年正式注册&#xff09;&#xff0c;由清华团队主创&#xff0c;专注软件和互联网 UI/UE 设计开发 16 年。我们提供从需求调研、界面设计到开发落地的全流程服务&…

STM32入门教程——GPIO输入

前言 本教材基于B站江协科技课程整理&#xff0c;适合有C语言基础、刚接触STM32的新手。它梳理了STM32核心知识点&#xff0c;帮助大家把C语言知识应用到STM32开发中&#xff0c;更高效地开启STM32学习之旅。 目录 前言 一、程序现象与硬件功能 按键控制 LED 光敏传感器控…

GNOME开始菜单

和Cinnamon差不多&#xff0c;又有一点区别。 参考 /usr/share/gnome-shell/extensions/arcmenuarcmenu.com/menulayouts/baseMenuLayout.js Cinnamon开始菜单&#xff08;1&#xff09;&#xff1a;获取应用数据-CSDN博客 使用 PopupSubMenu (二级弹出菜单) 显示数据。 增…

全程追踪韩国大选投票日 五候选人角逐总统宝座

韩国第21届总统大选于6月3日6时正式开始,全国共设有14295个投票站。没有参加提前投票的选民凭身份证件前往指定投票站即可参与投票,投票在当日20时结束。本次大选共有7位候选人登记,但其中两位宣布退出并支持国民力量党候选人金文洙。最终,选民将从以下5位候选人中选出新一…

韩国三岁双胞胎端午假期打卡张家界 非遗文化添彩旅程

韩国三岁双胞胎端午假期打卡张家界 非遗文化添彩旅程。端午佳节期间,张家界国家森林公园云雾缭绕,宛如人间仙境,吸引了众多游客前来打卡。景区为此准备了一系列丰富多彩的活动,让游客感受到浓厚的节日氛围。在森林公园门票站,工作人员为游客赠送了土家传统美食碱水粽子。吴…

英国宣称要建12艘核潜艇 加强军备应对威胁

英国首相斯塔默2日发布《战略防务评估》,宣布将投资150亿英镑用于保障未来数十年的核威慑力量,并打造12艘新的攻击型核潜艇。他表示,英国必须“为战争做好准备”,来自俄罗斯的威胁不容忽视。当天在格拉斯哥,斯塔默表示,英国将以“战时速度”加速创新,在本土建造6个新的兵…

男子把女童拖入小巷将被追究刑责 警方发布警情通报

新京报讯 6月3日,娄星公安官微发布警情通报,内容如下:编辑 李忆林子责任编辑:zhangxiaohua

漫展两女童衣着暴露动作不雅 主办方及时制止

近日,在广东中山举办的某动漫展上,几名衣着暴露的儿童进行直播,引发观展市民不满并拍照。网传图片显示,两名女童身穿紧身服,脚穿半截丝袜,在一处临时搭建的摄影场地前拍照。漫展主办方的一名工作人员表示,他们发现这是一家摄影工作室与孩子的监护人一起在现场拍照。工作…