【论文笔记】High-Resolution Representations for Labeling Pixels and Regions

article/2025/6/9 1:13:16

【题目】High-Resolution Representations for Labeling Pixels and Regions

引用格式】:Sun K, Zhao Y, Jiang B, et al. High-resolution representations for labeling pixels and regions[J]. arXiv preprint arXiv:1904.04514, 2019.

网址】:https://arxiv.org/pdf/1904.04514

开源代码】:https://github.com/HRNet

目录

一、瓶颈问题

二、本文贡献

三、解决方案

1. 模型架构

2. 文中修改内容

3. 具体实施

四、实验结果

1. 数据集

1.1 Cityscapes

1.2 PASCAL context

1.3 LIP

1.4 MS-COCO2017

1.5 WFLW

1.6 AFLW

1.7 COFW

1.8 300W

2. 语义分割

3. COCO物体检测

4. 面部关键点检测

5. 实证分析


一、瓶颈问题

  1. 高分辨率表示的重要性:在语义分割、目标检测等任务中,高分辨率表示对细节(如小物体、像素级标注)至关重要。传统方法(如 FCN、U-Net)通过下采样 - 上采样路径处理分辨率,但可能丢失低分辨率分支的信息。
  2. 原始 HRNetV1 的局限:仅利用高分辨率卷积的输出特征,丢弃了低分辨率卷积的通道子集,未充分发挥多分辨率卷积的容量。

二、本文贡献

  1. 提出HRNetv2通过双线性上采样将低分辨率特征缩放到高分辨率,与高分辨率特征拼接,生成融合所有分辨率的特征表示。避免了分辨率分支的通道信息浪费,提升模型的表征能力。
  2. 提出HRNetV2p将高分辨率特征通过平均池化下采样至多个层级,构建类似FPN的多尺度表示,适配目标检测中不同大小物体的识别需求。
  3. 提出 “跨分辨率全连接 + 双向信息流动” 的卷积模块设计

三、解决方案

1. 模型架构

        网络模型包含四部分(如图1所示),其中第二、第三和第四阶段由重复的模块化多分辨率块组成。一个多分辨率块包含一个多分辨率组卷积和一个多分辨率卷积,分别如图 2(a)和(b)所示。多分辨率组卷积是组卷积的简单扩展,它将输入通道划分为若干通道子集,并在不同空间分辨率下对每个子集分别进行常规卷积操作。多分辨率卷积如图2(b)所示,它类似于常规卷积的多分支全连接方式,如图 2(c)所示。

        模型中分辨率的降低通过若干个步长为2的3×3卷积实现的,分辨率提升则是使用双线性(或最近邻)上采样完成。

2. 文中修改内容

原始HRNetV1仅输出高分辨率卷积的表示特征图,如图3(a)所示,低分辨率部分被舍弃。

文中方案:通过双线性上采样将低分辨率表示缩放到高分辨率,并将各表示子集进行拼接,如图3(b)所示。对于目标检测的应用中,文中通过平均池化将高分辨率表示下采样到多个层级,构建多层表示,如图3(c)所示。

3. 具体实施

        网络从一个主干模块开始,该模块由两个步长为 3×3 的卷积组成,将分辨率降低至 1/4。第一阶段包含 4 个残差单元,每个单元由一个宽度为 64 的瓶颈结构构成,随后接一个 3×3 卷积,将特征图的宽度降至 c。第二、第三、第四阶段分别包含 1、4、3 个多分辨率块。四种分辨率的卷积宽度(通道数)分别为 c、2C、4C 和 8C。多分辨率组卷积中的每个分支包含 4 个残差单元,且每个单元在每种分辨率下均包含两个 3×3 卷积。

        在语义分割和面部关键点检测的应用中,文中通过 1×1 卷积融合来自所有四个分辨率的输出表示(图 3(b)),生成 15C 维的表示。然后,将每个位置的融合表示输入到带有 softmax/MSE 损失的线性分类器 / 回归器中,以预测分割图 / 面部关键点热图。对于语义分割任务,训练和测试时均通过双线性上采样将分割图上采样 4 倍至输入尺寸。在目标检测应用中,文中通过 1×1 卷积将高分辨率表示的维度降至 256(类似于 FPN ),然后再构建图 3(c)中的特征金字塔。

四、实验结果

1. 数据集

1.1 Cityscapes​​​​​​​

        Cityscapes 数据集包含 5000 张高质量像素级精细标注的场景图像。其中精细标注的图像被划分为 2975 张训练图像、500 张验证图像和 1525 张测试图像。该数据集包含 30 个类别,其中 19 个类别用于评估。除了类别平均交并比(mIoU)外,文中在测试集上还报告了其他三项指标:类别交并比(cat.)、实例类别交并比(cla.)和实例类别交并比(cat.)。

        数据增强方式包括随机裁剪(从 1024×2048 裁剪至 512×1024)、在 [0.5, 2] 范围内的随机缩放,以及随机水平翻转。优化器使用 SGD,基础学习率为 0.01,动量为 0.9,权重衰减为 0.0005。学习率衰减采用幂次为 0.9 的多项式策略。所有模型均在 4 块 GPU 上使用同步 BN(syncBN)进行训练,批量大小为 12,迭代 120K 次。

1.2 PASCAL context

        PASCAL context 数据集包含 4998 张用于训练的场景图像和 5105 张用于测试的图像,拥有 59 个语义标签和 1 个背景标签。

        数据增强和学习率策略与 Cityscapes 相同。遵循广泛使用的训练策略,文中将图像调整为 480×480 大小,设置初始学习率为 0.004,权重衰减为 0.0001。批量大小为 16,迭代次数为 6 万次。

1.3 LIP

        LIP数据集包含50,462张经过精心标注的人体图像,其中分为30,462张训练图像和10,000张验证图像。该方法在20个类别上进行评估(19个人体部位标签和1个背景标签)。遵循标准的训练和测试设置,图像被调整为473×473大小,并且性能评估基于原始图像和翻转图像分割图的平均值。

        数据增强和学习率策略与 Cityscapes 相同。文中将初始学习率设置为 0.007,动量设置为 0.9,权重衰减设置为 0.0005。批量大小为 40,迭代次数为 11 万次。

1.4 MS-COCO2017

        文中在 MS-COCO 2017 检测数据集上进行评估,该数据集包含约 11.8 万张训练图像、5 千张验证图像(val)和约 2 万张未提供标注的测试图像(test-dev)。评估采用标准的 COCO 格式评价方式。

1.5 WFLW

        WFLW 数据集是基于 WIDER Face 构建的最新数据集。该数据集包含 7500 张训练图像和 2500 张测试图像,每张图像均标注有 98 个人工关键点。文中在测试集及其多个子集上报告结果,这些子集包括:大姿态(326 张图像)、表情(314 张图像)、光照(698 张图像)、妆容(206 张图像)、遮挡(736 张图像)和模糊(773 张图像)。

1.6 AFLW

        AFLW 数据集是一个广泛使用的基准数据集,每张图像包含 19 个面部关键点。文中使用 20,000 张训练图像训练模型,并在 AFLW 全集(4,386 张测试图像)和 AFLW 正面集(从 4,386 张测试图像中选出的 1,314 张测试图像)上报告结果。

1.7 COFW

        COFW 数据集包含 1345 张带遮挡的训练人脸图像和 507 张测试人脸图像,每张图像标注有 29 个面部关键点。

1.8 300W

        300W 数据集由 HELEN、LFPW、AFW、XM2VTS 和 IBUG 数据集组合而成,每张人脸包含 68 个关键点。文中使用 3148 张训练图像,其中包括 HELEN 和 LFPW 的训练子集以及 AFW 的完整数据集。文中采用两种协议评估性能:完整集和测试集。完整集包含 689 张图像,进一步分为来自 HELEN 和 LFPW 的公共子集(554 张图像)和来自 IBUG 的挑战性子集(135 张图像)。用于竞赛的官方测试集包含 600 张图像(300 张室内图像和 300 张室外图像)。

2. 语义分割

        表 1 提供了在参数和计算复杂度以及 mIoU 等级方面与Cityscapes验证集上几种代表性方法的比较。(i) HRNetV2-W40(40 表示高分辨率卷积的宽度)的模型大小与 DeepLabv3+ 相似,计算复杂度更低,但性能更好:比 UNet++ 提升 4.7 分,比 DeepLabv3 提升 1.7 分,比 PSPNet、DeepLabv3+ 提升约 0.5 分。(ii) HRNetV2-W48 的模型大小与 PSPNet 相似,计算复杂度却低得多,因此性能显著提高:比 UNet++ 提高 5.6 个百分点,比 DeepLabv3 提高 2.6 个百分点,比 PSPNet、DeepLabv3+ 提高约 1.4 个百分点。在下面的比较中,文中采用 HRNetV2-W48,它在 ImageNet 3 上经过预训练,模型大小与大多数基于 DilatedResNet-101 的方法相似。

        表 2 提供了文中的方法与最先进方法在城市景观测试集上的比较。所有结果均使用了六种比例和翻转。表 2 评估了两种不使用粗略数据的情况:一种是在训练集上学习的模型,另一种是在训练+验证集上学习的模型。在这两种情况下,HRNetV2-W48 都取得了最好的成绩,比之前的先进水平高出 1 分。

        表 3 给出了文中的方法与最先进方法的比较。有两种评估方案:59 个类别的 mIoU 和 60 个类别的 mIoU(59 个类别 + 背景)。在这两种情况下,HRNetV2-W48 的表现都优于以前的最先进方法。

        表 4 展示了文中的方法与最先进方法的对比。HRNetV2-W48 的整体性能表现最佳,且参数更少、计算成本更低。此外需要说明的是,文中的网络未使用姿态或边缘等额外信息。

3. COCO物体检测

        表 5 总结了参数量和计算量(GFLOPs)。表 6 和表 7 报告了在 COCO 验证集上的检测结果。通过分析可得出以下几点结论:(i)HRNetV2p-W18(HRNetV2p-W32)的模型规模和计算复杂度均小于 ResNet-50-FPN(ResNet-101-FPN)。(ii)在 1× 训练配置下,HRNetV2p-W32 的性能优于 ResNet101-FPN,而 HRNetV2p-W18 略逊于 ResNet50-FPN,这可能是由于优化迭代次数不足所致。(iii)在 2× 训练配置下,HRNetV2p-W18 和 HRNetV2p-W32 的性能分别超越了 ResNet-50-FPN 和 ResNet-101-FPN。

        表 8 报告了文中的网络与最先进的单模型目标检测器在 COCO test-dev 上的比较,未使用 [65,79,56,90,89,75] 中所做的多尺度训练和多尺度测试。在 Faster R-CNN 框架中,文中的网络在参数和计算复杂度相近的情况下表现优于 ResNet 系列:HRNetV2p-W32 对比 ResNet-101-FPN,HRNetV2p-W40 对比 ResNet-152-FPN,HRNetV2p-W48 对比 X-101-64×4d-FPN。在 Cascade R-CNN 框架中,文中的 HRNetV2p-W32 表现更优。

4. 面部关键点检测

        表 9 展示了文中的方法与最先进方法的对比。在测试集及所有子集上,文中的方法显著优于其他方法,包括利用额外边界信息的 LAB和使用更强数据增强的 PDB 。

        表 10 展示了文中的方法与最先进方法的对比。在未使用额外信息和更强数据增强的方法中,文中的方法取得了最佳性能,甚至优于利用额外 3D 信息的 DCFE。不过,文中的方法性能略逊于使用额外边界信息的 LAB  和采用更强数据增强的 PDB。

        表 11 展示了文中的方法与最先进方法的对比。HRNetV2 大幅优于其他方法。特别是,它比利用额外边界信息的 LAB 和采用更强数据增强的 PDB 表现更优。

        表 12 给出了完整集及其两个子集(普通子集和挑战性子集)的结果。表 13 给出了测试集的结果。与使用参数和计算复杂度较大的 Hourglass 作为主干网络的 Chen 等人的方法相比,除了 AUC 0.08 分数外,文中的分数更优。在没有使用额外信息和更强数据增强的方法中,文中的 HRNetV2 获得了整体最佳性能,甚至优于使用额外边界信息的 LAB 和利用额外 3D 信息的 DCFE 。

5. 实证分析

        文中在语义分割和 COCO 目标检测任务上,将改进后的网络 HRNetV2 和 HRNetV2p 与原始网络(简称 HRNetV1)进行了对比。如图 4(a)和图 4(b)所示的分割与目标检测结果表明,HRNetV2 显著优于 HRNetV1,仅在 Cityscapes 分割任务的大模型场景中增益较小。文中还测试了一个变体(标记为 HRNetV1h),该变体通过添加 1×1 卷积来增加输出高分辨率表示的维度。图 4(a)和图 4(b)的结果显示,该变体相比 HRNetV1 仅有轻微提升,这表明在 HRNetV2 中聚合低分辨率并行卷积的表示对于提升模型能力至关重要。


http://www.hkcw.cn/article/MMVmhrIElW.shtml

相关文章

Redis:常用数据结构 单线程模型

🌈 个人主页:Zfox_ 🔥 系列专栏:Redis 🔥 常用数据结构 🐳 Redis 当中常用的数据结构如下所示: Redis 在底层实现上述数据结构的过程中,会在源码的角度上对于上述的内容进行特定的…

HTTP连接管理——短连接,长连接,HTTP 流水线

连接管理是一个 HTTP 的关键话题:打开和保持连接在很大程度上影响着网站和 Web 应用程序的性能。在 HTTP/1.x 里有多种模型:短连接、_长连接_和 HTTP 流水线。 下面分别来详细解释 短连接 HTTP 协议最初(0.9/1.0)是个非常简单的…

【Typst】1.Typst概述

概述 Typst是一种用于排版文档的标记语言,可以用于排版各种精美的论文、文章、书籍、报告和作业等。它是LaTex的精神续作,但是运行环境和编译速度都要更简单、更快捷。 它设计了一种脚本结合简单的标记语法实现复杂的排版效果。并且支持模板创建、文件…

预警功能深度测评:系统如何降低设备突发故障率?

在设备密集型行业中,设备突发故障不仅会导致生产停滞,还可能引发安全事故,给企业带来巨大损失。设备管理系统凭借其强大的预警功能,成为众多企业降低设备突发故障率的选择工具。本文将深度测评该系统的预警功能,探讨其…

ABAP设计模式之---“高内聚,低耦合(High Cohesion Low Coupling)”

“高内聚、低耦合”是面向对象编程中非常重要的设计原则,它有助于提高代码的可维护性、扩展性和复用性。 1. 初衷:为什么会有这个原则? 在软件开发中,随着业务需求的复杂化,代码难免会变得越来越庞大。如果开发者将一…

贪心算法应用:边着色问题详解

贪心算法应用:边着色问题详解 贪心算法是一种在每一步选择中都采取当前状态下最优的选择,从而希望导致结果是全局最优的算法策略。边着色问题是图论中的一个经典问题,贪心算法可以有效地解决它。下面我将从基础概念到具体实现,全…

基于 Amazon Q Developer CLI 和 Amazon Bedrock Knowledge Bases 实现智能问答系统

1. 引言 传统企业通常将常见问题(FAQ)发布在网站上,方便客户自助查找信息。然而,随着生成式 AI 技术的迅速发展与商业渗透,这些企业正积极探索构建智能问答系统的新途径。这类系统不仅能显著提升客户体验,…

ElasticStack对接kafka集群

背景 在当代数字化浪潮中,日志数据的高效处理对于企业运维监控和数据分析至关重要。本博文聚焦于ELK(Elasticsearch、Logstash、Kibana)技术栈与Kafka集群的深度对接,旨在探讨如何通过这一架构优化,实现高效、可靠且可…

【云计算】基础篇,含云测试

一、云计算中的底层原理 1.1 数学原理 云计算的高效运行依赖于多种数学原理的协同支撑,其核心数学原理: 1.1.1、分布式计算的数学基础 ​分治与并行模型​ ​MapReduce​:将大数据集分割为独立子任务(Map阶段),通过哈希函数分发到分布式节点并行处理,再聚合结果(Redu…

高效易用的 MAC 版 SVN 客户端:macSvn 使用体验

高效易用的 MAC 版 SVN 客户端:macSvn 使用体验 下载安装使用总结 最近有个项目要使用svn, 但是mac缺乏一款像 Windows 平台 TortoiseSVN 那样全面、高效且便捷的 SVN 客户端工具, 直到博主找到了该工具本文将结合实际使用体验,详细介绍 macSvn工具的核心…

从0到1认识EFK

一、ES集群部署 操作系统Ubuntu22.04LTS/主机名IP地址主机配置elk9110.0.0.91/244Core8GB100GB磁盘elk9210.0.0.92/244Core8GB100GB磁盘elk9310.0.0.93/244Core8GB100GB磁盘 1. 什么是ElasticStack? # 官网 https://www.elastic.co/ ElasticStack早期名称为elk。 elk分别…

TDengine 的 AI 应用实战——运维异常检测

作者: derekchen Demo数据集准备 我们使用公开的 NAB数据集 里亚马逊 AWS 东海岸数据中心一次 API 网关故障中,某个服务器上的 CPU 使用率数据。数据的频率为 5min,单位为占用率。由于 API 网关的故障,会导致服务器上的相关应用…

VMWare安装常见问题

如果之前安装过VMWare软件,只要是 15/16 版本的,可以正常使用的,不用卸载!!! 如果之前安装过,卸载了,一定要保证通过正常的渠道去卸载(通过控制面板卸载软件&#xff09…

MyBatis02——mybatis基础使用|缓存机制|sqlMapper文件|单参数和多参数传递|Statement和PreparedStatement

目录 一、搭建环境 二、核心配置文件 三、核心类 (测试类) 四、缓存机制 一级缓存 二级缓存 清理缓存 五、sqlMapper文件 六、单参数和多参数的传递 6.1取别名 6.2 测试新增返回自增主键 七、mybatis中Statement和PreparedStatement 作业 1…

Grafana-State timeline状态时间线

显示随时间推移的状态变化 状态区域:即状态时间线上的状态显示的条或带,区域长度表示状态持续时间或频率 数据格式要求(可视化效果最佳): 时间戳实体名称(即:正在监控的目标对应名称&#xf…

便捷高效能源服务触手可及,能耗监测系统赋能智能建筑与智慧城市

在建筑行业迈向智能化、精细化管理的进程中,传统建筑管理模式因信息割裂、数据利用不足等问题,逐渐难以满足现代建筑复杂的运营需求。楼宇自控系统实现了建筑设备的智能调控,BIM技术则构建了建筑的三维数字化模型,当两者相遇&…

论文阅读:CLIP:Learning Transferable Visual Models From Natural Language Supervision

从自然语言监督中学习可迁移的视觉模型 虽然有点data/gpu is all you need的味道,但是整体实验和谈论丰富度上还是很多的,也是一篇让我多次想放弃的文章,因为真的是非常长的原文和超级多的实验讨论,隔着屏幕感受到了实验的工作量之…

【连接器专题】案例:产品测试顺序表解读与应用

在查看SD卡座连接器的规格书,一些测试报告时,你可能会看到如下一张产品测试顺序表。为什么会出现一张测试顺序表呢? 测试顺序表的使用其实定义测试环节的验证的“路线图”和“游戏规则”,本文就以我人个经验带领大家一起看懂这张表并理解其设计逻辑。 测试顺序表结构 测试…

【MATLAB代码】制导方法介绍与例程——三点法|三维空间,动态目标导引(订阅专栏后可直接查看源代码)

三点法导引是一种导弹制导策略,通过计算导弹、目标和制导站之间的相对位置来确保导弹准确追踪移动目标。该方法利用三角定位和动态调整,实时更新导弹的飞行路径,以提高命中率,广泛应用于军事导弹和无人机等领域。文中有完整的matlab源代码,订阅专栏后即可查看 文章目录 代…

AUTOSAR CP——Can模块

Can模块的主要配置信息 其他相关模块 通讯框图 Can网络唤醒配置:当硬件支持的时候,可以通过Bus唤醒,见《TechnicalReference_Can_ Rscan》 P30 _5.5.1 Wakeup Functionality:RH850芯片时,在不使用SBC时,…