【计算机视觉】单目深度估计模型-Depth Anything-V2

article/2025/6/16 9:01:01

概述

本篇将简单介绍Depth Anything V2单目深度估计模型,该模型旨在解决现有的深度估计模型在处理复杂场景、透明或反射物体时的性能限制。与前一代模型相比,V2版本通过采用合成图像训练、增加教师模型容量,并利用大规模伪标签现实数据进行学生模型教学,显著提高了预测精度和效率。

项目地址:Depth Anything V2 论文地址:https://arxiv.org/abs/2406.09414 代码地址:https://github.com/DepthAnything/Depth-Anything-V2/tree/main

微信截图_20241024151920.png

一、模型改进

将所有标记的真实图像替换为合成图像。

微信截图_20241024155319.png

 在Depth Anything V2的研究中,研究团队提出了一种创新的方法,即使用完全合成的图像来替代所有带有标签的真实图像,以训练单目深度估计模型。这一决策背后的原因有几个关键点:

  • 标签精度:研究发现,真实图像中的标签存在粗略的情况,这会导致模型学习到错误的深度信息。特别是在处理细粒度的深度预测时,真实标签的粗糙性会对最终的预测结果造成负面影响。
  • 领域转移问题:虽然合成图像可以提供高质量的深度标签,但它们与真实世界的图像之间存在分布上的差异。为了解决这一问题,研究团队采取了两方面的策略:一是通过增加合成数据的规模来提高其多样性;二是引入了大规模未标记的真实图像,并利用强大的教师模型为这些图像生成伪标签,以作为学生模型训练的数据来源。

通过完全使用合成图像来训练教师模型,并借助教师模型生成的伪标签来训练学生模型,研究团队成功地提高了单目深度估计模型的性能,尤其是在处理细粒度深度信息方面取得了显著进步。这种方法不仅克服了传统使用真实标记图像所带来的问题,也为未来的研究提供了一条可行的路径

扩大教师模型的容量。

微信截图_20241024161224.png

通过训练更大规模的模型来捕捉更丰富的特征表示,进而提高模型的学习能力。论文中采取了以下做法:

  • 教师模型的选择:选择DINOv2-G作为教师模型。DINOv2-G是一个强大的模型,其本身已经在大规模图像上进行了预训练,具备很强的特征提取能力。
  • 利用合成数据训练:使用了五个高精度的合成数据集(共包含595K张图像)来训练这个教师模型。而上一节中用到的合成数据,其好处是可以获得非常精确的深度标签,有助于教师模型学习到高质量的特征表示。
  • 伪标签生成:经过训练后的强大教师模型能够在未标注的真实图像上生成高质量的伪标签。这些伪标签随后被用来训练学生模型,帮助学生模型学习到更接近真实世界的深度预测。

扩大教师模型容量的目的就是为了使其能够更好地捕捉到输入图像中的细微特征,并且这些特征可以通过知识蒸馏的方式传递给学生模型,从而帮助学生模型在较小的规模下也能保持较高的预测精度。

通过大规模伪标记真实图像的桥梁来教授学生模型

微信截图_20241024161050.png

利用上述利用生成的伪标签,团队训练了四个不同规模的学生模型(small, base, large, giant)。学生模型通过模仿教师模型的行为,学习到了如何在真实图像上做出准确的深度预测。这种方法的主要优点是:

  • 增强场景覆盖范围:通过引入大量的未标注真实图像,可以覆盖更多的实际场景,从而增强模型的零样本深度估计能力。
  • 知识转移:通过伪标签,学生模型可以从教师模型那里“继承”到高质量的预测能力,类似于知识蒸馏,但不是在特征层面,而是在标签层面。
  • 安全性:这种方法在标签层面进行知识转移,比在特征或logit级别进行蒸馏更为安全可靠,特别是在教师与学生模型规模差距较大的情况下。

二、使用体验

我们可以在huggingface中在线体验该模型的强大,网址如下:https://huggingface.co/spaces/depth-anything/Depth-Anything-V2

微信截图_20241024161414.png

我们可以上传自己的照片,或者点击下方的示例图片,滑动右边箭头可以对比原图与深度图

微信截图_20241024161518.png

三、代码示例

1、准备工作

首先克隆项目到本地并且安装项目所需的所有 Python 依赖项

git clone https://github.com/DepthAnything/Depth-Anything-V2
cd Depth-Anything-V2
pip install -r requirements.txt
2、模型选择

根据需求,以及硬件选择合适的模型大小,下载下来并且放在checkpoints文件夹下

链接如下(giant尚未发布):

Depth-Anything-V2-Small

Depth-Anything-V2-Base

Depth-Anything-V2-Large

微信截图_20241129144350.png

3、简单示例代码

首先导入相关库

import cv2
import torchfrom depth_anything_v2.dpt import DepthAnythingV2DEVICE = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'

这里定义了不同的模型配置,您可以根据需要选择不同的配置。

model_configs = {'vits': {'encoder': 'vits', 'features': 64, 'out_channels': [48, 96, 192, 384]},'vitb': {'encoder': 'vitb', 'features': 128, 'out_channels': [96, 192, 384, 768]},'vitl': {'encoder': 'vitl', 'features': 256, 'out_channels': [256, 512, 1024, 1024]},'vitg': {'encoder': 'vitg', 'features': 384, 'out_channels': [1536, 1536, 1536, 1536]}
}encoder = 'vitl' # or 'vits', 'vitb', 'vitg'

创建了一个 DepthAnythingV2 实例,加载了预训练的权重,并将模型移到了之前确定的设备上,并设置为评估模式...

点击【计算机视觉】单目深度估计模型-Depth Anything-V2查看全文。


http://www.hkcw.cn/article/xJbxdSACOu.shtml

相关文章

常见离线语音识别模块功能说明——天问ASR;机芯智能;海凌科;轻语音

本文章从开发方式及功能等方面上进行说明,便于开发者进行选择与开发。 本文章依据截至2024年8月1日各网站资料进行整理编写。 总结: 开发方式上: 天文ASR 有着最灵活的开发方式,可完全按照程序员意愿进行开发,同时有…

Whisper.cpp + GPU 加速全攻略:Mac M 芯片高效转录音频教程

内容预告 本文将手把手教你如何利用 GPU 加速,在 Mac M 芯片上使用 Whisper 进行音频转文字,大幅提升转录效率。 本教程涵盖: Whisper.cpp 简介:为什么它适用于本地语音转写?Mac M 芯片的 GPU 加速:如何…

ROS2 与机器人视觉入门教程(ROS2 OpenCV)

系列文章目录 目录 系列文章目录 前言 一、 1.1 先决条件 1.1.1 安装 0. 安装要求 1. 安装 ROS2: 2. cv_bridge 1.2 获取机器人视觉库简介: 1.2.1 克隆该资源库 1.2.2 下载附加数据 1.2.3 编译代码 1.3 测试代码 二、ROS2 中的图像发布者…

计算机视觉:扩散模型(Diffusion Models)在图像生成中的突破

计算机视觉:扩散模型(Diffusion Models)在图像生成中的突破 一、前言二、扩散模型基础概念​2.1 马尔可夫链(Markov Chain)​2.2 扩散过程(Diffusion Process)​2.3 逆扩散过程(Reverse Diffusion Process)​三、扩散模型在图像生成中的原理​3.1 训练阶段​3.2 推理阶…

深入了解视频质量诊断的关键技术要点

本文还有配套的精品资源,点击获取 简介:视频质量诊断是IT行业中的关键任务,它包括多个领域的专业知识,用于确保视频内容的高质量呈现。本文将详细解析与视频质量诊断相关的各个技术要点,包括视频编码技术、分辨率和…

高效降噪不求人!精选6款音频降噪免费软件助你一键消噪

你是否也常常被音频中的噪音困扰?环境杂音、设备电流声、甚至呼吸声,都可能让精心录制的内容大打折扣。 本文从百款工具中实测筛选出6款还不错的会议录音降噪处理工具。无论你是剪辑小白还是职业后期,3分钟快速匹配你的降噪刚需!…

深度学习目标检测构建基于YOLOv8的人体动作识别系统,如何使系统能够通过GUI界面支持图片、视频和摄像头输入,来识别人体动作站立,行走,摔倒,弯腰,坐立进行检测

深度学习目标检测构建基于YOLOv8的人体动作识别系统,如何使系统能够通过GUI界面支持图片、视频和摄像头输入,来识别人体动作站立,行走,摔倒,弯腰,坐立进行检测 文章目录 1. 环境配置2. 数据准备与模型训练…

猫粮哪个牌子质量好性价比高?安全猫粮选购推荐

从开始养猫到现在也算是有10年的铲屎年龄了,先后经历了膨化粮、烘焙猫粮以及猫罐头的喂养时期。结果这么多年过去了,现在喂的最多的还是烘焙猫粮,低温工艺留住大部分营养,不会让猫咪黑下巴,适口性也更好,性…

重塑在线软件开发新纪元:集成高效安全特性,深度解析与评估会员与促销管理系统的系统架构设计

案例 阅读以下关于软件架构设计与评估的叙述,回答问题1和问题2。 【题目】 某电子商务公司拟升级其会员与促销管理系统,向用户提供个性化服务,提高用户的粘性。在项目立项之初,公司领导层一致认为本次升级的主要目标是提升会员管…

【Linux探索学习】第三十弹——线程互斥与同步(上):深入理解线程保证安全的机制

Linux学习笔记: https://blog.csdn.net/2301_80220607/category_12805278.html?spm1001.2014.3001.5482 前言: 在上篇我们已经学习了关于线程的大部分知识,包括线程概念和线程控制等内容,今天我们来学习一下使用线程要做到的很…

飞牛的ipv6已动态解析到阿里云,访问显示不安全?教你绑定免费SSL证书

前言 最近有很多小伙伴陆续通过DDNS-GO做好了飞牛的ipv6动态解析了,如果还没有弄,又不知道文章在哪,可以点击下方这篇教程: 飞牛NAS有IPV6,想用DDNS-GO动态解析到域名?这简单了! 很多搞定了的…

银河麒麟桌面操作系统V10 SP1:取消安装应用的安全授权认证

银河麒麟桌面操作系统V10 SP1:取消安装应用的安全授权认证 💖The Begin💖点点关注,收藏不迷路💖 使用银河麒麟V10 SP1安装应用时,若频繁遇到安全授权认证提示,可按以下步骤设置: 打开…

最新Spring Security实战教程(十二)CORS安全配置 - 跨域请求的安全边界设定

🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Micro麦可乐的博客 🐥《Docker实操教程》专栏以最新的Centos版本为基础进行Docker实操教程,入门到实战 🌺《RabbitMQ》…

解决Windows安全中心显示空白页面

1、电脑重装系统后,发现原本一些软件打不开了,电脑莫名认为有病毒,自动删除插件。附图。 2、第一反应是电脑防火墙的原因,默认威胁防护识别到了病毒软件,自动删除。在开始屏幕搜Windows安全中心,打开之后发…

Python全流程开发实战:基于IMAP协议安全下载个人Gmail邮箱内所有PDF附件

文章目录 一、需求分析与安全前置:为什么需要专用工具?1.1 痛点场景1.2 技术方案选择 二、准备工作:Gmail账号安全配置与环境搭建2.1 开启两步验证(必做!)2.2 创建应用专用密码(替代普通密码&am…

【网络安全论文】筑牢局域网安全防线:策略、技术与实战分析

【网络安全论文】筑牢局域网安全防线:策略、技术与实战分析 简述一、引言1.1 研究背景1.2 研究目的与意义1.3 国内外研究现状1.4 研究方法与创新点二、局域网网络安全基础理论2.1 局域网概述2.1.1 局域网的定义与特点2.1.2 局域网的常见拓扑结构2.2 网络安全基本概念2.2.1 网络…

评论员点评郑钦文无缘四强 体能优势未转化

北京时间6月3日,在2025年法网女单1/4决赛中,郑钦文以0-2的成绩不敌萨巴伦卡,遗憾未能晋级四强。赛后,资深评论员许旸对比赛进行了点评。许旸表示,这场比赛让人感到不甘心,郑钦文未能将体能优势转化为战斗力。特别是在第二盘,不仅体能没有得到充分利用,技术上的发挥也非…

【吾爱】逆向实战crackme160破解记录(一)

前言 最近想拿吾爱上的crackme程序练练手,发现论坛上已经有pk8900总结好的160个crackme,非常方便,而且有很多厉害的前辈已经写好经验贴和方法了,我这里只是做一下自己练习的记录,欢迎讨论学习,感谢吾爱论坛…

媒体:硬碰硬才是郑钦文的底色 移山之路无悔前行

面对高山,有人绕路,有人架桥,郑钦文选择移山。第八次和萨巴伦卡交手,郑钦文用硬碰硬的方式展示自己强悍的底色。虽然再次失败,依然无怨无悔。这才是郑钦文的网球为人所爱的原因。她的正手轰球已经让高山颤抖。如果郑钦文在第一盘4比2领先时拿下那两次网前机会球,比赛结果…

德国驻华大使馆祝樊振东大展身手 加盟萨尔布吕肯开启新挑战

6月3日,德国驻华大使馆发文祝贺樊振东加盟德国萨尔布吕肯乒乓球俱乐部。奥运冠军、世界冠军樊振东正式成为德国乒乓球甲级联赛(TTBL)俱乐部——萨尔布吕肯1.FC的一员。樊振东表示,他非常期待在萨尔布吕肯和TTBL的全新挑战,渴望成为这家俱乐部的一员,体验新的环境,并与球…