OVD开放词汇检测中COCO数据集的属性

article/2025/7/1 2:51:16

前面的文章介绍了在Detic中基于COCO数据集实现OVD检测的操作方法,但是要在其他数据集上迁移,还是要了解COCO数据集是如何被利用的,这里针对数据集的属性进行说明。

COCO数据集的标签形式做过目标检测的应该都很熟悉,图像名称、宽高、标签框、分割边界点、类别名等属性,那在OVD检测中,哪些属性信息是被利用的?哪些属性还要进一步拓展?根据Detic中的数据集内容的特点来进行相应说明。

1、必需的标签属性:

A. 基础检测属性:

# 1. 边界框信息
bbox = {"x": float,  # 左上角x坐标"y": float,  # 左上角y坐标"width": float,  # 宽度"height": float  # 高度
}# 2. 类别信息
category = {"id": int,  # 类别ID"name": str  # 类别名称
}# 3. 图像信息
image = {"id": int,  # 图像ID"file_name": str,  # 图像文件名"height": int,  # 图像高度"width": int  # 图像宽度
}# 4. 分割掩码
segmentation = {"polygon": [[x1,y1,x2,y2,...]],  # 多边形点集"counts": str  # RLE编码
}

 这个标签属性好整,下载的COCO标签文件直接就有,自己制作采用常规的标注软件就可获取,或者公开数据集进行标签格式转换

2、 OVD特有的标签属性:

A. 类别划分信息:

# 1. 类别划分
category_split = {"split": str,  # 'seen' 或 'unseen'"embedding": {"GloVE": array,  # GloVe词向量"BertEmb": array  # BERT词向量}
}# 2. 类别映射
category_mapping = {"synset": str,  # WordNet同义词集"coco_cat_id": int  # COCO类别ID
}

这个类别划分信息在标签文件里出现,如 instances_val2017_unseen_2.json,好像是有的配置文件会用到的标签,不是都会用到

主要是如下形式:

{"categories": [{"id": int,"name": str,"synset": str,"split": str,  # category_split"embedding": {"GloVE": array,"BertEmb": array}}],"images": [...],"annotations": [...]
}

 

为什么要用到GloVE和BertEmb,查找信息表示,代码会把这两种特征进行融合用于类别名称的表示,GloVe提供基础语义,BERT提供上下文信息,同时表示类别,便于和其他类别名称建立关联,比如输入哈士奇,可以推理检测目标是狗,这个应该是可以自己根据类别名称用文本编码器处理生成的。

# 1. 准确率提升
- 常见类别: GloVe优势
- 复杂类别: BERT优势
- 整体性能: 互补提升# 2. 鲁棒性提升
- 处理一词多义
- 适应不同场景
- 提高泛化能力

 category_mapping没有直接出现在标签文件,

B.  文本描述信息:

{"images": [{"id": int,                    # 图像ID"file_name": str,             # 图像文件名"height": int,                # 图像高度"width": int,                 # 图像宽度"captions": [str],            # 图像描述文本列表"pos_category_ids": [int]     # 图像中出现的类别ID列表}],"categories": [...]                   # 类别信息
}

这是coco_caption_train_tags数据集的标签内容形式    "coco_caption_train_tags": ("coco/train2017/", "coco/annotations/captions_train2017_tags_allcaps.json"),}

captions是对应图像的描述,pos_category_ids是通过分析图像描述或标注信息生成的,数字表示具体的类别ID,对应数据集中的类别

 3、不需要的标签属性

# 1. 图像元数据
image_metadata = {"license": int,  # 许可证信息"url": str,  # 图像URL"date_captured": str  # 拍摄日期
}# 2. 标注元数据
annotation_metadata = {"id": int,  # 标注ID"area": float,  # 区域面积"iscrowd": int  # 是否人群
}


    http://www.hkcw.cn/article/wqeRBSoCFv.shtml

    相关文章

    构建高性能风控指标系统

    一、引言 在金融风控领域,指标是风险识别的核心依据。风控平台核心系统之一--规则引擎的运行依赖规则、变量和指标,一个高性能的指标系统非常重要,本文将深入探讨风控平台指标系统的全链路技术实现,涵盖从指标配置到查询优化的完…

    【LLM】Agent综述《Advances And Challenges In Foundation Agents》

    note 拥有完善的认知架构仅仅只是第一步。Foundation Agent 的核心特征之一在于其自进化 (Self-Evolution) 的能力,即 Agent 能够通过与环境的交互和自我反思,不断学习、适应和提升自身能力,而无需持续的人工干预。自进化机制:优…

    《Pytorch深度学习实践》ch3-反向传播

    ------B站《刘二大人》 1.Introduction 在神经网络中,可以看到权重非常多,计算 loss 对 w 的偏导非常困难,于是引入了反向传播方法; 2.Backward 这里模型为 y x * w,所以要计算的偏导数为 loss 对 w; …

    房产销售系统 Java+Vue.js+SpringBoot,包括房源信息、房屋户型、房源类型、预约看房、房屋评价、房屋收藏模块

    房产销售系统 JavaVue.jsSpringBoot,包括房源信息、房屋户型、房源类型、预约看房、房屋评价、房屋收藏模块 百度云盘链接:https://pan.baidu.com/s/1Ku27fPWwc47z2aSO_dow6w 密码:da1g 房产销售系统 摘 要 随着科学技术的飞速发展&#xf…

    从0开始学vue:vue3和vue2的关系

    一、版本演进关系1. 继承关系2. 版本生命周期 二、核心差异对比三、关键演进方向1. Composition API2. 性能优化 四、迁移策略1. 兼容构建模式2. 关键破坏性变更 五、生态演进1. 官方库升级2. 构建工具链 六、选型建议1. 新项目2. 现有项目 七、未来展望 一、版本演进关系 1. …

    python 如何写4或5的表达式

    python写4或5的表达式的方法: python中和是用“and”语句,或是用“or”语句。那么4或5的表达式为“4 or 5” 具体示例如下: 执行结果:

    电子电气架构 --- 如何应对未来区域式电子电气(E/E)架构的挑战?

    我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

    绿盟 IPS 设备分析操作手册

    一、操作手册说明 本手册面向安全监控分析人员,聚焦绿盟 IPS 设备的基础功能操作与典型攻击场景分析,提供安全事件监控、告警详情查看、白名单配置等功能指引,以及 Shiro 反序列化漏洞的检测与应急方法,助力及时发现并处置安全威…

    Arch安装megaton

    安装devkitPro https://blog.csdn.net/qq_39942341/article/details/148387077?spm1001.2014.3001.5501 安装cargo https://blog.csdn.net/qq_39942341/article/details/148387783?spm1001.2014.3001.5501 确认一下bashrc sudo pacman -S git cmake ninjagit clone https:/…

    【Qt开发】对话框

    目录 1,对话框的介绍 2,Qt内置对话框 2-1,消息对话框QMessageBox 2-2,颜色对话框QColorDialog 2-3,文件对话框QFileDialog 2-4,字体对话框QFontDialog 2-5,输入对话框QInputDialog 1&…

    7.4-Creating data loaders for an instruction dataset

    Chapter 7-Fine-tuning to follow instructions 7.4-Creating data loaders for an instruction dataset 我们只需将InstructionDataset对象和custom_collate_fn函数接入 PyTorch 数据加载器 ​ 使用以下代码来初始化设备信息 device torch.device("cuda" if tor…

    android 上位机调试软件-安卓串口 com ttl 调试——仙盟创梦IDE

    在 Android 开发中,基于com.ttl库的串口调试 Web 编写意义非凡。它打破了硬件与软件之间的壁垒,让 Android 设备能够与外部串口设备通信。对于智能家居、工业控制等领域,这一功能使得手机或平板能成为控制终端,实现远程监控与操作…

    【笔记】解决虚拟环境中找不到 chromedriver 的问题

    ✅解决虚拟环境中找不到 chromedriver 的问题 📌 问题描述: 在 Windows 中已将 D:\chromedriver\ 添加到系统环境变量 PATH,在系统终端中运行 chromedriver 没有问题。 但在项目虚拟环境(如 .venv)中运行项目时&…

    Linux 基础指令入门指南:解锁命令行的实用密码

    文章目录 引言:Linux 下基本指令常用选项ls 指令pwd 命令cd 指令touch 指令mkdir 指令rmdir 指令 && rm 指令man 指令cp 指令mv 指令cat 指令more 指令less 指令head 指令tail 指令date 指令cal 指令find 指令按文件名搜索按文件大小搜索按修改时间搜索按文…

    基于STM32的循迹避障小车的Proteus仿真设计

    文章目录 一、基于STM32的循迹避障小车1.题目要求2.思路2.1 主控2.2 显示2.3 电源模块2.4 舵机云台2.5 超声波测距2.6 红外循迹模块2.7 蓝牙模块2.8 按键2.9 电机驱动 3.电路仿真3.1 未仿真3.2 自动模式3.3 手动模式3.4 蓝牙模式 4.仿真程序4.1 程序说明4.2 主程序4.3 红外程序…

    周星驰导演电影《女足》今日杀青 历时三月圆满收官

    迪丽热巴主演的周星驰执导电影《女足》于2025年6月2日正式杀青。此前有报道称,新电影《女足》的路透拍摄画面曝光,其中包含特效动作场面,看起来与《少林足球》相似。该片由周星驰执导,结合了少林功夫与足球元素,讲述了中国女子足球队“峨嵋队”征战亚冠杯的热血故事。整个…

    树欲静而风不止,子欲养而亲不待

    2025年6月2日,13~26℃,一般 待办: 物理2 、物理 学生重修 职称材料的最后检查 教学技能大赛PPT 遇见:使用通义创作了一副照片,很好看!都有想用来创作自己的头像了! 提示词如下: A b…

    《Global Securities Markets》中保证金与卖空制度知识点总结

    一、保证金制度核心要点 (一)保证金基础概念 在证券交易语境下,保证金是投资者开展特定交易时向经纪商缴纳的现金或证券抵押品,其目的在于保障经纪商因向投资者提供信贷而面临的风险敞口。从本质上看,保证金构建起投…

    【工具】文章生成器|突破人类认知极限:HUST-GenPaper 智能写作工具设计与实践

    效果: 以下是介绍,我这篇博客就是用我自己这个项目复制prompt去问问小白写的,耗时二十分钟,比我以前写博客需要的时间少多了…… 总之就是突然有个点子,然后顺手就实现了,然后分享给大家,有用…

    【AI论文】Skywork Open Reasoner 1技术报告

    摘要:DeepSeek-R1的成功凸显了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的重要作用。在本研究中,我们提出了Skywork-OR1,这是一种针对长思维链(Chain-of-Thought&#xff0…