CVPR2025重磅突破:AnomalyAny框架实现单样本生成逼真异常数据,破解视觉检测瓶颈!

article/2025/8/17 2:42:18

本文介绍了一种名为AnomalyAny的创新框架,该方法利用Stable Diffusion的强大生成能力,仅需单个正常样本和文本描述,即可生成逼真且多样化的异常样本,有效解决了视觉异常检测中异常样本稀缺的难题,为工业质检、医疗影像等领域提供了新的解决方案。

在工业质检、医疗影像等领域,视觉异常检测(Visual Anomaly Detection, AD)是保障质量与安全的关键技术。然而,异常样本稀缺一直是制约其发展的核心难题 —— 现实中,异常现象往往罕见且难以收集,传统方法要么依赖大量正常数据 “脑补” 异常,要么生成的伪异常缺乏真实感,导致检测模型性能受限。

2022-2025年可复现论文合集!戳https://docs.qq.com/doc/DQ25HbWt6WmdOZEta?u=7f01826fa3f140bb8e36e875087997e8&nlc=1近日,瑞士洛桑联邦理工学院(EPFL)与华中科技大学的研究团队联合提出AnomalyAny 框架已被CVPR2025录用,利用开源文本生成图像模型Stable Diffusion(SD)的强大生成能力,仅需单个正常样本文本描述,即可生成逼真、多样且从未见过的异常样本,为数据稀缺场景下的异常检测提供了全新解决方案。

图片

论文链接:

https://arxiv.org/abs/2406.01078v3

代码与 Demo 地址:

https://hansunhayden.github.io/AnomalyAny.github.io/

一、核心挑战:传统方法的 “数据困局”

现有异常生成方法主要面临两大痛点:

1. 真实性不足:

如图1(a)所示,早期方法通过 “裁剪 - 粘贴” 随机图案(如自然纹理)生成异常,虽无需训练,但生成的异常与真实场景差异显著,难以被检测模型有效识别。

2. 依赖大量数据:

如图1(b)所示,基于生成模型(如 GAN、扩散模型)的方法虽能生成更真实的样本,但需要大量正常和异常数据进行训练,这在异常罕见的场景中(如精密零件缺陷)几乎不可行。

图1:不同异常生成范式对比。(a)传统方法;(b)基于少样本训练的方法;(c)所提未知异常生成方法AnomalyAny。

  图1:不同异常生成范式对比。(a)传统方法;(b)基于少样本训练的方法;(c)所提未知异常生成方法AnomalyAny。

AnomalyAny 的突破点在于:无需任何训练数据,直接利用预训练的 Stable Diffusion 模型,通过巧妙的引导机制,让模型 “理解” 正常样本的特征,并根据文本描述生成符合逻辑的异常。

二、AnomalyAny:如何让 AI “创造” 从未见过的异常?

如图2所示,AnomalyAny 框架包含三大核心模块,环环相扣实现精准异常生成:

图2:AnomalyAny框架

  图2:AnomalyAny框架

测试时正常样本引导(Test-time Normal Sample Conditioning)

传统 SD 模型生成的图像可能偏离目标数据集的 “正常分布”(如图3(b))。AnomalyAny 通过在推理阶段引入单个正常样本的潜在特征,从噪声生成过程的中间步骤(而非完全随机起点)开始,确保生成的异常样本与正常样本共享相同的背景、光照等全局特征,避免 “画风突变”。

举个例子:若输入一张正常的 “瓶子” 图片,模型会以该瓶子的形状、材质为基础,在其基础上 “改造” 出破损、裂痕等异常,而非生成一个完全不同的物体。

图3:生成的异常样本和损伤注意力图示例。(a) 正常图片,(b) Stable Diffusion直接生成的结果、(c) 无正常样本作为条件、(d) 无注意力引导优化、(e) 无提示引导优化以及 (f) 所提AnomalyAny生成的结果。

2. 注意力引导异常优化(Attention-Guided Anomaly Optimization)

由于 SD 的训练数据中异常样本较少,模型容易忽略文本描述中的异常关键词(如 “破损”)。AnomalyAny 通过最大化异常关键词的注意力权重,迫使模型聚焦于生成目标异常区域。具体而言,通过分析 SD 的交叉注意力图(Cross-Attention Maps),找到与 “破损”“裂痕” 等关键词对应的图像区域,并通过反向传播优化潜变量,确保异常特征被显著表达。

可视化结果:如图3(d)-(f) 所示,移除注意力引导后,生成的异常区域模糊不清;而启用该机制后,异常特征(如瓶盖的裂痕)清晰可辨。

3. 提示引导异常细化(Prompt-Guided Anomaly Refinement)

为进一步提升生成质量,AnomalyAny 利用GPT-4 自动生成详细异常描述(如将 “破损” 细化为 “带有粗糙不平纹理的破损区域”),并通过 CLIP 模型计算生成图像与文本的语义相似度,强制两者对齐。这一过程不仅增加了异常的多样性(如不同类型的划痕),还能生成符合工业标准的复杂缺陷(如 “锯齿状裂缝”)。

三、实验验证:生成质量与检测性能双提升

在工业异常检测基准数据集MVTec ADVisA上,AnomalyAny 展现出显著优势:

1. 生成质量:真实感与多样性兼具

• Inception Score(IS) 衡量生成图像的真实性,AnomalyAny 在多数类别中得分最高(如 bottle 类别 IS=1.73,远超基线方法),表明其生成的异常样本更接近真实图像。

• Intra-cluster LPIPS 距离(IC-LPIPS) 衡量多样性,AnomalyAny 生成的异常样本差异更大(如 cable 类别 IC-LPIPS=0.41),为检测模型提供了更丰富的训练信号。

图4展示了在MVTec AD以及Web图片中生成的异常效果。

图4:所提AnomalyAny在MVTec AD以及Web图片中的异常生成效果

图4:所提AnomalyAny在MVTec AD以及Web图片中的异常生成效果

2. 下游检测性能:小数据下的卓越表现

如表1所示,在1-shot 检测场景(仅用 1 张正常样本训练)中,使用 AnomalyAny 生成的样本训练的模型,在 MVTec AD 上达到图像级 AUC=94.9%、像素级 AUC=95.4%,超越了 PatchCore、WinCLIP + 等主流方法。即使与需要部分异常数据训练的 AnomalyDiffusion 相比,AnomalyAny 仍实现了 comparable 性能,且无需担心数据泄漏问题。

  表1:1-shot异常检测性能对比

四、未来展望:开启 “零样本” 异常检测新范式

AnomalyAny 的创新之处在于将预训练多模态模型(SD+GPT-4)与领域知识结合,无需任何训练即可生成定制化异常样本。这一特性使其在以下场景具有广阔应用前景:

  • 工业质检:快速生成各类零件的虚拟缺陷,减少人工标注成本;

  • 医疗影像:模拟罕见病变,辅助训练肿瘤检测模型;

  • 自动驾驶:生成极端天气、道路异常等边缘场景,提升模型鲁棒性。

当然,当前方法仍依赖文本提示的准确性,未来若结合单样本异常图像输入,有望进一步提升复杂异常的生成精度。随着大模型技术的发展,类似 AnomalyAny 的 “提示式” 解决方案或将成为解决数据稀缺问题的通用范式。


http://www.hkcw.cn/article/APdIcnZZJN.shtml

相关文章

台湾新冠上周4.1万人就医急增113% 高峰上修恐20万人确诊

新冠疫情急窜升!台湾疾病管制署27日公布上周新冠就诊破4.1万人次,增幅达113%;另上周新增102例重症、19例死亡,双创今年单周新高。疾管署副署长罗一钧表示,预估高峰6月底至7月初,届时单周就诊恐达15-20万人次,呼吁民众踊跃接种,进入医院诊所机构和搭大众运输建议戴口罩。…

装修工搞错门牌号 女子新房被拆光 一场乌龙引发的损失

最近,家住浦东新区“芳草苑”小区的张女士遇到了一件烦心事。她家刚刚完成了老房新装,原本计划第二天从出租屋搬回去。但当她满心欢喜回家查看收尾进度时,发现厨房和卫生间里的设施设备被三个陌生人拆了。这些设施和装修材料都是全新的、一线品牌且定制款,张女士感到非常心…

美贸易战已致企业损失超340亿美元 全球公司利润受挫

当地时间5月29日,根据路透社对企业披露信息的分析,美国特朗普政府的贸易战导致企业销售额下降和成本上升,已给全球企业造成超过340亿美元损失。持续的关税不确定性使全球多家大型公司陷入决策瘫痪,预计这一损失还将继续上升。苹果、福特、保时捷和索尼等美国、亚洲及欧洲公…

瑞幸多款饮品降价3元 价格战再升级

5月30日,有消费者发现瑞幸咖啡推出了“6块9”的优惠价格,多款饮品只需6.9元即可购买。此前,瑞幸咖啡曾掀起奶茶与咖啡行业的价格战,但最低价通常为9.9元/杯。本季度,外卖平台的价格战主要集中在奶茶和咖啡领域。瑞幸咖啡的主要竞争对手之一库迪咖啡,将单品价格降至3.9元/…

MySQL 自增主键重置详解:保持 ID 连续性

目录 前言正文 前言 爬虫神器,无代码爬取,就来:bright.cn Java基本知识: java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)【Java项目】实战CRUD的功能整理(持续更新&#xff09…

Spring AI 系列1: ChatMemory聊天记忆总结

一、ChatMemory 的核心作用与功能解析 Spring AI 中的的ChatMemory(聊天记忆)提供了维护 AI 聊天应用程序的对话上下文和历史的机制。聊天记忆使 AI 应用程序能够:维护对话历史、提供上下文感知的响应、实现不同的记忆策略、管理对话状态。 1…

西装男子连吃两天免费小面 老板吃不消:别来了

在上海的一家面馆里,老板为了帮助遇到困难的人,推出了免费的重庆小面。只要顾客进店说一句“来碗重庆小面”,就可以免费享用,无需付款。然而,一名穿着西装、打着领带的男子却连续两天来吃,并且每次都要吃二斤。这让老板感到非常困扰。这名男子的行为引起了老板的不满。老…

银行员工完不成消费贷任务一周扣三百 倒贴利息拉业务

银行员工完不成消费贷任务一周扣三百,倒贴利息拉业务。:早听各家银行消费贷业务“卷”,现在都“卷”到员工互助了么?:早听各家银行消费贷业务“卷”,现在都“卷”到员工互助了么?:早听各家银行消费贷业务“卷”,现在都“卷”到员工互助了么?责任编辑:zx0002

昌都车辆坠河1人失联 搜救行动持续进行

昌都市公安局交通管理支队于5月29日通报,5月23日下午5时左右,昌都市公安局接到群众报警,称在昌日公路6公里加800米弯道处有一车辆坠河。接报后,警方立即会同消防、120急救等部门赶往现场展开救援。调查发现,当天下午5时左右,乘客邹某、孙某和唐某三人租赁贡某驾驶的藏A1*…

为何胖东来爆火,许多连锁超市却接连倒闭?

胖东来为什么能在商超红海中稳坐“顶流”,而许多连锁超市却接连倒闭?秘密就藏在一张A4纸上——它叫商业模式画布!用这张图来拆解胖东来的经营密码。其实胖东来的成功是回答好了做生意的5个关键问题,第1问:谁在抢着买单?胖东来的顾客画像清晰得惊人:家庭主妇冲着免费加工海…

彩礼“限价”,河北一村明确彩礼最高6万

最近河北又出了个大新闻!有个村子明确规定,彩礼最高不能超过6万,消息一出,村民们纷纷叫好,直呼“太及时了”!这到底是咋回事呢,今天咱就唠唠。原来,这个村子叫东孙村。东孙村结合实际,修订了《村规民约》,从5月27日起,正式施行新的红白喜事操办标准。除了限定彩礼,…

烟台科技学院校长论文抄袭 免职!

近日,“烟台科技学院校长硕士论文涉嫌严重抄袭”一事引发社会广泛关注。5月29日,烟台科技学院对此事发布声明,经核查,情况属实。学校董事会研究决定,免去马红坤烟台科技学院校长职务。责任编辑:0764

关晓彤演白化病女孩 命运交错的坚韧成长

在四川乐山沙湾区,电视剧《生逢其时》的最后一个镜头拍摄完成,这部由爱奇艺与浩瀚娱乐联手制作、滕华涛监制、林妍执导的作品正式杀青。故事发生在北方厂矿小镇青梧镇,关晓彤和王子奇领衔主演,从筹备之初就备受关注。剧中的核心情节源于一个阴差阳错的起点:白化病女孩齐时…

门店回应冰淇淋刺客卖268一个 真果壳制成解释高价

近日,一位女士在苏州一家餐厅用餐时遇到了所谓的“冰淇淋刺客”。她发布视频表示,一份装在花生壳里的冰淇淋售价高达28元,虽然有服务员帮忙切开,仪式感十足,但她认为这个价格并不合理。记者随后前往位于苏州市姑苏区美罗百货二楼的这家冰淇淋店进行实地探访。店内冰淇淋的…

一厨工在幼儿园洗碗池里洗墩布被辞退 法院:支持

一名厨工在幼儿园洗碗池里洗墩布被辞退 法院:支持!儿童安全重于一切洗碗池里洗拖把,洗菜池里随便洗手!如果孩子幼儿园的饭菜是在这样“混用”的水池旁准备的,哪个当父母的不心头一紧?北京某幼儿园的一名厨工雷女士就多次这样操作,幼儿园有专门的墩布池,而且要求专池专用…

优云智算-GPU实例使用指南

优云智算:GPU实例使用指南 推荐一个个人觉得比AutoDL更好用的GPU平台:优云智算,优云智算提供了一个高效、便捷的GPU算力平台,特别适合需要进行深度学习训练、科学计算等高性能计算任务的用户。相较于AutoDL和蓝耘等平台&#xff…

Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程

Jupyter MCP 服务器是基于模型上下文协议(Model Context Protocol, MCP)的 Jupyter 环境扩展组件,它能够实现大型语言模型与实时编码会话的无缝集成。该服务器通过标准化的协议接口,使 AI 模型能够安全地访问和操作 Jupyter 的核心…

混合搜索再探:引入线性检索器!

作者:来自 Elastic Panagiotis Bailis Elasticsearch 拥有大量新功能,帮助你为你的使用场景构建最佳搜索解决方案。深入阅读我们的示例笔记本了解更多内容,开始免费云试用,或立即在本地机器上体验 Elastic。 在我们之前的博客文章…

Spring 面经

1.说说什么是IOC? IOC作为Spring的核心技术模块,其主要是讲对象的实例过程交由容器进行管理,而无需我们开发者去处理对应的实例。通过反射创建对象,由容器管理对象生命周期和依赖关系。当然在里面不同Bean之间存在着DI&#xff0…

【开源推荐】HuLa:跨平台聊天应用的新星

在数字化通讯的浪潮中,一款名为HuLa的开源聊天应用正悄然崛起,以其现代化的技术栈和优雅的用户体验,为我们带来了全新的桌面通讯解决方案。 🚀 什么是HuLa? HuLa是一款基于Tauri Vue 3 TypeScript构建的跨平台聊天应…