论文阅读:ADVWEB : CONTROLLABLE BLACK-BOX ATTACKS ON VLM-POWERED WEB AGENTS

article/2025/8/2 21:10:21

原文:2410.17401

源码:https://ai-secure.github.io/AdvWeb/


摘要:

本文设计了一种专门针对web agent的黑盒攻击框架,通过训练一个对抗性提示生成模型,在网页中自动生成并注入“隐形”对抗性字符串,引导网页代理执行精心设计的恶意操作。

现有方法的缺陷:

  • 现在的对抗性攻击主要聚焦于简单目标(如产生有害回复),难以处理更复杂的攻击目标;
  • 现有的对web agent攻击要么就是通过手工设计注入恶意提示,缺乏扩展性和灵活性,要么就是依赖白盒梯度信息,即使迁移到黑盒场景下,也难以保持多VLM模型间的转移;

威胁模型:

攻击目标:保持操作类型不变的前提下,将正常操作的参数改为攻击者指定的恶意参数,a_adv = (o, r_adv, e)

攻击者能力:仅能获取网页的 HTML 内容 h,并将其修改为攻击后的 h_adv;

攻击限制:

  • 隐蔽性:保证修改后的 HTML 内容 h_adv 在渲染后与原始内容无异,即 I(h) = I(h_adv),以避免用户察觉任何变化;
  • 可控性:攻击者应能在无需再次与代理交互或重新优化的情况下,仅通过修改对抗字符串中的特定子串即刻切换攻击目标。(比如现在已经有一个恶意的HTML内容h_adv能使agent买NVIDIA的股票,你只要把它的参数r_adv从NVIDIA改成r′_adv APPLE就能更改目标);

 方法:

通过训练一个对抗性提示生成模型,通过把模型生成的恶意prompt注入到特定的攻击目标(比如HTML中的Input输入框),将良性的HTML内容h转为恶意的HTML内容h_adv,并且通过特定的HTML字段、特性(如aria-label="q")将恶意prompt隐藏,使其不在页面上显示,保证其隐蔽性。同时为了保证可控性,我们通过训练模型生成带占位符的提示模板(占位符来表示攻击目标),在注入HTML后在填入具体的目标。

模型训练

1.数据集准备

收集(算法2中)LLMs生成的n条攻击prompt作为训练数据集,并将训练数据集根据黑盒web agent的反馈分为positive和negative两个子集;

2.πpre→πSFT

使用positive子集对预训练模型ΠPre进行监督微调,根据公式2,引导模型Π生成更有可能引导web agent执行目标操作的提示,得到监督微调后的模型得到ΠSFT;

3.πSFT​→πref​:

复制SFT模型,作为DPO的参考策略;

4.πSFT​→πθfinal​:

在positive和negative子集上进行DPO强化学习训练πSFT,通过公式3。

Q:

为什么要加入监督微调?

因为纯RL在此场景下不稳定,加入监督微调来稳定训练。


http://www.hkcw.cn/article/mOhTUTRoyr.shtml

相关文章

Wireshark 在 macOS 上使用及问题解决

wireshark概述 Wireshark 是被广泛使用的免费开源网络协议分析软件(network protocol analyzer)或网络数据包分析工具,它可以让你在微观层面上查看网络上发生的事情。它的主要功能是截取网络数据包,并尽可能详细地展示网络数据包…

企业级安全实践:SSL/TLS 加密与权限管理(一)

引言 ** 在数字化转型的浪潮中,企业对网络的依赖程度与日俱增,从日常办公到核心业务的开展,都离不开网络的支持。与此同时,网络安全问题也日益严峻,成为企业发展过程中不可忽视的重要挑战。 一旦企业遭遇网络安全事…

#Js篇:BlobFile对象URL.createObjectURL()fetchlocationnavigatornew URl

Blob 在 JavaScript 中,Blob 是一个非常重要的对象,用于表示不可变的、原始的二进制数据块(Binary Large Object) arrayBuffer():获取 Blob 的二进制数据作为 ArrayBuffer。 stream():创建一个可读流&…

HAProxy 可观测性最佳实践

HAProxy 简介 HAProxy(High Availability Proxy)是一款广泛使用的高性能负载均衡器,支持 TCP 和 HTTP 协议,提供高可用性、负载均衡和代理服务。它特别适用于负载较大的 Web 站点,能够支持数以万计的并发连接&#xf…

软件测试|FIT故障注入测试工具——ISO 26262合规下的智能汽车安全验证引擎

FIT(Fault Injection Tester)是SURESOFT专为汽车电子与工业控制设计的自动化故障注入测试工具​,基于ISO 26262等国际安全标准开发,旨在解决传统测试中效率低、成本高、安全隐患难以复现的问题,其核心功能包括&#xf…

【计算机网络】应用层协议Http——构建Http服务服务器

🔥个人主页🔥:孤寂大仙V 🌈收录专栏🌈:计算机网络 🌹往期回顾🌹: 【Linux笔记】——进程间关系与守护进程 🔖流水不争,争的是滔滔不息 一、Http协…

[ctfshow web入门] web80

信息收集 过滤了php和data if(isset($_GET[file])){$file $_GET[file];$file str_replace("php", "???", $file);$file str_replace("data", "???", $file);include($file); }else{highlight_file(__FILE__); }解题 大小写…

移动安全Android——客户端数据安全

本地文件权限配置 测试流程 (1)手机运行待测APP应用,adb执行命令找到APP包名 adb shell dumpsys activity top|findstr ACTIVITY (2)adb shell 进入设备,以Root权限进入/data/data/package包名目录下 c…

AI生态警报:MCP协议风险与应对指南(下)——MCP Host安全

AI生态警报:MCP协议风险与应对指南(上)——架构与供应链风险https://blog.csdn.net/WangsuSecurity/article/details/148335401?sharetypeblogdetail&sharerId148335401&sharereferPC&sharesourceWangsuSecurity&spm1011.24…

机房网络设备操作安全管理制度

该制度围绕机房网络设备操作安全,规定账号实行系统管理员、操作管理员、一般用户三级分级管理,遵循最小授权和权限分割原则,账号需实名制、禁止共享及转借,密码设置需至少 8 位、3 种字符组合且每 3 个月修改一次;高危指令执行需上级审批、双人核查,远程登录需限制权限、…

Root权限:解锁Android的终极力量

Root后的功能扩展 Root后可以实现的高级功能,如系统级备份、自定义ROM、性能优化、广告屏蔽等。 Root的风险与防范 讨论Root可能导致的安全问题,如恶意软件攻击、系统不稳定、保修失效等,提出降低风险的建议,如使用可信工具、备…

亚马逊数据采集软件完全指南:从工具原理到实战落地

亚马逊数据采集软件有哪些?在数字化商业浪潮中,亚马逊作为全球电商巨头,其平台上蕴含着海量的数据宝藏。对于卖家、品牌商以及市场分析师而言,精准获取和分析这些数据,成为了在激烈竞争中脱颖而出的关键。从产品定价的…

免费高清多功能录屏软件推荐

软件介绍 今天为大家介绍一款功能全面的免费录屏软件 - 云豹录屏大师。 录屏格式支持 这款软件特别强大,能够录制多种常见视频格式,包括MP4、AVI、WMV等格式,满足不同场景的录制需求。 高帧率支持 软件最高支持120帧的录制效果&#xff0…

【交通 Traffic Transformer】同一篇文章,内容排版稍有不同 | 交通预测模型中,Transformer相比传统GCN模型有何优势?

冰冻三尺,非一日之寒。 前情提要: 【Traffic Transformer】将 Transformer 应用于 交通预测领域中 | 动态和分层交通时空特征 | 时空模型比纯时间模型的性能要好得多 | 定义不好的相邻矩阵会损害模型Transformer相比传统GCN模型在交通预测中具有三大核心优势: 1、动态空间依…

docker-compose搭建prometheus以及grafana

1. 什么是 Prometheus? Prometheus 是一个开源的系统监控和告警工具,由 SoundCloud 于 2012 年开始开发,现为 CNCF(Cloud Native Computing Foundation)项目之一。它特别适合云原生环境和容器编排系统(如 …

AI科技前沿动态:5.26 - 5.30 一周速览

目录 ⭐ 本周热点💡 阿里巴巴开源自主搜索 AI 智能体 WebAgent💡 我国首个软件开发 AI 智能体标准发布,20 余家巨头联手参编💡 刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了 …

【google 论文】Titans: Learning to Memorize at Test Time

核心思想与贡献: 这篇论文的核心贡献在于提出了一种新的神经网络长期记忆模块 (neural long-term memory module),并基于此构建了一个名为 Titans 的新型系列架构。这个架构旨在克服现有模型(如Transformers)在处理超长序列和长期…

VASP 教程:VASP 结合 Phonopy 计算硅的比热容

VASP 全称为 Vienna Ab initio Simulation Package(The VASP Manual - VASP Wiki)是一个计算机程序,用于从第一性原理进行原子尺度材料建模,例如电子结构计算和量子力学分子动力学。 Phonopy(Welcome to phonopy — Ph…

企业数字化转型的7个难点

数字化转型不是一个有始有终的项目,而是一个持续变革的过程,过程漫长,且险象环生。需要领导者带领企业从成功或不成功的经验里持续反思、持续学习。 近年来,以移动互联网、云计算、大数据、人工智能等为代表的新一代数字化技术正在…

华为OD机试真题——简易内存池(2025A卷:200分)Java/python/JavaScript/C++/C/GO最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C++、C语言、GO六种语言的最佳实现方式! 本文收录于专栏:《2025华为OD真题目录+全流程解析/备考攻略/经验分享》 华为OD机试真题《简易…