多模态大语言模型arxiv论文略读(105)

article/2025/6/7 12:03:49

在这里插入图片描述

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

➡️ 论文标题:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
➡️ 论文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang
➡️ 研究机构: ByteDance Inc, Fudan University, University of Science and Technology of China
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但这些模型通常针对特定任务进行训练,依赖于特定的输入-输出格式,限制了它们在更广泛任务中的应用。这引发了如何开发一种统一的方法来表示和处理不同多模态任务,以最大化MLLMs的通用性的问题。
➡️ 研究动机:现有的多模态大语言模型虽然在特定任务上表现出色,但缺乏处理多种任务的通用性和理解人类意图的能力。为了克服这些限制,研究团队提出了UnifiedMLLM,旨在通过引入任务令牌和定位令牌,实现不同任务的统一表示,从而增强模型的通用性和任务处理能力。
➡️ 方法简介:UnifiedMLLM通过构建任务特定数据集和多任务数据集,采用三阶段训练策略,逐步提升模型的感知理解、任务理解和完成能力。模型结构包括多模态编码器、适配器、统一表示层、任务路由器和专家模型集成。通过这种方式,模型能够理解用户指令的隐含意图,并生成文本响应、任务令牌和定位令牌,指导后续任务的执行。
➡️ 实验设计:实验在多个公开数据集上进行,包括参考分割任务(RefCOCO, RefCOCO+, RefCOCOg)和图像推理编辑任务。实验评估了模型在不同任务中的性能,特别是在复杂场景下的任务理解和完成能力。实验结果表明,UnifiedMLLM在多个任务中表现出色,超越了现有的方法。

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

➡️ 论文标题:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
➡️ 论文作者:Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao
➡️ 研究机构: Shanghai Jiao Tong University, Meta
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在图形用户界面(GUI)环境中展现了显著的潜力,能够执行复杂的交互任务。然而,这些模型在面对环境中的干扰内容时,是否能够保持对用户目标的忠诚度,仍是一个开放的问题。研究发现,环境中的干扰内容(如广告、弹窗等)可能会导致GUI代理偏离用户目标,执行不相关的操作,甚至表现出不受控制的行为。
➡️ 研究动机:尽管现有研究主要关注多模态代理的有用性(即行动准确性),但本研究旨在探讨这些代理在面对环境干扰时的忠诚度问题。研究团队通过构建模拟数据集,评估了不同MLLMs在干扰环境中的表现,揭示了代理在面对干扰时的脆弱性,并提出了环境注入的对抗性设置,展示了这些干扰可以被恶意利用,导致不可预测的风险。
➡️ 方法简介:研究团队定义了环境干扰问题,并提出了三种行动类型:正确行动、干扰行动和无效行动。通过构建包含四种常见干扰场景(弹窗、搜索、推荐和聊天)的模拟数据集,研究团队评估了不同MLLMs在干扰环境中的表现。实验设计了三种工作模式,分别对应不同的环境感知水平,以全面评估代理在不同条件下的表现。
➡️ 实验设计:实验在10个流行的MLLMs上进行,包括通用代理和专门的GUI代理。实验结果表明,无论是通用代理还是专门的GUI代理,都容易受到环境干扰的影响。研究团队进一步提出了环境注入的对抗性设置,证明了通过利用这些干扰,可以对代理进行攻击,导致其行为偏离用户目标。

Targeted Visual Prompting for Medical Visual Question Answering

➡️ 论文标题:Targeted Visual Prompting for Medical Visual Question Answering
➡️ 论文作者:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
➡️ 研究机构: University of Bern, Bern, Switzerland
➡️ 问题背景:医疗视觉问答(Med-VQA)近年来迅速发展,多模态大语言模型(MLLMs)因其能够将视觉信息融入预训练的语言模型中,为图像解释带来了新的能力。然而,简单的视觉错误引发了对这些模型实际视觉理解能力的质疑。为了评估和增强模型的视觉理解能力,研究提出了基于区域的问题(Region-based Questions),通过组合评估来实现。
➡️ 研究动机:尽管MLLMs在Med-VQA中表现出色,但其视觉理解能力的不足仍然存在。为了检测这些视觉理解失败并提高模型的解释性,研究团队引入了目标视觉提示(Targeted Visual Prompting),旨在通过提供区域及其上下文的定制视觉提示,增强MLLMs处理局部问题的能力。
➡️ 方法简介:研究团队提出了一种新的方法,通过设计包含全局和局部视觉标记的定制视觉提示,使模型能够从两个角度编码图像:仅包含图像区域的视角和包含区域上下文的视角。该方法允许模型在不增加额外参数的情况下,提高VQA任务的性能。
➡️ 实验设计:研究在三个公开数据集上进行了实验,包括DME-VQA、RIS-VQA和INSEGCAT-VQA。实验设计了多种基线方法,包括不使用区域信息、在问题中指定区域、在图像上标记区域、仅提供上下文、仅提供裁剪区域以及使用二值图像表示区域的方法。实验结果表明,目标视觉提示方法在所有数据集上均优于其他基线方法,特别是在处理局部问题时表现尤为突出。

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

➡️ 论文标题:Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
➡️ 论文作者:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu
➡️ 研究机构: Harvard University, Bytedance
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种数据类型(如图像、文本和音频)上取得了显著的性能,广泛应用于多模态翻译、视觉问答和内容生成等领域。然而,现有的分布式训练系统在训练MLLMs时效率低下,主要原因是异构模态模型和3D并行中的复杂数据依赖导致了大量GPU空闲时间(bubbles)。
➡️ 研究动机:现有的优化方法主要针对单模态模型,未能有效解决MLLMs训练中的GPU空闲问题。研究团队通过分析大规模MLLMs训练任务,发现超过48%的GPU周期被浪费。为了提高训练效率,研究团队提出了Optimus系统,通过在LLM空闲时间内调度编码器计算,减少GPU空闲时间,从而加速MLLMs的训练。
➡️ 方法简介:Optimus系统通过以下核心设计决策来实现高效训练:

  1. 编码器和LLM的独立并行计划:每个GPU同时持有编码器和LLM的模型状态,确保所有GPU都能在LLM空闲时间内执行编码器计算。
  2. 双阶段依赖管理:通过局部调度和全局排序来处理MLLM训练中的复杂依赖关系,确保编码器和LLM之间的微批次级依赖。
  3. 内核级调度:将编码器层分解为内核,利用亚毫秒级的空闲时间,同时在LLM计算期间调度编码器通信内核,以减少迭代时间。
    ➡️ 实验设计:研究团队在多个代表性的MLLM模型上进行了实验,包括ViT-22B和GPT-175B模型,使用超过3072个GPU。实验结果表明,Optimus系统在训练过程中平均加速了20.3%,在生产集群中加速了20.5%-21.3%。实验还验证了Optimus在不同模型规模和GPU数量下的良好扩展性。

NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention

➡️ 论文标题:NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
➡️ 论文作者:Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao
➡️ 研究机构: 东南大学、密歇根州立大学
➡️ 问题背景:多语言大型语言模型(MLLMs)在非主导语言中的表现不如在主导语言中。尽管现有的翻译-回答方法在一定程度上缓解了这一问题,但其背后的机制尚不明确。研究发现,这些方法虽然提供了足够的语言触发(LTs),但在领域触发(DTs)的保留上存在不足。
➡️ 研究动机:为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响,研究团队通过类比人类认知过程中的语言触发(LTs)和领域触发(DTs),分析了现有方法的局限性,并提出了一种新的方法——原生语言提示(NatLan),以改善非主导语言问答中的知识提取。
➡️ 方法简介:研究团队提出了NatLan,采用多MLLM协作策略,引入了一个增强角色的领域特定MLLM作为翻译者,以提供足够的LTs并最大限度地保留DTs。NatLan通过构建领域特定的角色指令和少量示例(5-shot)来注入领域特定的上下文,从而实现个体增强和联合增强。
➡️ 实验设计:研究在五个非主导语言问答基准上进行了实验,包括多语言MMLU(MMMLU)和C-Eval中文基准。实验设计了不同语言(如阿拉伯语、中文、法语、德语和日语)的问答任务,以评估NatLan在不同条件下的表现。实验结果表明,NatLan在DTs保留和准确性方面均优于现有的顶级方法。


http://www.hkcw.cn/article/gQtXWwqwEf.shtml

相关文章

set map数据结构

#include <set> #include <iostream> using namespace std;int main() {// 设置控制台输出编码为UTF-8system("chcp 65001");set<int> s1; // 创建一个整数集合// 插入元素s1.insert(5);s1.insert(3);s1.insert(7);s1.insert(1);s1.insert(9);//默…

云开发实现新闻列表小程序

新闻列表小程序需要两个页面即新闻列表页及新闻发布页&#xff0c;这两个页面需要以tabBar的形式展示&#xff0c;单击tab图标可以进行页面相互切换。本项目中是分别在cloudfunctions中创建一个名为“submit”的云函数&#xff0c;功能为向小程序端发布信息&#xff0c;在pages…

《C++ Core Guidelines解析》深入理解C++

前言 在计算机编程领域&#xff0c;C一直以其高效、灵活和强大而闻名。然而&#xff0c;C作为一种复杂的编程语言&#xff0c;如果没有正确的理解和使用&#xff0c;很容易导致软件质量的下降和性能问题的出现。幸运的是&#xff0c;一本名为《CCore Guidelines解析》的书籍为…

报错:Java HotSpot(TM) 64-Bit Server VM warning: Sharing is only supported for boot loader classes beca

问题描述&#xff1a;运行单元测试时&#xff0c;报这个警告&#xff1a;Java HotSpot(TM) 64-Bit Server VM warning: Sharing is only supported for boot loader classes beca 操作步骤如下&#xff1a; 将原来的&#xff1a;-ea 修改为 -ea -Xshare:off 重新启动单元测试&a…

万字详解CSS动画核心——@keyframes,看完就会做动画!

新手福利 -- 还在为CSS动画发愁&#xff1f;一篇搞定keyframes所有知识点&#xff01; 一、什么是keyframes&#xff1f; ‌简单说‌&#xff1a;keyframes 是CSS3的 ‌动画关键帧规则‌&#xff0c;就像导演给动画片分镜头一样&#xff0c;你可以定义动画在不同时间点的样式…

【氮化镓】GaN HMETs器件物理失效分析进展

2021 年 5 月,南京大学的蔡晓龙等人在《Journal of Semiconductors》期刊发表了题为《Recent progress of physical failure analysis of GaN HEMTs》的文章,基于多种物理表征技术及大量研究成果,对 GaN HEMTs 的常见失效机制进行了系统分析。文中先介绍失效分析流程,包括使…

工业智能网关保障冷冻仓储设备无人值守安全运行

一、项目背景 冷链物流行业在近年来发展迅速&#xff0c;冷库作为其中的关键环节&#xff0c;其制冷设备的稳定运行至关重要。传统的冷库制冷设备监控方式存在诸多弊端&#xff0c;如需要人工现场巡检&#xff0c;不仅效率低下&#xff0c;且难以及时发现问题&#xff1b;数据…

电工基础【5】简单的电路设计接线实操

07 简单的电路设计 传送带控制示例图 传送带可以转的&#xff0c;电机带动它转。好&#xff0c;这红色的是停止按钮。绿色1启动按钮&#xff0c;这是自锁电路。 原本绿色1启动按钮(按下转、松开转) 客户想加个绿色2手动按钮(按下停、松开转)。 我们前面也学过那个点动了&#…

手机上网可以固定ip地址吗?详细解析

在移动互联网时代&#xff0c;手机已成为人们日常上网的主要设备之一。无论是工作、学习还是娱乐&#xff0c;稳定的网络连接都至关重要。许多用户对IP地址的概念有所了解&#xff0c;尤其是固定IP地址的需求。那么&#xff0c;手机上网能否固定IP地址&#xff1f;又该如何实现…

QGIS 矢量数据属性表中文乱码解决方案:4 步修复编码匹配问题

在QGIS中导入矢量数据后&#xff0c;属性表出现中文字符乱码&#xff0c;多由字符编码不匹配导致。以下是条理清晰的解决方案&#xff0c;可整理为博客内容&#xff1a; 目录 一、问题根源&#xff1a;编码不匹配二、解决方案&#xff1a;分场景修复编码1. 图层属性修改编码&am…

Qwen2.5-VL 视觉编码器的SwiGLU

Qwen2.5-VL 视觉编码器的SwiGLU flyfish 视觉编码器在多模态大模型中扮演着至关重要的角色。我们从头开始训练了一个原生动态分辨率的 ViT&#xff0c;包括 CLIP、视觉-语言模型对齐和端到端训练等阶段。为了解决多模态大模型在训练和测试阶段 ViT 负载不均衡的问题&#xff…

Unity UI 性能优化终极指南 — Image篇

&#x1f3af; Unity UI 性能优化终极指南 — Image篇 &#x1f9e9; Image 是什么&#xff1f; Image 是UGUI中最常用的基本绘制组件支持显示 Sprite&#xff0c;可以用于背景、按钮图标、装饰等是UI性能瓶颈的头号来源之一&#xff0c;直接影响Draw Call和Overdraw &#x1…

Baklib内容中台AI重构智能服务

AI驱动智能服务进化 在智能服务领域&#xff0c;Baklib内容中台通过自然语言处理技术与深度学习框架的深度融合&#xff0c;构建出具备意图理解能力的知识中枢。系统不仅能够快速解析用户输入的显性需求&#xff0c;更通过上下文关联分析算法识别会话场景中的隐性诉求&#xf…

论文分类打榜赛Baseline:ms-swift微调InternLM实践

本文来自社区投稿&#xff0c;作者尖米、张富才。 书生大模型实战营第5期已正式启动&#xff0c;本期实战营新增「论文分类打榜赛」&#xff0c;以帮助学员更好地掌握大模型技能。 本文将手把手带领大家如何用 ms-swiftt 微调 InternLM 模型&#xff0c;轻松上手论文自动分类…

v4l2常见操作-查看当前摄像头信息,帧率,控制参数,分辨率,支持格式,抓图实践等

一&#xff1a;查看当前有哪些摄像头 grep /sys/class/video4linux/video*/name 例如以下为USB插入式camera 二&#xff1a;查看当前摄像头支持的分辨率 v4l2-ctl -d /dev/video14 --get-fmt-video 例如以下摄像头支持的video捕获分辨率为3840*2160 三&#xff1a;查看当前…

MaxCompute开发UDF和UDTF案例

文章目录 一、Java开发UDF1、创建Maven项目2、创建UDF类3、打包上传资源4、创建函数MyUDF5、SQL验证 二、Java开发UDTF1、创建Maven项目2、创建UDTF类3、打包上传更新资源4、创建函数MyUDTF5、SQL验证 三、常见问题1、发布函数报错 一、Java开发UDF 1、创建Maven项目 创建Mav…

ROS2学习(17)------ROS 2 Gazebo 三维物理仿真平台简介及举例使用

操作系统&#xff1a;ubuntu22.04 IDE:Visual Studio Code 编程语言&#xff1a;C11 ROS版本&#xff1a;2 ROS 2 Gazebo 三维物理仿真平台简介 Gazebo 是一个强大的三维机器人仿真环境&#xff0c;它能够模拟复杂的机器人系统和环境。结合 ROS 2&#xff0c;你可以使用 Gaze…

定时通知群内值班人功能

from app.external.zhiban import default_zhiban_api_client import requests import json from datetime import datetimedef send_daily_reminder():# app_map [# {"name": "平台-存储云平台服务号", "type": "app"},# {&…

现代密码学 | 椭圆曲线密码学—附py代码

Elliptic Curve Cryptography 椭圆曲线密码学&#xff08;ECC&#xff09;是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。 椭圆曲线密码学是多种数字签名算法的基础&#xff0c;例如椭圆曲线数字签…

04 APP 自动化- Appium toast 元素定位列表滑动

文章目录 一、toast 元素的定位二、滑屏操作 一、toast 元素的定位 toast 元素就是简易的消息提示框&#xff0c;toast 显示窗口显示的时间有限&#xff0c;一般3秒左右 # -*- codingutf-8 -*- from time import sleep from appium import webdriver from appium.options.an…