多模态大语言模型arxiv论文略读(102)

article/2025/8/3 23:31:51

在这里插入图片描述

Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM

➡️ 论文标题:Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM
➡️ 论文作者:Can Wang, Hongliang Zhong, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao
➡️ 研究机构: City University of Hong Kong, Google AR Perception, Netflix Eyeline Studios, Microsoft Cloud AI
➡️ 问题背景:自动家具布局在室内设计、游戏开发和虚拟现实等应用中扮演着重要角色。传统方法通常将家具布局规划任务视为一个约束优化问题,需要专业的艺术知识,这使得这些方法对非专业人士不够友好,且在动态环境中不够灵活。近年来,基于神经网络的方法通过学习大规模数据集来自动化对象选择和放置,但这些方法在处理训练集中未出现的对象时存在局限性,限制了其适应性和多样性。
➡️ 研究动机:大型语言模型(LLMs)的快速发展为增强用户在家具布局生成中的交互提供了新的可能性。然而,现有的基于LLMs的方法主要依赖于文本输入,缺乏对视觉信息的充分整合,导致生成的布局虽然合理但不实用。此外,缺乏代理记忆和反馈机制,使得多轮对话无法实现,限制了用户对生成布局计划的迭代改进。为了解决这些问题,研究团队开发了一个基于多模态大型语言模型(MLLMs)的代理系统,专门用于生成家具布局。
➡️ 方法简介:研究团队提出了Chat2Layout,这是一个语言交互式的家具布局生成系统,利用MLLMs作为核心控制器。该系统通过建立统一的视觉-问题范式(Vision-Question Paradigm)来实现上下文学习,无需更新模型权重即可指导MLLMs利用文本和视觉信息进行推理。在此框架下,研究团队提出了一种无需训练的视觉提示机制,包括视觉-文本提示技术和离线到在线搜索(O2O-Search)方法,以自动识别最小支持集,提供参考示例,促进高效的情境学习。
➡️ 实验设计:研究团队在多个3D室内场景中进行了实验,验证了Chat2Layout在处理各种任务(如布局完成、重新排列、开放集放置和多轮交互)中的有效性和灵活性。实验结果表明,Chat2Layout能够支持多轮对话,使用户能够动态地与3D环境互动,并迭代地改进布局。此外,该系统还支持多种家具布局应用,包括对象的添加、删除、旋转、缩放和重新排列。

MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

➡️ 论文标题:MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training
➡️ 论文作者:Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo
➡️ 研究机构: IDEA Research, International Digital Economy Academy, Peking University
➡️ 问题背景:多模态大语言模型(MLLMs)在处理和生成多模态数据方面展现了卓越的能力。然而,这些模型依赖于静态训练数据,导致信息过时和上下文感知能力有限,尤其是在动态或快速变化的环境中。虽然多模态检索增强生成(Multimodal RAG)提供了一种解决方案,但系统会遇到多粒度噪声对应(MNC)问题,影响准确的检索和生成。
➡️ 研究动机:现有的多模态RAG方法在处理多粒度噪声对应问题时存在不足。为了提高模型在多模态检索增强生成任务中的准确性和鲁棒性,研究团队提出了一种新的框架RagVL,通过知识增强的重排序和噪声注入训练来缓解MNC问题。
➡️ 方法简介:RagVL框架包括三个阶段:检索、重排序和生成。在检索阶段,使用CLIP模型和faiss进行最大内积搜索(MIPS),找到与查询最相关的前K个图像。在重排序阶段,通过指令调优MLLMs,使其具备重排序能力,从而更精确地选择与查询相关的前N个图像。在生成阶段,通过在数据和标记级别注入噪声,增强生成器的鲁棒性。
➡️ 实验设计:实验在两个多模态QA数据集(WebQA和MultimodalQA)的图像相关子集上进行,评估了模型在检索和生成任务中的表现。实验设计了不同的评估指标(如R@1、R@5、R@10等),并在不同数据规模下验证了方法的泛化能力。此外,还在Flickr30K和MS-COCO数据集上进行了图像检索任务的评估。

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models

➡️ 论文标题:Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models
➡️ 论文作者:Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang
➡️ 研究机构: ShanghaiTech University、Zhejiang University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种视觉中心任务中展现了卓越的性能。然而,这些模型容易受到越狱攻击(jailbreak attacks),即恶意用户通过精心设计的提示词,使模型生成误导性或有害的回答,从而破坏模型的安全对齐。这种威胁不仅源于LLMs的固有漏洞,还由于视觉输入引入了更大的攻击范围。
➡️ 研究动机:为了增强MLLMs对越狱攻击的防御能力,研究团队提出了一种新的检测器——跨模态信息检测器(Cross-modality Information DEtectoR, CIDER)。CIDER旨在通过检测恶意图像输入,识别并阻止优化型越狱攻击,这些攻击通常不易被察觉。研究团队希望通过CIDER的引入,为MLLMs提供一种高效且低计算成本的防御机制。
➡️ 方法简介:CIDER利用跨模态信息的双刃剑特性,通过计算文本和图像模态之间的语义距离变化来检测恶意图像。具体而言,CIDER通过一个扩散去噪器(denoiser)对输入图像进行预处理,然后比较去噪前后图像与文本之间的语义相似度变化。如果变化超过预设阈值,则认为该图像是恶意的,MLLM将拒绝生成响应。
➡️ 实验设计:研究团队在四个开源MLLMs(LLaVA-v1.5-7B、MiniGPT4、InstructBLIP、Qwen-VL)和一个API访问的MLLM(GPT4V)上进行了实验。实验数据集包括800个对抗性文本-图像对,这些对由160个有害查询和对抗性图像生成。实验评估了CIDER的检测成功率(DSR)和攻击成功率(ASR),并与现有的基线方法Jailguard进行了比较。此外,还评估了CIDER在常规任务中的效用,确保其不会破坏模型的正常性能。

Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network

➡️ 论文标题:Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network
➡️ 论文作者:Bin Cheng, Jiaxuan Lu
➡️ 研究机构: Jilin University、Shanghai AI Lab
➡️ 问题背景:随着基础模型时代的到来,预训练和微调已成为常见的范式。然而,全微调方法在模型规模和任务数量增加时变得低效。因此,参数高效的微调方法受到了广泛关注。然而,现有的参数高效微调方法大多只处理单一模态,缺乏对下游任务中结构知识的利用。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种基于图神经网络的多模态参数高效微调方法。该方法不仅学习文本和图像信息,还考虑了不同模态之间的复杂关联,旨在提高模型在多模态任务中的性能。
➡️ 方法简介:研究团队提出了一种名为GA-Net的框架,该框架结合了图结构和多模态参数高效微调方法。具体来说,该方法包括四个主要模块:多模态特征提取、多模态图构建、图适配器网络(GA-Net)和预测。在多模态特征提取模块中,每个图像通过预训练的多模态大语言模型(MLLM)生成文本描述,然后通过冻结的图像编码器和文本编码器生成图像特征和文本特征。在多模态图构建模块中,基于多模态特征节点的相似性构建图结构。GA-Net模块通过图卷积网络(GCN)更新节点特征,最后在预测模块中,通过结合EWC正则化和交叉熵损失函数来提高模型性能。
➡️ 实验设计:研究团队在Oxford Pets、Flowers102和Food101三个数据集上进行了实验。实验结果表明,与当前的最先进方法相比,该模型在Oxford Pets数据集上提高了4.45%的测试准确率,在Flowers102数据集上提高了2.92%的测试准确率,在Food101数据集上提高了0.23%的测试准确率。此外,实验还评估了模型的参数效率,结果显示该模型在参数数量和内存消耗方面均表现出色。

Towards Flexible Evaluation for Generative Visual Question Answering

➡️ 论文标题:Towards Flexible Evaluation for Generative Visual Question Answering
➡️ 论文作者:Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院
➡️ 问题背景:当前的视觉问答(VQA)评估指标过于僵化,无法准确评估多模态大语言模型(MLLMs)生成的丰富回答。传统的评估方法如Exact Match和VQA Score要求模型的回答在形态上与标注答案完全一致,这限制了对MLLMs性能的全面评估。
➡️ 研究动机:为了克服现有评估方法的局限性,研究团队提出了一种基于语义相似性的评估方法,旨在评估MLLMs在VQA任务中的表现。该方法能够处理不同长度和风格的回答,提供更灵活和准确的评估。
➡️ 方法简介:研究团队提出了三个关键属性(Alignment、Consistency和Generalization)来系统评估VQA评估器的性能,并构建了一个高质量的人工标注数据集Assessing VQA Evaluators (AVE)。AVE数据集用于评估不同评估器在VQA任务中的表现,包括传统公式化评估器和基于模型的评估器。
➡️ 实验设计:实验在四个VQA数据集(OKVQA、A-OKVQA、VQA v2和GQA)上进行,通过收集多个MLLMs的响应,构建了AVE数据集。实验设计了不同的评估指标,包括Spearman秩相关系数,以评估评估器的性能。实验结果表明,提出的评估器在AVE数据集上的表现显著优于现有方法,包括ChatGPT和最先进的嵌入模型Voyage-lite-02-Instruct。


http://www.hkcw.cn/article/FxgtBcFFCf.shtml

相关文章

python学习打卡day42

DAY 42 Grad-CAM与Hook函数 知识点回顾 回调函数lambda函数hook函数的模块钩子和张量钩子Grad-CAM的示例 作业:理解下今天的代码即可 1.回调函数 Hook本质是回调函数,所以我们先介绍一下回调函数 回调函数是作为参数传递给其他函数的函数&#xff0…

VeriFree:无需Verifier的通用RL框架

文章目录 前言1. 研究背景与挑战1.1 传统强化学习框架(RLVR)的领域局限性1.2 引入LLM作为验证器的新挑战1.3 研究目标的提出 2. VeriFree方法核心原理2.1 问题定义与形式化建模2.2 核心思想:隐式验证与概率最大化2.3 训练技术细节 3. 实验4. …

uniapp uni-id 如果是正式项目,需自行实现发送邮件的相关功能

(3) 使用云对象sendEmailCode 发送邮箱验证码,报错送邮箱验证码失败 Error: 已启动测试模式,直接使用:123456作为邮箱验证码即可。 如果是正式项目,需自行实现发送邮件的相关功能 - DCloud问答 uni-id 没有实现邮箱验证码逻辑&am…

HiEV独家 | 整合智能化战线,奇瑞辅助驾驶驶向何方?

作者 |德新 编辑 |王博 组织调整是战略变革的映射,而战略变革最终要在产品上体现。 5月30日,奇瑞汽车官宣整合旗下雄狮科技、大卓智能与研发总院相关业务,成立「智能化中心」。智能化中心下设有智能座舱、智能辅助驾驶、电子电气架构等子中…

什么是软件需求可视化?如何实际运用?

一、什么是软件需求可视化? 将软件需求可视化是一个有助于团队成员更好地理解项目需求、促进沟通和协作的重要过程。以下是几种常见的方法和技术,可以帮助你有效地实现这一目标: 用户故事地图:这是一种通过创建一个从用户角度出发…

腾讯:强化学习提高LLM机器翻译

📖标题:TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment 🌐来源:arXiv, 2505.21172 🌟摘要 最近,像DeepSeek-R1这样的深度推理大型语言模型(LLM&…

C++ IO流

目录 一、C语言的输入与输出 二、流 三、CIO流 3.1 C标准IO流 3.2 C文件IO流 3.3 stringstream字符串流 一、C语言的输入与输出 在 C 语言中,最常用的输入输出函数是 scanf() 和 printf()。它们分别用于从标准输入读取数据,以及将数据输出到标准输出…

linux文件管理(补充)

1、查看文件命令 1.1 cat 用于连接文件并打印到标准输出设备上,它的主要作用是用于查看和连接文件。 用法: cat 参数 文件名 参数: -n:显示行号,会在输出的每一行前加上行号。 -b:显示行号,…

Relational Algebra(数据库关系代数)

目录 What is an “Algebra” What is Relational Algebra? Core Relational Algebra Selection Projection Extended Projection Product(笛卡尔积) Theta-Join Natural Join Renaming Building Complex Expressions Sequences of Assignm…

操作系统:进程管理(王道+计算机操作系统)

第二章 进程与线程 2.1进程的概念、组成与特征 2.1.1 进程与程序的区别 ​ 1.程序:静态的,就是放在磁盘里的可执行文件,如:QQ.exe。 ​ 2.进程:动态的,是程序的一次执行过程,如:…

浅谈简历制作的四点注意事项

如大家所了解的,一份工作,往往是从制作一份简历开始。 对于新人来说,简历制作的注意事项,你又了解多少呢?下面一起来看看吧! 简历字数:一封合格的简历字数大概在 350 词 – 650 词之间&#xf…

软考-数据库系统工程师-程序设计语言知识要点

小房学堂,程序设计语言知识要点 汇编、编译、解释系统的基础知识 计算机只能理解由0-1组成的指令,就像一个只会本国语言的人,他听不懂其他国家的语言 而程序员编程使用的是低级语言(汇编语言)或者高级语言如C、C、Jav…

6级翻译学习

找到一个中文句子先看中文句子的主谓宾,主系表 不会写的词不要写,不会影响得分,只要其他地方写对

【Rhino】【Python】adjust repeated column marks

#codingutf-8 import rhinoscriptsyntax as rs import re import System.Guiddef process_column_marks():# 获取目标图层中的所有文本对象layer_name "03 STR. DRAFT MEMBER::COLUMN MARK"text_objects rs.ObjectsByLayer(layer_name, True)if not text_objects o…

Goreplay最新版本的安装和简单使用

一:概述 Gor 是一个开源工具,用于捕获实时 HTTP 流量并将其重放到测试环境中,以便使用真实数据持续测试您的系统。它可用于提高对代码部署、配置更改和基础设施更改的信心。简单易用。 项目地址:buger/goreplay: GoReplay is an …

YOLOv5 环境配置指南

系统要求 Windows/Linux/MacOSNVIDIA GPU (推荐) 或 CPUPython 3.8CUDA 11.8 (如果使用 GPU) 安装步骤 1. 安装 Conda 如果还没有安装 Conda,请先从官网下载并安装 Miniconda。 2. 创建虚拟环境 # 创建名为 yolov5 的新环境,使用 Python 3.8 conda…

【算法应用】虚拟力算法VFA用于WSN覆盖,无人机网络覆盖问题

目录 1.虚拟力算法VFA2.WSN覆盖&无人机覆盖应用3.参考文献4.代码获取5.读者交流 1.虚拟力算法VFA 虚拟势场(Virtual Potential Field)最早因解决机器人路径规划及避障问题而被提出。它假设待优化个体会根据某种关系与周围的环境或其他个体产生力的作…

简历制作要精而不简

不得不说,不管是春招,还是秋招,我们在求职时,第一步便是制作一份简历。不得不承认,好的简历,就像一块敲门砖,能让面试官眼前一亮,让应聘成功的概率增添一分。 对于一个初次求职者来…

数据库管理与高可用-MySQL全量,增量备份与恢复

目录 #1.1MySQL数据库备份概述 1.1.1数据备份的重要性 1.1.2数据库备份类型 1.1.3常见的备份方法 #2.1数据库完全备份操作 2.1.1物理冷备份与恢复 2.1.2mysqldump备份与恢复 2.1.3MySQL增量备份与恢复 #3.1制定企业备份策略的思路 #4.1扩展:MySQL的GTID 4.1.1My…

论文解读 - 统一的多模态理解和生成模型综述(上)

一、 简要介绍 近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石…