多模态大语言模型arxiv论文略读（102）-海口c网

在这里插入图片描述

Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM

➡️ 论文标题：Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM
➡️ 论文作者：Can Wang, Hongliang Zhong, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao
➡️ 研究机构: City University of Hong Kong, Google AR Perception, Netflix Eyeline Studios, Microsoft Cloud AI
➡️ 问题背景：自动家具布局在室内设计、游戏开发和虚拟现实等应用中扮演着重要角色。传统方法通常将家具布局规划任务视为一个约束优化问题，需要专业的艺术知识，这使得这些方法对非专业人士不够友好，且在动态环境中不够灵活。近年来，基于神经网络的方法通过学习大规模数据集来自动化对象选择和放置，但这些方法在处理训练集中未出现的对象时存在局限性，限制了其适应性和多样性。
➡️ 研究动机：大型语言模型（LLMs）的快速发展为增强用户在家具布局生成中的交互提供了新的可能性。然而，现有的基于LLMs的方法主要依赖于文本输入，缺乏对视觉信息的充分整合，导致生成的布局虽然合理但不实用。此外，缺乏代理记忆和反馈机制，使得多轮对话无法实现，限制了用户对生成布局计划的迭代改进。为了解决这些问题，研究团队开发了一个基于多模态大型语言模型（MLLMs）的代理系统，专门用于生成家具布局。
➡️ 方法简介：研究团队提出了Chat2Layout，这是一个语言交互式的家具布局生成系统，利用MLLMs作为核心控制器。该系统通过建立统一的视觉-问题范式（Vision-Question Paradigm）来实现上下文学习，无需更新模型权重即可指导MLLMs利用文本和视觉信息进行推理。在此框架下，研究团队提出了一种无需训练的视觉提示机制，包括视觉-文本提示技术和离线到在线搜索（O2O-Search）方法，以自动识别最小支持集，提供参考示例，促进高效的情境学习。
➡️ 实验设计：研究团队在多个3D室内场景中进行了实验，验证了Chat2Layout在处理各种任务（如布局完成、重新排列、开放集放置和多轮交互）中的有效性和灵活性。实验结果表明，Chat2Layout能够支持多轮对话，使用户能够动态地与3D环境互动，并迭代地改进布局。此外，该系统还支持多种家具布局应用，包括对象的添加、删除、旋转、缩放和重新排列。

MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

➡️ 论文标题：MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training
➡️ 论文作者：Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo
➡️ 研究机构: IDEA Research, International Digital Economy Academy, Peking University
➡️ 问题背景：多模态大语言模型（MLLMs）在处理和生成多模态数据方面展现了卓越的能力。然而，这些模型依赖于静态训练数据，导致信息过时和上下文感知能力有限，尤其是在动态或快速变化的环境中。虽然多模态检索增强生成（Multimodal RAG）提供了一种解决方案，但系统会遇到多粒度噪声对应（MNC）问题，影响准确的检索和生成。
➡️ 研究动机：现有的多模态RAG方法在处理多粒度噪声对应问题时存在不足。为了提高模型在多模态检索增强生成任务中的准确性和鲁棒性，研究团队提出了一种新的框架RagVL，通过知识增强的重排序和噪声注入训练来缓解MNC问题。
➡️ 方法简介：RagVL框架包括三个阶段：检索、重排序和生成。在检索阶段，使用CLIP模型和faiss进行最大内积搜索（MIPS），找到与查询最相关的前K个图像。在重排序阶段，通过指令调优MLLMs，使其具备重排序能力，从而更精确地选择与查询相关的前N个图像。在生成阶段，通过在数据和标记级别注入噪声，增强生成器的鲁棒性。
➡️ 实验设计：实验在两个多模态QA数据集（WebQA和MultimodalQA）的图像相关子集上进行，评估了模型在检索和生成任务中的表现。实验设计了不同的评估指标（如R@1、R@5、R@10等），并在不同数据规模下验证了方法的泛化能力。此外，还在Flickr30K和MS-COCO数据集上进行了图像检索任务的评估。

Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models

➡️ 论文标题：Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models
➡️ 论文作者：Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang
➡️ 研究机构: ShanghaiTech University、Zhejiang University
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种视觉中心任务中展现了卓越的性能。然而，这些模型容易受到越狱攻击（jailbreak attacks），即恶意用户通过精心设计的提示词，使模型生成误导性或有害的回答，从而破坏模型的安全对齐。这种威胁不仅源于LLMs的固有漏洞，还由于视觉输入引入了更大的攻击范围。
➡️ 研究动机：为了增强MLLMs对越狱攻击的防御能力，研究团队提出了一种新的检测器——跨模态信息检测器（Cross-modality Information DEtectoR, CIDER）。CIDER旨在通过检测恶意图像输入，识别并阻止优化型越狱攻击，这些攻击通常不易被察觉。研究团队希望通过CIDER的引入，为MLLMs提供一种高效且低计算成本的防御机制。
➡️ 方法简介：CIDER利用跨模态信息的双刃剑特性，通过计算文本和图像模态之间的语义距离变化来检测恶意图像。具体而言，CIDER通过一个扩散去噪器（denoiser）对输入图像进行预处理，然后比较去噪前后图像与文本之间的语义相似度变化。如果变化超过预设阈值，则认为该图像是恶意的，MLLM将拒绝生成响应。
➡️ 实验设计：研究团队在四个开源MLLMs（LLaVA-v1.5-7B、MiniGPT4、InstructBLIP、Qwen-VL）和一个API访问的MLLM（GPT4V）上进行了实验。实验数据集包括800个对抗性文本-图像对，这些对由160个有害查询和对抗性图像生成。实验评估了CIDER的检测成功率（DSR）和攻击成功率（ASR），并与现有的基线方法Jailguard进行了比较。此外，还评估了CIDER在常规任务中的效用，确保其不会破坏模型的正常性能。

Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network

➡️ 论文标题：Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network
➡️ 论文作者：Bin Cheng, Jiaxuan Lu
➡️ 研究机构: Jilin University、Shanghai AI Lab
➡️ 问题背景：随着基础模型时代的到来，预训练和微调已成为常见的范式。然而，全微调方法在模型规模和任务数量增加时变得低效。因此，参数高效的微调方法受到了广泛关注。然而，现有的参数高效微调方法大多只处理单一模态，缺乏对下游任务中结构知识的利用。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种基于图神经网络的多模态参数高效微调方法。该方法不仅学习文本和图像信息，还考虑了不同模态之间的复杂关联，旨在提高模型在多模态任务中的性能。
➡️ 方法简介：研究团队提出了一种名为GA-Net的框架，该框架结合了图结构和多模态参数高效微调方法。具体来说，该方法包括四个主要模块：多模态特征提取、多模态图构建、图适配器网络（GA-Net）和预测。在多模态特征提取模块中，每个图像通过预训练的多模态大语言模型（MLLM）生成文本描述，然后通过冻结的图像编码器和文本编码器生成图像特征和文本特征。在多模态图构建模块中，基于多模态特征节点的相似性构建图结构。GA-Net模块通过图卷积网络（GCN）更新节点特征，最后在预测模块中，通过结合EWC正则化和交叉熵损失函数来提高模型性能。
➡️ 实验设计：研究团队在Oxford Pets、Flowers102和Food101三个数据集上进行了实验。实验结果表明，与当前的最先进方法相比，该模型在Oxford Pets数据集上提高了4.45%的测试准确率，在Flowers102数据集上提高了2.92%的测试准确率，在Food101数据集上提高了0.23%的测试准确率。此外，实验还评估了模型的参数效率，结果显示该模型在参数数量和内存消耗方面均表现出色。

Towards Flexible Evaluation for Generative Visual Question Answering

➡️ 论文标题：Towards Flexible Evaluation for Generative Visual Question Answering
➡️ 论文作者：Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院
➡️ 问题背景：当前的视觉问答（VQA）评估指标过于僵化，无法准确评估多模态大语言模型（MLLMs）生成的丰富回答。传统的评估方法如Exact Match和VQA Score要求模型的回答在形态上与标注答案完全一致，这限制了对MLLMs性能的全面评估。
➡️ 研究动机：为了克服现有评估方法的局限性，研究团队提出了一种基于语义相似性的评估方法，旨在评估MLLMs在VQA任务中的表现。该方法能够处理不同长度和风格的回答，提供更灵活和准确的评估。
➡️ 方法简介：研究团队提出了三个关键属性（Alignment、Consistency和Generalization）来系统评估VQA评估器的性能，并构建了一个高质量的人工标注数据集Assessing VQA Evaluators (AVE)。AVE数据集用于评估不同评估器在VQA任务中的表现，包括传统公式化评估器和基于模型的评估器。
➡️ 实验设计：实验在四个VQA数据集（OKVQA、A-OKVQA、VQA v2和GQA）上进行，通过收集多个MLLMs的响应，构建了AVE数据集。实验设计了不同的评估指标，包括Spearman秩相关系数，以评估评估器的性能。实验结果表明，提出的评估器在AVE数据集上的表现显著优于现有方法，包括ChatGPT和最先进的嵌入模型Voyage-lite-02-Instruct。