多模态大语言模型arxiv论文略读(九十八)

article/2025/8/21 3:09:26

在这里插入图片描述

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

➡️ 论文标题:Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
➡️ 论文作者:Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang
➡️ 研究机构: Ant Group、Huazhong University of Science and Technology
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的能力,如图像描述、视觉问答和视觉定位。然而,随着数据量的增加,模型的预训练时间显著延长,成为进一步研究和应用的主要障碍。传统的MLLMs在预训练阶段处理大量的视觉token,导致计算成本高昂,且预训练时间过长。
➡️ 研究动机:为了减少预训练时间,同时不牺牲模型性能,研究团队提出了Chain-of-Sight,一种视觉-语言桥接模块。该模块通过多尺度视觉重采样器和复合token扩展策略,显著减少了预训练阶段所需的视觉token数量,从而加速预训练过程。
➡️ 方法简介:Chain-of-Sight的核心机制是多尺度视觉重采样器,该重采样器能够生成多尺度的视觉token。通过在预训练阶段减少视觉token的数量,并在微调阶段扩展token数量,Chain-of-Sight能够在保持或提升模型性能的同时,显著加速预训练过程。具体来说,该方法在预训练阶段使用少量的视觉token,而在微调阶段通过分辨率扩展和窗口扩展策略,将token数量增加到原来的16倍。
➡️ 实验设计:研究团队在多个视觉-语言基准数据集上进行了实验,包括图像描述、视觉问答和文本识别任务。实验结果表明,Chain-of-Sight不仅能够将预训练时间减少约73%,而且在多个任务上达到了与使用全部视觉token的模型相当或更好的性能。此外,通过进一步扩展token数量,模型的性能还可以进一步提升。

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

➡️ 论文标题:UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
➡️ 论文作者:Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong
➡️ 研究机构: 中国科学技术大学 & 国家认知智能重点实验室
➡️ 问题背景:多模态实体链接(Multimodal Entity Linking, MEL)是一项关键任务,旨在将多模态上下文中的模糊提及链接到多模态知识库中的实体。现有的方法过于复杂,且忽视了视觉语义信息,导致在处理文本模糊性、冗余和噪声图像等问题时性能严重下降。大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的出现为解决这些问题提供了新的思路。
➡️ 研究动机:尽管LLMs在许多数据任务中表现出色,但它们在处理多模态实体链接任务时仍面临挑战,如有效融合视觉和文本上下文、缺乏领域特定知识等。为了克服这些挑战,研究团队提出了一个统一的框架UniMEL,旨在利用LLMs和MLLMs处理多模态实体链接任务。
➡️ 方法简介:UniMEL框架通过以下方式增强实体链接任务:1) 使用MLLMs处理提及的图像和上下文信息,提取更深层次的语义关系;2) 使用LLMs的总结能力生成简洁的实体描述;3) 使用嵌入模型检索和重新排序候选实体;4) 通过微调LLMs的少量参数来选择最终的实体。
➡️ 实验设计:在三个公开的多模态实体链接数据集上进行了实验,包括Richpedia、WikiMEL和Wikidiverse。实验设计了不同的模块,如LLMs和MLLMs的增强、检索增强和多选选择,以全面评估UniMEL在不同条件下的表现。实验结果表明,UniMEL在这些数据集上取得了最先进的性能。

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

➡️ 论文标题:INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
➡️ 论文作者:Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
➡️ 研究机构: Xiamen University (XMU)
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种任务中展现了卓越的能力,但其视觉编码器的二次复杂度限制了输入图像的分辨率。现有的方法通过将高分辨率图像裁剪为较小的子图像来处理这一问题,但这些方法在捕捉全局上下文和局部细节方面存在不足。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的MLLM框架——INF-LLaVA,旨在有效处理高分辨率图像,同时保持全局和局部信息的完整性。
➡️ 方法简介:INF-LLaVA引入了两个创新组件:双视角裁剪模块(Dual-perspective Cropping Module, DCM)和双视角增强模块(Dual-perspective Enhancement Module, DEM)。DCM确保每个子图像从局部和全局视角包含连续的详细信息和全面的信息。DEM通过局部和全局特征的相互增强,使模型能够有效处理高分辨率图像。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的消融研究和实验,验证了DCM和DEM的有效性。实验结果表明,INF-LLaVA在处理高分辨率图像时不仅性能优越,而且显著优化了计算效率。

Harmonizing Visual Text Comprehension and Generation

➡️ 论文标题:Harmonizing Visual Text Comprehension and Generation
➡️ 论文作者:Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie
➡️ 研究机构: East China Normal University, ByteDance
➡️ 问题背景:当前的多模态生成模型在视觉文本理解与生成任务中表现出色,但同时生成图像和文本时,由于视觉和语言模态之间的固有不一致性,通常会导致性能下降。现有的方法通过模态特定的数据进行监督微调,需要不同的模型实例,这限制了模型的通用性和效率。
➡️ 研究动机:为了克服多模态生成中的模态不一致性问题,并实现单一模型实例中视觉和语言生成的统一,研究团队提出了Slide-LoRA方法。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。
➡️ 方法简介:研究团队提出了TextHarmony,一个统一且多功能的多模态生成模型,擅长理解和生成视觉文本。TextHarmony通过集成视觉编码器、LLM和图像解码器,实现了文本和图像的同步生成。为了缓解视觉和语言模态之间的不一致性,研究团队提出了Slide-LoRA,该方法通过动态调整不同模态生成任务的参数空间,部分解耦多模态生成空间。此外,研究团队还构建了一个高质量的图像字幕数据集DetailedTextCaps-100K,以进一步提升视觉文本生成能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉文本理解任务(如DocVQA、TabFact、TextVQA等)和视觉文本生成任务(如AnyText-benchmark-EN、MARIOEval等)。实验结果表明,TextHarmony在视觉文本理解任务上达到了与专门的文本理解模型相当的性能,在视觉文本生成任务上也表现出色。具体来说,TextHarmony在视觉文本理解任务上平均提升了2.5%,在视觉文本生成任务上平均提升了4.0%。

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

➡️ 论文标题:MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
➡️ 论文作者:Liyun Zhang
➡️ 研究机构: Osaka University
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在多模态情感识别任务中表现出色,能够整合视觉、声学和语言模态的信息来识别人类的情感状态。然而,这些模型在捕捉微表情的时间动态和话语感知的时间段的上下文依赖性方面存在不足,限制了其在多模态情感识别任务中的有效性。
➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。通过引入全局-局部注意力视觉编码器和话语感知视频Q-Former,MicroEmo能够捕捉更细微和深层次的情感信息,提供更丰富和可靠的情感识别结果。
➡️ 方法简介:研究团队提出了两个关键模块:1) 全局-局部注意力视觉编码器,整合全局帧级时间戳绑定图像特征与局部面部特征的时间动态;2) 话语感知视频Q-Former,通过生成每个话语段和整个视频的视觉令牌序列来捕捉多尺度和上下文依赖性。
➡️ 实验设计:研究团队在新的Explainable Multimodal Emotion Recognition (EMER)任务上进行了初步的定性实验,该任务利用多模态和多方面的线索以开放词汇的方式预测情感。实验结果表明,MicroEmo在捕捉细微情感变化方面优于现有方法,同时保持了上下文的准确性。


http://www.hkcw.cn/article/iXjJHpuZlC.shtml

相关文章

Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)

文章目录 一、Trition推理服务器基础知识1)推理服务器设计概述2)Trition推理服务器quickstart(1)创建模型仓库(Create a model Repository)(2)启动Triton (launching triton)并验证是否正常运行(3)发送推理请求(send a inference request)3)Trition推理服务器架…

端午连休3天高速收费 假期出行需注意

根据国务院办公厅《关于2025年部分节假日安排的通知》,端午节放假时间为5月31日(周六)至6月2日,共3天。此次端午节放假不调休。责任编辑:zx0176

6月北方旱区旱情将有所缓和 降水增多缓解干旱

5月29日,中国气象局举行新闻发布会,会上回顾了5月全国天气气候特征,并发布了“端午”假期天气预报及6月气候趋势预测。5月全国天气气候特征包括:今年首次高温过程影响华北、华中、西北等地;陕甘宁晋豫等地气象干旱阶段性发展;有6次强对流天气过程和4次沙尘天气过程影响我…

Git 全平台安装指南:从 Linux 到 Windows 的详细教程

目录 一、Git 简介 二、Linux 系统安装指南 1、CentOS/RHEL 系统安装 2、Ubuntu/Debian 系统安装 3、Windows 系统安装 四、安装后配置(后面会详细讲解,现在了解即可) 五、视频教程参考 一、Git 简介 Git 是一个开源的分布式版本控制系…

Spring:从青铜到王者,你的Java修炼手册

一、Spring家族宇宙:原来你是这样的框架(青铜段位) 1.1 Spring的"前世今生":从泡面到满汉全席 ​​2002年的泡面哲学​​:Rod Johnson在厨房煮泡面时突然顿悟:"Java开发为什么不能像泡面一…

SpringSecurity

SpringSecurity 一&#xff1a;快速入门&#xff1a; 创建好一个springboot-maven项目&#xff0c;写好启动类&#xff0c;并且编写简单的controller&#xff0c;加上以下依赖&#xff1a; </dependency><dependency><groupId>org.springframework.boot&l…

SQL Server 代理作业故障排查:关键任务失败的根因分析

关键词:SQL Server 代理作业故障,MessageBox_Message_ManageRefCountLog_BizTalkMsgBoxDb,BizTalk Server,数据库维护,关键任务失败,作业异常,根因分析,死锁,事务日志,磁盘空间,权限问题,SQL Server Agent,故障排查 SQL Server 代理作业(SQL Server Agent Jobs)…

业内:董宇辉拒绝“孙东旭”!

业内:董宇辉拒绝“孙东旭”!短短一年半时间,董宇辉将与辉同行团队从70人扩张至300余人,核心主播不足十人,却创造出百亿元的年销售额。董宇辉是核心主播,也是老板、是CEO。今年4月的一次访谈中,新浪财经CEO邓庆旭问董宇辉“你有一个职业经理人,帮你打点这一切吗?”董宇…

俄罗斯无人机自主任务规划!UAV-CodeAgents:基于多智能体ReAct和视觉语言推理的可扩展无人机任务规划

作者&#xff1a;Oleg Sautenkov 1 ^{1} 1, Yasheerah Yaqoot 1 ^{1} 1, Muhammad Ahsan Mustafa 1 ^{1} 1, Faryal Batool 1 ^{1} 1, Jeffrin Sam 1 ^{1} 1, Artem Lykov 1 ^{1} 1, Chih-Yung Wen 2 ^{2} 2, and Dzmitry Tsetserukou 1 ^{1} 1单位&#xff1a; 1 ^{1} 1斯科尔…

杀人嫌犯潜逃27年终落网 乡音破解身份密码

27年前,时年21岁的外省小伙阿亮在当地与一猪肉摊摊主发生口角,一时冲动持刀将其杀害后隐姓埋名潜逃。由于当时技术条件有限,追凶工作一度陷入困境。27年后,阿亮辗转多地来到扬州仪征。仪征警方凭借一句乡音破解了他的“身份密码”,成功将其抓获归案。这起尘封多年的命案积…

贵州58岁产妇产下一名男婴 高龄母亲的奇迹

5月27日17点10分左右,在遵义市妇幼保健院内,一名体重2600克的健康男婴顺利降生。这位男婴的母亲是58岁的李女士,她是该院截至目前妊娠年龄第二大的产妇。作为李女士的手术大夫,遵义市妇幼保健院产科主任马玲玲介绍,尽管李女士身体条件尚可,没有基础性疾病,但因其高龄且此…

vue3 el-upload实现上传图片为base64格式并存储进表单

一、template <el-form-item label"图片" prop"images"><el-uploadaction"#":accept"[image/jpeg, image/png, image/gif].join(,)"list-type"picture-card":auto-upload"true":on-change"handleU…

DMBOK对比知识点对比(3)

1.数据仓库建设方法(Inmon、Kimball) 数据仓库建设方法(Inmon、Kimball)P293方法

制造业的未来图景:超自动化与劳动力转型的双重革命

市场现状&#xff1a;传统制造业的转型阵痛 当前全球制造业正站在历史性变革的十字路口。埃森哲对552位工厂经理的全球调研显示&#xff0c;60%的受访者将劳动力转型视为首要战略任务​​&#xff0c;而63%的工厂正在加速部署自动化技术[1]。超过​75%的工厂经理​​认为&…

上传图片转成3D VR效果 / 用photo-sphere-viewer实现图片VR效果 / VR效果在项目中落地实践

系统简介 : 该系统为 react TS tailwindcss photo-sphere-viewer 的响应式 VR360 项目, 上传图片后可实现手动旋转 3D 图片,还包含了 6 贴图立方体展示和 6 贴图动态展示 目前为单图切换模式 全部页面概览 这是单面VR页面的代码(gif展示页面) import React, { useRef, u…

【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

文章目录 一、摘要二、问题三、Method3.1 Latent Diffusion Model3.2 Motion-guided Diffusion Sampling3.3 Temporal-aware Decoder Fine-tuning 四、实验设置4.1 训练阶段4.2 训练数据 贡献总结 论文全称&#xff1a; Motion-Guided Latent Diffusion for Temporally Consis…

Linux安装mysql5.7详细教程

&#x1f353; 简介&#xff1a;java系列技术分享(&#x1f449;持续更新中…&#x1f525;) &#x1f353; 初衷:一起学习、一起进步、坚持不懈 &#x1f353; 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正&#x1f64f; &#x1f353; 希望这篇文章对你有所帮助,欢…

@高考考生和家长 别带违禁物品、勿信“押题”

2025年高考临近,一些不法分子受利益驱使,散布高考相关虚假信息,制造贩卖焦虑,组织实施诈骗,甚至诱导考生作弊,严重损害考生和家长切身利益,严重扰乱考试招生秩序。为此,教育部会同相关部门梳理汇总了近年来出现的一些典型案例,提醒广大考生和家长切勿相信谣言,谨防上…

Linux文件管理

1 查看文件内容 在 Linux 操作系统中&#xff0c;绝大多数的配置文件是以普通文本格式保存的&#xff0c;这些配置文件决定着系统及相关服务、程序的运行特性。查看及检索文本文件的内容&#xff0c;能够快速了解相关配置信息&#xff0c;以便为管理、维护操作系统提供有效的参…