25年5月来自字节、深圳先进技术研究院、Monash 大学、香港科大和 UC Santa Cruz 的论文“Emerging Properties in Unified Multimodal Pretraining”。
统一多模态理解与生成已在尖端专有系统中展现出令人瞩目的能力。本研究的 BAGEL,是一个原生支持多模态理解与生成的开源基础模型。BAGEL 是一个统一的、仅用于解码器的模型,已基于从大规模交错文本、图像、视频和 Web 数据中精选的数万亿个 tokens 进行预训练。当使用如此多样化的多模态交错数据进行扩展时,BAGEL 在复杂的多模态推理中展现出涌现的能力。因此,它在标准基准测试中,在多模态生成和理解方面均显著优于开源统一模型,同时展现出先进的多模态推理能力,例如自由形式图像处理、未来帧预测、3D 操作和世界导航。
统一多模态理解与生成领域的兴趣激增,众多研究项目 [57, 66, 68, 70, 73, 79, 83, 88] 展示了通过精心设计的统一架构联合优化生成和理解基准的良好成果。尽管 [1, 11, 70] 的一些研究尝试扩展其统一模型,但它们仍然主要使用来自标准图像生成和理解任务的图像-文本配对数据进行训练。最近的研究 [10] 表明,在统一多模态理解与生成方面,学术模型与 GPT-4o 和 Gemini 2.0 等专有系统之间存在巨大差距,这些专有系统的底层技术仍未公开。缩小这一差距的关键在于使用精心构建的多模态交错数据进行扩展——集成文本、图像、视频和网络资源。实验揭示随着交错多模态预训练规模扩大,出现涌现特性。除了增强核心的多模态理解和生成能力之外,扩展还促进了复杂的组合能力,例如自由形式的视觉操作和具有长上下文推理的多模态生成,为广泛的高级功能铺平了道路。
可扩展生成认知模型 (BAGEL) ,是一个开源多模态基础模型,拥有 70 亿个有效参数(总计 140 亿个),基于大规模交错多模态数据进行训练。BAGEL 在标准多模态理解排行榜上的表现超越当前顶级的开源视觉语言模型 (VLM) [4, 12],其文本转图像质量可与 SD3 [19] 和 FLUX.1-dev [35] 等领先的公共生成器相媲美。此外,BAGEL 在经典图像编辑场景中展现出优于领先开源模型的持续定性结果。更重要的是,它扩展到自由形式的视觉操作、多视图合成和世界导航,这些功能构成了超越以往图像编辑模型范围的“世界建模”任务。如图展示了其定性的性能。
如图所示,BAGEL 采用一种 MoT 架构,包含两个 Transformer Expert——一个专注于多模态理解,另一个专注于多模态生成。相应地,该模型采用了两个独立的视觉编码器:一个面向理解的编码器和一个面向生成的编码器。这两个 Transformer Expert 通过每一层的共享自注意机制对同一 token 序列进行操作。在预测文本 token 时,BAGEL 遵循“下一个 token 预测”范式,并继承了自回归语言模型的公认优势。在视觉 token 预测方面,BAGEL 采用了 Rectified Flow [19, 41, 45] 方法,遵循视觉生成领域的最佳实践。
模型设计空间
统一多模态生成和理解模型的典型设计选择包括:
量化增强现实 (AR)。自回归视觉生成 [11, 48, 59, 70, 79, 83–85, 89] 结合离散视觉token化器 [31, 36, 51, 93]。这类方法利用“下一个token预测 (Next-Token-Prediction)”范式进行文本和视觉token生成,由于可以直接利用现有的 LLM 基础架构,因此易于实现。然而,自回归模型的视觉生成质量在经验上不如基于扩散的模型。此外,由于自回归方法的顺序性,推理延迟会受到影响。
外部扩散器。LLM 主干与外部扩散模块相结合 [18, 23, 57, 69, 73]。该设计通过轻量级、可训练的适配器将预训练的 LLM/VLM 连接到扩散模型。通常,语言主干会自回归地生成一组潜token作为“语义条件”信号,然后由扩散模块使用这些信号生成图像。这种设置通常能够以最小的数据消耗快速收敛,并且在现有的多模态生成和理解基准上也能取得颇具竞争力的性能 [57]。然而,其主要缺点是将 LLM 上下文压缩为相对较少的潜tokens。这在理解模块和生成模块之间引入了明显的瓶颈,可能导致大量信息丢失,尤其是在长上下文多模态推理中。这种限制可能与大型基础模型的扩展理念相矛盾。
集成 Transformer。在单个 Transformer 中统一集成 LLM 和扩散模型 [40, 50, 66, 102]。受自回归 Transformer(强大的理解/推理能力)和扩散 Transformer(强大的视觉生成能力)互补优势的驱动,该方法利用它们通用的模型架构,实现两种范式之间的无缝切换。与外部扩散器 (External Diffuser) 解决方案相比,它需要的训练算力显著提升。尽管如此,它仍然具有显著优势,因为它能够在所有 Transformer 模块中保持无瓶颈上下文,从而实现生成模块和理解模块之间的无损交互,并且更易于扩展。
本研究中,认为统一模型能够从大规模交错多模态数据中学习更丰富的多模态能力——这是传统基准测试无法捕捉到的涌现能力。为此,选择无瓶颈集成式 Transformer 解决方案,其在大规模训练环境中拥有更大的潜力,并且可以更好地作为长上下文多模态推理以及强化学习的基础模型。
架构
主干模型继承自一个仅包含解码器的 Transformer 架构的 LLM。选择 Qwen2.5 LLM [92] 作为初始化模型,因为它性能卓越 [21] 且公开可用。它采用 RMSNorm [97] 进行归一化,SwiGLU [65] 进行激活,RoPE [67] 进行位置编码,并使用 GQA [2] 进行K-V缓存的缩减。此外,在每个注意模块中添加了 QK-Norm [15],这遵循图像/视频生成模型 [19, 35, 63] 中的常见做法,有效地稳定训练过程。
视觉信息从两个方面进行表示:
• 为了便于视觉理解,利用 ViT 编码器将原始像素转换为 token。采用分辨率固定为 384 的 SigLIP2-so400m/14 [75] 作为 ViT 编码器的初始化模型。在此基础上,首先对位置嵌入进行插值,并将 980 × 980 设置为最大输入尺寸,然后集成 NaViT [16] 以便能够以原始宽高比处理图像。采用双层 MLP 连接器来匹配 ViT tokens 和 LLM 隐状态的特征维度。
• 对于视觉生成,用 FLUX [35] 中预训练的 VAE 模型将图像从像素空间转换为潜空间,反之亦然。潜表示的下采样率为 8,潜通道数为 16,然后由 2 × 2 的块嵌入层处理,以减小空间大小并匹配 LLM 主干的隐维度。VAE 模型在训练期间处于冻结状态。
框架在将 ViT 和 VAE tokens 集成到 LLM 主干之前,对其进行二维位置编码。对于扩散时间步长编码,遵循 [17] 的方法,将时间步长嵌入直接添加到 VAE tokens 的初始隐藏状态,而不是像传统扩散Transformer [19, 35, 82] 那样使用 AdaLN。这种修改在保持性能的同时,也产生了更清晰的架构。在 LLM 中,来自理解和生成任务的文本、ViT 和 VAE tokens 根据输入的模态结构进行交错。对于属于同一样本的token,采用因果注意机制的广义版。这些tokens 首先被划分为多个连续的分片,每个分片包含来自单一模态(例如,文本、ViT 或 VAE)的 tokens。一个分片中的 tokens 可能会关注前面分片中的所有 tokens。在每个分片中,对文本 tokens 采用因果注意,并对视觉标记保持双向注意。
广义因果注意机制
在训练过程中,一个交错多模态生成样本可能包含多幅图像。对于每幅图像,准备三组视觉 tokens:
• 带噪 VAE tokens:受扩散噪声污染的 VAE 潜向量,专用于 Rectified-Flow 训练;MSE 损失在此集合上计算。
• 干净 VAE tokens:原始(无噪声)潜向量,在生成后续图像或文本 tokens 时用作条件。
• ViT tokens:由 SigLIP2 编码器获取,有助于统一交错生成和理解数据的输入格式,并且从经验上讲,有助于提高交错生成的质量。
对于交错图像或文本生成,后续图像或文本 tokens 可能会关注前一图像的干净 VAE token 和 ViT token,但不会关注其带噪 VAE 对应 token。
对于交错多图像生成,采用扩散强制策略 [8],该策略为不同图像添加独立的噪声级别,并将每幅图像置于先前图像的噪声表示之上。此外,为了增强生成的一致性,按照 [17] 对连续图像进行随机分组,并在每组内应用全注意机制。每组内的噪声级别相同。
用 PyTorch FlexAttention [72] 实现广义因果注意机制,与简单的尺度点积注意机制相比,实现 ∼2 倍的加速。在推理过程中,广义因果结构允许缓存生成的多模态上下文的 KV 对,从而加速多模态解码。仅存储干净的 VAE token 和 ViT token 的 KV 对;图像完全生成后,上下文中相应的带噪声 VAE token 将被其干净的对应 token 替换。为了在交错推理中实现无分类器引导 [29],分别以 0.1、0.5 和 0.1 的概率随机删除文本、ViT 和干净的 VAE tokens。如图展示广义随意注意机制的示意图:
Transformer 设计
遵循集成 Transformer 解决方案的原则,比较几种 Transformer 变型:标准 Dense Transformer、混合专家 (MoE) Transformer 和混合 Transformer (MoT) 架构。
• MoE 变型:仅复制每个 Qwen2.5 LLM 块中的前馈网络 (FFN),作为生成专家的初始化。
• MoT 变型:复制 Qwen2.5 LLM 的所有可训练参数,以创建一个全尺寸的生成专家。此类架构已被现有研究 [40, 66] 采用。
模型中的 MoE 和 MoT 均采用硬路由:新复制的“生成专家”专门处理 VAE token,而原始参数(“理解专家”)则遵循 Qwen-VL 系列的策略 [4, 77],处理文本和 ViT tokens。尽管与密集基线相比,MoE 和 MoT 架构的总参数数量增加了约两倍,但这三种模型变型在训练和推理过程中的 FLOPs 相同。
在 1.5B Qwen-2.5 LLM 上进行一项受控实验,保持相同的超参数和数据配置,以将 Transformer 架构隔离为唯一变量。如图所示,MoT 变型的性能始终优于密集和 MoE 设计,且在多模态生成任务中差距最为明显。MSE 损失(生成)呈现出平滑的单调递减轨迹,其中 MoT 不仅收敛速度最快,而且最终损失也最低。相比之下,CE 损失(理解)表现出更大的逐步波动——这是交错异构数据的预期结果——但 MoT 仍然总体上保持了最佳性能。
这些发现凸显了将用于生成的参数与用于理解的优化参数分离的明显优势,这表明这两个目标可能会将模型引向参数空间的不同区域——至少在本文考察的15亿规模上是如此。简而言之,为多模态理解和生成分配单独的容量,可以缓解因特定模态学习目标相互竞争而产生的优化挑战。
由于数据定义了大型基础模型的知识边界,BAGEL 在涵盖多种模态的多样化数据集上进行训练,包括语言、图像、视频和网络数据,使其能够通过统一的多模态界面执行多模态推理、上下文预测、物理动态建模和未来帧预测。除了标准的视觉语言 (VLM)、文本-转-图像 (T2I) 和大规模语言建模 (LLM) 数据集外,还从网络和视频源构建了新的视觉文本交错数据集,以进一步增强模型的顺序多模态推理能力。下表总结跨不同模态的训练数据的规模和组成。
纯文本数据
为了保持底层 LLM 的语言建模能力,在训练语料库中补充一系列高质量的纯文本数据。这些数据经过精心挑选,以支持广泛的语言覆盖范围,并能够在通用文本任务中实现强大的推理和生成能力。
视觉-文本配对数据
文本-图像配对数据在多模态学习中发挥着核心作用,为视觉-语言模型 (VLM) [37, 77] 和文本-转-图像 (T2I) 生成 [5, 35, 58, 62] 提供大规模视觉监督。在设置中,根据视觉-文本配对数据的下游用途将其组织成两个子集:一个用于 VLM 预训练,一个用于 T2I 生成。
VLM 图像-文本配对。利用大规模图像-文本配对进行 VLM 训练,涵盖广泛的视觉概念,主要来源于网络替代文本和图片说明。数据经过基于 CLIP 的相似性过滤、分辨率和长宽比约束、文本长度检查和去重处理,以确保质量和多样性。为了解决长尾分布问题,采用概念-觉察抽样来提高稀有类别的覆盖率。此外,还加入来自 OCR 文档、图表和落地注释的结构化监督,以增强模型的阅读和空间理解能力。
T2I 图像-文本对。整合高质量的图像-文本对,以及来自现有 T2I 模型 [19, 35] 的少量合成数据。这些数据不仅包含艺术、文本和超现实主义等多种字幕风格,还包含经过清晰度、结构完整性和语义多样性过滤的高质量图像。这些示例共同提升 T2I 训练语料库的视觉质量和风格多样性。
视觉-文本交错数据
虽然视觉-文本交错数据提供有用的监督,但它在支持涉及多幅图像和中间文本的复杂上下文推理方面存在不足。使用此类数据训练的模型通常难以捕捉跨模态的视觉和语义关系,导致生成的模型缺乏一致性。为了突破这些限制,将大规模视觉-文本交错数据融入训练中。为了提升多模态理解能力,利用 VLM 交错数据集。对于视觉生成,引入一种统一的协议,通过整合不同的数据源来构建视觉-文本交错数据,以支持更丰富的多模态交互。
数据源
为了通过可扩展的数据供应全面覆盖多样化的现实世界场景,训练语料库整合两个主要来源,它们为多模态推理提供了充足的知识:视频数据和网络数据。
视频数据通过直接从现实世界——最大、最自然的模拟器——捕捉时间和空间动态,提供了丰富的世界知识。它保留了细粒度的视觉细节,保持了跨帧的身份一致性,并能够模拟复杂的运动,使其在图像编辑、导航和 3D 操作等任务中尤为有效。用公开的在线视频资源以及两个开源数据集构建视频数据集:Koala36M [78],它提供大规模的教学和丰富的交互内容;以及 MVImgNet2.0 [28],它包含从不同摄像机视角捕获的目标,以支持多视角空间理解。
网络数据捕捉复杂的现实世界多模态结构,并提供涵盖广泛领域的多样化知识。它包括自然交错的资源,例如带插图的百科全书文章、分步可视化教程和其他内容丰富的文档。这种交错格式为训练模型进行多模态推理提供了丰富的监督。以 OmniCorpus [39] 为基础,这是一个由 Common Crawl [14] 预处理的大规模数据集,它提供大量包含交错文本和图像的网络文档。另外,还将开源图像编辑数据集作为结构化交错数据 [3, 22, 32, 80, 87, 100],用于教授细粒度的编辑行为并增强模型精确的多模态推理和逐步生成的能力。
数据过滤
视频数据的数据过滤。遵循 T2V 视频处理流程 [63] 协议,通过时间分割、空间裁剪和质量过滤将视频预处理成高质量的训练片段。首先,使用轻量级镜头检测将视频分割成短小、连贯的片段,并根据视觉相似性选择性地合并相关片段。然后,使用裁剪检测和帧级边框聚合去除黑色边框和叠加层(例如徽标或文本)。为了确保质量,根据长度、分辨率、清晰度和运动稳定性对片段进行过滤,并使用基于 CLIP 的相似性进行重复数据删除。此过程生成一个干净且多样化的视频数据集,适用于多模态训练。
Web 数据的数据过滤。为了从大型语料库中整理高质量的交错数据,设计一个两阶段过滤流程,针对教程、百科全书条目和设计内容等文档,其中文本和图像表现出很强的语义对齐性。受 DeepSeekMath [64] 的启发,首先应用一个轻量级的主题选择流程:LLM 被要求对一小部分文档进行分类,并将得到的标签用于训练 fastText [34] 分类器,以实现高效的大规模推理。之后,选定的数据将再次通过 LLM 分类器进行细粒度过滤。采用 Qwen2.5 模型 14B 变型 [92],以实现性能和效率的平衡。为了进一步提高数据质量,应用一组基于规则的过滤器,分别针对图像清晰度、相关性和文档结构进行过滤,如表所示:
数据构建
来自视频的交错数据。为了从视频中构建图文交错序列,生成连续帧之间视觉变化的文本描述——捕捉目标运动、动作转换和场景转换。这些帧间字幕作为学习视觉动态的时间监督。虽然大型 VLM 可以生成高质量的变化描述,但其推理成本限制了可扩展性。本文基于 Qwen2.5-VL-7B [4] 提炼出一个轻量级字幕模型,并基于一小组高质量的帧间样本进行微调。为了减少幻觉,将字幕长度限制为 30 个tokens。对于每个视频片段,】平均采样四帧,并为每个帧对生成字幕,最终生成 4500 万个时间上一致的交错序列。如图 a 展示数据流水线以及一个示例。
来自网络的交错数据。为了从网络文档构建高质量的交错序列,旨在降低由于图像其附带文本和周围视觉环境之间缺乏对齐而导致的图像生成难度。为了为每幅图像提供更局部化、更相关的线索,采用字幕优先策略:对于每幅图像,用 Qwen2.5-VL-7B [4] 生成一个简洁的描述,并将其作为概念框架直接插入到图像之前。这使得模型能够在生成目标图像之前,基于先前的上下文和插入的标题,构建其概念草图。通过生成标题来指导模型对图像的预期,这种方法可以缓解由松散关联或模棱两可的输入引起的问题。此外,使用 LLM 摘要生成器重写超过 300 个 tokens 的图像间文本片段,以提高上下文密度。这些步骤最终生成一个更清晰、更结构化的数据集,其中包含 2000 万个交错的 Web 文档。数据流水线和示例如图 b 所示。
推理增强数据
受 O1 [33] 和 DeepSeek-R1 [26] 等近期模型的启发,利用长上下文思维链数据进行多模态理解。此外,假设在图像生成之前引入基于语言的推理步骤有助于明确视觉目标并改进规划。为了探索这一点,构建 50 万个推理增强示例,涵盖基于输入和输出结构关系的三类:文本-到-图像生成、自由格式图像处理和摘要编辑。
文本-到-图像生成。首先手动编写一组简短且模糊的 T2I 查询,每个查询都配有简单的生成指导。利用上下文学习,提示 Qwen2.5-72B [92] 生成额外的查询指导对和相应的详细提示,然后将其传递给 FLUX.1-dev [35] 以生成目标图像。此过程生成由查询、推理轨迹(引导 + 详细提示)和图像组成的训练三元组,使模型能够基于语言推理进行图像生成。
自由形式的图像处理。使用源图像、目标图像、用户查询以及来自 DeepSeek-R1 [26] 的推理轨迹示例来提示 VLM,从而生成推理增强示例。R1 示例是通过以源图像和目标图像的字幕、用户查询和推理指令为条件生成的。主要从两个来源采样源图像对和目标图像对:开源编辑数据集(例如 OmniEdit [80])和交错视频数据,这些数据提供了丰富的自然发生的编辑场景,其特点是大量的运动、视点变化和人机交互,同时保持了时空连贯性。
概念编辑。概念编辑针对的是图像处理需要高级概念推理而非简单的局部像素修改的情况,例如将物体转换为设计草图。对于这些任务,使用网络交错数据集,从每个序列中采样候选图像对,并应用三阶段 VLM 流水线来构建高质量的问答示例。首先,给定一个图像序列,提示 VLM 识别一个合理的输入输出对。接下来,提示模型根据选定的对生成相应的文本问题。最后,使用 VLM 评估问题的质量及其与输入和输出图像的一致性,过滤掉低质量的示例。然后,接受的示例将传递给 VLM,并以来自 DeepSeek-R1 [26] 的推理轨迹示例为提示,以生成对预期转换的有理解释。此设置有助于模型学习从不同的文本指令中解读复杂的视觉目标。
训练
如表所示,采用多阶段训练策略,动态混合上述精选数据。具体而言,1)对齐阶段用于初始化 VLM 连接器,2)预训练阶段用于大规模预训练,3)持续训练阶段用于提高分辨率和交错数据比率,4)监督微调阶段用于高质量微调:
• 阶段:对齐。在此阶段,通过仅训练 MLP 连接器,同时保持视觉编码器和语言模型不变,将 SigLIP2 ViT 编码器与 Qwen2.5 LLM 对齐。在此阶段,仅使用图文对数据执行图像字幕制作,其中每幅图像的大小固定为 378 × 378,以匹配预训练 SigLIP2 的输入大小。
• 阶段:预训练 (PT)。在此阶段,将 QK-Norm 添加到 LLM,除 VAE 参数外,所有模型参数均可训练。训练语料库包含 2.5T 个 token,涵盖文本、图文对、多模态对话、网页交错和视频交错数据。对多模态理解和生成均采用原生分辨率策略,并限制每幅图像的最大长边和最小短边。
• 阶段:持续训练 (CT)。与持续训练 (PT) 相比,在 CT 阶段提高视觉输入分辨率,这对于多模态生成和理解性能都至关重要。进一步策略性地增加交错数据的采样率,以强调学习跨模态推理,因为模型的核心理解和生成能力将变得更加稳定可靠。CT 阶段消耗约 2.6T 个 token。
• 阶段:监督微调 (SFT)。在 SFT 阶段,从图文对数据集和交错生成数据集中构建一个高质量的多模态生成子集。为了实现多模态理解,从 LLaVA-OV [37] 和 Mammoth-VL [27] 指令调优数据中筛选出一个子集。本阶段的训练 token 总数为 727 亿。
在所有训练阶段,用 AdamW [47] 优化器,β1 = 0.9,β2 = 0.95。受 [52] 启发,设置 ε = 1.0 × 10−15 以抑制损失尖峰。在提高生成分辨率的同时,还将扩散时间步长从 1.0 增加到 4.0,以确保合理的噪声水平分布。在 PT、CT 和 SFT 阶段采用恒定学习率,以便可以轻松扩展训练数据而无需重新启动训练过程 [30]。为了确保不同等级之间的负载平衡,将每个等级的序列打包到一个较窄的长度范围内(对齐和预训练 为 32K 到 36K 个 token,持续训练和 SFT 为 40K 到 45K 个 token)。
与独立 VLM 或 T2I 模型的预训练不同,统一多模态预训练需要仔细调整两个关键超参数——数据采样率和学习率——以平衡理解任务和生成任务的信号。
评估
为了全面评估一个统一的模型,借鉴针对多模态理解、T2I 生成和经典图像编辑等明确定义的技能既定基准。然而,对于需要强大的多模态推理和复杂任务组合的能力,仍然缺乏有效的评估策略。接下来,首先介绍评估过程中使用的可用基准,然后介绍一个用于自由形式图像处理(包括概念编辑)的全新评估套件,旨在揭示模型在多模态推理和复杂组合任务中的熟练程度。
多模态理解。采用六个广泛使用的基准——MME [20]、MMBench (1.0-EN) [46]、MM-Vet [95]、MMMU [96]、MathVista [49] 和 MMVP [74]。它们共同构成一个简洁而全面的测试平台,涵盖感知、认知和多模态推理,同时保留强大的判别力,可用于对最先进的模型进行排名。
文本-转-图像生成。遵循[11, 57]的原则,并报告基于流行的GenEval [25]基准测试的结果。还采用最近提出的WISE基准测试[53],该基准测试对文本-到-图像生成中复杂的语义理解和世界知识整合进行全面的评估。此外,还将这些评估与最先进的模型进行定性比较,以补充这些自动评估指标。
图像编辑。用GEdit-Bench [44]作为主要评估套件,因为它与现实世界息息相关,并且能够处理多种编辑任务。GEdit-Bench基于从网络上抓取的真实用户请求构建而成,能够紧密反映实际的编辑需求。性能由GPT-4.1 [54]自动评分,还补充了定性示例,以提供更细致的评估。
智能图像编辑。提出使用IntelligentBench作为评估自由形式图像处理能力的智体任务,这需要复杂的多模态推理和任务组合。
IntelligentBench 的初始版本包含 350 个示例,每个示例包含一张问题图像、一张问题文本和一张参考答案图像。评估使用 GPT-4o(版本:gpt-4o-2024-11-20)进行,该版本会检查完整的四元组——问题图像、问题文本、参考答案图像和模型生成的图像。评估标准包括请求完成度、视觉一致性和基于知识的创造力,体现了该基准测试对任务正确性和推理深度的双重关注。每个答案的评分范围为 0 到 2 分。模型的最终得分是通过将所有单个分数相加,并将总分标准化为 100 分制来计算的。借助 IntelligentBench,可以评估模型在图像编辑方面的推理能力以及世界知识的整合情况。
涌现特性
涌现特性已在大型视觉或语言模型的背景下得到广泛研究 [7, 81]。本研究立足于统一多模态基础模型的范畴,对涌现特性采用了更明确的定义:
如果一种能力在早期训练阶段尚不存在,但在后期的预训练中出现,则该能力正在形成。
这种质的转变,通常被称为相变,表示模型行为的突然剧烈变化,无法通过训练损失曲线进行预测 [81]。有趣的是,在统一多模态扩展中观察到了类似的现象,损失曲线并未明确表明新功能的出现。因此,通过评估历史检查点上一系列任务的性能来研究模型功能的出现。具体而言,分别报告标准 VLM 基准测试的平均性能作为多模态理解的指标,GenEval 分数作为生成能力的指标,以及 GEdit 分数和 IntelligentBench 分数,以评估模型在简单和复杂多模态推理中的能力。
有趣的是,不同的任务表现出不同的学习动态和饱和行为。如果选择达到峰值性能 85% 所需的已见过 tokens数量作为指标,传统的理解和生成基准相对较早地达到饱和:分别大约在 0.18T 和 0.68T 个 tokens。相比之下,同时需要理解和生成能力的编辑任务表现出较慢的收敛速度,需要 2.64T 个 tokens 才能达到 85% 的性能。
最值得注意的是,智能编辑任务——旨在消除简单的编辑案例并强调复杂的多模态推理——需要 3.61T 个 tokens 才能达到 85%,这表明其模式类似于 [81] 中描述的涌现行为。在这种情况下,模型最初表现出较低的性能,在 3T 个已见过 tokens之后逐渐显著地提高。虽然传统编辑任务在 3T token 分辨率提升后基本未受影响,但智能编辑的性能却持续显著提升——从 15 提升至 45——在后期训练阶段提升了两倍,凸显了其对统一多模态推理的依赖。理解能力,尤其是视觉输入,在多模态推理中起着至关重要的作用:移除 ViT记对 GEdit-Bench 的影响微乎其微,但会导致智能编辑性能下降 16%,这凸显了视觉语义推理在复杂编辑任务中的重要性
。
虽然评估指标可能无法线性反映模型的真实能力——这可能导致出现虚假的涌现迹象,尽管可能性不大——但通过检查不同训练检查点的生成输出,进一步检验定性涌现行为。