📖标题:Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought
🌐来源:arXiv, 2505.15431
🌟摘要
随着大型语言模型 (LLM) 的快速发展,我们引入了 Hunyuan-TurboS,这是一种新的大型混合 Transformer-Mamba 混合专家 (MoE) 模型。它协同将 Mamba 的长序列处理效率与 Transformer 优越的上下文理解相结合。Hunyuan-TurboS 具有自适应的长短思维链 (CoT) 机制,在简单查询和复杂问题的深度“思考”模式的快速响应之间动态切换,优化计算资源。在架构上,这个 56B 激活(总共 560B)参数模型使用 128 层(Mamba2、Attention、FFN),具有创新的 AMF/MF 块模式。Faster Mamba2 确保线性复杂度,Grouped-Query Attention 最小化 KV 缓存,FFN 使用 MoE 结构。在 16T 高质量令牌上进行预训练,它支持 256K 上下文长度,是第一个行业部署的大规模 Mamba 模型。我们的综合后训练策略通过监督微调 (3M 指令)、一种新颖的自适应长短 CoT 融合方法、用于迭代改进的多轮平衡学习以及针对 STEM 和一般指令跟踪的两阶段大规模强化学习过程来增强能力。评估表现出强大的性能:LMSYS Chatbot Arena 上总体排名前 7,得分为 1356,优于 Gemini-2.0-Flash-001 (1352) 和 o4-mini-2025-04-16 (1345) 等领先模型。TurboS 在 23 个自动化基准测试中也达到了 77.9% 的平均值。Hunyuan-TurboS 平衡了高性能和效率,提供了比许多推理模型更低的推理成本的巨大潜力,为高效的大规模预训练模型建立了一个新的范式。
🛎️文章简介
🔸研究问题:如何通过合成Mamba和Transformer架构以及自适应思维链方法,提升大语言模型(LLM)的效率与性能?
🔸主要贡献:论文提出了一种新的大语言模型Hunyuan-TurboS,结合Transformer和Mamba架构,显著提高了生成效率和推理能力,同时减少了生成成本。
📝重点思路
🔸采用混合的Transformer-Mamba架构,结合了Mamba层的线性复杂性与Transformer层的上下文理解能力,以提升模型的训练和推理效率。
🔸开发了一种自适应长短思维链融合方法,通过强化学习和特定训练的教师模型,动态选择推理策略以提高计算效率和响应可读性。
🔸采用多轮评审学习(Multi-round Deliberation Learning),将Hunyuan-TurboS与其他先进的Hunyuan模型进行竞争性训练,以不断识别和弥补能力差距。
🔸引入了高效的微调策略,包括有监督的微调(Supervised Fine-Tuning)和基于奖励的强化学习,以进一步优化模型的性能。
🔎分析总结
🔸Hunyuan-TurboS在多项基准测试中表现优异,尤其是在常识推理、阅读理解、数学问题解决和编程任务等方面,显示出与最先进模型相当的能力。
🔸通过自适应思维链方法,Hunyuan-TurboS能够在相似性能下减少约50%的生成token,体现出显著的token效率改进,间接降低了生成成本。
🔸Hunyuan-TurboS在LMSYS Chatbot Arena中取得了1356的成绩,位列前7名,尤其在数学和复杂查询任务中表现突出。
💡个人观点
论文的创新点在于综合了Mamba与Transformer的优势,通过自适应推理策略和多轮学习方法,显著提升了LLM的效率与性能。