MiniMax V-Triune让强化学习(RL)既擅长推理也精通视觉感知

article/2025/7/3 20:18:49

MiniMax 近日在github上分享了技术研究成果——V-Triune,这次MiniMax V-Triune的发布既是AI视觉技术也是应用工程上的一次“突围”,让强化学习(RL)既擅长推理也精通视觉感知,其实缓解了传统视觉RL“鱼和熊掌不可兼得”的尴尬。

之前AI视觉语言大模型(VLMs)在训练时存在个普遍的问题:

只会推理不会感知,或者只会感知不会推理,真的无解。

比如,某些AI模型能很好地解决数学题、编程等推理任务,却在目标检测、图片识别、OCR(图片文字识别)等简单视觉任务上表现一般;而专注视觉感知类任务的模型,遇到需要深度推理和思考的问题时就如同降智一般。

举个生活中的例子,班级里有的同学只会做数学题,却看不懂试卷上的图片;另一些同学能看懂试卷上的图片,却做不出一道数学题,作为老师是不是神烦。现在一个名叫V-Triune的学霸来了,既会做数学题也能看懂所有图片,拿了高分。

这个问题的根源在于,传统的强化学习(RL)方法只能针对任务单一、类型相近的数据进行训练,因为推理任务和感知任务在数据格式、评价标准、奖励机制等方面差异很大,导致RL很难“一心二用”,就像西游降魔篇里的天残脚一样。

MiniMax团队提出的V-Triune系统踏踏实实解决了这一问题,首次把视觉推理和感知训练结合在了一起。

我看了论文,它主要干了下面三件事:

  • 样本级数据格式,让每种任务(不管是推理还是视觉识别)都能有自己的训练规则;
  • 验证器级奖励机制,为不同任务设计特定的评分标准;
  • 数据源级指标监控,实时跟踪各类任务的表现,及时纠正模型。

此外,V-Triune还提出了“动态IoU奖励”,可以理解为阶梯递进式奖励,让模型在学习图片识别时,从“及格线”逐步爬到“满分线”。

因此,V-Triune让RL“鱼和熊掌兼得”:不仅推理能力强,像解奥数题一样严谨,还能看懂图片、识别物体、数清数量、读懂图片里的文字。

基于V-Triune训练出来的Orsta系列模型实验结果显示,统一的RL训练在各种视觉推理和感知任务上都优于传统模型,后面会详细讲解实测数据。

V-Triune三大技术亮点,有什么神通之处?

前面说到,V-Triune之所以能让AI视觉兼顾推理和识别能力,离不开它的三大核心技术,我看了几遍论文,讲讲粗浅的理解。

1、样本级数据格式化—“因材施教”的典范

以往的强化学习RL训练,像是用同一套模板教所有学生,不管你是学数学、识图还是做阅读理解,奖励机制都一刀切。

这就导致推理题和感知题在训练时被“平均对待”,很多细节需求被忽略。

V-Triune则改变了这一现状。

V-Triune给每类任务都配上了个性化解决方案,每个样本可以自己定义奖励权重(比如多鼓励步骤分,还是更看中答对),选择专属验证器(比如数学题用数学验证器,检测题用检测验证器)。

这样一来,解数学题的时候可以重视推理过程,做目标检测时则更关注框的位置和精度,让模型在不同任务中各有侧重,学得更细致。

相比业内许多只专注推理或者感知某一面的RL方案,V-Triune在任务适配和灵活性上进步了很多,可以用“因材施教”来形容。

2、验证器级奖励计算—不同领域的“专家”各司其职

传统的AI视觉模型所有任务都用一套臃肿的奖励函数,既难维护,又容易“错给分”,比如编程题用错了视觉检测的标准,或者视觉检测被要求输出推理过程。

即便是一些强化推理能力的先进VLMs,也主要侧重于推理奖励的精细化,而对感知类任务的处理往往不够细致。

V-Triune则将每种任务都由独立的验证器负责,比如数学验证器专门判断答案和过程,检测验证器专门算IoU(框的准确度)。

各类问题都交给最懂行的专家评分,既公平又高效。这种“专家分工”的设计,让每一类任务都能用上最适合的评判标准,既避免了错给分,也方便了后续的扩展和维护。

V-Triune还有一套独创武功秘籍-“动态IoU奖励”机制,训练早期采用宽松标准,让模型有信心逐步进步,中期、后期逐步提高要求,最终实现高精度。

这就像从小学、中学、本科、硕士、博士阶梯式培养,一步步提升难度,不鸡娃,让AI既不会被难题吓倒,也能最终达到高水平。

V-Triune把“循序渐进”做得更全面,感知和推理一视同仁,既照顾到推理的深度,也兼顾了感知的准确。

3、源级指标监控—精准定位,实时检查

以往RL训练就像个“黑箱子”,只能看见总分高低,却很难知道哪道题、哪类任务出了问题,主要因为指标混杂、问题定位难,导致调优效率低下。

V-Triune在这块做了优化,训练时对每个数据来源、每种任务都单独统计指标,比如每类任务的正确率、输出长度、反思率(AI说“让我再想想”、“检查一下”的占比)等等。

如果某类数据表现异常或者模型只会某一类题,它能第一时间发现和定位,从而有针对性地优化。
正因为有了这种细致的分项监控,V-Triune像开了天眼一样,实时发现视觉模型或数据噪声问题,并进行精准修正,让模型更均衡、更强大。

除了上面的三大技术,V-Triune还有一系列实用的工程策略创新。

  • ViT冻结策略:只微调语言部分,避免视觉主干参数不稳定导致训练崩溃。
  • 防止胡扯过滤器:训练时自动剔除模型生成的无效、异常图片Token,提升稳定性。
  • CoT提示池:给AI准备丰富多样的推理提示语,防止因提示单一导致模型学得片面。
  • 噪声样本过滤:两轮高标准数据清洗,确保模型“吃”到的都是高质量好题。

这些工程细节的考量改进,也让V-Triune在大规模多任务RL训练的稳定性和泛化能力上表现更好。

评测才能见真实力,V-Triune得分表现如何?

下面的这张表是Orsta模型与其基础模型(QwenVL-2.5-VL)在视觉推理和感知任务上的表现对比,能看到不管是在7B还是32B规模,Orsta提升都很明显。

推理任务:数学、编程等

首先在需要复杂推理能力的任务中,比如MMMU和MathVista,Orsta-7B的分数从45.56提升到49.70,MathVista更是由67.50提升到72.50,32B大模型同样在这些任务上大幅进步。

感知任务:视觉检测、OCR等

在视觉感知任务上,Orsta的提升也相当牛。例如在COCO单目标检测任务中,Orsta-7B的mAP从35.02提升到42.83,COCO多目标检测也从59.59跃升至63.36。

在CountBench计数任务和OCRBench文字识别任务中,Orsta-32B的准确率分别提升至88.59和59.09,表现远超基础模型。这说明Orsta能更精准地识别、计数和读取图片信息。

整体来看,V-Triune统一强化学习的方法让Orsta模型很好的兼顾了推理和感知两大任务,推理和视觉感知任务实测数据跑下来相比传统模型提升不少。

除此之外,Orsta在GUI、Chart等小众场景也表现很好,体现其界面元素理解和图像文字识别的强大之处。

V-Triune应用脑洞:智能驾驶障碍物检测

V-Triune的技术特性能优化很多工业化场景的AI视觉识别和推理能力,就拿我所在的汽车行业来说,智能驾驶的障碍物检测依旧存在很大进步空间。

传统的智能驾驶模式在遇到突发障碍物时,比如突然闯入行人或电瓶车,由于固定IoU阈值会导致漏检或误检,致使检测系统可能出现“全无”状态,这就很危险。

V-Triune则可以通过“动态IoU奖励”机制解决这一问题,在眨眼级反应的0-100ms内,优先快速锁定障碍物大致区域,进行存在性判断,而不需要监测出具体什么障碍物,这样能进行有效预判。

然后在凝视级分析的100-300ms内,再对物体精修边界框,进行边缘检测和阴影确认,区分障碍物与阴影,这样可以预测是否需要避让。比如下雨天前方静止的车辆和车辆在水面的倒影,前者需要避让,后者不需要避让。

最后在决策级确认的300ms以上,对物体实现厘米级定位,以及轨迹追踪,对障碍物进行精准分类和识别。

这样通过“动态IoU奖励”机制能实时动态加载不同阶段的障碍物监测模型,相较于固定IoU奖励,一方面能大幅降低障碍物的检测延迟时间,另一方面能有效降低AEB(自动紧急制动)系统的误触发率,并将漏检率压缩到非常低的水平。

自动驾驶许多场景需要这样的分级判断机制,比如鬼探头、连续变道、雨雾天气、高速路口等等,能修正误差并建立感知与决策的弹性安全边界,进行早期预警。

结论

相比较传统的只具备单一能力的AI视觉RL⽅案,V-Triune兼顾了推理与感知,培养了“会思考的眼睛”,让AI如同人类五官协同,处理更多的任务。

其实不光是智能驾驶领域,汽车工业还有很多场景可能会用到V-Triune,比如工厂流水线汽车零部件质检,针对不同零件,定义差异化质检规则,精准识别产品图像,并推理分析其缺陷和改进方案。诸如此类的案例数不胜数,其他行业可能更多,非常期待。


http://www.hkcw.cn/article/cqdRhSPYbn.shtml

相关文章

ETL脚本节点使用的方式

随着大数据时代的到来,企业对数据处理的需求日益增长,ETL 作为数据整合的关键技术,逐渐走进我们的视野。本文将为您揭秘 ETL 脚本节点的使用方式,助您轻松驾驭数据处理新境界。 一、ETL脚本的优势 1.提高效率:ETL 脚…

[定昌linux开发板]启用用户唯一性限制

默认系统内没找到 /etc/chkuid_state文件, 如果没有那么就手动创建,并且设置参数 # 1. 创建文件(需root权限) sudo touch /etc/chkuid_state# 2. 写入配置启用UID唯一性检查 echo "stateon" | sudo tee /etc/chkuid_…

推荐3个优秀wordpress主题

工控配电企业WP模板 这款WordPress外贸模板专为工业自动化控制行业设计,适用于工业机器人、低压配电等领域的外贸公司。模板采用简洁实用的设计风格,支持自定义设置,包括产品展示、询价功能、下拉菜单、高级幻灯片动画展示等,确保…

图解深度学习 - 基于梯度的优化(梯度下降)

在模型优化过程中,我们曾尝试通过手动调整单个标量系数来观察其对损失值的影响。具体来说,当初始系数为0.3时,损失值为0.5。随后,我们尝试增加系数至0.35,发现损失值上升至0.6;相反,当系数减小至…

保险行业数字化应用解决方案

数字化转型面临的挑战 新一代信息技术与保险业务的深度融合成为促进创新、提升效率、优化体验的强大引擎。但保险行业业务场景多样化,数据类型复杂,传统的信息化建设模式难以匹配快速变化的市场需求。保险公司亟需引入开放灵活的技术工具,加…

欧洲央行管委:欧元区已基本击败通胀 谨慎权衡未来降息

欧洲央行管委Fabio Panetta暗示通胀已基本得到控制,但警告进一步降息需谨慎权衡。Panetta对决策者在抗击通胀方面取得的进展表示赞赏,但也指出未来做出是否继续降息的决定不会变得更容易。他在罗马向意大利金融界精英发表年度演讲时表示:“通胀回落并未对经济造成过于严重的…

目击者称男子推倒兵马俑后倒地捂脸 事件引发广泛关注

5月30日下午6时许,陕西秦始皇兵马俑博物馆发生了一起意外事件。一名男子跳入3号坑,并推倒了两尊兵马俑。据现场目击者小林回忆,当时他在导游的带领下进入3号坑,刚一进去就看到该男子跳下俑坑,先是跳到中间一层,随后又跳到俑坑下方。小林表示,自己和周围的群众都惊呆了,…

LangChain链式表达式对象要求

可调用性:每个组件必须实现 __call__ 或 invoke 方法 输入输出兼容: prompt 输出必须是聊天模型(chat)可接受的输入格式 chat 的输出必须是 StrOutputParser 可解析的格式 类型匹配: ChatPromptTemplate 输出 -> List[ChatMessage] C…

Fast-SCNN语义分割

环境搭建 1创建环境 conda create -n fast_scnn python=3.8#创建环境#创建完后进入环境 conda activate fast_scnn 2下载fast-scnn https://github.com/Tramac/Fast-SCNN-pytorch 用vscode打开 3下载依赖 缺少对应的文件 下载pytorch

演出市场 只容得下头部艺人吗 冰火两重天的现状

音乐数据分析公司Chartmetric对2022年和2024年各职业阶段的前1000名艺术家的巡演情况进行了分析,指出不仅是新晋艺术家选择退出巡演,中部乃至超级巨星级别的艺人也明显减少了巡演安排。巡演一直被视为连接乐迷、积累听众、实现收入的重要路径,但在高风险与低回报的压力下变得…

《亚洲新声》张靓颖5G冲浪 多元音乐碰撞火花

5月23日18点,亚洲首档跨国歌手文化交流节目《亚洲新声》在爱奇艺正式上线。节目首期凭借沉浸式海上舞台、国际化导师阵容和亚洲00后新声选手的多元曲风迅速吸引了网友的关注,展示了年轻歌手的无限活力与潜力,为音综市场注入了新鲜血液。首期节目中,来自中国、马来西亚、哈萨…

一少年参加橄榄球直冲撞击挑战死亡 引发广泛谴责

新西兰总理拉克森30日谴责了一项名为“直冲撞击挑战”的活动。这项在社交媒体上广泛传播的挑战导致一名青少年因头部重伤死亡。19岁的萨特斯韦特26日在北帕默斯顿市参加该挑战后不幸身亡。这项挑战模仿橄榄球员在球场上的激烈碰撞,去年在澳大利亚和新西兰都有类似活动,参与者…

氛围拉满 这是端午该有的样子 粽香四溢迎佳节

绥阳县的街头巷尾弥漫着粽叶的香气,市场上各种口味的粽子琳琅满目,充满了端午节的氛围。商家们纷纷推出端午特色产品,掀起了一波消费热潮。在绥阳县魁星楼,道路两侧的老字号店铺蒸汽氤氲,桌上堆满了裹着碧绿外衣的粽子,空气中飘散着糯香与艾草的气息。人们穿梭于各个店铺…

德约:我是米兰球迷 支持大巴黎夺冠 网球巨星的足球情怀

正在参加法网的德约科维奇在接受采访时谈到了本周末的欧冠决赛。他表示:“抱歉国际米兰,但我是一个AC米兰的球迷,我希望巴黎圣日耳曼赢得欧冠决赛。”德约科维奇对AC米兰的喜爱早已为人所知。他曾多次到现场观看AC米兰的比赛,包括2023年欧冠半决赛中AC米兰与国际米兰的同城…

学习STC51单片机21(芯片为STC89C52RCRC)

每日一言 与其焦虑未来,不如专注当下,把每件小事做到极致。 蓝牙模块 HC-08 蓝牙模块的话总结一句串口会了,蓝牙模块就会了 因为就我们这样的水平还是一个小卡拉米研究不了蓝牙的,研究蓝牙的都是高精尖的蓝牙的工程师&#xff0…

fscan渗透使用指南只为学习

📢【红队必备】FSCAN保姆级使用指南:从入门到实战,内网渗透一键通关! 一、工具简介 FSCAN是一款国产开源的内网综合扫描工具,集资产探测、漏洞扫描、权限获取于一体,被红队誉为“内网渗透瑞士军刀”。支持…

IDEA 在公司内网配置gitlab

赋值项目链接 HTTPS 将HTTP的链接 ip地址换成 内网地址 例如:https:172.16.100.18/...... 如果出现需要需要Token验证的情况: 参考:Idea2024中拉取代码时GitLab提示输入token的问题_gitlab token-CSDN博客

Keil MDK5.37或更高版本不再预装ARM Compiler Version5导致编译错误的解决方法

Keil MDK5.37预装的是最新的ARM Compiler Version6 我们可以先右击查看工程属性 在Target标签下,我们可以看到Compiler Version5就是丢失的 在Target标签下,我们可以看到Compiler Version5就是丢失的 图1 以固件库方式编程,编译之后全是错…

Pix4d航测软件正射影像生产流程(二)控制点刺点及高精度空三解算

1.控制点刺点,控制点数据导入。 2.根据空三控制点数据刺点。

如何利用实时足球数据搭建AI预测模型:技术解析与应用前景

在当今数据驱动的体育时代,足球数据分析已经从简单的赛后统计发展为能够实时影响比赛决策的强大工具。本文将为您解析如何利用实时足球数据搭建AI预测模型,以及这项技术如何改变我们对足球比赛的理解和预测能力。 一、实时足球数据的获取与处理 搭建AI模…