在今日凌晨的直播中,OpenAI 正式发布了 o3 和 o4-mini 模型。这些模型代表了 ChatGPT 能力的一次重大飞跃,适用于从普通用户到高级研究人员的各种需求。
新的推理模型可以智能地使用和结合 ChatGPT 中的工具,如搜索网络、分析上传的文件、处理视觉输入等。这些模型被训练来判断何时以及如何使用工具来生成详细且深思熟虑的答案,通常在不到一分钟内完成,从而更有效地解决复杂问题。
o3 是 OpenAI 最强大的推理模型,在编码、数学、科学、视觉感知等领域表现出色。它适合需要多方面分析的高级查询,在图像、图表和图形等视觉任务上表现尤为突出。与前代相比,o3 在编程、商业咨询和创意构思等领域少犯 20% 的重大错误。
o4-mini 则是一个针对快速、成本效益推理优化的小模型,在数学、编码和视觉任务上展现出优异性能。当提供 Python 解释器时,o4-mini 在 AIME 2025 上得分 99.5%,并在非 STEM 任务及数据科学领域超越了前辈 o3-mini。由于其高效性,o4-mini 支持更高的使用限制,成为高容量、高吞吐量的选择。
这两个新模型支持更加自然的对话,通过参考记忆和过去的对话使响应更加个性化和相关。开发过程中,大规模强化学习显示出了“更多计算能力 = 更好性能”的趋势。o3 相比 o1 在相同延迟和成本下提供了更高性能,并且随着思考时间增加,性能持续提升。
这些模型能够直接将图像整合到思维链中,不仅查看图像,还能利用图像进行思考。用户可以上传白板照片、教科书图表或手绘草图,即使图像质量不佳,模型也能解读并实时操作图像,如旋转、缩放或变换。此外,它们还可以访问 ChatGPT 中的所有工具,并通过 API 使用自定义工具,以快速解决问题。
关于成本,o3 和 o4-mini 比之前的模型更高效。例如,在 2025 AIME 数学竞赛中,o3 的性价比优于 o1;同样,o4-mini 也优于 o3-mini。
安全性方面,o3 和 o4-mini 采用了更新的安全训练数据,新增了对生物威胁、恶意软件生成和越狱等方面的拒绝提示。系统级缓解措施还包括一个推理 LLM 监控器,用于标记潜在风险领域的危险提示。
ChatGPT Plus、Pro 和 Team 用户现在可以在模型选择器中看到 o3、o4-mini 和 o4-mini-high,而 Enterprise 和 Edu 用户将在一周后获得访问权限。免费用户可以通过选择“思考”来尝试 o4-mini。所有计划中的速率限制保持不变。预计几周内还将发布 o3-pro 版本,支持全部工具。目前 Pro 用户仍可使用 o1-pro。此次更新展示了 OpenAI 将专业推理能力和自然对话能力相结合的发展方向。