OpenAI 于 2 月 1 日发布了最新模型 o3-mini,这款小型推理模型专为 STEM 领域(科学、技术、工程、数学)优化,在保持低成本与低延迟的同时,提供强大的逻辑推理能力。相比前代 o1-mini,o3-mini 在运算速度、准确性和错误率上均有显著提升,是目前最具竞争力的轻量级 AI 模型之一。
o3-mini 今日起正式开放,用户可通过 ChatGPT(含 Plus、Team、Pro 方案)及 OpenAI API 访问,企业版本则将于 2 月开放。更令人兴奋的是,这是首次向免费用户开放的推理模型,用户只需在 ChatGPT 中选择「Reason」模式或重新生成回应即可体验。
全面升级!o3-mini 的 5 大亮点
1. 支持多种开发者功能,直接投入生产环境
o3-mini 是 OpenAI 首款支持开发者常用功能的小型推理模型,包括:
- 函数调用(Function Calling) — 实现 AI 与应用程序无缝整合
- 结构化输出(Structured Outputs) — 生成 JSON、表格等格式的数据
- 开发者消息(Developer Messages) — 增强 API 交互体验
- 流式响应(Streaming) — 支持实时流式输出,提升互动效率
这些功能使 o3-mini 成为可直接用于生产环境的 AI 推理模型,开发者可快速将其整合到应用程序或服务中。
2. 提供「低、中、高」推理模式,灵活应对不同需求
o3-mini 提供三种推理模式:
- 低推理模式(Low) — 速度最快,适合简单任务
- 中推理模式(Medium) — 平衡速度与准确性,适合大多数应用
- 高推理模式(High) — 进行更深入计算与分析,应对高难度问题
这一设计提升了 o3-mini 在常规任务和复杂挑战中的适应能力。
3. STEM 领域表现惊艳,超越 o1-mini!
测试结果显示,o3-mini 在 STEM 领域的表现显著优于 o1-mini:
- 数学(AIME 2024 测试) — 高推理模式下准确率达 83.6%
- 博士级科学问答(GPQA Diamond 测试) — 高推理模式下准确率达 77%
- 研究级数学(FrontierMath 测试) — 高推理模式能解决 32% 难题,其中 28% 属高难度问题(T3)
- 竞赛级编程(Codeforces 测试) — 最高 Elo 分数达 2073
- 软件工程(SWE-bench 测试) — 高推理模式下准确率达 48.9%
这些数据表明,o3-mini 在数学、科学、编程等技术领域表现出色,是开发者的理想选择。
4. 响应速度提升 24%,效率更高
与 o1-mini 相比,o3-mini 的响应时间平均缩短 24%:
- ⏱ o3-mini 响应时间:7.7 秒
- ⏳ o1-mini 响应时间:10.16 秒
这一提速使其在实时应用(如聊天机器人、客服系统)中更具优势。
5. ChatGPT Plus 与 Team 用户每日消息上限增加至 150 条
为让更多用户体验 o3-mini 的强大功能,OpenAI 对 ChatGPT Plus 和 Team 方案进行了升级:
- Plus & Team 订阅者:每日消息上限从 50 增加到 150
- Pro 订阅者:可无限制访问 o3-mini 及 o3-mini-high
此外,o3-mini 还支持实时搜索,提供带有网页来源的最新答案。
如何使用 OpenAI o3-mini?免费用户也能受益
用户可通过以下方式访问 o3-mini:
- ChatGPT 用户(免费 & 付费)
- 免费用户 — 选择「Reason」模式或重新生成回应即可体验
- Plus、Team、Pro 用户 — 可直接在 ChatGPT 内选择 o3-mini,享受更高效能与更快响应
- 开发者(API 访问)
- API 使用层级 3-5 的开发者可访问 Chat Completions API、Assistants API、Batch API
- 企业用户将于 2 月获得完整访问权限
- o3-mini(标准版) — 中等推理模式,适合大多数应用
- o3-mini-high(高推理版) — 进行更深入计算,适合高难度问题(仅限 Pro 方案)
o3-mini 引领小型 AI 模型新时代
OpenAI 表示,o3-mini 代表着 OpenAI 在小型推理模型领域的重要突破,带来更高效、更准确、更灵活的 AI 解决方案。无论是开发者、科学家、数学家,还是普通用户,都能通过 o3-mini 体验到高质量的逻辑推理能力。