最新!OpenAI发布o3及o3 mini推理模型

前情回顾

OpenAI在圣诞前连续12天发布了一系列重要更新,以下是每日发布的简要回顾:

  • Day 1:发布o1满血版,ChatGPT Pro最贵订阅版本200美元/月
  • Day 2:发布强化微调新功能,用少量训练数据即可在特定领域构建专家模型
  • Day 3:发布视频生成模型Sora
  • Day 4:Canvas全面开放,升级代码功能
  • Day 5:展示OpenAI与苹果智能合作功能
  • Day 6:发布高级实时视频理解功能
  • Day 7:发布Projects In ChatGPT功能
  • Day 8:搜索功能全面开放,支持语音搜索
  • Day 9:o1 API开放,实时API更新
  • Day 10:拨打1-800-ChatGPT热线电话,可访问ChatGPT
  • Day 11:展示Mac桌面版App与各类App的互操作性

本期亮点:Day 12发布o3及o3 mini推理模型

在OpenAI为期12天的圣诞系列发布活动的高潮时刻,终于揭晓了备受期待的重磅新品——o3,这是其迄今为止最先进的前沿推理模型的升级版。OpenAI宣称,在特定条件下,o3的性能已经接近于通用人工智能(AGI)的水平。

在直播环节中,OpenAI的首席执行官Sam Altman表示:“我们视o3为人工智能发展的新篇章。这些模型能够处理日益复杂且需要深度推理的任务。”他还特别强调了o3在编程领域的卓越表现,称其为“不可思议”。

o3模型发布

o3系列模型:性能卓越,接近通用人工智能(AGI)

模型介绍

OpenAI推出了o3系列,包括两款模型:

  1. OpenAI o3:旗舰版,性能强大。
  2. OpenAI o3 mini:轻量级,速度快,成本低,性价比高。

开放计划

o3系列目前不向普通用户开放,OpenAI计划先进行外部安全测试,预计明年1月正式发布。感兴趣的人可以提交申请:OpenAI安全测试申请

性能提升

o3模型在多个基准测试中表现出色:

  • 在SweepBench Verified基准测试中,准确率达到71.7%,比o1高出20%。
  • 在Codeforces编程竞赛平台上,得分2727,远超o1的1891分。
  • 在美国数学竞赛AIME 2024测试中,准确率为90.67%,高于o1的83.3%。
  • 在GPQA Diamond测试中,得分87.7%,比o1的78%高。
  • 在EpochAI Frontier Math测试中,得分超过2457分,远超其他模型。

o3模型性能
o3模型性能

AGI领域的进展

o3在ARC-AGI基准测试中表现出色,得分75.7分。在提高算力和思考时间后,得分达到87.5%,超过大多数真人。

o3 mini模型的特点

o3 mini继承了o1 mini的数学和编程能力,成本极低,并向安全研究人员开放测试申请。它支持低、中、高三种推理时间模式,可根据任务复杂度调整思考时间。在Codeforces Elo评分中,随着推理时间增加,得分持续攀升。o3 mini还能自我测试,在GPQA数据集测试中,准确率达到61.62%。

数学和编程能力

在AIME数学基准测试中,o3 mini低推理模式性能与o1 mini相当,中等推理模式超越o1 mini。o3 mini还支持函数调用、结构化输出和开发者指令等API功能。

市场影响

OpenAI在AI领域领先竞争对手约两年,但随着市场份额被蚕食,ChatGPT的光环正在褪去。竞争对手如Anthropic和Google开发出性能接近的新模型,OpenAI的竞争优势正在减弱。尽管如此,作为用户,我们将成为这场变局中的最大赢家。

o3模型市场影响

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

上一篇 2025年6月5日
下一篇 2025年6月5日

相关推荐

  • 如何使用 GPT-4 语音版:苹果设备详细指南

    准备工作 在开始之前,您需要准备以下工具和服务: VPN 服务:用于访问国外网站,推荐使用西瓜加速,年费 99 元。 海外支付工具:推荐使用 野卡 | 一分钟注册,轻松订阅海外线上服务,支持美国 Ap…

    文章 2025年5月26日
  • 海外(美区、日区)Google Play 绑定信用卡支付全指南

    在海外使用 Google Play 进行应用购买或订阅服务时,绑定信用卡是常见的支付方式。然而,对于国内用户来说,如何在海外 Google Play 账户中绑定信用卡成为一个重要的问题。本文将详细解答…

    文章 2025年3月18日
  • 虚拟信用卡是什么?野卡如何使用?新手也能轻松掌握的详细指南

    一、什么是虚拟信用卡? 虚拟信用卡是一种基于真实信用卡发行的数字卡片,通过生成的虚拟卡号、CVV和有效期,可以在一定范围内代替实体卡片进行支付。与实体信用卡不同,虚拟信用卡通常只限在线上使用,在极大程…

    2025年5月2日
  • Facebook账号运营全攻略:从基础到进阶

    在上一篇海外社交媒体运营指南中,我们探讨了海外社交媒体的种类、运营的价值以及通用规则。本文将深入探讨Facebook和Instagram这两个主流平台的运营差异,帮助你更好地掌握Facebook账号运…

    文章 2025年4月8日
  • 提升项目效率:优化 `.cursorrules` 文件的完整指南

    在使用 Cursor 进行开发时,创建和维护一个高效的 .cursorrules 文件至关重要。这份文件帮助 Cursor 更好地理解项目的上下文和规范,从而生成更符合项目需求的代码。本文将详细指导你…

    文章 2025年2月19日
  • 2025年Vultr VPS注册与购买指南:支持支付宝-微信支付

    由于Vultr官方网站大部分为英文界面,许多用户在注册和购买过程中感到困惑。为此,我们特别编写了这篇详细的图文教程,帮助新手用户轻松完成Vultr VPS的注册和购买。 一、注册Vultr账户 访问V…

    2025年6月5日
  • 推特蓝V会员代充服务 _ Twitter Blue会员订阅指南

    本文为您详细介绍Twitter蓝V会员的代充代购服务,帮助您快速完成订阅并享受各项会员特权。 商品介绍 商品名称:Twitter蓝V会员代充代购 提供信息:需提供Twitter账号及密码 充值时长:通…

    文章 2025年5月20日
  • Midjourney 订阅计划详解

    Midjourney 提供了三种订阅级别,按月或全年支付可享受 20% 的折扣。每个订阅计划都包括访问 Midjourney 成员图库、官方 Discord 以及一般商业使用条款等。 如何订阅 使用 …

    2025年2月11日
  • 如何降低Facebook广告成本的策略

    许多广告主在投放Facebook广告时效果不佳,实际上,在第一阶段的曝光成本就已经过高了。衡量曝光价格的指标叫CPM,CPM越高,就会导致后续的点击价格和转化价格随之上涨,除非你的点击率和转化率远高于…

    2025年3月22日
  • 如何订阅 ChatGPT Plus?完整教程与支付指南

    ChatGPT Plus 是 OpenAI 推出的高级会员服务,提供更快的响应速度和优先访问 GPT-4 模型的权限,是频繁使用 AI 工具用户的理想选择。然而,对于非美国地区的用户来说,跨境支付限制…

    文章 2025年3月24日
  • Midjourney 收费标准详解:如何选择合适的会员计划?

    Midjourney 是一款广受欢迎的视频编辑和设计工具,许多用户在使用时都会关心其收费标准。本文将详细介绍 Midjourney 的三种会员计划,帮助你根据需求选择最合适的方案。 Midjourne…

    文章 2025年8月1日
  • 野卡平台:ChatGPT 随心用、Claude 随心用与全能套餐解析

    许多用户对 ChatGPT 随心用、Claude 随心用以及随心用全能套餐感到困惑。本文将详细解答这三种服务的特点、优势与使用限制。 👉 野卡 | 一分钟注册,轻松订阅海外线上服务 ChatGPT 随…

    文章 2025年1月31日
  • 国内免翻墙使用正版 ChatGPT 4.0,仅需 $9.9

    随着人工智能技术的迅猛发展,ChatGPT 已经成为我们日常生活中不可或缺的一部分,带来了许多令人兴奋的应用。然而,由于网络限制,国内用户访问 ChatGPT 通常需要翻墙,且存在封号风险。现在,好消…

    2025年4月14日
  • 国内用户如何高效注册Claude账号?最新教程分享

    Claude作为一款强大的AI工具,在文字创作和代码编写方面表现出色,其生成的文本自然流畅,AI痕迹较少。然而,许多国内用户在注册Claude时遇到了困难,主要问题在于如何获取有效的海外手机号码。本文…

    文章 2025年5月13日
  • [OpenAI] ChatGPT 被降智了?GPT-4 解除降智的几种有效方法

    近期有用户反映 ChatGPT 的表现似乎有所下降,甚至怀疑它“被降智”了。本文将详细介绍如何判断 ChatGPT 是否被降智,并提供几种实用的解除降智方法,帮助你恢复 GPT-4 的最佳性能。 如何…

    文章 2025年7月24日
  • 如何取消 ChatGPT 4 会员订阅?详细指南

    如果你正在考虑取消 ChatGPT 4 的会员订阅,本文将为你提供详细的步骤和常见问题解答,帮助你顺利完成操作。 取消 ChatGPT 4 会员订阅后的影响 1. 无法访问 ChatGPT Plus …

    文章 2025年7月31日
  • 中国用户如何订阅ChatGPT?详细指南

    在中国地区,订阅ChatGPT服务(尤其是付费版如ChatGPT Plus或Pro)可能会遇到访问和支付方面的限制。但通过合理的方式与工具,用户依然可以顺利完成订阅并享受ChatGPT的优质服务。本文…

    文章 2025年6月11日
  • 如何在 Apple 钱包中添加 Suica、PASMO 或 ICOCA 卡

    在 iPhone 或 Apple Watch 上添加 Suica、PASMO 或 ICOCA 卡,即可使用 Apple Pay 轻松乘坐公共交通和购物。 准备工作: 要将 Suica、PASMO 或 …

    文章 2025年4月13日
  • 苹果手机取消订阅的详细步骤指南

    大家好,今天我们来探讨一个大家可能都会遇到的小问题——在苹果手机上如何取消订阅。无论是想停止续费某些应用的服务,还是其他原因,取消订阅是个常见操作。其实步骤很简单,接下来我详细告诉大家。 步骤一:打开…

    2025年5月17日
  • ChatGPT 订阅全攻略:快速开通与避坑指南

    摘要:本文详细介绍了 ChatGPT 的订阅流程,帮助用户快速、稳定地完成升级,同时避开常见陷阱。从功能优势到适用场景,再到订阅方式与注意事项,为不同需求的用户提供全面的选购建议。 为什么选择 Cha…

    文章 2025年3月30日
  • ChatGPT Plus 账号充值指南与代充服务(虚拟卡)

    前言 本教程专为已拥有 GPT 账户的用户而设计。如果你尚未注册,可以参考相关教程快速完成注册流程。 重要提示:之前流传的使用支付宝购买 Apple Store 礼品卡在 iOS 客户端升级的方法已失…

    2025年8月7日
  • Cursor Pro 会员常见问题解答

    高级模型的使用和限制 Cursor Pro 会员可以访问一些领先的AI模型,如GPT-4、GPT-4o和Claude 3.5 Sonnet。作为Pro会员,您每月可以快速使用这些模型500次,而对于慢…

    文章 2025年4月29日
  • OpenAI API 绑定 野卡 虚拟卡遇到 Declined?最全解决方案

    前提介绍 在使用 OpenAI API 时,许多人在尝试绑定信用卡或借记卡时可能会遇到“Declined”错误。这种情况可能令人困惑,特别是当你确信卡片信息无误且账户资金充足的情况下。 本文将深入分析…

    文章 2025年7月11日
  • 使用虚拟信用卡在速卖通(AliExpress)下单购物图文详解

    AliExpress(全球速卖通)是阿里巴巴旗下的跨境电商平台,被誉为“国际版淘宝”。平台上不仅有国内淘宝没有的优质商品,还有许多卖家入驻。无论是作为卖家还是买家,支付环节都至关重要。虚拟信用卡因其便…

    2025年2月27日
  • Midjourney 自动扣款后如何申请退款

    如果你的 Midjourney 账户被自动扣款,而你并未充分使用服务,你可以尝试申请退款。首先,查阅官网或联系客服了解最新的退款政策。然后,准备订阅与账单信息、付费记录截图等材料。接着,撰写一封清晰的…

    2025年5月29日