简介
OpenAI 在 2024 年春季推出了 GPT-4o,这是其最新的旗舰模型,能够实时对音频、视觉和文本进行推理。
GPT-4o 的特点
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。它可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o 的响应时间短至 232 毫秒,平均为 320 毫秒,与人类的响应时间相似。
性能提升
- 文本和代码:GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 相匹配。
- 非英语文本:GPT-4o 在非英语文本上的性能显著提高。
- API 速度:GPT-4o 的 API 速度更快,成本降低了 50%。
- 视觉和音频理解:GPT-4o 在视觉和音频理解方面尤其出色。
模型能力
在 GPT-4o 之前,语音模式由三个独立模型组成管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程丢失了大量信息。
GPT-4o 是 OpenAI 跨文本、视觉和音频端到端训练的新模型,所有输入和输出都由同一神经网络处理。由于 GPT-4o 是第一个结合所有这些模式的模型,OpenAI 仍在探索其功能和局限性。
模型评估
根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。
文本评价
GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。
音频 ASR 性能
GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译性能
GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。
M3Exam
M3Exam 基准测试既是多语言评估也是视觉评估。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。
视觉理解评估
GPT-4o 在视觉感知基准上实现了最先进的性能。
可用性
GPT-4o 是 OpenAI 突破深度学习界限的最新举措,这次是朝着实用性的方向发展。GPT-4o 的功能将迭代推出。
- 文本和图像功能:已在 ChatGPT 中推出。
- 免费套餐:提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。
- API:开发人员现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。
ChatGPT 免费用户可以访问的功能
OpenAI 官博还介绍了 ChatGPT 免费用户可以访问新模型加持下的功能,包括:
- 体验 GPT-4 级别的智能
- 从联网后的模型得到响应
- 分析数据并创建图表
- 畅聊你拍的照片
- 上传文件以帮助总结、撰写或分析
- 发现和使用 GPTs 和 GPT Store
- 用记忆构建更有用的体验
免费向所有人提供 GPT-4 级别的 AI
这款全新的 AI 模型,免费向所有人提供 GPT-4 级别的 AI。
- Plus 用户:可以抢先体验最新、最先进的模型 GPT-4o。
- 消息限制:ChatGPT Plus 的消息限制是免费用户的 5 倍。