GPT-4o 使用详细教程:免费向所有用户提供 GPT-4 级别的 AI

简介

OpenAI 在 2024 年春季推出了 GPT-4o,这是其最新的旗舰模型,能够实时对音频、视觉和文本进行推理。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

GPT-4o 的特点

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。它可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o 的响应时间短至 232 毫秒,平均为 320 毫秒,与人类的响应时间相似。

性能提升

  • 文本和代码:GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 相匹配。
  • 非英语文本:GPT-4o 在非英语文本上的性能显著提高。
  • API 速度:GPT-4o 的 API 速度更快,成本降低了 50%。
  • 视觉和音频理解:GPT-4o 在视觉和音频理解方面尤其出色。

模型能力

在 GPT-4o 之前,语音模式由三个独立模型组成管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程丢失了大量信息。

GPT-4o 是 OpenAI 跨文本、视觉和音频端到端训练的新模型,所有输入和输出都由同一神经网络处理。由于 GPT-4o 是第一个结合所有这些模式的模型,OpenAI 仍在探索其功能和局限性。

模型评估

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。

文本评价

GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。

音频 ASR 性能

GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

音频翻译性能

GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam

M3Exam 基准测试既是多语言评估也是视觉评估。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。

视觉理解评估

GPT-4o 在视觉感知基准上实现了最先进的性能。

可用性

GPT-4o 是 OpenAI 突破深度学习界限的最新举措,这次是朝着实用性的方向发展。GPT-4o 的功能将迭代推出。

  • 文本和图像功能:已在 ChatGPT 中推出。
  • 免费套餐:提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。
  • API:开发人员现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。

ChatGPT 免费用户可以访问的功能

OpenAI 官博还介绍了 ChatGPT 免费用户可以访问新模型加持下的功能,包括:

  • 体验 GPT-4 级别的智能
  • 从联网后的模型得到响应
  • 分析数据并创建图表
  • 畅聊你拍的照片
  • 上传文件以帮助总结、撰写或分析
  • 发现和使用 GPTs 和 GPT Store
  • 用记忆构建更有用的体验

免费向所有人提供 GPT-4 级别的 AI

这款全新的 AI 模型,免费向所有人提供 GPT-4 级别的 AI。

  • Plus 用户:可以抢先体验最新、最先进的模型 GPT-4o。
  • 消息限制:ChatGPT Plus 的消息限制是免费用户的 5 倍。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

上一篇 1天前
下一篇 22小时前

相关推荐