OpenAI揭秘:Sora如何生成惊艳视频?

来源:整理自数字生命卡兹克、新智元、腾讯科技、每日经济新闻

2024年2月15日,OpenAI发布了其最新的文生视频模型Sora。这一创新技术允许用户通过简单的文字指令,生成长达60秒的高质量视频。这种视频不仅在视觉上极具吸引力,还展示了丰富的细节和流畅的运镜。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

Sora的六大核心优势

OpenAI在发布Sora的同时,也详细介绍了其技术报告,总结了Sora的六大核心优势:

  1. 准确性与多样性:Sora能够准确解释长达135个单词的提示,并生成高质量的视频剪辑,涵盖从人物、动物到城市场景等广泛主题。
  2. 强大的语言理解:利用Dall-E模型的重述要点技术,Sora能够提升文本的准确性和视频的整体质量。
  3. 多模态输入:Sora不仅可以将文本转化为视频,还能接受图像或视频作为输入,执行广泛的图像和视频编辑任务。
  4. 视频扩展功能:Sora能够根据图像创建视频或补充现有视频,并沿时间线向前或向后扩展视频。
  5. 设备适配性:Sora能够为各种设备生成与其原始纵横比完美匹配的内容。
  6. 场景与物体的一致性:Sora能够生成带有动态视角变化的视频,确保画面主体即使在离开视野时也能保持一致。

Sora的技术细节

Sora是一个基于Transformer的扩散模型,能够生成高保真视频。以下是其技术细节的简要概述:

  • 将视觉数据转换为图像块:Sora通过将视频压缩到低维潜在空间,并将其分解为时空块,来训练和生成视频。
  • 视频压缩网络:Sora训练了一个网络,用于降低视觉数据的维度,并在压缩的潜在空间内生成视频。
  • 扩散变换器:Sora是一个扩散模型,通过预测原始的“干净”块来生成视频。
  • 多变的时长、分辨率与宽高比:Sora能够生成不同时长、分辨率和宽高比的视频,直接适配各种设备。

Sora的潜在应用

Sora的应用潜力广泛,包括但不限于:

  • 视频编辑:创建完美循环视频、将静态图像转化为动画、延长视频时间等。
  • 图像生成:生成高达2048×2048分辨率的图像。
  • 模拟数字世界:模拟视频游戏等人工过程。

结论

Sora的发布标志着AI研究的一个重要里程碑。其强大的视频生成能力和广泛的应用潜力,展示了持续扩展视频模型是开发高度模拟物理和数字世界的有效路径。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务

上一篇 1天前
下一篇 1天前

相关推荐