OpenAI Sora 视频生成模型技术解析

OpenAI Sora

导读:近日,OpenAI发布了正在封闭测试的Sora模型。这是一款基于文本生成视频的AI大模型,本文将对其技术细节进行深入解析。

技术概述

OpenAI 在视频生成领域取得了重大突破,通过对大规模视频数据的训练,提出了基于文本条件扩散模型的视频生成技术。Sora 是这一技术的代表,能够生成长达一分钟的高质量视频。这一成果表明,扩展视频生成模型可能成为构建物理世界通用模拟器的有效途径。

具体来说,OpenAI 在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散模型。通过时空补丁的架构操作,Sora 能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练,并生成高保真度的视频。

核心技术点

1. 视窗数据转为补丁

OpenAI 从大型语言模型(LLM)中汲取灵感,利用动态补丁作为视觉数据的有效表示。这一方法借鉴了LLM中文本标记的成功经验,通过将视频压缩到较低维的潜在空间,再将表示划分为时空补丁,从而实现了对视频的高效处理。

2. 扩散模型的扩展

Sora 是一个基于扩散模型的视频生成器,通过预测输入的噪声块来生成视频。随着计算资源的增加,样本质量显著提升,显示了扩散模型在视频生成中的强大潜力。

3. 可变持续时间、分辨率与宽高比

与传统视频生成方法不同,Sora 能够直接在原始尺寸上进行训练,避免了裁剪和调整大小。这使得 Sora 能够灵活生成不同宽高比的视频,适应多种设备的需求。

模型能力与应用

1. 语言理解

Sora 通过重新字幕技术,使用高度描述性的字幕进行训练,提升了文本保真度和视频质量。利用 GPT 将用户简短提示转换为详细说明,进一步提高了视频生成的准确性。

2. 图像生成

Sora 不仅可以生成视频,还能生成高质量的图像。通过在时间范围为一帧的空间网格中排列高斯噪声块,Sora 能够生成分辨率高达 2048×2048 的图像。

3. 3D 一致性

Sora 能够生成具有动态摄像机运动的视频,随着摄像机的移动和旋转,场景元素在三维空间中保持一致移动,展现了强大的 3D 一致性。

4. 长距离一致性与物体持久性

Sora 在长时间视频生成中,能够有效保持物体的一致性和持久性,即使物体被遮挡或离开画面,模型仍能保持其存在。

未来展望

尽管 Sora 目前作为模拟器仍有诸多限制,如无法准确模拟某些物理过程,但其能力表明,视频模型的持续扩展可能成为开发物理和数字世界高性能模拟器的有力工具。

👉 野卡 | 一分钟注册,轻松订阅海外线上服务


技术报告地址https://openai.com/research/video-Generation-models-as-world-simulators

来源:专知 / 人工智能学家

上一篇 3天前
下一篇 3天前

相关推荐