北京时间 2 月 16 日凌晨,OpenAI 正式发布了文本到视频生成模型 Sora。继 Runway、Pika、谷歌和 Meta 之后,OpenAI 也加入了视频生成领域的竞争。
Sora 的发布引起了广泛关注。OpenAI CEO 山姆·奥特曼在社交媒体上展示的 AI 生成视频效果令人惊叹,甚至有人感叹:“好莱坞的时代结束了?”
Sora 的核心功能
Sora 可以根据一段简短的文字描述或一张静态图片,生成类似电影的 1080p 视频场景。其生成的视频包含多个角色、不同类型的动作和丰富的背景细节。
Sora 的优势
- 语言理解:Sora 能够准确理解用户的文字描述,生成符合要求的视频。
- 物理世界模拟:Sora 不仅能理解用户的需求,还能模拟物理世界中的运动方式。
- 多样化风格:支持生成真实感、动画、黑白等多种风格的视频。
视频生成示例
-
中国龙年舞龙
-
加州淘金热历史镜头
-
禅宗花园玻璃球
技术细节
OpenAI 发布了 Sora 的技术报告,展示了其训练方法和能力。Sora 基于扩散模型架构,能够生成长达一分钟的高质量视频。报告还提到,Sora 是一个通用视觉模型,可以生成不同时长、分辨率和宽高比的视频。
视觉数据转为 Patches
Sora 借鉴了大型语言模型(LLM)的思路,将视频压缩到较低维的潜在空间,并将其分解为时空 patches。这种方法使 Sora 能够高效生成高质量视频。
Sora 的局限性
尽管 Sora 表现出色,但它仍有一些局限性。例如,它无法准确模拟某些物理现象,如玻璃碎裂。此外,长时间生成的视频可能会出现不一致性。
未来展望
Sora 的发布证明了大规模训练视频模型的潜力。未来,OpenAI 将继续优化 Sora,以实现更加精准的物理世界模拟。
更多关于 Sora 的技术细节,请参考OpenAI 官方技术报告。