OpenAI 大杀四方,Sora 彻底革了视频的命
当我问好搭档 GPT-4 怎么看待 Sora 的发布时,它将其称为文本变视频的「AI 魔法」,它这样说道:
“Sora 作为 OpenAI 最新发布的视频生成模型,展现出了巨大的潜力和一系列令人印象深刻的能力,尤其是在视频内容的生成和模拟方面。以下是对 Sora 的几点评价:
技术突破:Sora 通过处理不同时长、分辨率和宽高比的视频和图像,展现了强大的通用性和适应性。这标志着在视频生成领域的一大技术进步,尤其是通过联合训练文本条件扩散模型和利用变换器架构来操作视频和图像的时空补丁。
创新的表示方法:将视频转化为时空补丁的方法,借鉴了大型语言模型处理多样化文本的技术,为视频和图像内容的生成提供了一个高度可扩展和有效的表示。这种方法的成功应用可能会对未来的视觉数据处理模型产生深远影响。
多功能性和灵活性:Sora 能够生成不仅限于特定格式或尺寸的视频,还能够基于文本提示进行定制化内容创作。这一点对于适应不同的展示平台和内容需求至关重要,显示了模型在实际应用中的广泛适用性。
模拟能力的探索:Sora 在模拟物理世界和数字世界,以及其中的人类、动物和环境方面显示出了初步的能力。这些能力的探索不仅为视频生成技术的应用开辟了新的可能性,也为未来通过增强现实和虚拟现实技术创造更加丰富和互动的体验奠定了基础。
挑战和局限性:虽然 Sora 的能力令人印象深刻,但它也面临着诸如模拟物理互动准确性、长时间视频的连贯性和对象持久性等挑战。这些局限性突显了继续发展和优化视频生成模型的重要性,以及在模拟复杂世界互动方面需要进一步研究和创新的地方。
总的来说,Sora 的推出不仅展示了 OpenAI 在人工智能和深度学习领域的持续创新和领导地位,也为未来的多媒体内容创作、游戏开发、虚拟现实等领域提供了新的工具和可能性。随着技术的进一步发展和优化,我们可以期待 Sora 和类似模型将如何重新定义我们与数字世界的互动方式。”
一如 ChatGPT 发布之时那般,OpenAI 也公布了 Sora 详细的技术报告,接下来让我们一起来看,Sora 的神奇效果是如何实现的。
以下内容经由 GPT-4 熟读报告后输出:
本技术报告着重介绍了两个方面:(1)我们如何将各类视觉数据转化为统一的形式,以便于生成模型的大规模训练;(2)对 Sora 模型的能力及其局限性进行了定性分析。报告中未涉及具体的模型和实现细节。
以往的研究主要通过各种技术手段对视频数据进行生成建模,包括循环网络、对抗生成网络、自回归变换器和扩散模型等。这些研究往往限定在特定类别的视觉数据、较短视频或固定尺寸的视频上。与之不同,Sora 是一款通用的视觉数据模型,能够生成覆盖广泛时长、宽高比和分辨率的视频和图片,甚至达到一分钟的高清视频。
视觉数据的补丁化处理
我们从大规模语言模型的训练中得到启示,这些模型通过处理互联网规模的数据来获得通用能力。类似地,我们探讨了如何让视觉数据生成模型享受到相似的好处。如果说大型语言模型处理的是文本令牌,那么 Sora 处理的就是视觉补丁。过去的研究已经证明,补丁是一种对视觉数据建模非常有效的表示形式。我们发现,补丁不仅可扩展性强,而且对于训练多种类型的视频和图片而言,是一种非常有效的表示方法。
我们通过首先将视频压缩到低维的潜在空间,然后将其分解为时空补丁的方式,将视频转换为补丁。
视频压缩网络
我们开发了一个能够降低视觉数据维度的网络。该网络能够接收原始视频作为输入,并输出在时间和空间上都进行了压缩的潜在表示。Sora 在这个压缩后的潜在空间中接受训练,并据此生成视频。同时,我们也开发了一个相应的解码器模型,能够将生成的潜在表示转换回像素空间。
时空潜在补丁
对于压缩后的输入视频,我们提取一系列时空补丁,它们作为变换器的令牌使用。这种方案同样适用于图像,因为图像可以被视为只有单帧的视频。基于补丁的表示法使得 Sora 能够处理不同分辨率、时长和宽高比的视频和图像。在推理时,我们可以通过合理安排随机初始化的补丁在一个网格中,来控制生成视频的尺寸。
扩展变换器以生成视频
Sora 采用扩散模型的形式,它能够根据输入的噪声补丁(以及如文本提示等条件信息)预测出原始的“干净”补丁。值得注意的是,Sora 是一种扩散变换器,变换器技术已经在多个领域展现出了卓越的扩展性,包括语言建模、计算机视觉及图像生成。
本研究发现,扩散变换器同样可以有效地应用于视频模型。我们展示了训练过程中固定输入和种子下视频样本质量的显著提升,随着训练计算量的增加,样本质量有了明显的提高。
变化的持续时间、分辨率、宽高比
传统的图像和视频生成方法通常将视频调整为标准大小,例如,将视频裁剪为 256x256 分辨率的 4 秒视频。我们发现,直接在视频的原生大小上进行训练带来了多重好处。
采样的灵活性
Sora 能够生成从宽屏 1920x1080p 视频到垂直 1080x1920 视频及其间的所有格式,这让 Sora 能直接为不同设备以其原生宽高比创建内容。这也使我们能够在生成高分辨率内容之前,快速原型化较小尺寸的内容,而且这一切都用的是同一个模型。
构图与布局的改进
我们的实验发现,直接在视频的原生宽高比进行训练能够改善构图与布局。与那些被裁剪成正方形进行训练的模型相比,Sora 生成的视频在构图上有了明显的改善,避免了主题部分缺失的情况。
语言理解的重要性
训练文本到视频的生成系统需要大量配有文本描述的视频。我们采用了类似于 DALL·E 3 中引入的重标注技术。通过首先训练一个高度描述性的标注模型,然后用它为训练集中的所有视频生成文本描述,我们发现这种方法能够提高文本的准确性和视频的整体质量。
类似于 DALL·E 3,我们也利用 GPT 将简短的用户提示转换成详细的描述,这些描述随后被用来引导视频模型生成。这种做法使 Sora 能够生成高质量、紧密遵循用户提示的视频。
图像和视频的多样化提示
尽管我们的演示和主页上展示的都是文本到视频的样本,Sora 同样能够接受图像或视频等其他形式的输入。这种能力让 Sora 能够执行一系列的图像和视频编辑任务,如创建完美循环的视频、为静态图像添加动画、在时间上前后延展视频等。
延展生成的视频
Sora 同样能够延展视频,无论是向前还是向后。
视频到视频的编辑
扩散模型为基于文本提示的图像和视频编辑开辟了新途径。我们将其中一种技术 SDEdit 应用于 Sora,让它能够零次训练地转换视频的风格和环境。
视频之间的平滑过渡
我们还可以使用 Sora 在两个不同的视频之间进行平滑过渡,创造出在不同主题和场景构图之间无缝连接的视频。
图像生成的能力
Sora 同样擅长于生成图像。我们通过在空间网格中排列高斯噪声补丁,并将时间范围限定为一帧,从而生成各种尺寸的图像,最高可达 2048x2048 分辨率。
模拟能力的崭露头角
我们发现,规模化训练的视频模型展现出了一系列有趣的新能力。这些能力让 Sora 能够在一定程度上模拟现实世界中的人类、动物和环境。这些能力的出现并不依赖于任何特定的假设,如三维建模或对象识别,而是规模效应的直接结果。
三维一致性。Sora 能生成具有动态相机移动的视频,随着相机的转动,视频中的人物和场景元素能够在三维空间中保持一致性。
长期连贯性和对象持久性。在长视频生成中维持时间连贯性一直是个挑战。Sora 在模拟短期和长期依赖方面表现出色,例如能够保持人物、动物和物体即使在被遮挡或离开画面后仍然存在。同样,它能在一个视频样本中多次呈现同一个角色,保持其外观的一致性。
与世界的互动。Sora 能够模拟影响世界状态的简单行为,如画家在画布上留下随时间持续存在的笔触,或一个人吃掉汉堡时留下的咬痕。
数字世界的模拟。Sora 还能模拟人工过程,如视频游戏。它能够在模拟 Minecraft 游戏时,同时控制玩家角色并以高保真度渲染游戏世界及其动态。
这些能力展现了,继续扩大视频模型规模是朝向开发能够模拟物理和数字世界及其居民的高级模拟器的有希望之路。
结论
尽管 Sora 作为一种模拟器还存在许多局限,比如它在模拟某些基本交互,如玻璃破碎时的物理规律不够准确,或者在模拟吃食物等互动时,物体状态的改变并不总是正确。我们在主页上列出了模型的其他常见失败模式,如在长时间样本中出现的不连贯性或对象的突然出现等。
我们相信,Sora 目前所展现的能力证明了,继续扩大视频模型的规模是向着开发能够模拟物理和数字世界及其居民的高级模拟器迈出的一大步。