AIGC新里程碑!OpenAI发布首个文生视频模型Sora,GPT-5不远了?
2月16日凌晨,OpenAI 发布首个文本转视频 AI 模型 Sora。
Sora可以生成长达一分钟的视频,包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。视频
效果如下:,时长00:20看到这段视频,网友惊叹这个视频质量高到太不真实了!
还有网友向?Sam Altman?提问:“你的人生目标就是让人们失业吗?”
YouTube名人MrBeast(真名Jimmy Donaldson)则请求Sam Altman:“别让我无家可归。”
OpenAI还提供了一些其他的视频Demo。提示词:“几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走近,它
们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高
挂在天空中。”距离产生了温暖的光芒,低摄像头视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物,具有美丽的摄
影和景深。”,时长00:10提示词:“动画场景的特写是一个毛茸茸的小怪物跪在一根融化的红色蜡烛旁边。艺术风
格是 3D 和现实的,重点是灯光和纹理。这幅画的基调是惊奇和好奇,怪物睁大眼睛、巴凝视着火焰。它的姿势和
表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强
了图像的舒适氛围。”,时长00:08提示词:“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她
穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道
潮湿且反光,在彩色灯光的照射下形成镜面效果。很多行人走来走去。”,时长00:59也有网友发现在这段视频的
16.5s左右,女子的左右腿出现了“换腿”的情况。
OpenAI Sora 的工作原理基于一种称为扩散模型(Diffusion Model)的技术,这种模型能够从噪声开始,逐步
去除噪声,最终生成清晰的视频内容。这个模型使用了Transformer架构,具有强大的扩展性,能够处理不同的时间
、分辨率和纵横比的视觉数据。Sora 还继承了DALL·E 3的重述提示词技术,这使得它能够更好地遵循文本指令,
生成高描述性的视觉内容。
详细步骤包括:
噪声视频:Sora 的生成过程从一个充满噪声的视频开始,这个视频由随机的像素组成,没有具体的图像内容。
逐步去噪:通过一系列的迭代步骤,模型逐渐减少视频中的噪声,这个过程类似于从模糊的图像中逐渐揭示出
清晰的图像。在每个步骤中,模型都会根据给定的文本提示(Prompt)来指导去噪的方向,确保生成的视频内容与
文本描述相符。
Transformer架构:Sora 使用了类似于 GPT(Generative Pre-trained Transformer)的 Transformer 架构,
这种架构具有很强的扩展性,能够处理和生成各种类型的数据。Transformer 架构通过注意力机制(Attention
Mechanism)来理解输入文本与生成图像之间的关系。
数据表示:补丁(Patch):视频和图像被表示为一系列较小的数据单位,称为“补丁”(Patch),类似于
GPT 中的标记(Token)。这种统一的数据表达方式允许模型在更广泛的视觉数据上进行训练和扩散变化,包括不同
的时间、分辨率和纵横比。
基于DALL·E 3的研究:Sora 的构建基于 OpenAI 对 DALL·E 3 的研究,它利用了 DALL·E 3 的重述提示词
技术,为视觉模型训练数据生成高描述性的标注。这使得 Sora 能够更准确地遵循用户的文本指令,生成与描述相
符的视频内容。
生成视频:用户输入一个描述性的文本提示,Sora 会根据这个提示生成视频。它可以生成全新的视频,也可以
基于静态图像生成视频剪辑,甚至扩展现有视频或填补缺失的帧。
生成过程:在生成过程中,Sora 能够理解物体在物理世界中的存在方式,例如,它知道纸飞机在树林中飞行时
的碰撞和光影变化。它还能够在单个视频中创建多个镜头,保持角色和视觉风格的一致性。Sora作为OpenAI发布的
首个文生视频模型,虽然在视频生成方面取得了显著的进展,但它也存在一些局限性,这些局限性主要体现在以下
几个方面:
物理原理的准确性:Sora 在模拟复杂物理场景时可能会遇到困难。例如,它可能无法完全准确地呈现物体的物
理交互,如碰撞、反射和阴影等。这可能导致生成的视频在物理真实性上存在偏差。
因果关系的理解:模型可能难以理解并准确呈现因果关系。这意味着在某些情况下,Sora 生成的视频可能无法
正确展示事件的逻辑顺序,或者物体之间的相互作用。
空间细节的处理:Sora 在处理空间细节方面可能存在不足,例如,模型可能会在处理左右方向时出现混淆,或
者难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹。
跑步时手脚节奏反复颠倒。
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.
玻璃破碎的物理过程可能也无法被准确呈现。
在安全方面,OpenAI 在将 Sora 集成到其产品中之前正在实施多项策略。这包括与红队成员合作并开发检测分
类器等工具来识别视频何时由 Sora 生成。他们的目标是在未来包含C2PA 元数据,假设该模型用于 OpenAI 产品中
。在为 DALL-E 3 建立的安全方法的基础上,OpenAI 计划使用文本分类器来检查违反内容策略的提示,并使用图像
分类器来检查视频帧以确保符合使用策略。另外,OpenAI 将 Sora 视为“可以理解和模拟现实世界”的基础模型,
这是实现通用人工智能 (AGI) 的关键一步。当然,在此之前应该是备受期待的GPT-5。