60秒一镜到底，端掉整个行业饭碗？OpenAI首个视频生成模型Sora发布！

小编 2024-02-17

　　原标题：60秒一镜到底，端掉整个行业饭碗？OpenAI首个视频生成模型Sora发布！

　　这是长江独角兽的第2090篇推送，

　　文末点个【在看】，让我知道你在看。

　　今天凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。

　　据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的

多个角色。目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理

世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生

成视频。

　　本期创业锦囊，带您走近Sora，感受它的震撼冲击，拆解它的创新突破，展望它的更多可能。

　　来源 I 第一财经广播（ID：shfm977）

　　欢迎加入长江商学院X火山引擎X飞书X锦秋基金

　　「AI未来空间站」

　　01

　　效果炸裂、现实不存在了

　　OpenAI今晨公布的首个视频生成模型Sora，采用一种名为扩散模型的技术（diffusion probabilistic models

）。

　　而且，与 GPT 模型类似，Sora 也使用了Transformer 架构，并完美继承DALL·E 3的画质和遵循指令能力，生

成的视频一开始看起来像静态噪音，然后通过多个步骤去除噪音，逐步转换视频。

　　对于初学者来说，Sora 可以生成各种风格的视频（例如，真实感、动画、黑白），最长可达一分钟 —— 比大

多数文本-视频模型要长得多。

　　这些视频保持了合理的连贯性。相比其他 AI 视频模型，Sora视频生成质量好多了，更让人“舒服”——没有

出现“人工智能怪异”类场景。

　　比如，AI 想象中的“龙年春节”，Sora能形成紧跟舞龙队伍抬头好奇的儿童，也能生成海量人物角色各种行为

。

　　输入 prompt（提示词）：一位 24 岁女性眨眼的极端特写，在魔法时刻站在马拉喀什，70 毫米拍摄的电影，

景深，鲜艳的色彩，电影效果。

　　输入 prompt（提示词）：一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。

　　输入 prompt（提示词）：几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风

中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高高地挂在空中距离产生温暖

的光芒，低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物，具有美丽的摄影和景深效果。

　　行驶中的列车窗外偶遇遮挡，车内人物倒影短暂出现非常惊艳。

　　也可以来一段好莱坞大片质感的电影预告片：

　　竖屏超近景视角下，这只蜥蜴细节拉满：

　　在一杯咖啡中，两艘海盗船展开了激烈的战斗，超写实的近景视频。

　　通过这些动图来看，Sora不仅可以在单个视频中创建多个镜头，而且还可以依靠对语言的深入理解准确地解释

提示词，保留角色和视觉风格。

　　当然，Sora也存在一些弱点，OpenAI表示，它可能难以准确模拟复杂场景的物理原理；可能无法理解因果关系

；还可能混淆提示的空间细节；可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹等。

　　但瑕不掩瑜，Sora不仅能模拟真实世界，而且包括学习了摄影师和导演的表达手法，将 AI 视频惟妙惟肖地展

现出来。

　　因此，Sora已经成为了目前最强的 AI 视频生成类模型。

　　在社交平台上，已经有一些视觉艺术家、设计师和电影制作人（以及OpenAI员工）获得Sora访问权限。他们开

始不断放出新的提示词，OpenAI CEO奥尔特曼开始了“在线接单”模式。

　　技术报告显示，OpenAI并不是把Sora单纯当作一个视频模型来看待：将视频生成模型作为“世界模拟器”，不

仅可以在不同设备的原生宽高比直接创建内容，而且展示了一些有趣的模拟能力，如3D一致性、长期一致性和对象

持久性等。

　　“我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像

上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大

的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一

条有前途的途径。”OpenAI表示。

　　整体来看，Sora生成的视频噪音比较少，原始的训练数据比较“干净”，而且基于ChatGPT、DALL·E 文生图技

术能力，Sora视频生成技术更加高超。

　　消息公布后，网友直呼，工作要丢了，视频素材行业要RIP。

　　OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互

的问题。

　　网友直呼game over，工作要丢了：

　　02

　　技术细节

　　技术方面，目前OpenAI透露不多，简单介绍如下：

　　Sora是一种扩散模型，Sora不仅能够一次性生成完整的视频，还能延长已生成的视频。

　　关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。

　　与GPT模型类似，Sora使用了Transformer架构，有很强的扩展性。

　　在数据方面，OpenAI将视频和图像表示为patch，类似于GPT中的token。

　　通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和

纵横比。

　　Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术，为视觉训练数据生成高

度描述性的标注，因此能够更忠实地遵循用户的文本指令。

　　除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内

容动起来并关注小细节。

　　该模型还可以获取现有视频并对其进行扩展或填充缺失的帧，请参阅技术论文了解更多信息（晚些时候发布）

。

　　Sora 是能够理解和模拟现实世界的模型的基础，OpenAI相信这一功能将成为实现AGI的重要里程碑。

　　目前已有一些视觉艺术家、设计师和电影制作人（以及OpenAI员工）获得了Sora访问权限。

　　03

　　优点：文字直接变成视频，

　　利好故事IP创作者

　　首先，我们要承认，Sora是一个非常有创意和影响力的模型，它为AI的视频生成领域开辟了新的可能性。他现

在只能用文字描述来生成视频，“它的最大优点就是自然语言生成，不再需要用到晦涩难懂的prompt提示词。”它

可以根据你的文本指令生成视频，而不需要你提供任何的图像或视频素材。这意味着，你只要用文字描述你想要的

场景，Sora就能够为你生成相应的视频，而且还能保持视觉品质和细节。

　　这对于故事IP创作者来说是一个巨大的利好，因为他们可以用最简单的方式来表达和展示他们的想象力和创造

力，而不需要花费大量的时间和金钱来制作视频。这样，他们就可以更快更好地将自己的故事IP推向市场，吸引更

多的观众和粉丝，实现更大的价值和收益。

　　04

　　缺点：没有人物形象主体控制

　　这意味着，你不能指定你想要的视频中出现的人物的形象和特征，比如性别、年龄、发色、服装等。

　　Sora会根据你的文本指令和它自己的理解来生成人物的形象，但是这个形象可能不是你想要的，也可能不符合

你的故事背景和风格。

　　这对于故事IP创作者来说是一个很大的限制，因为他们无法完全控制自己的故事角色的形象和个性，也无法给

观众留下深刻的印象和感情。这样，他们的故事IP就可能失去了一部分的吸引力和竞争力。

　　但我认为既然大家都能看到问题，对OpenAI这样的大公司，解决它只是时间问题。

　　05

　　时间会解决一切

　　openAI的Sora很棒，但并不完美。它有它的优点，也有它的缺点。它有它的前景，也有它的挑战。它有它的创

新，也有它的局限。我们应该客观地看待和评价Sora，既要欣赏它的优势，也要认识它的劣势。不过随着技术更新

和整体框架的完善，相信用不了多久终将解决。

　　长江独角兽-创业交流社群

　　微信号｜Chuang_Xiaoer

　　获取最新创业资讯课程干货

　　与上千创业同行者一同成长

　　长江商学院X字节云雀X火山方舟 AIGC班（AI未来空间站）联合锦秋基金、NVIDIA 初创加速计划，为创业公司

创始人、董事长、CEO提供专项AIGC赋能、产品折扣、技术支持、市场宣传、融资对接、业务推荐等服务，通过面试

录取后将获得长江商学院校友身份，解锁更多长江商学院校友专属福利，欢迎咨询与报名！

　　好文耐看，点个“ 在看 ”

<<量子chatgpt(量子查体仪器哪里能买到)

没有了>>

60秒一镜到底，端掉整个行业饭碗？OpenAI首个视频生成模型Sora发布！

您可能还会对下面的文章感兴趣：

随便看看