cha

60秒一镜到底,端掉整个行业饭碗?OpenAI首个视频生成模型Sora发布!

  原标题:60秒一镜到底,端掉整个行业饭碗?OpenAI首个视频生成模型Sora发布! 


  这是长江独角兽的第2090篇推送,


  文末点个【在看】,让我知道你在看。


  今天凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。


  据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的


多个角色。目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理


世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生


成视频。


  本期创业锦囊,带您走近Sora,感受它的震撼冲击,拆解它的创新突破,展望它的更多可能。


  来源 I 第一财经广播(ID:shfm977)


  欢迎加入长江商学院X火山引擎X飞书X锦秋基金


  「AI未来空间站」


  01


  效果炸裂、现实不存在了


  OpenAI今晨公布的首个视频生成模型Sora,采用一种名为扩散模型的技术(diffusion probabilistic models


)。


  而且,与 GPT 模型类似,Sora 也使用了Transformer 架构,并完美继承DALL·E 3的画质和遵循指令能力,生


成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。


  对于初学者来说,Sora 可以生成各种风格的视频(例如,真实感、动画、黑白),最长可达一分钟 —— 比大


多数文本-视频模型要长得多。


  这些视频保持了合理的连贯性。相比其他 AI 视频模型,Sora视频生成质量好多了,更让人“舒服”——没有


出现“人工智能怪异”类场景。


  比如,AI 想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为



  输入 prompt(提示词):一位 24 岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70 毫米拍摄的电影,


景深,鲜艳的色彩,电影效果。


  输入 prompt(提示词):一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。


  输入 prompt(提示词):几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风


中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖


的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深效果。


  行驶中的列车窗外偶遇遮挡,车内人物倒影短暂出现非常惊艳。


  也可以来一段好莱坞大片质感的电影预告片:


  竖屏超近景视角下,这只蜥蜴细节拉满:


  在一杯咖啡中,两艘海盗船展开了激烈的战斗,超写实的近景视频。


  通过这些动图来看,Sora不仅可以在单个视频中创建多个镜头,而且还可以依靠对语言的深入理解准确地解释


提示词,保留角色和视觉风格。


  当然,Sora也存在一些弱点,OpenAI表示,它可能难以准确模拟复杂场景的物理原理;可能无法理解因果关系


;还可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹等。


  但瑕不掩瑜,Sora不仅能模拟真实世界,而且包括学习了摄影师和导演的表达手法,将 AI 视频惟妙惟肖地展


现出来。


  因此,Sora已经成为了目前最强的 AI 视频生成类模型。


  在社交平台上,已经有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得Sora访问权限。他们开


始不断放出新的提示词,OpenAI CEO奥尔特曼开始了“在线接单”模式。


  技术报告显示,OpenAI并不是把Sora单纯当作一个视频模型来看待:将视频生成模型作为“世界模拟器”,不


仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象


持久性等。


  “我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像


上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大


的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一


条有前途的途径。”OpenAI表示。


  整体来看,Sora生成的视频噪音比较少,原始的训练数据比较“干净”,而且基于ChatGPT、DALL·E 文生图技


术能力,Sora视频生成技术更加高超。


  消息公布后,网友直呼,工作要丢了,视频素材行业要RIP。


  OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互


的问题。


  网友直呼game over,工作要丢了:


  02


  技术细节


  技术方面,目前OpenAI透露不多,简单介绍如下:


  Sora是一种扩散模型,Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。


  关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。


  与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。


  在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。


  通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和


纵横比。


  Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高


度描述性的标注,因此能够更忠实地遵循用户的文本指令。


  除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内


容动起来并关注小细节。


  该模型还可以获取现有视频并对其进行扩展或填充缺失的帧,请参阅技术论文了解更多信息(晚些时候发布)



  Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。


  目前已有一些视觉艺术家、设计师和电影制作人(以及OpenAI员工)获得了Sora访问权限。


  03


  优点:文字直接变成视频,


  利好故事IP创作者


  首先,我们要承认,Sora是一个非常有创意和影响力的模型,它为AI的视频生成领域开辟了新的可能性。他现


在只能用文字描述来生成视频,“它的最大优点就是自然语言生成,不再需要用到晦涩难懂的prompt提示词。”它


可以根据你的文本指令生成视频,而不需要你提供任何的图像或视频素材。这意味着,你只要用文字描述你想要的


场景,Sora就能够为你生成相应的视频,而且还能保持视觉品质和细节。


  这对于故事IP创作者来说是一个巨大的利好,因为他们可以用最简单的方式来表达和展示他们的想象力和创造


力,而不需要花费大量的时间和金钱来制作视频。这样,他们就可以更快更好地将自己的故事IP推向市场,吸引更


多的观众和粉丝,实现更大的价值和收益。


  04


  缺点:没有人物形象主体控制


  这意味着,你不能指定你想要的视频中出现的人物的形象和特征,比如性别、年龄、发色、服装等。


  Sora会根据你的文本指令和它自己的理解来生成人物的形象,但是这个形象可能不是你想要的,也可能不符合


你的故事背景和风格。


  这对于故事IP创作者来说是一个很大的限制,因为他们无法完全控制自己的故事角色的形象和个性,也无法给


观众留下深刻的印象和感情。这样,他们的故事IP就可能失去了一部分的吸引力和竞争力。


  但我认为既然大家都能看到问题,对OpenAI这样的大公司,解决它只是时间问题。


  05


  时间会解决一切


  openAI的Sora很棒,但并不完美。它有它的优点,也有它的缺点。它有它的前景,也有它的挑战。它有它的创


新,也有它的局限。我们应该客观地看待和评价Sora,既要欣赏它的优势,也要认识它的劣势。不过随着技术更新


和整体框架的完善,相信用不了多久终将解决。


  长江独角兽-创业交流社群


  微信号|Chuang_Xiaoer


  获取最新创业资讯课程干货


  与上千创业同行者一同成长


  长江商学院X字节云雀X火山方舟 AIGC班 (AI未来空间站)联合锦秋基金、NVIDIA 初创加速计划,为创业公司


创始人、董事长、CEO提供专项AIGC赋能、产品折扣、技术支持、市场宣传、融资对接、业务推荐等服务,通过面试


录取后将获得长江商学院校友身份,解锁更多长江商学院校友专属福利,欢迎咨询与报名!


  好文耐看, 点个“ 在看 ” 




您可能还会对下面的文章感兴趣:

登录 注册 退出