2月16日凌晨,OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑,扩散模型结合OpenAI大获成功的transformer,在视觉领域实现了与大语言模型类似的突破。毫无疑问,视觉生成领域将有一次大的技术和商业革命。
本文将分别讨论:1. Sora是什么,怎么工作的,2. Sora引发的产业机会,3. 是不是大树之下寸草不生,这个领域的创业公司都要"挂"了。
Sora是什么?怎么工作的
Sora在多个方面重新定义了AI视频生成模型的标准:
a.它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。
b.它可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。
c.不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。
d.它是扩散模型, 更是扩散+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。
它能生成更真实,一致性更强的多镜头长视频
OpenAI官方公布了数十个示例视频,充分展示了Sora模型的强大能力。
人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,真实性与以往的AI生成视频是史诗级的提升,AI视频与现实的差距,更难辨认。
版权归原作者 明矛顿了 所有, 如有侵权,请联系我们删除。