Sora - 探索AI视频模型的无限可能

前言

随着人工智能技术的飞速发展，AI视频模型已成为科技领域的新热点。而在这个浪潮中，OpenAI推出的首个AI视频模型Sora，以其卓越的性能和前瞻性的技术，引领着AI视频领域的创新发展。让我们将一起探讨Sora的技术特点、应用场景以及对未来创作方式的深远影响。

一、概念介绍

    2024年2月16日，OpenAI 发布了 “文生视频”（text-to-video）的大模型工具，Sora（利用自然语言描述，生成视频）。这个消息一经发出，全球社交主流媒体平台以及整个世界都再次被 OpenAI 震撼了。AI 视频的高度一下子被 Sora 拉高了，要知道 Runway Pika 等文生视频工具，都还在突破几秒内的连贯性，而 Sora 已经可以直接生成长达60s的一镜到底视频，要知道目前Sora还没有正式发布，就已经能达到这个效果。

    Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。

    Sora 有别于其他 AI 视频模型的优势在于，既能准确呈现细节，又能理解物体在物理世界中的存在，并生成具有丰富情感的角色，甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

    Sora 采用类似于 GPT-4 对文本令牌进行操作的方式来处理视频 “补丁” 。其关键创新在于将视频帧视为补丁序列，类似于语言模型中的单词令牌，使其能够有效地管理各种视频信息。通过结合文本条件生成，Sora 能够根据文本提示生成上下文相关且视觉上连贯的视频。

    在原理上，Sora 主要通过三个步骤实现视频训练。首先是视频压缩网络，将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取，将视图信息分解成更小的单元，每个单元都包含了视图中一部分的空间和时间信息，以便 Sora 在后续步骤中进行有针对性的处理。最后是视频生成，通过输入文本或图片进行解码加码，由 Transformer 模型（即ChatGPT基础转换器）决定如何将这些单元转换或组合，从而形成完整的视频内容。

    总体而言，Sora 的出现将进一步推动 AI 视频生成和多模态大模型的发展，为内容创作领域带来了新的可能性。

二、发展背景

（一）OpenAI在大模型领域的成功

    2022年底，OpenAI 正式推出 ChatGPT ，这款由人工智能技术驱动的自然语言处理工具能够通过学习和理解人类的语言来进行对话。ChatGPT 是 OpenAI 迈出的第一步，这款让所有人都能体会到人工智能潜力的现象级产品，展现出了文字对于过去人工智能的理解力和逻辑能力的超越。随后，OpenAI 的开发重点逐步过渡到图像的生成，Dall-E 模型在生成图像方面也获得了重大突破。

（二）视觉算法的进步

    视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展，这预示着技术拐点的临近以及爆款应用的涌现。特别是在3D资产生成和视频生成领域，由于扩散算法的成熟，这些领域受益匪浅。然而，与图像生成相比，3D资产和视频生成在数据和算法方面面临的难点更多。

    尽管如此，考虑到大型语言模型（LLM）对人工智能各领域的加速作用以及已经出现的优秀开源模型，2024年该行业有望实现更大的发展。在2023年末至2024年初，Pika、HeyGen 等人工智能生成的视频应用逐渐受到关注，这验证了多模态技术的持续进步与成熟。但与此同时，民主倡导者和人工智能研究人员警告说，这些工具已经被用来欺骗和欺骗民众。

三、功能特色

优点

1、功能综述

    Sora 可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频（其他AI视频工具还在突破几秒内的连贯性），视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。

2、静态图生成视频

    Sora 还具备根据静态图像生成视频的能力，能够让图像内容动起来，并关注细节部分，使得生成的视频更加生动逼真，这一功能在动画制作、广告设计等领域具有应用前景。

3、视频扩展与缺失帧填充

    Sora 能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户快速完成视频内容的补充和完善。

4、连接视频

    可以使用 Sora 连接两个输入视频，在具有完全不同主题和场景组成的视频之间实现无缝过渡。

5、其他能力
能力描述图像生成Sora可以生成各种尺寸的图像，分辨率最高达2048×2048。3D一致Sora可以生成动态运动的视频，随着相机的移动和旋转，人和场景元素在三维空间中一致移动。远距离连贯性
物体持久性Sora通常能够有效地对短期和长期依赖关系进行建模，包括人、动物和物体的持久化，即使它们被遮挡或离开框架。同时，它还能在单个样本中生成同一角色的多个镜头，以保持其在整个视频中的外观。互动性Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕。模拟数字世界Sora可以模拟人工过程，例如电子游戏，并能够通过基本策略控制玩家，同时高保真地渲染世界及其动态。多机位Sora可以生成多机位、多角度的视频。

缺点

    Sora 也存有以下弱点：可能难以准确模拟复杂场景的物理原理，无法理解因果关系，混淆提示的空间细节，难以精确描述随着时间推移发生的事件。

    例如，在 “五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐” 的场景中，狼的数量会变化，一些凭空出现或消失。在提示词 “篮球穿过篮筐然后爆炸” 中，篮球没有正确被篮筐阻挡。

    OpenAI 表示，Sora 存在不成熟之处，可能难以理解因果关系，多位人工智能领域人士表示，该问题可能因其概率模式的逻辑存有 “硬伤” 。加大训练量、增加训练数据与物理逻辑可改善该问题，但无法根治。想要真正突破最底层逻辑上的问题，因果关系是一条必经之路。

四、技术特点

（一）多帧预测生成

    Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时仍保持一致。

（二）特殊架构

    Sora 采用与 GPT 模型相似的 Transformer 架构，OpenAI 用 Transformer 结构替代 Diffusion 模型中常用的 U-Net 结构，提升了原来 Diffusion 模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定基础。Transformer 架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决 Transformer 架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。

（三）重述提示词

    Sora 借鉴 DALL-E 3 的 “重述提示词技术” ，为视觉训练数据生成高度描述性的标注，这使得模型能够更忠实地遵循用户的文本指令，生成符合用户需求的视频内容，同时也提高了模型的灵活性和可控性。

（四）数据表示

    OpenAI 将视频和图像表示为 Patch ，类似于 GPT 中的 token，这种统一的数据表示方式使得 Sora 能够在更广泛的视觉数据上进行训练，涵盖不同的持续时间、分辨率和纵横比，有助于模型学习到更丰富的视觉特征，提高生成视频的质量和多样性。

（五）原生规模训练

    Sora采用 “原生规模训练” ，过往的图像和视频生成通常会将视频调整为标准大小，但这样会失去视频的原始长宽比和细节，而原生规模的训练方法可以带来更好的效果。Sora 可以对各种尺寸和纵横比的视频进行采样，允许直接为不同尺寸的设备创建内容，并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比，Sora 可以生成更完整、更美观的视频。

五、应用场景

场景一：广告制作

    像下年这种酷炫的广告图（视频）以后只需要有创意，借用工具生成就可以了，能显著减少拍摄和后期制作成本。过去广告物料、人员、拍摄、建模、3D驱动、后期制作一大堆的成本都可以节省下来。

场景二：电影、游戏、活动的预告片

    基于已有视频/图片生成一致性连贯性的酷炫视频。在电影或者一些大型活动的预告片中，可以起到非常爆炸性的效果。

好莱坞电影预告

场景三：自媒体内容

    结合现在 LLM 的分镜头脚本制作能力，然后利用 Sora 快速生成吸可以极大的节省内容产出的时间并且保障内容质量，未来创意会越来越之前，会使用 AIGC 工具变得越来越有竞争力。

场景四：历史、重要事件重现

    这个场景会非常有意义，过去存在大量的文本内容，想要重现不管是3D建模、CG动画还是真人影视拍摄成本都过高，有了 Sora 模型可以大规模的应用推广。

加州淘金热

场景五：文旅宣传

    这个和上面类似了，绝对是个非常好的应用场景。

中国舞龙

六、社会影响

（一）价值意义

    未来，AI 自动创作将深刻影响各行业，特别是在处理热点话题的 “时效性覆盖” 方面，AIGC 的效率将成为竞争的关键。竞争将主要体现在谁能更有效地驾驭 AI 的能力，尤其是像 Sora 这样强大的 AI 生产工具。未来可能实现 “扔一部小说、出一部大片” 的情景，Sora 已经展示了生成长达1分钟视频的能力，包括一镜到底、多角度切换等多样化特点。其视频能够运用景物、表情和色彩等元素，传达出各种情感色彩，如孤独、繁华、呆萌等。

    多模态模型的应用也在2024年将达到巅峰，对影视、直播、媒体、广告、动漫、艺术设计等多个行业产生深远影响。在当前短视频时代，Sora 已经可以承担短视频的摄影、导演和剪辑等任务。未来，Sora 生成的多种用途视频将对短视频、直播、影视、动漫、广告等行业产生深远的影响。

    在短视频创作领域，Sora 有望降低短剧制作的综合成本，解决 “重制作而轻创作” 的问题。这将使短剧制作的重心回归高质量剧本内容创作，对创作者的构思能力提出更高要求。为企业降低成本、提高效益，广告制作公司可以通过 Sora 生成符合品牌需求的广告视频，从而显著减少拍摄和后期制作成本。游戏和动画公司也能够利用 Sora 直接生成游戏场景和角色动画，降低3D模型和动画制作的成本。通过节省下来的成本，企业可以提升产品和服务质量，或进行技术创新，从而推动生产力的进一步提升。

    若说2023年是全球 AI 大模型大爆发的一年，是图文生成元年，那么2024年将迎来 AI 视频生成和多模态大模型的元年。从 ChatGPT 到 Sora ，AI 正在逐步改变每个个体和每个行业的现实，这也加快了 AGI 的实现。

（二）产业格局

1、估值上涨

    Sora 发布后，OpenAI 的估值迅速上涨（有望超过800亿美元，2023年ChatGPT发布不久时其估值约为290亿美元），且文生视频大模型将会大幅推动人工智能基础设施的需求，英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局，英伟达也因大模型训练需要GPU算力支持而股价大涨。与此同时，受 Sora 发布的影响，美国图片供应商 Shutterstock 的股价大跌。

    在中国，龙年开市第一天，Sora 相关概念全线 “爆发” ，会畅通讯、当虹科技、万兴科技、易点天下、因赛集团、东方国信、数码视讯、华扬联众、国脉文化等股票均大幅上涨，多家公司回应称，将根据自身业务特点，在文生视频技术落地、Sora 应用等方面寻找突破入口。

2、生产变革

    浙商证券预测，Sora 及同类产品将参与到改变信息生产和分发两大环节的进程中，PGC（专业生产内容）将广泛采用 AI 工具辅助生产，UGC（用户生成内容）将借助 AI 工具逐步替代PGC。此间，AI 生成视频工具的商业化将提速。

    Sora 可生成一段长达60秒的视频，远超市面同类 AI 产品视频生成时长，60秒的视频时长，已经超过抖音等短视频平台的平均视频时长，Sora 的诞生也为以后短视频平台的内容生产提供了更大的可能性。

（三）职业取代

    截至2024年2月，已有一些视觉艺术家、设计师和电影制作人以及 OpenAI 员工获得了 Sora 访问权限，他们也已开始在社交平台不断晒出使用 Sora 生成的新作品，为人们展示AI生成视频的创意可能。许多网友称 “不少人要丢工作了” ，甚至有人开始 “悼念” 一整个素材行业。

总结

    随着人工智能（AI）技术的迅猛发展，特别是像 Sora 这样的视频模型，其在内容生成、编辑和传播方面的应用逐渐广泛，引发了对于伦理与创意的深刻思考。

    Sora 对于需要制作视频的艺术家、电影制片人或学生来说，都带来了无限可能。该模型可以深度模拟真实物理世界，标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃，也被认为是实现通用人工智能（AGI）的重要里程碑，通过不断深入研究和发展 Sora 等先进模型，有望在未来实现更加智能、高效和多样化的视频生成与处理技术。Sora 的推出让 AIGC（生成式人工智能）再度成为行业焦点，能否彻底 “颠覆” 行业也成为舆论议论的中心。

    技术创新是推动社会进步的重要动力，但与此同时，我们也必须关注其可能带来的伦理道德挑战。在 Sora-AI 等视频模型的应用中，这种平衡尤为重要。一方面，这些模型能显著提高内容生成的效率，推动创意产业的发展；另一方面，我们也需警惕其可能带来的版权侵犯、隐私泄露等问题。为此，我们需要建立完善的法律法规体系，对 AI 技术的使用进行规范。同时，企业和研究机构也应在开发过程中充分考虑伦理因素，确保技术的健康发展。此外，公众教育和意识提升也是关键，我们需要培养一个更加理性、负责任的 AI 使用氛围。

标签：人工智能 Sora 视频

本文转载自: https://blog.csdn.net/Morse_Chen/article/details/136396431
版权归原作者 Francek Chen 所有，如有侵权，请联系我们删除。