还得是清华，开源版可灵、Sora AI视频生成整合包！

探索视频生成的未来：CogVideoX项目介绍

随着人工智能技术的飞速发展，视频生成已经成为现实。今天，我们有幸介绍一个令人兴奋的开源项目——CogVideoX，由清华大学团队开发，它将文本转换为视频的能力带到了一个新的高度。

CogVideoX：视频生成的新篇章

CogVideoX 是一个基于Transformer的大型文本生成视频模型，它在2022年5月首次开源，并在2024年8月6日迎来了重大更新。最新的更新包括开源3D Causal VAE技术，用于CogVideoX-2B模型，几乎无损地重构视频。同时，开源了CogVideoX系列的第一个模型——CogVideoX-2B，为视频生成领域带来了新的活力。

技术细节与性能

CogVideoX模型支持英语提示词，能够生成6秒长、每秒8帧、分辨率为720*480的视频。目前，使用diffusers的推理显存消耗为36GB，而使用SAT的推理显存消耗为18GB。此外，微调显存消耗为42GB，提示词长度上限为226 Tokens。

快速上手指南

开源地址：CogVideoX GitHub

上述 AI 工具已经制作成了本地一键启动包，你只需点击即可在个人电脑使用，再也不用担心泄露隐私和配置环境出现各种问题。

电脑配置要求

Windows 10/11 64位操作系统
24G显存以上英伟达显卡

下载和使用教程

下载压缩包：下载地址：还得是清华，开源版可灵、Sora AI视频生成整合包！_学术FUN
解压文件：解压后，最好不要有中文路径，双击“run.exe”文件运行。
浏览器访问：软件会自动打开浏览器，界面如下所示。

文生视频提示词技巧

提示词的精确度与细节水平直接影响视频内容的质量。采用结构化提示词可以极大提升视频内容的符合度和专业性。以下是构建提示词的关键组成部分：

提示词 = (镜头语言 +景别角度+ 光影) + 主体 (主体描述) + 主体运动 +场景 (场景描述) + (氛围)

镜头语言：通过镜头的各种应用以及镜头之间的衔接和切换来传达故事或信息，并创造出特定的视觉效果和情感氛围。如镜头平移，推近、拉远、升降拍摄、摇摄、跟随拍摄、手持拍摄、无人机航拍等;
景别角度：控制相机与被摄对象之间距离和角度，实现不同的视觉效果和情感表达。如大全景、中景、近景、鸟瞰视角、跟随视角、鱼眼效果等;
光影：光影是赋予摄影作品灵魂的关键元素，光影的运用可以使照片更具深度，更具情感，我们可以通过光影创造出富有层次感和情感表达力的作品。如自然光、丁达尔效应、柔和散射、硬光直射、逆光剪影、三点布光等;
主体：主体是视频中的主要表现对象。如儿童、狮子、向日葵，汽车、城堡等;
主体描述：对主体外貌细节和肢体姿态等的描述，如人物的服饰、动物的毛色、植物的颜色、物体的状态和建筑的风格;
主体运动：对主体运动状态的描述，包括静止和运动等，运动状态不宜过于复杂，符合6s视频内可以展现的画面即可，
场景：场景是主体所处的环境，包括前景、背景等;
场景描述：对主体所处环境的细节描述。如都市环境、乡村风光、工业区等;
氛围：对预期视频画面的氛围描述。如喧嚣繁忙、悬疑惊悚、宁静舒适等;

其它技巧

关键词重复：在提示的不同部分重复或强化关键词有助于提高输出的一致性。如:摄像机以超高速镜头快速飞过森林;
聚焦内容：提示词应集中在视频中应有的内容上。如：冷清的街道，而不是“没有人的街道”;

是不是超级期待？那就赶紧去试试吧！清华的这个开源项目，绝对会让你大开眼界！

标签：图像处理语音识别人工智能

本文转载自: https://blog.csdn.net/duoshehuan6005/article/details/141000514
版权归原作者 学术Fun 所有，如有侵权，请联系我们删除。

还得是清华，开源版可灵、Sora AI视频生成整合包！