还得是清华,开源版可灵、Sora AI视频生成整合包!
探索视频生成的未来:CogVideoX项目介绍
随着人工智能技术的飞速发展,视频生成已经成为现实。今天,我们有幸介绍一个令人兴奋的开源项目——CogVideoX,由清华大学团队开发,它将文本转换为视频的能力带到了一个新的高度。
CogVideoX:视频生成的新篇章
CogVideoX 是一个基于Transformer的大型文本生成视频模型,它在2022年5月首次开源,并在2024年8月6日迎来了重大更新。最新的更新包括开源3D Causal VAE技术,用于CogVideoX-2B模型,几乎无损地重构视频。同时,开源了CogVideoX系列的第一个模型——CogVideoX-2B,为视频生成领域带来了新的活力。
技术细节与性能
CogVideoX模型支持英语提示词,能够生成6秒长、每秒8帧、分辨率为720*480的视频。目前,使用diffusers的推理显存消耗为36GB,而使用SAT的推理显存消耗为18GB。此外,微调显存消耗为42GB,提示词长度上限为226 Tokens。
快速上手指南
开源地址:CogVideoX GitHub
上述 AI 工具已经制作成了本地一键启动包,你只需点击即可在个人电脑使用,再也不用担心泄露隐私和配置环境出现各种问题。
电脑配置要求
- Windows 10/11 64位操作系统
- 24G显存以上英伟达显卡
下载和使用教程
- 下载压缩包: 下载地址:还得是清华,开源版可灵、Sora AI视频生成整合包!_学术FUN
- 解压文件: 解压后,最好不要有中文路径,双击“run.exe”文件运行。
- 浏览器访问: 软件会自动打开浏览器,界面如下所示。
文生视频提示词技巧
提示词的精确度与细节水平直接影响视频内容的质量。采用结构化提示词可以极大提升视频内容的符合度和专业性。以下是构建提示词的关键组成部分:
提示词 = (镜头语言 +景别角度+ 光影) + 主体 (主体描述) + 主体运动 +场景 (场景描述) + (氛围)
- 镜头语言:通过镜头的各种应用以及镜头之间的衔接和切换来传达故事或信息,并创造出特定的视觉效果和情感氛围。如镜头平移,推近、拉远、升降拍摄、摇摄、跟随拍摄、手持拍摄、无人机航拍等;
- 景别角度:控制相机与被摄对象之间距离和角度,实现不同的视觉效果和情感表达。如大全景、中景、近景 、鸟瞰视角 、跟随视角、鱼眼效果等;
- 光影:光影是赋予摄影作品灵魂的关键元素,光影的运用可以使照片更具深度,更具情感,我们可以通过光影创造出富有层次感和情感表达力的作品。如自然光、丁达尔效应、柔和散射、硬光直射 、逆光剪影、三点布光等;
- 主体:主体是视频中的主要表现对象。如儿童、狮子、向日葵,汽车、城堡等;
- 主体描述:对主体外貌细节和肢体姿态等的描述,如人物的服饰、动物的毛色、植物的颜色、物体的状态和建筑的风格;
- 主体运动:对主体运动状态的描述,包括静止和运动等,运动状态不宜过于复杂,符合6s视频内可以展现的画面即可,
- 场景:场景是主体所处的环境,包括前景、背景等;
- 场景描述:对主体所处环境的细节描述。如都市环境、乡村风光、工业区等;
- 氛围:对预期视频画面的氛围描述。如喧嚣繁忙、悬疑惊悚、宁静舒适等;
其它技巧
- 关键词重复:在提示的不同部分重复或强化关键词有助于提高输出的一致性。如:摄像机以超高速镜头快速飞过森林;
- 聚焦内容:提示词应集中在视频中应有的内容上。如:冷清的街道,而不是“没有人的街道”;
是不是超级期待?那就赶紧去试试吧!清华的这个开源项目,绝对会让你大开眼界!
版权归原作者 学术Fun 所有, 如有侵权,请联系我们删除。