0


还得是清华,开源版可灵、Sora AI视频生成整合包!

还得是清华,开源版可灵、Sora AI视频生成整合包!

探索视频生成的未来:CogVideoX项目介绍

随着人工智能技术的飞速发展,视频生成已经成为现实。今天,我们有幸介绍一个令人兴奋的开源项目——CogVideoX,由清华大学团队开发,它将文本转换为视频的能力带到了一个新的高度。

CogVideoX:视频生成的新篇章

CogVideoX 是一个基于Transformer的大型文本生成视频模型,它在2022年5月首次开源,并在2024年8月6日迎来了重大更新。最新的更新包括开源3D Causal VAE技术,用于CogVideoX-2B模型,几乎无损地重构视频。同时,开源了CogVideoX系列的第一个模型——CogVideoX-2B,为视频生成领域带来了新的活力。

技术细节与性能

CogVideoX模型支持英语提示词,能够生成6秒长、每秒8帧、分辨率为720*480的视频。目前,使用diffusers的推理显存消耗为36GB,而使用SAT的推理显存消耗为18GB。此外,微调显存消耗为42GB,提示词长度上限为226 Tokens。

快速上手指南

开源地址:CogVideoX GitHub

上述 AI 工具已经制作成了本地一键启动包,你只需点击即可在个人电脑使用,再也不用担心泄露隐私和配置环境出现各种问题。

电脑配置要求

  • Windows 10/11 64位操作系统
  • 24G显存以上英伟达显卡

下载和使用教程

  1. 下载压缩包: 下载地址:还得是清华,开源版可灵、Sora AI视频生成整合包!_学术FUN
  2. 解压文件: 解压后,最好不要有中文路径,双击“run.exe”文件运行。
  3. 浏览器访问: 软件会自动打开浏览器,界面如下所示。

文生视频提示词技巧

提示词的精确度与细节水平直接影响视频内容的质量。采用结构化提示词可以极大提升视频内容的符合度和专业性。以下是构建提示词的关键组成部分:

提示词 = (镜头语言 +景别角度+ 光影) + 主体 (主体描述) + 主体运动 +场景 (场景描述) + (氛围)

  • 镜头语言:通过镜头的各种应用以及镜头之间的衔接和切换来传达故事或信息,并创造出特定的视觉效果和情感氛围。如镜头平移,推近、拉远、升降拍摄、摇摄、跟随拍摄、手持拍摄、无人机航拍等;
  • 景别角度:控制相机与被摄对象之间距离和角度,实现不同的视觉效果和情感表达。如大全景、中景、近景 、鸟瞰视角 、跟随视角、鱼眼效果等;
  • 光影:光影是赋予摄影作品灵魂的关键元素,光影的运用可以使照片更具深度,更具情感,我们可以通过光影创造出富有层次感和情感表达力的作品。如自然光、丁达尔效应、柔和散射、硬光直射 、逆光剪影、三点布光等;
  • 主体:主体是视频中的主要表现对象。如儿童、狮子、向日葵,汽车、城堡等;
  • 主体描述:对主体外貌细节和肢体姿态等的描述,如人物的服饰、动物的毛色、植物的颜色、物体的状态和建筑的风格;
  • 主体运动:对主体运动状态的描述,包括静止和运动等,运动状态不宜过于复杂,符合6s视频内可以展现的画面即可,
  • 场景:场景是主体所处的环境,包括前景、背景等;
  • 场景描述:对主体所处环境的细节描述。如都市环境、乡村风光、工业区等;
  • 氛围:对预期视频画面的氛围描述。如喧嚣繁忙、悬疑惊悚、宁静舒适等;

其它技巧

  • 关键词重复:在提示的不同部分重复或强化关键词有助于提高输出的一致性。如:摄像机以超高速镜头快速飞过森林;
  • 聚焦内容:提示词应集中在视频中应有的内容上。如:冷清的街道,而不是“没有人的街道”;

是不是超级期待?那就赶紧去试试吧!清华的这个开源项目,绝对会让你大开眼界!


本文转载自: https://blog.csdn.net/duoshehuan6005/article/details/141000514
版权归原作者 学术Fun 所有, 如有侵权,请联系我们删除。

“还得是清华,开源版可灵、Sora AI视频生成整合包!”的评论:

还没有评论