0


国产AI新突破!通义万相视频生成模型来了

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

2024年是AIGC大爆发的一年!尤其是视频生成(Video Generation)领域已经成为当前各大公司、高校发力的重点目标。

视频生成之所以如此重要,是因为它能够帮助人们快速创建各种类型的视频内容,在教育、娱乐、自动驾驶、医疗等行业都能发挥出强大作用。

2024年国外的视频生成商用级代表性产品有:Runway公司的Gen-3 Alpha、Luma的Dream Machine,还有OpenAI一直“跳票”的Sora等。

ea056a7e96bf9121a7bb52e47955ff7a.png

国内的视频生成技术发展也相当快速,除了快手发布的可灵、清华系初创生数科技发布的Vidu,还有之前阿里推出全网爆火的Animate Anyone。

其中阿里自研的视频生成爆款出圈之作Animate Anyone,在2023年11月底发布。这项工作的论文和项目主页一经发布,便在X、YouTube等社交媒体平台上爆火。相关视频播放量累计超1亿,该项目GitHub的Star数量也已经超1.4万!而且通义(原通义千问)APP已经上线了基于Animate Anyone打造的“全民舞王”!

阿里发布视频生成大模型——通义万相

又是阿里!杀疯了!9月19日,2024云栖大会期间,阿里巴巴重磅发布——通义万相视频生成大模型,可以生成影视级高清视频,而且更能听懂中国话,最懂中国风。

云栖大会飞天音乐节上的视频「江雪」,就是由通义万相生成的,如下所示:

通义万相目前支持文生视频图生视频两大功能,能够支持最长5秒视频生成,每秒30帧,分辨率为720P。

【文生视频】输入一段提示词(支持中英文多语言输入),根据该提示词生成相应的视频内容。Amusi 强烈推荐大家使用通义万相针对提示词优化的“灵感扩写”功能,可以更好的生成视频。文生视频支持的输出比例选项丰富,有电影级的16:9,手机短视频的9:16,还有常用的1:1,4:3和3:4。

e95b0758d8679427538bbd8014963ec8.png

【图生视频】输入一张图片,即可生成一段动态视频。按照上传的图像比例或预设比例,将输入图片作为视频首帧延续生成短视频。同时还可以通过“创意描述”功能来精确控制视频画面、运动等,使得视频内容更加生动、可控。

7981acb6453fbd9e1c6219a80bfba33d.png

大家现在就可以登录通义万相官网或者下载通义APP免费体验!

温馨提示:通义APP端不限次数使用!这个“大羊毛”,大家抓紧薅~

通义万相官网:

https://tongyi.aliyun.com/wanxiang/videoCreation

通义APP端入口:

a75a1da9023da4d232c1da70636b2d52.png

通义万相AI视频生成实测对比

上面简单介绍了通义万相的部分功能,下面从我们用户的角度,实测一下通义万相的AI视频生成功能究竟有多强,来看看实际使用体验如何。

Amusi 这里将通义万相与可灵、Vidu两大国产视频生成工具进行对比。

要先说明一下,通义万相有两个“特色”功能:灵感扩写自带BGM

1. 强烈推荐灵感扩写。因为当你用了这个灵感扩写功能,那就回不去了!它可以显著提高视频生成的画面丰富度!适合于所有人,哪怕你是个prompt大神!

PS:当你想象不出来一些提示词的时候,也可以用这个功能,因为它会极大丰富你的视频提示词;哪怕你觉得仍然不够好,你也可以将其作为参考,然后选择性修改文本。

**2. 生成的视频会自带BGM,视频观看起来沉浸感拉满! **

一、文生视频测试

文生视频示例1

提示词:迪士尼画风,一只兔子背着滑翔伞在空中上滑行

灵感扩写:视频展示了迪士尼风格的一只可爱兔子,它背着色彩斑斓的滑翔伞,在蔚蓝的天空中自由滑行。兔子的耳朵随风飘扬,脸上洋溢着兴奋和快乐的表情。背景是绵延的山脉和翠绿的森林,太阳洒下的光芒照亮了整个场景,营造出一种梦幻般的氛围。视频通过跟踪拍摄,展示了兔子在空中翱翔的全过程,强调了滑翔运动的刺激和乐趣。

714193e63ee924833ff4f5e3936d3d12.png

由上可知,这个灵感扩写太强大了!极大丰富了提示词,那究竟对视频生成有多大帮助?咱们往下看。

通义万相使用原提示词的的视频生成结果如下所示:

通义万相使用灵感扩写的视频生成结果如下所示:

对比之下,明显可以看出使用灵感扩写的视频画面更加精美,比如兔子背着的滑翔伞、兔子背后的场景,就连兔子都更加迪士尼风格,而且它的表情和动作相当生动,甚至连视频BGM都更加契合。

再看看可灵的视频生成结果。由于可灵没有“灵感扩写”功能,但是Amusi也测试了双版本,也就是把通义万相灵感扩写后的提示词输入到可灵中。

可灵使用原提示词的的视频生成结果如下所示:

可灵使用通义万相灵感扩写的视频生成结果如下所示:

由上可知,可灵使用通义万相灵感扩写生成的视频画面确实会更加精美一些,但万万没想到兔子和滑翔伞融为一体,直接变成了“兔子滑翔伞”。

这里通义万相和可灵作为对比,可以明显看出通义万相生成的兔子、滑翔伞和背景都更加逼真,而且通义万相中兔子滑翔的动作更加丝滑和自然。

文生视频示例2

提示词:古风女孩,穿着古代服饰,在庭院里,迎面走来

灵感扩写:视频展示了古风女孩穿着精致的古代服饰,在典雅的庭院中缓缓前行。她的步伐轻盈,仿佛每一步都在诉说着古老的故事。周围是青砖灰瓦、绿植环绕的古典景致,阳光透过树叶的缝隙洒落,为她披上了一层金色的光晕。女孩的面容清秀,长发束起,头饰点缀着珠翠,更添几分古典韵味。她的出现,如同穿越时空的精灵,令人眼前一亮。

c4629febcd2cfe112d4c33710e94ad13.png

通义万相使用灵感扩写的视频生成结果如下所示:

可灵使用通义万相灵感扩写的视频生成结果如下所示:

这里通义万相和可灵都使用通义万相的灵感扩写作为输入提示词,两个背景画面各有特色,但在人物细节上,通义万相更胜一筹,其生成的人物服饰更精致,人脸属实是国风古韵,不愧是最懂中国风的通义万相(灵感扩写后的提示词实在是太中国风了),而可灵生成的人物面部存在严重畸变。

文生视频示例3

提示词:一只熊猫穿着绿色滑雪服,踩着雪橇板,在雪山上快速滑行,镜头跟随拍摄

灵感扩写:视频展示了穿着绿色滑雪服的一只熊猫,在雪山上进行高速滑行的惊险场景。熊猫踩着雪橇板,展现出专业的滑雪姿态。镜头捕捉到熊猫周围飞溅起的雪花。背景是白雪皑皑的山峰和蓝天,营造出一种清新而又刺激的氛围。整个视频充满了运动感和乐趣,让人感受到滑雪运动的魅力。

通义万相使用灵感扩写的视频生成结果如下所示:

可灵使用通义万相灵感扩写的视频生成结果如下所示:

这里通义万相和可灵都使用通义万相的灵感扩写作为输入提示词。通义万相可以说是完美契合提示词,熊猫穿的这件绿色滑雪服也太贴身了,相当可爱帅气,滑雪姿势的动态也很优雅,雪山背景也很逼真且具有高度一致性。但可灵这里就很拉垮了,绿色滑雪服基本消失了,或者说是变成了给熊猫“护胸”的绿色小装备。

二、图生视频测试

注:通义万相、可灵和Vidu的图生视频功能都支持提示词(可选项)。

图生视频示例1

输入一张图片(该图片是由AI制作成的),如下所示(中秋佳节,是不是很应景):

82a8f1b17e25a52f0358f977265525ff.jpeg

图生视频的提示词:兔子变身为一个穿着白色T恤的人

0496502cc1d9b3a679cb3166691a2fe1.png

通义万相的视频生成结果如下所示:

035abc109e9218da4cae3f6b62105b40.gif

可灵的视频生成结果如下所示:

89c6b9007887dfa1a98da0d229b04d6b.gif

Vidu的视频生成结果如下所示:

acecda6c08611c135e93080baebdad52.gif

上面三个视频对比结果很明显,通义万相的效果最佳,兔子变身过程相当丝滑自然;而Vidu那都不叫变身了,属于是镜头切换;至于可灵,那干脆镜头切换都没有,像是提示词效果失灵了,因为变身和穿着白色T恤的人这两个关键因素在视频中是一点儿都没看到。

图生视频示例2

输入图片如下所示:

ba9c8a1b9b826b51aa5423a6faf61ed1.png

图生视频的提示词:视频展示了一只水母,缓缓地游泳

通义万相的视频生成结果如下所示:

c1a798769529f95e240818fb898a61c1.gif

可灵的视频生成结果如下所示:

997b72abf5c8304771b174722c4e320a.gif

Vidu的视频生成结果如下所示:

902ee330d754d7042a336cb66935cdc5.gif

上面三个视频各有特色,通义万相中的水母游泳姿态很自然;可灵中的水母一致性更好,但游泳姿态过于“缓慢”了;Vidu中的镜头视角,嗯。。。可以说是很有个性。

限于篇幅有限,本文只介绍了通义万相极小部分的的视频生成功能和案例,而更多炫酷功能和精彩演示,推荐大家去通义万相官网查看和使用。

薅羊毛!大家赶紧下载使用!

通义万相这么强大的视频生成能力,离不开阿里巴巴领先的技术优势。

阿里巴巴提出全自研视觉生成大模型,采用全新的Diffusion + Transformer架构,一套架构同时支持图像与视频生成类任务,在模型框架、训练数据、标注方式和产品设计等方面进行精心设计,从而提供业界领先的视觉生成能力。

现在通义万相完全免费,通义APP端更是每日不限次使****用,大家赶紧下载使用吧!羊毛薅起来!

通义万相官网:

https://tongyi.aliyun.com/wanxiang/videoCreation

********2a3afe604cc5989a194118cfc40fb864.gif********点击阅读原文,即可免费体验!

标签: 人工智能

本文转载自: https://blog.csdn.net/amusi1994/article/details/142442904
版权归原作者 Amusi(CVer) 所有, 如有侵权,请联系我们删除。

“国产AI新突破!通义万相视频生成模型来了”的评论:

还没有评论