0


数字人永生,一篇教会你,用AI让老照片开口说话

不仅能动,还能说话

前文 介绍了如何让老照片动起来,很多动手能力强的小伙伴已经反馈结果了,但依旧有些遗憾,老照片虽然动起来了,但是无法开口说话。

俗话说:事事有回应,件件有着落,凡事有交代。今天让我们把这份遗憾补全,不仅照片动起来,还能开口说话,实现真正意义上的数字人永生

选照片

老规矩,先选一张老照片,如果手里没有合适的,可以从这两个网站找素材

首推小红书,最好找,直接搜索:老照片

官网地址:https://www.xiaohongshu.com/explore

图片

也可以通过趣历史网站搜集素材,这里的素材具备一定的年代感,大部分都是合集,也很方便。

官网地址:https://www.qulishi.com/pic/

图片

为了大家方便,这里也给大家准备了一些素材库,可以直接下载。

https://pan.baidu.com/share/init?surl=QsxgcMFNCx3DL2XYvcfHvA

提取密码:b2zf

照片的选择不是随意的,为了确保后续的制作质量,需要遵循以下要求:

  1. 不要使用有多人的照片。
  2. 确保人脸不要太小,建议人脸宽度占整体画面宽度的1/4以上。
  3. 人脸不要太大,确保整张人脸都在屏幕区域内,人脸不要出屏幕。
  4. 确保面部特征没有被遮挡,并努力让面部清晰可见。

当然,如果仅仅是筛选素材,我们可以按照要求来选择。但已有的老照片是独一无二的,无法满足要求。

这里教大家三步,可以解决90%的问题。

第一步:通过美图秀秀APP,对图片进行画质修复。去掉多余的毛边,模糊感。

第二步:对照片进行上色,从黑白照转换成彩色照。

第三步:对照片进行二次画质修复,确保上色后的不影响画质。

第四步:对照片进行裁剪,裁剪要求可以参考上面的1-3点。

制作视频

到这一步,我们的照片已经准备好了,开始让它动起来。

打开快影APP,我们选择AI创作,进入文生图功能,上传图片,输入提示词,让照片动起来。

这里需要注意,为不影响后续环节制作,视频我们也需要按照以下要求:

  1. 视频方向:横向或纵向
  2. 文件格式:mp4、mov
  3. 视频时长:5秒~30分钟
  4. 分辨率:360p~4K
  5. 文件大小:小于500MB

通过快影生成的视频,默认就符合,大家如果有自己调节参数,那么需要注意下。

定制数字人

视频素材有了,我们开始准备数字人制作。国内的数字人有许多,例如:腾讯的智影、蝉镜、小冰,飞影。

为了方便,这里推荐大家使用飞影:https://hifly.cc/home

图片

飞影默认内置了很多公用的数字人分身,可以用于数字人视频制作,但不是我们今天的主题。

直接点击红框中的数字分身,开始制作我们的专属数字人。

图片

直接点提交,你还没反应过来,就已经制作好了。

声音克隆

图片

在左边菜单栏选择声音克隆,然后选择快速克隆。

图片

模式选择:

基础版本,目前在内测中,对于部分音频可能存在诸如发音错误、停顿错误的问题。

高保真版本,高度还原真人音色特点、说话风格、 口音和声学环境。

简单点,就是免费不保证质量,会员保证效果。

图片

这里支持我们自己上传音频作为克隆的素材,音频要求:

  1. 文件格式:mp3、m4a、wav
  2. 音频时长:5秒~3分钟

如果我们有照片本人的一些原声素材,直接剪辑好上传就行。

口播说话

图片

点击去创作,进入创作操作页面。

图片

一)数字分身

这里我们不用调整,默认就是刚才我们选择的专属数字人。

图片

二)文本驱动

就是通过我们准备好的文案来驱动人物开口说话,文案是什么,数字人就说什么,最大支持1w个字符。

图片

数字人的声音,可以选择公用和之前我们克隆的声音。官网内置了几十种公用声音素材,这里我没有克隆声音,就随便选用了一个官方的公用声音。

图片

当我们输入文案后,可以通过试听,和插入停顿来感受声音效果。

图片

三)音频驱动

音频驱动指的是数字采用上传的录音文件进行匹配说话。

这里音频的要求是:

  1. 文件格式:mp3、m4a、wav。
  2. 音频时长:5秒~30分钟。

图片

如果没有合适的音频,官方还贴心的准备了三个示列素材。

图片

四)高级选项

图片

细心的小伙伴发现了,不管是文字驱动,还是音频驱动,底部都有一个高级选项,驱动模式:

  1. 顺序驱动:使用数字人生成作品时会从你上传的原始视频第一帧开始顺序驱动。
  2. 随机模式:随机挑选片段来进行驱动(生成的音频时长超过原视频长度时,按照顺序驱动,不会走随机模式)。

非氪金大佬,没得选,只有随机模式。

选择好参数后,我们可以选择试听,或者插入停顿。最终确认效果后,选择提交。

结语

大卫·伊格曼在《生命的清单》一书中讲到:人会死三次,第一次是断气的时候 ,从生物学意义上死去了;第二次是下葬的时候,人们来参加葬礼,怀念其一生,然后在社会死去了;第三次是被最后一个人忘记的时候,那时候才真正的死了。

然而无论是1飞秒还是1亿年对于死后的人来说都是相等的,所以,与其说人有三次死亡,不如说这是生者面临逝者的自我告慰。

数字人永生,作为数字疗愈场景中最重要,也是最严肃的一环,其目的是指通过应用人工智能等技术,将人的形象、声音、思想等数字化,使其以虚拟形式存在,从而实现生命的延续。

标签: 人工智能

本文转载自: https://blog.csdn.net/qq_39172059/article/details/140423845
版权归原作者 全栈海哥 所有, 如有侵权,请联系我们删除。

“数字人永生,一篇教会你,用AI让老照片开口说话”的评论:

还没有评论