# ，AI自动生成口型，视频嘴型自动同步

今日看了一些对嘴的视频，觉得很好玩，遂来记录更新一番。本文主要讲述现在一些平台上AI翻译换嘴型换语言的AI模型Wav2Lip视频融合语音技术。

介绍

Wav2Lip是一个开源工具，它是一种神经网络可以让视频中的人说话时的嘴唇的动作和音频的内容保持一致,根据语音调整嘴唇的变化，使得生成的视频人物口型跟输入的语音同步。

适用于任何人脸、任何语言、可以

无缝地与原始视频融合

，还可以

匹配转动

的脸型的口型。

霉霉说英文中文配音视频:（这个是剪映完成的，通过剪映-识别字幕-翻译中文-找个声音读出来，当然最后你自己配音也是没问题的。）

1、本地环境需要python环境: python3.6

2、需要音视频处理工具ffmpeg:

sudo apt-get install ffmpeg

3、从远程git仓库中复制

Wav2Lip模型

下载到本地:

scss
复制代码git clone [email protected]:Rudrabha/Wav2Lip.git

4、在下载下来的文件根目录打开终端运行

pip install -r requirements.txt

5、点击下载人脸检测训练模型，下完之后把它放对应文件夹下

face_detection/detection/s3fd.pth

，其名字为

s3fd.pth

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

--checkpoint_path <ckpt>

: Checkpoint（理解为一个

检查点路径

），转换完成的视频将默认放置到

results

文件夹下，这个ckpt可以指定路径。

--face <video.mp4>

: 视频路径

--audio <an-audio-source>

: 音频路径（可以是.mp3,.wav,甚至支持视频文件）

总的来说，Wav2Lip AI 的实现原理是利用深度学习模拟预测唇部运动，并应用于唇部区域，然后通过音频特征和视频进行一一对应和合成的。在很多领域都需要这种技术。