语音驱动AI人脸表情

语音驱动3d模特表情

GasusianTalker没有开源预训练

GitHub - KU-CVLAB/GaussianTalker

unity捏脸工程

https://download.csdn.net/download/u014361280/12096164

BIWI vocaset模板下载：

https://download.csdn.net/download/jacke121/89222783

mesh加载

  if cfg.dataset == "BIWI":
        template_file = os.path.join(cfg.data_root, "BIWI.ply")
    elif cfg.dataset == "vocaset":
        template_file = os.path.join(cfg.data_root, "FLAME_sample.ply")
         
    print("rendering: ", test_name)
                 
    template = Mesh(filename=template_file)

faceDiffuser

GitHub - uuembodiedsocialai/FaceDiffuser

依赖项：

需要版本tokenizers==0.11

安装报错error: can't find Rust compiler

audio2face

https://github.com/FACEGOOD/FACEGOOD-Audio2Face/tree/main

这个是TensorFlow平台，有演示demo，训练代码，没有发现数据集

DiffSpeaker

GitHub - theEricMa/DiffSpeaker: This is the official repository for DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

cvpr2023 CodeTalker

GitHub - Doubiiu/CodeTalker: [CVPR 2023] CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior

EmoTalk 可以推理，没有训练代码

https://github.com/psyai-net/EmoTalk_release/tree/main

训练代码是faceformer

FaceFormer 语音驱动 3D人脸动画

预训练下载地址

GitHub - psyai-net/SelfTalk_release: This is the official source for our ACM MM 2023 paper "SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend 3D Talking Faces""

FaceFormer阅读笔记-CSDN博客

[audio2face]FaceFormer: 基于Transformers的，语音驱动的3D人脸动画生成 - 知乎

直观感受：

输入raw audio，人的语音，在线的或者录音好的；
输出=一帧一帧的人脸，一秒应该是输出24帧或者更多帧；
faceformer是采用自回归的结构，即前面的若干frame（图像的frame），会参与到后续的frames的生成上来。
眼球没有画出，看来重点在于面部肌肉和嘴型的变化，而且没有舌头可见。。。

GitHub - psyai-net/EmoTalk_release: This is the official source for our ICCV 2023 paper "EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation"

MODA 基于人脸关键点的语音驱动单张图数字人生成（ICCV2023）

【数字人】2、MODA | 基于人脸关键点的语音驱动单张图数字人生成（ICCV2023）_moda face-CSDN博客

语音驱动2d图像动起来

阿里 emo

sadTalker 从音频中生成3DMM的头部姿势和表情

根据音频驱动图片动起来

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker：Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

数字人解决方案— SadTalker语音驱动图像生成视频原理与源码部署_sadtalker 调参-CSDN博客

AniTalker

没开源

AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的一个对口型说话视频生成框架，能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。该框架通过自监督学习策略捕捉面部的复杂动态，包括微妙的表情和头部动作。AniTalker利用通用运动表示和身份解耦技术，减少了对标记数据的依赖，同时结合扩散模型和方差适配器，生成多样化和可控制的面部动画，可实现类似阿里EMO和腾讯AniPortrait的效果。

wav2lip

Easy-wav2lip

audio2face torch

GitHub - xtliu97/audio2face-pytorch: Pytorch implementation of audio generating face mesh or blendshape models, including Aduio2Mesh, VOCA, etc

好像没有预训练

测试代码有bug，修改之后的：

main.py

import numpy as np
import cv2

from utils.facemesh import FaceMesh
from utils.renderer import Renderer, images_to_video

if __name__ == "__main__":
    texture_mesh = FaceMesh.load("assets/FLAME_sample.obj")
    renderer = Renderer(texture_mesh)
    verts = np.load("assets/verts_sample.npy")
    rendered_images = renderer.render(verts)
    out='output'
    os.makedirs(out,exist_ok=True)
    images_to_video(rendered_images, out)

Media2Face 还没开源

标签：人工智能

本文转载自: https://blog.csdn.net/jacke121/article/details/138134130
版权归原作者 AI算法网奇 所有，如有侵权，请联系我们删除。