ComfyUI-MuseTalk部署依赖mmcv
ComfyUI-MuseTalk运行时,默认安装依赖mmpose必须依赖mmcv才能正确执行。MMPose 是一款基于 PyTorch 的“人体姿态”分析的开源工具箱,是 OpenMMLab 项目的成员之一。mmcv是用于训练深度学习模型的基础库。
EchoMimic 数字人项目:语音驱动图像说话项目
参考:https://github.com/BadToBest/EchoMimic下载模型下载位置放到下面下载代码目录下, cd EchoMimic 下下载代码运行代码自定义图像和音频,更改./configs/prompts/animation.yaml 文件即可运行后的生成视频保存到output文
metahuman-stream - 数字人实时交互
一、关于 metahuman-stream功能TODO二、安装三、快速使用2.1 运行srs2.2 启动数字人:四、更多用法3.1 使用LLM模型进行数字人对话2、声音克隆2.1 gpt-sovits2.2 xtts3、音频特征用hubert4、设置背景图片5、全身视频拼接5.1 切割训练用的视频5
全球首个数字人开源了
通过将数字人交互能力开源,开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力,实现数字人实时交互,并在Android和iOS多终端一键部署,让每个开发者可轻松创建智能化、个性化的数字人Agent,并应用到各行各业。更进一步,硅基智能全面开放了其数字人 SDK 的源代码,覆盖从底层
使用数字人SadTalker创建免费AI主播
虽然这个项目目前的主要研究方向还是基于cuda的脸部训练,生成动态的视频,但如果能够接入语音服务,利用ChatGPT实时生成对话prompt,配合这个项目实时渲染动态视频,那么一个灵动的对话机器人就产生了。它利用封装在预训练脸部GAN中的丰富多样的先验信息进行人脸盲修复。点击 GFPGANv1.4
深入浅出落地应用分析:AI虚拟数字人
数字人是通过计算机技术制作的类人形象或者软件制作的结果。它们具备人类的外貌或行为模式,但他们不是现实世界中的某个人的录像,是可以独立运行和存在的。
【AI数字人-论文】Wav2lip论文解读
本篇文章详细介绍了wav2lip模型的架构
虚拟人铺路数字产业未来
中国工商银行推出的数字人银行员工,在移动终端和大屏等媒介上展现数字拟态形象,能够在产品营销讲解、金融业务办理、资讯播报、咨询问答等多个业务场景,实现与用户的可视化交互,为用户带来个性化服务,有效解除用户顾虑,提升用户体验和驻留时间,让数字化服务“听得见”的同时也“看得见”。虚拟人给予了品牌制作方一个
【AI数字人】如何基于GeneFace自训练AI数字人
本篇文章详细介绍了如何基于GeneFace项目开启训练的步骤。
太累了,是时候让AI数字人来帮我干活了(走,上教程)
AI数字人主要的一些应用场景:客户服务和支持、教育和培训、医疗保健、娱乐和媒体、销售和营销。关 键 词:AI数字人,生成式AI,智能数字分身适用场景:培训数字人,演讲授课数字人,直播带货数字人特别说明:教程用的是国内保利威AI产品,内容为原创。
AI数字人:AI数字人制作初探及相关开源简介
数字人这名字听着稀奇又别扭,其实它最初的原型大家都听过——NPC。玩过游戏的应该都知道,也就是游戏内玩家操纵的游戏角色,可以和玩家进行交互的角色。广义上讲可以说是计算机模拟出的具有人的形态的虚拟人都叫做数字人,在平常的观感上,数字人是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多
AI数字人:换脸模型Faceswap
Faceswap利用深度学习算法和人脸识别技术,可以将一个人的面部表情、眼睛、嘴巴等特征从一张照片或视频中提取出来,并将其与另一个人的面部特征进行匹配。
wav2lip:Accurately Lip-syncing Videos In The Wild
随机帧是和音频不同步,是根据音频和mask的图形生成真实的唇形,参考帧的意义我自己感觉是减少模型复杂度,但是也有解释,在前向推理时,其实输入的一定是和音频不同步的视频帧,此时不仅对唇形区域做mask,也会把原始的图像拼接起来concat,这样其实训练和推理时就保持一致了。上面两部分主要考虑的是唇形生
元宇宙的虚拟数字人
蓝海创意云在数字人相关领域逐渐形成了自己的核心技术,不断赋能数字人的生产制作过程,先后服务过的知名案例有:美妆博主柳夜熙、芒果TV虚拟主播YAOYAO,网易游戏偶像青蛇、韩国虚拟偶像Krafton等。