如何用 ModelScope 实现 “AI 换脸” 视频

当下,视频内容火爆,带有争议性或反差大的换脸视频总能吸引人视线。虽然 AI 换脸在市面上已经流行了许久,相关制作工具或移动应用也是数不胜数。但是多数制作工具多数情况下不是会员就是收费,而且替换模板有限。以下在实战的角度,用阿里 ModelScope 的图像人脸融合实现一下 AI 视频换脸。

Linux Jellyfin 硬解4K HEVC HDR报错,“该客户端与媒体不兼容,服务器未发送兼容的媒体格式”

inter显卡安装:intel-opencl-icd,linux命令:apt-get install intel-opencl-icd。NVIDIA显卡安装:nvidia-opencl-icd,命令:apt-get install nvidia-opencl-icd。视频可以正常播放,缺点:视频色彩

【JS】纯web端使用ffmpeg实现的视频编辑器

废话不多,先上视频。ffmpeg编辑器这是一个纯前端实现的视频编辑器,用的ffmpeg的wasm,web框架用的vue3。界面手撸。

语音编码技术,AMR、AMR-NB、AMR-WB、EVS总结

最近对实时语音编码技术有点兴趣,于是了解了一下。一开始听说AMR-NB窄带编码,搜索才发现更多的编码技术,这里总结一下,便于日后查看。一、什么是AMR、AMR-WB全称Adaptive Multi-Rate和Adaptive Multi-Rate Wideband,主要用于移动设备的音频,压缩比比较

【C#】Whisper 离线语音识别(微软晓晓语音合成的音频)(带时间戳、srt字幕)...

语音合成&语音识别用微软语音合成功能生成xiaoxiao的语音。用Whisper离线识别合成的语音输出srt字幕。一、语音合成参考这个网址:https://www.bilibili.com/read/cv19064633合成的音频:晓晓朗读-温柔二、Whisper 语音识别下载模型后放入程序

AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】

本文主要实现图片说话(如下图的蒙娜丽莎)、视频融合语音(这里的核心都是人物口型与音频中的语音唇形同步)。主要通过将两个不相关的人的视频、音频,采用Wav2Lip技术,最终得到一个完整的视频文件,且视频的人物口型与音频内容一致。举例:小红的语音、加上小花的自拍视频,融合为一个最终的视频;那么小红在发出

OpenAI开源语音识别模型Whisper在Windows系统的安装详细过程

Windows中部署开源的whisper语音识别软件,可以支持本地部署,可以利用whisper生成字幕文件。whisper对电脑硬件要求不高,既可以使用GPU也可以使用CPU来运算。

【ffmpeg基础】ffmpeg的下载安装

ffmpeg工具的下载和安装的说明

6款强大免费电脑录屏软件,好用给力

提供简洁的用户界面,轻松选择全屏、窗口或自定义区域进行录制。提供丰富的设置选项,如帧率、分辨率、音频设置等。支持云端存储和分享录制的视频,方便与他人协作。提供强大的屏幕录制、音频录制和视频编辑功能。提供丰富的录屏设置选项,如帧率、分辨率等。支持多种录屏方式,如全屏、窗口、区域等。支持多种录屏方式,如

rk3588 ffmpeg使用硬件解码

找到需要的x264 libdrm的pkgconfig文件夹,rockchip_mpp.pc 被安装在了/usr/local/lib/pkgconfig这里。在https://johnvansickle.com/ffmpeg/下载最新的版本然后解压。–host 当前编译工具链的前缀 ll /usr/

ffmpeg安装教程(windows版)

打开“ffmpeg –version”网址,点击下载windows版ffmpeg(点击左下第一个绿色的行)下载完成后解压该压缩包,在斌文件里会有三个exe文件,复制此时的地址。点击新建,将刚复制的地址粘贴添加进去,然后一直点击确定就大功告成啦。在release builds第一个绿框里面选择一个版本

Ubuntu下FFmpeg的安装方式

Ubuntu下FFmpeg的安装方式详细版

本地部署 gpt4free

本地部署 gpt4free

音频 AAC和MP3的帧大小

音频 AAC和MP3的帧大小

Vue中使用vue-video-player插件播放本地mp4视频文件

若依前后端分离版手把手教你本地搭建环境并运行项目:若依前后端分离版手把手教你本地搭建环境并运行项目_霸道流氓气质的博客-CSDN博客_前后端分离项目本地运行在上面搭建项目的基础上,先实现了播放rtmp视频流Vue中使用vue-video-player和videojs-flash插件实现播放rtmp视

大疆无人机基于RTMP服务推流直播

流程:配置nginx服务器--->打开服务器---->配置无人机rtmp地址,将无人机画面推流到服务器上---->运行vlc从服务器上拉取视频流播放。一、下载安装docker容器,docker分为docker engine 和 docker desktop我们安装docker engine就可以了。

Ubuntu 18.04 安装ffmpeg(支持GPU硬件加速)

Ubuntu 18.04 安装ffmpeg(支持GPU硬件加速)-避坑可行

Whisper.cpp 编译使用

是牛人 ggerganov 对 openai 的whisper语音识别模型用 C++ 重新实现的项目,开源在 github 上,具有轻量、性能高,实用性强等特点。这篇文章主要记录在 windows 平台,如何使用该模型在本地端进行语音识别。

前端播放大视频卡顿的解决(m3u8视频流)

前端播放大视频卡顿的解决(m3u8视频流)

【Python】文本转语音库pyttsx3

这个对象将文本以语音播放之前还可以去设置一下它的音量以及语速,而默认使用的是女声播放语音。可以设置合成器来选择语言的年龄、性别和语言等等,这个模式如果直接调用文本转语音的方法去播放的话是不能够识别中文的,所以需要设置一下合成器。以字符串为类型的发音人性别: male, female, or neut

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈