你是否畅想过如下场景?
- 让游戏角色用自己独特的声音与你对话?
- 让 AI 用你最喜欢的声音为你朗读小说?
- 如何克隆一个人的声音?
- 如何克隆自己的声音?
- 如何自动生成小说短视频配音?
- 如何自动朗读新闻文章等等?
随着人工智能技术的不断发展,这些曾经的幻想正在逐渐变为现实。今天,我要向大家介绍一款强大的开源文本转语音模型——Fish Speech,它将为你打开 AI 语音合成的新世界大门。
Fish Speech是什么?
Fish Speech是由Fish Audio开发的一个开源文本转语音模型。它基于VQ-GAN、Llama和VITS等前沿的AI技术,能够将文本转换成逼真的语音。
开源地址: (GitHub - fishaudio/fish-speech: Brand new TTS solution )
最让人惊喜的是,它不仅支持中文、日语、英语三种主流语言,合成的音质也非常高,堪比专业配音!🎙️ 尤其对于一些知名游戏角色的声音,如《原神》、《崩坏:星穹铁道》等,简直以假乱真。

Fish Speech有什么特点?
与其他文本转语音模型相比,Fish Speech有以下几个优势:
- 完全开源,任何人都可以免费使用和改进代码。
- 支持多种主流语言,并且合成效果都很棒。
- 基于最新的AI模型,合成音质接近真人发音。
- 专门针对游戏配音场景进行了优化。
如何使用在线平台Fish Speech?
Fish Speech 提供了一个简单易用的在线平台,让你无需任何技术基础,也能轻松体验 AI 语音合成的乐趣。
访问 Fish Speech 在线平台: 打开浏览器,访问 https://fs.firefly.matce.cn/。

发现有趣声音
点击“发现”查找你感兴趣的声音,然后选择你喜欢的声音可以直接使用该声音来进行声音合成。

语言合成
- 点击最上方“语音合成”按钮
- 输入你的文本
- 选择要合成的声音源
- 点击“创建”按钮等待合成完成
- 合成完成后,可以进行声音试听、下载和分享


构建声音训练新声音
- 点击最上面“构建声音”按钮
- 选择声音类型
- 设置封面图片
- 填写声音名称和描述
- 输入声音标签
- 上传训练音频或者录制训练音频(推荐30s左右)
- 开始创建新声音
- 创建完成可以在“我的声音”菜单下面找到新建的声音模型

Fish Speech如何本地电脑部署?
要求
- GPU 内存: 4GB (用于推理), 8GB (用于微调)
- 系统: Linux, Windows
Windows 配置
Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。
Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即
torch.compile
):
- 解压项目压缩包。
- 点击install_env.bat安装环境。- 可以通过编辑
install_env.bat的USE_MIRROR项来决定是否使用镜像站下载。-USE_MIRROR=false使用原始站下载最新稳定版torch环境。USE_MIRROR=true为从镜像站下载最新torch环境。默认为true。- 可以通过编辑install_env.bat的INSTALL_TYPE项来决定是否启用可编译环境下载。-INSTALL_TYPE=preview下载开发版编译环境。INSTALL_TYPE=stable下载稳定版不带编译环境。 - 若第2步INSTALL_TYPE=preview则执行这一步(可跳过,此步为激活编译模型环境)1. 使用如下链接下载 LLVM 编译器。- LLVM-17.0.6(原站站点下载)- LLVM-17.0.6(镜像站点下载)- 下载完
LLVM-17.0.6-win64.exe后,双击进行安装,选择合适的安装位置,最重要的是勾选Add Path to Current User添加环境变量。- 确认安装完成。2. 下载安装 Microsoft Visual C++ 可再发行程序包,解决潜在 .dll 丢失问题。- MSVC++ 14.40.33810.0 下载3. 下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。- Visual Studio 下载- 安装好Visual Studio Installer之后,下载Visual Studio Community 2022- 如下图点击修改按钮,找到使用C++的桌面开发项,勾选下载

- 双击start.bat,进入 Fish-Speech 训练推理配置 WebUI 页面。- (可选) 想直接进入推理页面?编辑项目根目录下的- 进入网页后:

- 简单说一下各部分区域构成,如下图所示,方便按图索骥:

- 1 banner(横幅):进入网页后从左到右逐渐显示"Welcome to Fish-Speech"字样。以后可能变动。
- 2 功能区: 在这里,你将决定数据集文件的来源,文本标签的修改,训练参数的调整、推理页面的设置。
- 3 文件信息展示区:一般不可更改。指引你如何找到自己的预处理后的数据文件、训练后的模型文件所在路径。
- 4 版本/作者信息。可以多多支持一下作者。
- 5 欢迎更好的动效~
(可选)想启动 API 服务器?编辑项目根目录下的
API_FLAGS.txt
, 前三行修改成如下格式:
# --infer
--api
--listen ...
...
(可选)双击
run_cmd.bat
进入本项目的 conda/python 命令行环境
Linux 配置
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech
# 安装 pytorch
pip3 install torch torchvision torchaudio
# 安装 fish-speech
pip3 install -e .
# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
Fish Speech有哪些有趣的应用?
除了给游戏配音,Fish Speech还有很多有趣的应用场景,比如:
- 为视频创作配旁白
- 制作有声读物
- 开发智能语音助手
- 给动画片配音
- ……
相信你已经想到了更多有创意的玩法。只要发挥想象力,Fish Speech就能为你打造出独一无二的语音作品。
总结
Fish Speech作为一个优秀的开源语音合成项目,为我们打开了一扇探索AI语音的大门。无论你是程序员、游戏爱好者、自媒体创作者,还是普通用户,都能从中获得乐趣和启发。
如果你也对语音合成技术感兴趣,不妨赶快去体验一下Fish Speech吧!说不定能创造出更多惊喜。
希望这篇文章能给你带来一些思路和灵感。你觉得Fish Speech还有哪些有趣的应用场景呢?欢迎在评论区分享你的想法。
版权归原作者 ychenhub 所有, 如有侵权,请联系我们删除。