最近找到了几个比较好用的语音转文字及文字转语音的开源工具,这里做个简单记录
一、语音转文字——Buzz
非常强大好用的开源语音转文字工具,支持在mac、win以及linux三个平台部署使用,也可以直接pip安装使用。为了快速验证使用效果,这里是直接在windows机器上下载官方提供的安装.exe文件进行安装。安装完直接双击运行就可以,非常方便。
点击界面加号选择音频文件(也支持视频文件),然后就会弹出运行参数配置框,主要是选择模型、语种等。模型有五种不同大小供选择,经测试tiny、base、small三种较小的模型效果比较一般,medium效果就比较不错了,large更好,当然模型越大,计算时间相应也就长。
点击运行后,会自动联网下载对应的模型文件,下载位置在用户根目录的缓存文件夹C:\Users\xr\.cache\whisper。如果有离线使用的需求,可以在外网环境下载好,放到这个路径下面。结果支持导出成txt、字母srt以及vtt三种格式。项目地址:https://github.com/chidiwilliams/buzz
二、文字转语音——bark、ChatTTS
1.suno/bark
bark是一个非常热门的文字转语音开源工具,目前也集成到了Transformers库当中。如果使用bark官方的调用方法,则会在用户缓存根目录下下载huggingface的模型文件。如果使用transformers库,可以现将权重文件下载好(推荐使用魔塔社区),然后将官方的实例代码中的模型路径替换成你下载的模型路径就可以使用了。模型也提供small和普通两个版本,可以在函数参数中制定的模型版本,是否使用gpu等
preload_models(text_use_gpu=False,
text_use_small=True,
coarse_use_gpu=False,
coarse_use_small=True,
fine_use_gpu=False,
fine_use_small=True,
codec_use_gpu=False,
force_reload=False
)
从使用效果看,中文的支持效果不算特别好,语气读出来有点像外国人说中国话。。
项目地址:GitHub - suno-ai/bark: 🔊 Text-Prompted Generative Audio Model
2.ChatTTS
ChatTTS同样是一款强大的开源文字转语音库。安装过程参考官方使用文档,比较简单。直接运行demo的话,也会默认下载模型文件到本地文件夹,路径就是目前的工作目录。建议提前下载好模型,放到工作目录
然后就可以运行demo了。从我个人使用感受来看,这个对中文的支持效果要比bark好不少,包括说话的语气,顿挫等,基本与真人很接近了。
版权归原作者 低级工程师 所有, 如有侵权,请联系我们删除。