语音识别 - overfit.cn

Edge-TTS：微软推出的，免费、开源、支持多种中文语音语色的AI工具[Python代码]

Edge-TTS，由微软推出的这款免费、开源的AI工具，为用户带来了丰富多样的中文语音体验。它不仅支持多种中文语音语色，还能实现流畅自然的语音合成。

overfit同步小助手 2024-08-27 09:01:32 0 收藏

裸服务器上语音AI部署指南

本文章概述了在裸服务器上部署语音AI的步骤，包括配置YUM源、安装所需软件如OpenSSL、Python 3.10.14和PaddleSpeech，并使用Anaconda创建虚拟环境以隔离依赖。此外，还涵盖了LangChain-ChatChat如何接入chatglm3-6b模型和m3e-base模型

overfit同步小助手 2024-08-20 16:01:12 0 收藏

SenseVoice 语音识别微调技术方案

该模型基于超过40万小时的多样化语音数据训练而成，能够支持超过50种语言的识别，展现出卓越的跨语言识别能力。需要找到finetune.sh脚本，根据自己的实际情况修改参数，如下图所示，一般需要修改的地方有：把使用的模型地址替换成前面下载好的模型路径、把训练和验证使用的数据集路径替换成自己的、指定日志

overfit同步小助手 2024-08-20 05:01:24 0 收藏

语音识别+AI总结项目搭建回顾

记录一下搭建语音识别+AI总结项目时的思路走向、遇到的问题以及一些解决方法的尝试和结果

overfit同步小助手 2024-08-11 18:01:40 0 收藏

【AI资讯早报】AI科技前沿资讯概览：2024年7月20日早报

【AI资讯早报，感知未来】AI科技前沿资讯概览，涵盖了行业大会、技术创新、应用场景、行业动态等多个方面，全面展现了AI领域的最新发展动态和未来趋势。

overfit同步小助手 2024-08-06 14:01:06 0 收藏

【内网穿透】如何本地搭建Whisper语音识别模型并配置公网地址

OpenAI开源的 Whisper 语音转文本模型效果都说还不错，今天就给大家推荐 GitHub 上一个开源项目 Whisper Web，允许你可直接在浏览器中运行使用 Whisper。基于 ML 进行语音识别，并可通过 WebGPU 进行运行加速，无需后端服务器，直接开箱即用。另外，识别到的文本支

overfit同步小助手 2024-08-02 20:08:17 0 收藏

实战whisper第二天：直播语音转字幕（全部代码和详细部署步骤）

基于Whisper的实时直播语音转录或翻译是一项使用OpenAI的Whisper模型实现的技术，它能够实时将直播中的语音内容转录成文本，甚至翻译成另一种语言。这一过程大致分为三个步骤：捕获直播音频流、语音识别（转录）以及翻译（如果需要）。下面详细解释其原理和意义。

overfit同步小助手 2024-08-02 20:08:12 0 收藏

【小沐学AI】Python实现语音识别（whisper+HuggingFace）

Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。Transformer 序列到序列模型针对各种语音处理任务进行训练，包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为解码器要预测的一系列

overfit同步小助手 2024-08-01 00:01:05 0 收藏

【语音识别】在Win11使用Docker部署FunASR服务器

在win11上面通过docker使用funasr服务端进行实时语音识别

overfit同步小助手 2024-07-30 07:06:31 0 收藏

【小沐学AI】Python实现语音识别（faster-whisper-webui）

Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。OpenAI 的开源模型 whisper，可以执行 99 种语言的语音识别和文字转写。但是 whisper 模型占用计算资源多，命令行使用门槛高。whisper

overfit同步小助手 2024-07-22 00:03:05 0 收藏

【机器学习】机器学习与语音识别的融合应用与性能优化新探索

机器学习作为语音识别领域的重要技术，已经在多个应用场景中取得了显著的成果。通过对数据的深入挖掘和模型的不断优化，机器学习技术将在语音识别中发挥更大的作用，推动智能语音技术的发展。以上是对机器学习在语音识别中的理论、算法与实践的全面介绍，希望能够为从事相关研究和应用的人员提供有益的参考。

overfit同步小助手 2024-07-20 08:04:08 0 收藏

Web Speech API的语音识别技术

这是一个实验性技术目前兼容性如图：pc端几乎兼容，移动端部分不兼容网页语音 API 的接口是语音服务的控制接口；它可以用于获取设备上关于可用的合成声音的信息，开始、暂停语音，或除此之外的其他命令。SpeechSynthesis 也从它的父接口继承属性，EventTarget.SpeechSynthe

overfit同步小助手 2024-07-20 08:02:53 0 收藏

全网爆火的AI语音合成工具-ChatTTS，有人已经拿它赚到了第一桶金，送增强版整合包

今天重点和大家分享下我们项目中用到的语音合成工具 - ChatTTS。别说你还没体验过，有人已经拿它赚到了第一桶金。

overfit同步小助手 2024-07-19 02:01:38 0 收藏

20240709 每日AI必读资讯

SenseVoice：语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件（比如音乐、笑声等）。- 使用树莓派3B+作为主控，配合Adafruit PCA-9685伺服驱动器，通过编写的步态控制程序，实现对伺服电机的精准控制。- CodeGeeX4-ALL-9B是Co

overfit同步小助手 2024-07-17 12:01:22 0 收藏

【小沐学AI】Python实现语音识别（faster-whisper）

Faster-Whisper是Whisper开源后的第三方进化版本，它对原始的 Whisper 模型结构进行了改进和优化。faster-whisper 是使用 CTranslate2 重新实现 OpenAI 的 Whisper 模型，CTranslate2 是 Transformer 模型的快速推理

overfit同步小助手 2024-07-16 15:01:42 0 收藏

【小沐学AI】Python实现语音识别（whisperX）

Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。Transformer 序列到序列模型针对各种语音处理任务进行训练，包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务共同表示为解码器要预测的一系列

overfit同步小助手 2024-07-16 15:01:37 0 收藏

LLM语音交互：Unity语音交互——关键词检测篇。（新手入门）

首先LLM语音识别我目前将它分为几个部分进行功能开发：语音转文本用的是Azure云服务，这个其实有很多教程都讲到过。然后后面文本转语音也是Azure云服务。至于LLM部分我之前的博文（）提到了，本次只介绍关键词检测功能的实现。关键词检索这里的功能主要分为两个部分，检索到有关键词则调用响应的方法（比如

overfit同步小助手 2024-07-15 17:04:35 0 收藏

VUE前端使用PC浏览器进行语音识别转文字

有参考：https://juejin.cn/s/vue%E5%AE%9E%E7%8E%B0%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E5%AD%97。点击按键开始录音和识别，当人不再说话的时候过大概一两秒就会停止录音识别，文字出现在文本框里。

overfit同步小助手 2024-07-10 12:02:41 0 收藏

aishell详细脚本解析---kaldi入门实战（1）--数据准备

总共178小时，400个人讲，其中训练集340个人，测试解20个人，验证集40个人，每个人大概讲三百多句话，每个人讲的话都放在一个文件夹里面。PS：文件压缩包就有将近17个g，所以我们在设置虚拟机容量时最好设置的大一点，我一般直接设80g，kaldi加数据集就将近45g，还要解压。

overfit同步小助手 2024-06-29 19:01:44 0 收藏

AI语音模型PaddleSpeech踩坑（安装）指南

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。要找到一个合适的PaddleSpeech版本与paddlepaddle适配非常困难！官方文档也没有明确告诉我们PaddleSpeec

overfit同步小助手 2024-06-27 16:01:26 0 收藏