语音识别 - overfit.cn

VUE前端使用PC浏览器进行语音识别转文字

有参考：https://juejin.cn/s/vue%E5%AE%9E%E7%8E%B0%E8%AF%AD%E9%9F%B3%E8%BD%AC%E6%96%87%E5%AD%97。点击按键开始录音和识别，当人不再说话的时候过大概一两秒就会停止录音识别，文字出现在文本框里。

overfit同步小助手 2024-07-10 12:02:41 0 收藏

aishell详细脚本解析---kaldi入门实战（1）--数据准备

总共178小时，400个人讲，其中训练集340个人，测试解20个人，验证集40个人，每个人大概讲三百多句话，每个人讲的话都放在一个文件夹里面。PS：文件压缩包就有将近17个g，所以我们在设置虚拟机容量时最好设置的大一点，我一般直接设80g，kaldi加数据集就将近45g，还要解压。

overfit同步小助手 2024-06-29 19:01:44 0 收藏

AI语音模型PaddleSpeech踩坑（安装）指南

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。要找到一个合适的PaddleSpeech版本与paddlepaddle适配非常困难！官方文档也没有明确告诉我们PaddleSpeec

overfit同步小助手 2024-06-27 16:01:26 0 收藏

【小沐学AI】Python实现语音识别（Whisper-Web）

Whisper 是一种自动语音识别（ASR）系统，经过 680,000 小时的多语言和多任务监督数据的训练，从网络上收集。我们表明，使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外，它还支持多种语言的转录，以及从这些语言翻译成英语。我们正在开源模型和推理代码，作为构建

overfit同步小助手 2024-06-26 11:01:33 0 收藏

跟着AI学AI_01,语音识别框架

AI学习摘要，主要记录和AI的关键对话内容，备查。本章内容语音识别的基本代码。

overfit同步小助手 2024-06-25 13:01:09 0 收藏

【MacOS】openai 语音识别模型 whisper 本地部署教程（cpu+mps方案）

一些艰辛的解决报错历程目前macOS+whisper+mps的文章好像比较少发一个分享一下如果有帮到大家请多多点赞～

overfit同步小助手 2024-06-17 07:04:58 0 收藏

js纯前端实现语音播报，朗读功能（2024-04-15）

分别是【window.speechSynthesis】【SpeechSynthesisUtterance】将函数拷贝到项目中，执行函数即可实现。实现语音播报要有两个原生API。

overfit同步小助手 2024-06-14 11:02:50 0 收藏

CTC Loss 数学原理讲解：Connectionist Temporal Classification

CTC Loss 是一种不需要数据对齐的，广泛用于图像文本识别和语音识别任务的损失函数。

overfit同步小助手 2024-06-08 22:01:44 0 收藏

全流程演示通过百度AI实现语音识别——将文本转为语音（python实现）

本文详细地梳理及实现了如何通过使用百度AI平台，将输入的文本转换成语音。

overfit同步小助手 2024-06-06 00:01:45 0 收藏

Android studio 将语音识别接入AI

本文章主要实现的功能和作用，当然此小艺非彼小艺（低配）。

overfit同步小助手 2024-06-05 18:01:21 0 收藏

PHP对接百度语音识别技术

overfit同步小助手 2024-06-03 01:03:06 0 收藏

11个值得关注的文本转语音AI大模型

语言模型，尤其是大型语言模型（LLM），本质上已经成为人工智能的代表。然而，他们有一个隐秘的问题。到目前为止，人工智能社区主要在文本数据上训练人工智能，而忽略了音频数据。结果，我们阻碍了LLM，因为我们只教他们如何读/写，但从未教他们如何说/听。然而值得庆幸的是，一些公司正在改善这个问题。在我们追求

overfit同步小助手 2024-05-30 03:01:27 0 收藏

【GitHub项目推荐--13个最佳开源语音识别引擎】【转载】

它主要支持日语ASR，但作为一个独立于语言的程序，该模型可以理解和处理多种语言，包括英语，斯洛文尼亚语，法语，泰语等。ESPnet是一个基于Apache 2.0许可证发布的开源语音转文本软件，它提供端到端语音处理功能，涵盖了ASR、翻译、语音合成、增强和日志化等任务。语音识别基本过程一般包括：分析音

overfit同步小助手 2024-05-28 00:04:14 0 收藏

常用语音识别开源四大工具：Kaldi，PaddleSpeech，WeNet，EspNet

无论是基于成本效益还是社区支持，我都坚决认为开源才是推动一切应用的动力源泉。下面推荐语音识别开源工具：Kaldi，Paddle，WeNet，EspNet。

overfit同步小助手 2024-05-26 19:04:47 0 收藏

生成完美口型同步的 AI 数字人视频

在当今数字媒体和人工智能技术的推动下，生成完美口型同步的AI数字人视频成为备受关注的研究领域。本研究旨在开发一种技术，能够实现生成完美口型同步的AI数字人视频，使虚拟人物的口型与语音内容完美匹配。采用了深度学习方法，结合了语音识别、面部运动生成和视频合成技术，以实现这一目标。通过语音识别模型将输入的

overfit同步小助手 2024-05-26 17:01:40 0 收藏

OpenAI 开源的免费 AI 语音转文字工具 - Whisper，一步一步本地部署运行

Whisper 是 OpenAI 研发的一个通用的语音识别模型，可以把语音转为文本。它在大量多样化的音频数据集上进行训练，同时还是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别

overfit同步小助手 2024-05-26 04:01:34 0 收藏

WebRTC之语音活动检测VAD算法

在远场语音交互场景中，VAD面临着两个难题：1. 如何成功检测到最低能量的语音(灵敏度)。2. 如何在多噪环境下成功检测（漏检率和虚检率）。漏检反应的是原本是语音但是没有检测出来，而虚检率反应的是不是语音信号而被检测成语音信号的概率。相对而言漏检是不可接受的，而虚检可以通过后端的ASR和

overfit同步小助手 2024-05-24 04:02:51 0 收藏

Python | Flask测试:发送post请求的接口测试

本文对于post发送数据进行详细解读及人工智能实例。

overfit同步小助手 2024-05-24 03:02:46 0 收藏

chatGPT的耳朵！OpenAI的开源语音识别AI：Whisper ！

Whisper是由研发出ChatGPT的OpenAI的研究团队开发的，OpenAI的研究成果也经常引起广泛的关注和讨论，比如GPT系列的预训练语言模型、DALL-E的图像生成模型、CLIP的图像分类模型等等。

overfit同步小助手 2024-03-26 17:01:21 0 收藏

DreamTalk：单张图像即可生成逼真人物说话头像动画，助力AI数字人落地

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架，可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能，包括歌曲、多语言语音、噪声音频和域外肖像。

overfit同步小助手 2024-03-14 20:01:25 0 收藏