人工智能语音识别

声音克隆 AI有哪些？

Tacotron：由Google开发的声音克隆 AI模型，能够生成人类的语音，并在Google Assistant中使用。WaveNet：由Google开发的声音克隆 AI模型，能够生成人类的语音，并在Google Assistant中使用。声音克隆 AI是一类人工智能技术，主要用于生成人类或动物的

overfit同步小助手 2023-04-13 17:01:42 0 收藏

【愚公系列】华为云系列之ModelArts搭建中文语音识别系统

ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。“一站式”是指AI开发的各个环节，包括数据处理、算法开发、模型训练、模型部署都可以在ModelArts

overfit同步小助手 2023-04-10 12:01:51 0 收藏

微软提出AIGC新“玩法”，图灵奖得主Yoshua Bengio也来了！

在AIGC取得举世瞩目成就的背后，基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一研究领域的佼佼者，与图灵奖得主、深度学习三巨头之一的Yoshua Bengio一起提出了AIGC新范式——Regeneration Learning。这一新范式究竟会带来哪些创新变革？本文作者将带来他

overfit同步小助手 2023-04-08 21:01:36 0 收藏

代码会说话——pyttsx3简介

目录一、pyttsx3 概述二、pyttsx3的安装三、pyttsx3的运用四、全套代码一、pyttsx3 概述代码会说话：pyttsx3是Python中的文本到语音转换库。二、pyttsx3的安装pipinstallpyttsximage-20220429155835751三、pyttsx3的运用

overfit同步小助手 2023-04-08 18:01:38 0 收藏

中文语音识别数据集总结

目录OpenSLR国内镜像1.Free ST Chinese Mandarin Corpus2.Primewords Chinese Corpus Set 13.爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）4.THCHS305.ST-CMDS6.MAG

overfit同步小助手 2023-04-05 16:01:36 0 收藏

语谱图（一） Spectrogram 的定义与机理

语谱图就是语音频谱图，一般是通过处理接收的时域信号得到频谱图，因此只要有足够时间长度的时域信号就可。专业点讲，那是频谱分析视图，如果针对语音数据的话，叫语谱图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示

overfit同步小助手 2023-04-04 23:01:31 0 收藏

基于树莓派的智能家居项目整理

智能家居用到的硬件有：树莓派4B、LD3320语音识别模块、pi 摄像头、继电器组、火焰传感器、蜂鸣器、电磁锁采用了简单工厂模式的一个设计方式。稳定，拓展性更强，在C语言中，因为没有接口、类这一说法，所以这里采用了结构体来“等效替换”。有四个灯，所以我创建了四个灯控制.c程序。每一个程序文件中，都有

overfit同步小助手 2023-04-03 17:02:15 0 收藏

【语音算法】wav2vec系列原理和使用

wav2vec系列工作由facebook AI Research团队提出，包括wav2vec、vq-wav2vec、wav2vec2.0，效仿nlp上的word2vec，是语音的一种通用特征提取器。本文重点讲解wav2vec2.0模型及其使用方法。

overfit同步小助手 2023-04-03 14:02:17 0 收藏

【Google语音转文字】Speech to Text 超级好用的语音转文本API

Google speech to text api 语音转文本

overfit同步小助手 2023-04-03 11:02:01 0 收藏

SU-03T语音模块的使用（小智语音控制LED灯）

SU-03T语音模块控制LED灯的亮灭以及亮度调节；

overfit同步小助手 2023-04-03 06:02:05 0 收藏

使用OpenAI的Whisper 模型进行语音识别

Whisper模型是在68万小时标记音频数据的数据集上训练的，其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。该模型利用了互联网生成的文本，这些文本是由其他自动语音识别系统(ASR)生成而不是人类创建的。该数据集还包括一个在VoxLingua107上训练的语

overfit同步小助手 2023-04-02 03:01:50 0 收藏

半小时用ChatGPT构建你的虚拟形象

大家好，欢迎来到我的频道，今天我来教大家如何用ChatGPT创建一个虚拟形象，如下图和视频所示。

overfit同步小助手 2023-04-01 17:02:20 0 收藏

提速300%，PaddleSpeech语音识别高性能部署方案重磅来袭！

PaddleSpeech 1.3版本正式发布，ASR与TTS支持高性能部署

overfit同步小助手 2023-03-30 03:01:57 0 收藏

人工智能交互系统界面设计（Tkinter界面设计）

本平台利用Tkinter模块搭建了一个人工智能系统界面，用户在界面按下按钮或者输入文本框内容，可以与系统进行数据交互，使用户能够在一个界面就完成本平台基本的Python程序功能。

overfit同步小助手 2023-03-29 20:01:48 0 收藏

分享本周所学——人工智能语音识别模型CTC、RNN-T、LAS详解

本人是一名人工智能初学者，最近一周学了一下AI语音识别的原理和三种比较早期的语音识别的人工智能模型，就想把自己学到的这些东西都分享给大家，一方面想用浅显易懂的语言让大家对这几个模型有所了解，另一方面也想让大家能够避免我所遇到的一些问题。然后因为我也只是一名小白，所以有错误的地方还希望大佬们多多指正。

overfit同步小助手 2023-03-29 13:02:06 0 收藏

MFCC特征提取

在语音识别方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scaleFrequency Cepstral Coefficients，简称MFCC）。 MFCC的提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。

overfit同步小助手 2023-03-29 08:01:39 0 收藏

Python将语音识别成文字

theme: orange持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第30天，点击查看活动详情 ???? 个人主页：@青Cheng序员石头在本教程中，我们将学习如何将语音或音频文件转换为文本格式,此处主要是用Python相关库完成功能。语音识别介绍Python支持许

overfit同步小助手 2023-03-28 20:02:27 0 收藏

音频（一）时域图、频谱图 Spectrum

梅尔频率倒谱系数为了理解梅尔频率倒谱系数，我们需要先理解以下基本概念：mel frequency cepstrum coefficient1. 频谱1.1 声音信号是一维的时域信号，无法观察出频率随时间的变化规律。1.2 频谱：如果通过傅里叶变换把它变到频域上，可以看出信

overfit同步小助手 2023-03-21 01:03:05 0 收藏

语音识别（利用python将语音转化为文字）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、申请讯飞语音端口1.点击链接进入讯飞平台主页面2.在页面注册自己的个人账户3.申请语音端口4.查看自己的端口编码二、python代码讲解1.引入库2.读入数据总结前言本篇博客讲述利用讯飞端口将语音转化为文字。一、申请讯飞

overfit同步小助手 2023-03-20 00:01:30 0 收藏

OpenAI 开源语音识别模型 Whisper 初体验

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可

overfit同步小助手 2023-03-19 22:02:07 0 收藏

登录可以使用的更多功能哦！登录

OpenCV Python Pytorch Tensorflow 强化学习搜索和推荐数据分析数据挖掘机器学习概率论深度学习目标检测神经网络线性代数结构化数据自动驾驶自然语言处理计算机视觉语义分割语音识别