【蓝牙音频SoC】BES2700YP、BES2600YP、AB1565A、QCC3056芯片基本介绍
BES2700YP、BES2600YP、AB1565A、QCC3056【蓝牙音频SoC】。
自动语音识别(ASR)研究综述
慢慢的降语音识别,全部都研究透彻。研究彻底都行啦的理由与打算。
用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?
夕小瑶科技说 原创作者 | 智商掉了一地借助 ChatGPT 强大的理解与生成能力,结合基础语音模型,集成模型 AudioGPT 诞生了!最近基于 ChatGPT 的二创如雨后春笋一样冒出,上周我们一起看了黑客松优秀作品大赏,这周又有新脑洞横空出世。有篇将 ChatGPT 用于语音理解与生成任务的文
AI测试|天猫精灵智能音箱测试策略与方法
2014年11月,亚马逊推出了一款全新概念的智能音箱:Echo,这款产品最大的亮点是将智能语音交互技术植入到传统音箱中,从而赋予了音箱人工智能的属性。这个被称为“Alexa”的语音助手可以像你的朋友一样与你交流,同时还能为你播放音乐、新闻、网购下单、Uber叫车、订外卖等等。
智能语音识别垃圾桶
文章实现了用户口述垃圾名称,对应的垃圾类别自动开合桶盖,实现垃圾分类,增加了乐趣性。
ChatGPT:数字时代革新与展望
ChatGPT:数字时代革新与展望
现代信号处理——时频分析与时频分布(小波变换)
现代信号处理——时频分析与时频分布(小波变换)
Whisper.cpp 编译使用
是牛人 ggerganov 对 openai 的whisper语音识别模型用 C++ 重新实现的项目,开源在 github 上,具有轻量、性能高,实用性强等特点。这篇文章主要记录在 windows 平台,如何使用该模型在本地端进行语音识别。
一文读懂“生成式 AI”
人工智能是关于赋予机器以模拟人类智能的能力的广泛领域。它涉及使计算机系统能够执行类似于人类智能的任务,如语音识别、图像识别、自然语言处理和决策制定等。人工智能旨在使机器具备像人类一样的推理、学习、问题解决和决策能力。机器学习是人工智能的一个分支,它是通过数据和统计模型来让机器自动学习和改进的一种方法
SU-03T语音模块的使用(持续更新)
我们在实现各种电路中,肯定会使用到开关这种器件。开关可以是按键,可以是矩阵键盘。但是如果我们用的是语音模块作为开关,可以让自己的产品显得更加高逼格。本博客用于记录本人准备省电子设计大赛过程中使用的SU-03T的语音模块,使用智能公元的开发网页,博客持续更新,小白向。用你的搜索引擎搜索智能公元:智能公
华为云,人工智能入门开发认证试题和答案,HCCDA,AI
人工智能入门级开发者认证HCCDA – AI,考试题目,理论部分
【Python】文本转语音库pyttsx3
这个对象将文本以语音播放之前还可以去设置一下它的音量以及语速,而默认使用的是女声播放语音。可以设置合成器来选择语言的年龄、性别和语言等等,这个模式如果直接调用文本转语音的方法去播放的话是不能够识别中文的,所以需要设置一下合成器。以字符串为类型的发音人性别: male, female, or neut
传统语音增强——基本的维纳滤波语音降噪算法
传统语音增强——基本的维纳滤波语音降噪算法
语音识别智能家居控制设计
技术规格书设计1.本设计采用LD3320语音识别芯片。2.LD3320识别语音后,单片机根据语音控制家电设备开关。3.家电设备有灯、窗帘、空调、热水器。4、家居环境监测传感器有火焰传感器、烟雾传感器、温湿度传感器、人体红外传感器。5、当火焰传感器、烟雾传感器、异常时,启动喷水设备。6、语音控制灯开关
声纹识别之说话人验证speaker verification
由于工作需要接触到了语音领域的声纹识别,对语音识别进行了一些预研,因此在这里开一篇博客,聊一聊speaker verification学习历程。
【SU-03T离线语音模块】:学习配置使用
语音识别模块是在一种基于嵌入式的语音识别技术的模块,主要包括语音识别芯片和一些其他的附属电路,能够方便的与主控芯片进行通讯,开发者可以方便的将该模块嵌入到自己的产品中使用,实现语音交互的目的。离线语音模块 与 在线语音模块的区别:相同点:都可以根据开发人员的需求进行开发相应的固件程序。不同点:离线语
语音增强——基本谱减法及其python实现
语音增强——基本谱减法及其python实现
Python 语音转文本
Python 文本转语言
基于so-vits-svc语音模型实现AI翻唱歌曲
使用so-vits-svc模型训练zutomayo的音色,让AI用这音色去翻唱其他歌曲
理解梅尔频谱(mel spectrogram)
语音处理中 常常需要用到mel spectrogram,比如在语音分类中常常会把把信号signal变成图片spectrogram的形式, 然后用分类图片的算法(比如CNN)来分类语音。 本文主要介绍如何通过librosa来获取spectrogram 和mel spectrogram