震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

近年来，人工智能的进步如 GPT-4o 和 Gemini-1.5极大地改变了人与机器的互动方式，2023这种转变在语音处理领域尤为明显。

阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间自然语音交互的框架，代表了语音处理领域的最新进展。

这一框架的核心是两个创新模型：SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频事件检测和自然语音生成方面表现出色，还展示了极高的成熟度和广泛的应用潜力。

介绍

本报告介绍了 FunAudioLLM，这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型：

SenseVoice，用于处理多语言语音识别、情感识别和音频事件检测；
CosyVoice，用于促进自然语音生成，并控制多种语言、音色、说话风格和说话者身份。

SenseVoice-Small 为 5 种语言提供极低延迟的 ASR，SenseVoice-Large 支持 50 多种语言的高精度 ASR，而 CosyVoice 在多语言语音生成、零样本上下文学习、跨语言语音克隆和指令跟踪功能方面表现出色。与 SenseVoice 和 CosyVoice 相关的模型已在 Modelscope 和 Huggingface 上开源，相应的训练、推理和微调代码已在 GitHub 上发布。 FunAudioLLM 将这些模型与 LLM 相结合，实现了语音到语音翻译、情感语音聊天、互动播客和富有表现力的有声读物旁白等应用，从而突破了语音交互技术的界限。

内容简介

方法

CosyVoice 概述

推理阶段 CosyVoice 模型概览。总之，CosyVoice 由一个自回归变换器（用于为输入文本生成相应的语音标记）、一个基于 ODE 的扩散模型、流匹配（用于从生成的语音标记重建梅尔频谱）和一个基于 HiFTNet 的声码器（用于合成波形）组成。虚线模块在特定模型用途中是可选的，例如跨语言、SFT 推理等。

SenseVoice 概述

SenseVoice 模型概览。SenseVoice 是一个语音基础模型，具有多种语音理解功能，包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一个仅编码器的语音基础模型，可实现快速语音理解；SenseVoice-Large 是一个编码器-解码器语音基础模型，可实现更准确的语音理解，并且支持更多语言。

语音到语音翻译

通过整合 SenseVoice、LLM 和 CosyVoice，我们可以轻松进行语音到语音翻译 (S2ST)。请注意，原始录音以粗体突出显示。

情感语音聊天

通过整合SenseVoice、LLMs和CosyVoice，我们可以开发一个情感语音聊天应用程序。在下面的示例中，用户和助手的内容均由CosyVoice合成。

互动播客

通过整合 SenseVoice（一个基于 LLM 且具有实时世界知识的多智能体系统）和 CosyVoice，我们可以创建一个交互式播客。

富有表现力的有声读物

通过 LLM 的分析能力来构建和识别书中的情感，并将其与 CosyVoice 相结合，我们实现了表现力增强的有声读物。

效果

多语言语音识别

我们在开源基准数据集（包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech 和 Common Voice）上对比了 SenseVoice 和 Whisper 的多语言识别性能和推理效率。推理效率评估使用 A800 机器进行。SenseVoice-small 采用非自回归端到端架构，推理延迟极低，比 Whisper-small 快 7 倍，比 Whisper-large 快 17 倍。

SenseVoice 与 Whisper 在多语言语音识别基准上的比较。

语音情感识别

SenseVoice 还可用于离散情绪识别。支持快乐、悲伤、愤怒和中性。我们在 7 种流行的情绪识别数据集上对其进行了评估。即使没有对目标语料库进行微调，SenseVoice-Large 也可以在大多数数据集上接近或超过 SOTA 结果。

7种情绪识别数据集上的加权平均准确率 (WA(%)) 比较。EmoBox 是基于自监督模型和 Whisper 的最新语音情绪识别基准。HF 上的模型代表 HuggingFace 上最流行的语音情绪识别模型。

标签：交互人工智能 AIGC

本文转载自: https://blog.csdn.net/xs1997/article/details/140418648
版权归原作者 AIGC Studio 所有，如有侵权，请联系我们删除。

震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

相关链接

介绍

内容简介

方法

CosyVoice 概述

SenseVoice 概述

语音到语音翻译

情感语音聊天

互动播客

富有表现力的有声读物

效果

多语言语音识别

语音情感识别

发表评论

“震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航