微软新文本语音模型能在 3 秒内复制任何人的声音

微软新文本语音模型 VALL-E 只要听 3 秒钟的声音样本就能复制任何人的声音。VALL-E 是一种基于转换器（transformer）的文本语音模型，比之前的模型有显著的改进，旧的模型需要长时间训练才能生成新的声音。此外，在生成的语音中声音的语调、卡里斯马（或魅力）和风格都完全一致。这是文本语音系统朝着更自然的声音迈出的重要一步。

标签：资讯

本文转载自: https://www.solidot.org/story?sid=73846
版权归原作者 奇客Solidot 所有，如有侵权，请联系我们删除。