简介
文章链接:
https://arxiv.org/pdf/2505.07916
项目链接:
https://minimax-ai.github.io/tts_tech_report/
https://github.com/MiniMax-AI
解决的问题
如何生成高质量、自然流畅、与人类语音几乎无法区分的合成语音。
如何在没有参考音频文本转录的情况下进行语音克隆。
如何实现零样本和一次性语音克隆,同时保持与参考音频一致的音色。
如何在不修改基础模型的前提下实现多种语音合成相关功能的扩展。
提出的方案
提出 MiniMax-Speech:一种支持 32 种语言的高保真文本到语音(TTS)模型。
引入可学习的说话人编码器,从参考音频中提取音色特征,无需转录文本。
使用 Flow-VAE 模块提升语音合成质量和说话人相似性。
基于强解耦的说话人表示,实现无需修改基础模型的功能扩展。
应用的技术
自回归 Transformer 架构用于语音生成。
可学习的说话人编码器用于提取音色特征,支持零样本和一次性语音克隆。
Flow-VAE(变分自编码器结合流匹配)用于提升音频质量和说话人相似性。
LoRA 技术用于控制语音情感表达。
T2V 技术用于从文本描述中直接合成音色特征。
PVC 技术用于通过额外数据微调音色特征,实现专业语音克隆。
达到的效果
在多个客观和主观评估指标上取得最先进(SOTA)水平。
在词错误率(WER)和说话人相似度(Speaker Similarity)等语音克隆指标上表现优异。
在公开 TTS Arena 排行榜中排名第一。
支持细粒度情感控制、大规模语音库构建和专业语音克隆等多种下游应用。
|