Qwen3-TTS是由Qwen开发的开源语音生成模型系列,支持音色克隆、创造、拟人化语音生成及自然语言指令控制。其核心创新在于采用Qwen3-TTS-Tokenizer-12Hz多码本编码器与Dual-Track双轨建模,实现了高效语音压缩、高保真还原及极低延迟流式生成(首包响应仅需一个字符)。模型提供1.7B和0.6B两种尺寸,覆盖10种主流语言及多种方言,具备强大的上下文理解与情感韵律自适应能力。在音色克隆、创造及控制任务中均达到SOTA性能,并已在ModelScope、HuggingFace和GitHub开源。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

