美团LongCat团队发布全新端到端音频生成模型LongCat-AudioDiT,彻底摒弃传统TTS系统中依赖梅尔频谱图等中间表征的级联架构,直接在波形潜空间进行基于扩散模型的文本转语音,从根源上避免了信息损失与误差累积。该模型通过纠正“训练-推理不匹配”问题,并采用自适应投影引导(APG)替代传统无分类器引导,显著提升了语音生成质量。在Seed基准测试中,LongCat-AudioDiT-3.5B模型在说话人相似度指标上达到当前最优水平,同时保持了出色的可懂度。团队已将1B和3.5B模型完整开源,为高保真语音合成提供了新的技术路径。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

