美团 LongCat 团队推出语音合成模型 LongCat-AudioDiT - 凉西西资源小圈-凉西西资源小圈

美团LongCat团队发布全新端到端音频生成模型LongCat-AudioDiT，彻底摒弃传统TTS系统中依赖梅尔频谱图等中间表征的级联架构，直接在波形潜空间进行基于扩散模型的文本转语音，从根源上避免了信息损失与误差累积。该模型通过纠正“训练-推理不匹配”问题，并采用自适应投影引导（APG）替代传统无分类器引导，显著提升了语音生成质量。在Seed基准测试中，LongCat-AudioDiT-3.5B模型在说话人相似度指标上达到当前最优水平，同时保持了出色的可懂度。团队已将1B和3.5B模型完整开源，为高保真语音合成提供了新的技术路径。

文章版权声明 1 本网站名称：凉西西小圈
2 本站永久网址：https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

文章版权归作者所有，未经允许请勿转载。