小米开源可控视频音效生成模型 ControlFoley - 凉西西资源小圈-凉西西资源小圈

【AI 核心摘要】

小米大模型应用团队发布ControlFoley开源模型，解决视频同步音效生成中的“可控性”难题。该模型统一支持三类任务：文本引导视频配音、文本控制视频配音和参考音频控制视频配音。ControlFoley在多个视频音效生成任务上达到开源SOTA表现，在语义对齐、时间同步、声音质量及多模态控制能力上全面提升。其核心创新包括联合视觉编码、时间-音色解耦策略和多模态鲁棒训练，使创作者能按意图控制声音内容和风格，即使与画面冲突时也能优先遵循用户指令。代码、模型权重、技术报告和在线Demo均已开放。

了解更多详细信息，请访问原文：小米开源可控视频音效生成模型 ControlFoley

数据来源：AI Bot

文章版权声明 1 本网站名称：凉西西小圈
2 本站永久网址：https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

文章版权归作者所有，未经允许请勿转载。