【AI 核心摘要】
小米大模型应用团队发布ControlFoley开源模型,解决视频同步音效生成中的“可控性”难题。该模型统一支持三类任务:文本引导视频配音、文本控制视频配音和参考音频控制视频配音。ControlFoley在多个视频音效生成任务上达到开源SOTA表现,在语义对齐、时间同步、声音质量及多模态控制能力上全面提升。其核心创新包括联合视觉编码、时间-音色解耦策略和多模态鲁棒训练,使创作者能按意图控制声音内容和风格,即使与画面冲突时也能优先遵循用户指令。代码、模型权重、技术报告和在线Demo均已开放。
了解更多详细信息,请访问原文:小米开源可控视频音效生成模型 ControlFoley
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

