PrismAudio是一个创新的视频生成环境音框架,通过结合强化学习与思维链,解决了传统配音模型在多目标优化中“顾此失彼”的问题。它采用“先思考,再发声”的策略,让模型先分解任务,生成详细的“行动指南”,再合成音频。四位“老师”(语义、时序、美学、空间)分别从内容匹配、同步性、音质和空间准确性四个维度进行独立打分,引导模型同时满足所有要求。此外,其高效训练算法Fast-GRPO大幅缩短了训练时间。实验表明,PrismAudio在多个测试集上超越了现有方法,且模型轻量、生成速度快。该研究已被ICLR 2026收录,代码和模型已开源。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

