通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型Fun-CineForge,旨在解决AI配音在影视、动画和游戏制作中长期面临的关键挑战。该模型需通过口型同步、情绪表达、音色一致和时间对齐四大严苛考验,而传统方法常受限于高质量多模态数据集稀缺和模型能力不足。Fun-CineForge创新性地引入“时间模态”,结合视觉、文本、音频信息,显著提升了在复杂场景(如多人对话、面部遮挡)下的配音表现。配套开源的高质量数据集构建流程(CineDub)进一步强化了模型训练基础。实验显示,其在语音自然度、情感表达、音画同步等指标上优于现有开源模型,目前已支持30秒内视频片段的中英文配音。

文章版权声明 1 本网站名称:凉西西小圈
2 本站永久网址:https://www.xcxybbs.cn
3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长 QQ418005852进行删除处理。
4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6 本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
© 版权声明