【AI 核心摘要】
字节商业化技术团队近日开源了面向视频生成与编辑的统一框架Bernini,旨在解决AI视频创作中模型“听不懂人话”的痛点。该框架采用“先理解再生成”的思路,通过多模态大模型(MLLM)进行语义理解与规划,再交由Diffusion Transformer模型完成高质量视觉渲染,实现视频的可控编辑。Bernini支持多种任务,包括改变天气、季节、风格,以及基于图片或视频参考的编辑与生成,能保持主体、场景和运动的一致性。其核心优势在于将视频编辑过程拆解为语义规划和视觉渲染两步,提升了可控性和稳定性。目前,Bernini的推理代码和权重已开放,完整版本(含MLLM Planner)预计近期发布。
了解更多详细信息,请访问原文:字节跳动开源统一视频生成与编辑框架 Bernini
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

