通义千问团队推出新一代多模态大模型Qwen3.5-Omni,旨在让AI更自然地融入现实世界。该模型原生支持文本、图像、音频及音视频的无缝理解与交互,具备细粒度音视频描述、语义打断、音色克隆等能力,在215项任务中表现超越Gemini3.1-Pro。其核心采用升级的Thinker-Talker混合注意力MoE架构,显著提升了长上下文处理与多模态协同效率。Qwen3.5-Omni不仅能进行更拟人的对话,还可直接根据音视频指令生成代码、辅助视频剪辑、执行联网搜索等智能任务,推动AI从“感知”走向“执行”。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

