【AI 核心摘要】
通义实验室研究团队提出Qwen-VLA,一个通用的视觉-语言-动作模型,旨在解决现有具身智能研究中操作、导航、轨迹预测能力割裂的问题。该模型以Qwen3.5-4B为底座,搭配DiT动作解码器,通过统一动作轨迹预测框架、本体感知提示条件化和文本到动作DiT预训练等技术,将语言理解、环境感知和精细操作整合到同一大脑中。在多项基准测试中,Qwen-VLA不仅超越最佳专用模型,还在11种机器人平台上实现了操作、导航和跨本体控制的统一,展现出强劲的开放世界泛化能力。论文、博客和代码均已开源。
了解更多详细信息,请访问原文:阿里通义推出通用具身智能统一动作框架 Qwen-VLA
数据来源:AI Bot
© 版权声明
文章版权归作者所有,未经允许请勿转载。

