通义千问团队发布全新多模态检索模型系列Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列基于Qwen3-VL构建,专为图文、视频等混合内容的理解与检索设计,能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。其中,Embedding模型采用双塔架构,负责将多模态信息高效编码为统一向量,实现快速召回;Reranker模型则通过单塔交叉注意力机制,对候选结果进行精细化重排序,二者协同构成高效的两阶段检索流程。该系列在MMEB-v2等权威多模态基准测试中表现领先,支持超过30种语言,并提供灵活的向量维度与量化选项,便于开发者集成应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

