DeepSeek发布全新视觉编码模型DeepSeek-OCR 2,实现了从“固定扫描”到“语义推理”的范式转变。该模型通过引入DeepEncoder V2架构,将传统CLIP编码器替换为轻量级语言模型,并创新性地采用“因果流查询”机制,使AI能够根据图像内容动态重排视觉token,模拟人类阅读逻辑。 在技术突破方面,模型仅需256-1120个视觉token即可处理复杂文档页面,大幅降低了下游LLM计算开销。在OmniDocBench评测中综合得分达91.09%,较前代提升3.73%,特别是在阅读顺序识别方面表现出更强逻辑性。实际应用中,在线服务的重复率从6.25%降至4.17%,验证了新架构的有效性。 该研究为构建统一的全模态编码器提供了新路径,相关模型、技术报告和论文已全面开源。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

