FireRed-OCR 是一款开源的工业级智能文档处理模型,专门针对复杂文档的结构化解析而设计。该模型基于 Qwen3-VL-2B 架构,通过创新的“三阶段渐进优化”策略(多任务预对齐、全图 Markdown 专项微调、基于约束的强化学习)和“几何+语义”数据工厂,有效解决了视觉语言模型在处理文档时常见的“结构性幻觉”问题,实现了从语义理解到结构重构的跨越。 在权威评测 OmniDocBench v1.5 中,FireRed-OCR 综合评分达 92.94%,在文本识别、公式解析、表格重构等细分指标上全面领先,展现了卓越的端到端文档解析能力。模型支持数学公式、手写体、复杂版面和多栏表格等多种场景,具备高精度与高鲁棒性。 该项目已全面开源,提供模型权重、代码及在线体验,为通用多模态模型向专用结构化文档模型的转化提供了可复用的实践范式。
© 版权声明
文章版权归作者所有,未经允许请勿转载。

