DeepSeek 开源 OCR 2 新模式，机器视觉编码逻辑更像「人类」-科技先锋的专栏

DeepSeek 开源 OCR 2 新模式，机器视觉编码逻辑更像「人类」

2026-01-29 00:46:15栏目：默认栏目 IP属地：IP未知

1 月 27 日，DeepSeek 团队发布了《DeepSeek-OCR 2： Visual Causal Flow》论文并开源了 DeepSeek-OCR 2 模型。据悉，该模型采用创新的 DeepEncoder V2 架构，实现了视觉编码从固定扫描向语义推理的范式转变，可让 AI 能够根据图像的含义动态重排图像的各个部分，更接近人类的视觉编码逻辑。

据悉，在维持极高数据压缩效率的同时，DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面，这在同类模型中处于极低水平，显著降低了下游 LLM 的计算开销。在 OmniDocBench v1.5 评测中，其综合得分达到 91.09%，较前代提升了 3.73%，特别是在阅读顺序识别方面表现出了更强的逻辑性。（来源：新浪科技）