DeepSeek-OCR 2重磅发布：AI学会“人类视觉逻辑”，以因果流解读图片_农业新闻

DeepSeek-OCR 2重磅发布：AI学会“人类视觉逻辑”，以因果流解读图片

创始人

2026-01-28 00:50:03

0次

DeepSeek发布新一代光学字符识别系统，通过让AI以类似人类的逻辑顺序理解图像，在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27日，DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法，使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段，而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告，DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中，该模型取得了91.09%的成绩，相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是，该模型在保持极高精度的同时，严格控制了计算成本，其视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中，该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%，显示出极高的实用成熟度。

模拟人类视觉的“因果流”逻辑

根据DeepSeek公布的技术报告，现有的视觉语言模型（VLMs）通常采用固定的光栅扫描顺序（光栅扫描顺序）处理图像切片，即机械地从左上角扫描至右下角。DeepSeek团队指出，这种方式引入了不必要的归纳偏差，与人类视觉感知背道而驰。人类在阅读复杂文档、表格或追踪螺旋线条时，视线是受语义理解驱动的“因果流”，后一次注视往往因果依赖于前一次注视，而非单纯的空间坐标移动。

受此认知机制启发，DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”（Causal Flow Queries），模型能够在进入LLM解码器进行内容解释之前，先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构：首先由编码器在语义上重组视觉Token，随后由解码器对有序序列进行自回归推理。这种设计不仅符合光学文本、表格和公式的非线性布局特征，还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

弃用CLIP架构，转向LLM式编码器

DeepEncoder V2在架构上实施了重大变革，将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构（具体为Qwen2-0.5B）。为了实现并行处理，新架构引入了一组可学习的查询向量，称为“因果流Token”，并将原始视觉Token作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码（Attention Mask）策略：

视觉Token部分：保留双向注意力机制，确保模型能够像CLIP一样拥有全局感受野，捕捉图像的整体特征。

因果流Token部分：采用因果注意力机制（类似Decoder-only LLM），每个查询Token只能关注之前的Token。

通过这种设计，视觉Token保持了信息的全局交互，而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略（Multi-crop strategy），根据图像分辨率不同，最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗，在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在OmniDocBench v1.5的综合评估中，DeepSeek-OCR 2表现优异。数据显示，在同样的训练数据源下，新模型相较于DeepSeek-OCR基线模型取得了3.73%的性能提升。特别是在阅读顺序（Reading Order）的编辑距离（Edit Distance）指标上，DeepSeek-OCR 2从0.085显著降低至0.057，这直接验证了DeepEncoder V2在逻辑重排序方面的有效性。

除了基准测试，DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值（Ground Truth）的生产环境中，重复率（Repetition Rate）是衡量质量的核心指标。数据显示，在处理在线用户日志图像时，DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中，重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家（MoE）架构和高效注意力机制。

DeepSeek团队认为，这为迈向统一的全模态编码器提供了一条有希望的路径。未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式，通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务，或许代表了实现真正2D推理的一种突破性架构方法。

视觉逻辑因果模型处理 Token 重磅 DeepSeek-OCR 人类图像架构因果流

上一篇：贵州美瑞特环保科技申请硒化钛负载铂单原子生物基复合材料制备电极方法专利，提高电极的稳定性和催化活性

下一篇：刘强东为老家宿迁光明村村民送出万件年货，含AI手机、米面油等

DeepSeek-OCR 2重磅发布：AI学会“人类视觉逻辑”，以因果流解读图片

相关内容

热门资讯