DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片
创始人
2026-01-28 00:50:03
0

DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

模拟人类视觉的“因果流”逻辑

根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

弃用CLIP架构,转向LLM式编码器

DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码(Attention Mask)策略:

  • 视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。
  • 因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在OmniDocBench v1.5的综合评估中,DeepSeek-OCR 2表现优异。数据显示,在同样的训练数据源下,新模型相较于DeepSeek-OCR基线模型取得了3.73%的性能提升。特别是在阅读顺序(Reading Order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR 2从0.085显著降低至0.057,这直接验证了DeepEncoder V2在逻辑重排序方面的有效性。

除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务,或许代表了实现真正2D推理的一种突破性架构方法。

相关内容

专业的地暖回填豆石加工厂哪...
在地暖回填豆石的选择上,众多用户面临着诸多困惑,比如地暖回填豆石制...
2026-05-08 11:59:39
2026年地暖安装设计优选...
随着冬季采暖需求的增加,地暖安装设计成为许多家庭和企业的关注焦点。...
2026-05-08 11:59:09
哪家工业中央空调能解决多元...
快速降温,解决传统痛点 在高温闷热的工业厂房、制造车间等场景,传统...
2026-05-08 11:58:40
中央空调安装的长期使用成本...
中央空调的长期使用成本,通常被视为电费与设备折旧的简单累加,这一理...
2026-05-08 11:57:43
不到20分钟地漏被疏通,当...
不到20分钟地漏被疏通,当事人:收300元,换号再下单只要几十元
2026-05-08 11:56:56
锦创照明取得LED灯带动态...
国家知识产权局信息显示,江门市锦创照明有限公司取得一项名为“一种L...
2026-05-08 11:56:43
如何挑选优质热固复合聚苯乙...
热固复合聚苯乙烯泡沫保温板概述 热固复合聚苯乙烯泡沫保温板由EPS...
2026-05-08 11:56:26
如何选择优质ALC保温板厂...
ALC保温板厂家的市场现状 在建筑行业不断发展的当下,ALC保温板...
2026-05-08 11:56:23
美缝剂推荐的一线品牌,高性...
当前国内装修建材市场中,美缝剂产品种类繁杂,品牌鱼龙混杂,不少业主...
2026-05-08 11:56:19

热门资讯

不到20分钟地漏被疏通,当事人... 不到20分钟地漏被疏通,当事人:收300元,换号再下单只要几十元
匠心家居:5月7日融资买入11... 证券之星消息,5月7日,匠心家居(301061)融资买入1138.71万元,融资偿还1020.12万...
怎样选择靠谱的断桥门窗厂家? 断桥门窗厂家的重要性 在建筑装修领域,断桥门窗凭借其出色的隔热、隔音性能,成为众多消费者的首选。选择...
北汽新能源取得雨刮器防冻专利,... 国家知识产权局信息显示,北京新能源汽车股份有限公司取得一项名为“雨刮器和具有它的车辆”的专利,授权公...
惠齐电力申请智能电力开关柜专利... 国家知识产权局信息显示,陕西惠齐电力科技开发有限公司、中国铁路设计集团有限公司申请一项名为“一种智能...
定制劳宾老钱风浴室柜2年,佛山... 作为一名对生活细节有执念的企业管理者,浴室装修我曾踩过不少坑:之前贪便宜选的普通浴室柜,不到半年就出...
建霖家居取得按摩水花洒相关专利... 来源:新浪证券-红岸工作室 5月8日消息,国家知识产权局信息显示,厦门建霖健康家居股份有限公司申请一...
剖析橱柜滑轨定制供应商价格,哪... 在国内定制家居行业蓬勃发展的当下,橱柜作为全屋定制的核心板块,对配套五金的要求越来越高,而滑轨作为橱...
慕思股份取得床架BFC1相关专... 来源:新浪证券-红岸工作室 5月8日消息,国家知识产权局信息显示,慕思健康睡眠股份有限公司申请一项名...
说说靠谱的实木衣柜制造商,来样... 在家具市场中,实木衣柜始终以其独特的魅力占据着重要地位。它不仅具有自然美观的材质质感,还能为家居环境...