DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片
创始人
2026-01-28 00:50:03
0

DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序“看”图像。这项技术的核心创新在于改变了传统AI处理图像的方式。DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩,相较于前代DeepSeek-OCR提升了3.73%。

值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致。在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度。

模拟人类视觉的“因果流”逻辑

根据DeepSeek公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的“因果流”,后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

受此认知机制启发,DeepSeek-OCR 2的核心组件DeepEncoder V2被设计用于赋予编码器因果推理能力。通过引入可学习的“因果流查询”(Causal Flow Queries),模型能够在进入LLM解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的1D因果推理结构:首先由编码器在语义上重组视觉Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了2D图像结构与1D语言建模之间的鸿沟。

弃用CLIP架构,转向LLM式编码器

DeepEncoder V2在架构上实施了重大变革,将DeepEncoder中原有的CLIP组件替换为紧凑的LLM式架构(具体为Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为“因果流Token”,并将原始视觉Token作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码(Attention Mask)策略:

  • 视觉Token部分:保留双向注意力机制,确保模型能够像CLIP一样拥有全局感受野,捕捉图像的整体特征。
  • 因果流Token部分:采用因果注意力机制(类似Decoder-only LLM),每个查询Token只能关注之前的Token。

通过这种设计,视觉Token保持了信息的全局交互,而因果流Token则获得了重排序视觉信息的能力。DeepSeek-OCR 2采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间。这一数量级显著低于部分竞品高达6000以上的Token消耗,在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在OmniDocBench v1.5的综合评估中,DeepSeek-OCR 2表现优异。数据显示,在同样的训练数据源下,新模型相较于DeepSeek-OCR基线模型取得了3.73%的性能提升。特别是在阅读顺序(Reading Order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR 2从0.085显著降低至0.057,这直接验证了DeepEncoder V2在逻辑重排序方面的有效性。

除了基准测试,DeepSeek还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2主要服务于DeepSeek-LLMs的在线OCR服务及PDF预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%;在PDF数据生产中,重复率从3.69%降至2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了LLM社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

DeepSeek团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务,或许代表了实现真正2D推理的一种突破性架构方法。

相关内容

A股收评:三大指数集体上涨...
A股三大指数今日集体上涨,截至收盘,沪指涨0.18%报4139点,...
2026-01-28 02:01:16
运动员获奖后网上追讨奖金?...
封面新闻记者 石伟 1月27日,湖北宜昌兴山县多名运动员发帖称,去...
2026-01-28 02:01:06
尼帕病毒或引发全球大流行?...
近日,印度西孟加拉邦暴发尼帕病毒疫情,已确诊5例病例,其中包括一名...
2026-01-28 02:00:56
原创 ...
据环球网报道,2026年达沃斯世界经济论坛的聚光灯下,经济议题终究...
2026-01-28 02:00:41
贝森特得意上了,“卡尼撤回...
【文/观察者网 阮佳琪】 美国福克斯新闻网于26日播出的节目《汉...
2026-01-28 02:00:31
消费140.6元被“反向抹...
新京报记者 苗玉薪 实习生 陈雨欣 制作 高晨曦 ▲新京报我们视频...
2026-01-28 02:00:05
2025宁波装修公司推荐:...
作为长三角南翼中心城市,宁波的居住需求正从“功能满足”向“品质体验...
2026-01-28 01:59:43
办公室装修公司哪家口碑好
在当今竞争激烈的商业环境中,办公室不仅是员工日常工作的场所,更是企...
2026-01-28 01:59:42
中旅馥棠公馆官方售楼处电话...
✅中旅馥棠公馆官方售楼处官方电话:400-119-1130✅︎✅︎...
2026-01-28 01:59:26

热门资讯

运动员获奖后网上追讨奖金?宜昌... 封面新闻记者 石伟 1月27日,湖北宜昌兴山县多名运动员发帖称,去年参加宜昌市第七届运动会斩获奖牌后...
选择专业牙科诊所装修设计团队的... 在选择专业牙科诊所装修设计团队时,专业性、合规性以及是否能提供一站式服务是关键要点,而牙立方设计在这...
哈尔滨餐饮“宠客”上新|餐桌标... “刚坐下就发现桌角有手机支架, 边吃饭边刷手机,很人性化!” 1月26日中午,道里区金安商场的白杨包...
肖特申请用于显示设备的具有低A... 国家知识产权局信息显示,肖特股份有限公司;肖特玻璃科技(苏州)有限公司申请一项名为“用于显示设备的具...
全城通兑,南京推动既有库存商品... 1月26日,南京市印发《关于加快培育新质生产力推动高质量发展的若干政策(2026年版)》,明确探索房...
CBA常规赛:山东高速胜宁波町... 1月27日,在2025-2026赛季中国男子篮球职业联赛(CBA)常规赛第20轮比赛中,山东高速队主...
黄绍伟,正在接受审查调查 据广东河源市纪委监委1月27日通报,广州市消防救援支队党委委员、副支队长黄绍伟涉嫌严重违纪违法,目前...
车门紧锁拍窗毫无反应,上海一司... 今天(1月27日)下午,记者从上海闵行警方获悉,1月19日,闵行公安分局接市民报警求助,一位司机疑似...
上海大型工装除甲醛CMA检测低... 在室内环境治理行业,服务与承诺的兑现,最终需要一份无可辩驳的凭证。对于追求品质与合规的高端客户而言,...