这两天，我看到百度开源了一个叫 Unlimited OCR 的模型。它可以模拟人

这两天，我看到百度开源了一个叫 Unlimited OCR 的模型。

它可以模拟人类抄书的过程，一次前向推理就能转录几十页文档，不用再一页一页地循环处理。

这个模型在技术层面有非常大的突破，但技术细节咱们放到后面聊。

我比较关注的，是这份技术报告的作者名单。

Unlimited OCR 一共列了三位核心贡献者：Youyang Yin，Huanhuan Liu（项目负责人），还有一位标注为技术总监的 YY。

前两个人都用了全名，唯独这位技术总监，只留了两个字母。

这就很耐人寻味了。

一篇正式的技术报告，贡献者栏是你亮学术身份的地方，别人都亮了全名，一个技术总监反而藏起来，图什么？

我们再倒回去看另一件事。

4月24号，DeepSeek 发了 V4 的技术报告，将近60页，末尾附了一份差不多300人的贡献者名单。

创始人梁文锋和每一个研究员、工程师排在一起，按字母排序。但有10个名字旁边标了一个小星号，意思是已离职。

后来媒体陆续扒出了这些人的去向，王炳宣去了腾讯，罗福莉被雷军千万年薪挖到小米做 MiMo 大模型负责人，郭达雅入职字节 Seed 团队，阮翀去了元戎启行做首席科学家。

竞争对手开出的薪资是 DeepSeek 的两到三倍，部分甚至给了八位数总包。

但有一个人的去向始终没有披露——魏浩然。

这位是DeepSeek OCR 系列的核心作者，今年春节前后离职，去向未公开。

然后 Unlimited OCR 出现了。

我之所以把这两件事放在一起讲，是因为我接连发现了几条线索。

首先是致谢部分。

论文本身写得克制，但你去翻 GitHub 仓库的致谢栏，排在最前面的是 DeepSeek-OCR 和 DeepSeek-OCR-2，而致谢排序反映出的就是实际影响的权重。

然后我们看一下技术路线。

Unlimited OCR 的核心创新叫 R-SWA，全称是参考滑动窗口注意力。

滑动窗口注意力大家可能听过，就是模型在生成内容的时候，只看前面固定数量的token，比如128个。但问题很明显，如果窗口之外有重要的视觉信息，模型就看不到了。

R-SWA的做法是，在输出侧保留滑动窗口，只看前面128个输出token。

但同时，每一个token都能看到所有的参考token，也就是完整的图像信息。

也就是说，模型在生成文字的时候，随时都能回头看原图，但不需要反复回顾自己已经写过的所有内容。

这跟人类抄书的注意力模式是不是特别像？

人抄书的时候，注意力同时锚定在三个地方：一是原书上正在看的那几行，二是自己刚刚写下的几个字，三是接下来要写的下一个字。

你不会把前面抄过的所有内容都背下来，但你也不会完全忘掉，而是会进行一种“软遗忘”。

旧的信息慢慢淡出，但不会突然消失，近期的上下文一直在帮你定位当前进度。

Unlimited OCR要做的，就是让模型也具备这种能力。

而且这里面还有一个很精妙的设计：视觉token被排除在状态转移之外，不参与循环更新。

因为如果视觉特征也跟着不断传递更新，信息会在传递过程中逐渐模糊，R-SWA把视觉信息固定住，保持原始精度，只让输出侧的文字信息在窗口内流动。

但这个机制要发挥作用，需要配合一个高压缩率的视觉编码器。

而报告里用的编码器，恰好就是 DeepEncoder，而这个编码器最早就是在 DeepSeek OCR 里被提出来的。

Unlimited OCR 不仅用了它，而且整合得非常自然，像是对原始设计思路的延续和进化。

还有行文风格，这一点可能有点主观，因为Unlimited OCR 的技术报告读起来不像传统大厂论文。

传统大厂的论文倾向于先摆结果再补方法，写得四平八稳。

但这篇开头就讲人类怎么抄书，从工作记忆和认知科学的角度切入，然后才引出技术方案，结尾还放了一句话，说 R-SWA 是通用的长程解析机制，OCR 只是第一站。

这种叙事驱动的写法，故事感强，想法激进，此前能把技术报告写出这种味道的团队，印象里也就 DeepSeek 一家。

还有报告里提到 DeepSeek OCR 的段落，语气不太像是在对标一个竞品，更像是在对自己之前的方案做反思和迭代。

我把这几条线索串起来，你大概就能理解为什么 AI 圈最近都在猜 YY 是谁了。

国内做 OCR 的圈子其实不大，DeepSeek OCR 从一代到二代，核心作者始终就那么几个人，同一支小团队，从零开始做起来的。

能够对 DeepSeek OCR 的架构有这种程度的理解，又能在此基础上做出 R-SWA 这个级别的突破，再加上行文风格的高度一致，符合条件的人一只手都数得过来。

当然，以上全是我基于公开信息的推测。

YY 到底是谁，目前没有任何官方确认，我也不会下定论。

但比较有意思的是，它折射出的是整个行业正在发生的一个趋势。

过去一年，中国 AI 人才的流动烈度远超此前任何时期。中国 AI 核心技术岗缺口超过80万人，顶尖人才的年薪已经突破300万，跳槽涨幅集中在20%到30%，关键岗位企业还愿意再往上加。

DeepSeek 不到200人的团队，半年走了5个核心，覆盖四条主线。

但硬币的另一面是：人才流动本身也在创造价值。

每一个人带走的不只是简历上几行字，而是从零到一搭建过一条技术线的全部积累，包括那些论文里写不出来的工程直觉。

如果 Unlimited OCR 的背后确实站着一位从 DeepSeek OCR 一路走过来的人，那这篇报告可能就代表了：一个研究者带着自己对问题的深层理解，换了一个环境，碰上了不同的资源和产品方向，于是做出了比上一份工作更大胆的尝试。

而百度最近在 AI 方面释放出的信号，从技术报告的写法到开源的节奏，再到这次团队构成透露出的信息，都让人感觉内部的氛围在发生变化。

YY 是谁？也许过不了多久，答案很快会浮出水面。

群发资讯网

这两天，我看到百度开源了一个叫 Unlimited OCR 的模型。它可以模拟人

热门分类

这两天，我看到百度开源了一个叫 Unlimited OCR 的模型。它可以模拟人

猜你喜欢

不可一世的微软，终究还是官宣向DeepSeek“屈服”了！微软AI部门副

一般男性程序员

昨天在X上看到有人问马斯克，中国什么时候能追上Anthropic的Mythos。

中美AI较量的真相，被美国媒体自己亲手捅破了！据媒体6月22日报道：美国

李飞飞的最新论文，替大家揭穿了一个最大的AI骗局，那就是几乎所有的大模型都会睁眼

最近美国大模型性能上去了，中国落后的差距在拉大。原因是工程和生态的，可以解释，没

最近GLM5.2有点DeepSeek2.0的意思了发布的时间点是6月13日

热门分类