群发资讯网

这两天,我看到百度开源了一个叫 Unlimited OCR 的模型。它可以模拟人

这两天,我看到百度开源了一个叫 Unlimited OCR 的模型。

它可以模拟人类抄书的过程,一次前向推理就能转录几十页文档,不用再一页一页地循环处理。

这个模型在技术层面有非常大的突破,但技术细节咱们放到后面聊。

我比较关注的,是这份技术报告的作者名单。

1

Unlimited OCR 一共列了三位核心贡献者:Youyang Yin,Huanhuan Liu(项目负责人),还有一位标注为技术总监的 YY。

前两个人都用了全名,唯独这位技术总监,只留了两个字母。

这就很耐人寻味了。

一篇正式的技术报告,贡献者栏是你亮学术身份的地方,别人都亮了全名,一个技术总监反而藏起来,图什么?

我们再倒回去看另一件事。

4月24号,DeepSeek 发了 V4 的技术报告,将近60页,末尾附了一份差不多300人的贡献者名单。

创始人梁文锋和每一个研究员、工程师排在一起,按字母排序。但有10个名字旁边标了一个小星号,意思是已离职。

后来媒体陆续扒出了这些人的去向,王炳宣去了腾讯,罗福莉被雷军千万年薪挖到小米做 MiMo 大模型负责人,郭达雅入职字节 Seed 团队,阮翀去了元戎启行做首席科学家。

竞争对手开出的薪资是 DeepSeek 的两到三倍,部分甚至给了八位数总包。

但有一个人的去向始终没有披露——魏浩然。

这位是DeepSeek OCR 系列的核心作者,今年春节前后离职,去向未公开。

然后 Unlimited OCR 出现了。

2

我之所以把这两件事放在一起讲,是因为我接连发现了几条线索。

首先是致谢部分。

论文本身写得克制,但你去翻 GitHub 仓库的致谢栏,排在最前面的是 DeepSeek-OCR 和 DeepSeek-OCR-2,而致谢排序反映出的就是实际影响的权重。

然后我们看一下技术路线。

Unlimited OCR 的核心创新叫 R-SWA,全称是参考滑动窗口注意力。

滑动窗口注意力大家可能听过,就是模型在生成内容的时候,只看前面固定数量的token,比如128个。但问题很明显,如果窗口之外有重要的视觉信息,模型就看不到了。

R-SWA的做法是,在输出侧保留滑动窗口,只看前面128个输出token。

但同时,每一个token都能看到所有的参考token,也就是完整的图像信息。

也就是说,模型在生成文字的时候,随时都能回头看原图,但不需要反复回顾自己已经写过的所有内容。

这跟人类抄书的注意力模式是不是特别像?

人抄书的时候,注意力同时锚定在三个地方:一是原书上正在看的那几行,二是自己刚刚写下的几个字,三是接下来要写的下一个字。

你不会把前面抄过的所有内容都背下来,但你也不会完全忘掉,而是会进行一种“软遗忘”。

旧的信息慢慢淡出,但不会突然消失,近期的上下文一直在帮你定位当前进度。

Unlimited OCR要做的,就是让模型也具备这种能力。

而且这里面还有一个很精妙的设计:视觉token被排除在状态转移之外,不参与循环更新。

因为如果视觉特征也跟着不断传递更新,信息会在传递过程中逐渐模糊,R-SWA把视觉信息固定住,保持原始精度,只让输出侧的文字信息在窗口内流动。

但这个机制要发挥作用,需要配合一个高压缩率的视觉编码器。

而报告里用的编码器,恰好就是 DeepEncoder,而这个编码器最早就是在 DeepSeek OCR 里被提出来的。

Unlimited OCR 不仅用了它,而且整合得非常自然,像是对原始设计思路的延续和进化。

还有行文风格,这一点可能有点主观,因为Unlimited OCR 的技术报告读起来不像传统大厂论文。

传统大厂的论文倾向于先摆结果再补方法,写得四平八稳。

但这篇开头就讲人类怎么抄书,从工作记忆和认知科学的角度切入,然后才引出技术方案,结尾还放了一句话,说 R-SWA 是通用的长程解析机制,OCR 只是第一站。

这种叙事驱动的写法,故事感强,想法激进,此前能把技术报告写出这种味道的团队,印象里也就 DeepSeek 一家。

还有报告里提到 DeepSeek OCR 的段落,语气不太像是在对标一个竞品,更像是在对自己之前的方案做反思和迭代。

3

我把这几条线索串起来,你大概就能理解为什么 AI 圈最近都在猜 YY 是谁了。

国内做 OCR 的圈子其实不大,DeepSeek OCR 从一代到二代,核心作者始终就那么几个人,同一支小团队,从零开始做起来的。

能够对 DeepSeek OCR 的架构有这种程度的理解,又能在此基础上做出 R-SWA 这个级别的突破,再加上行文风格的高度一致,符合条件的人一只手都数得过来。

当然,以上全是我基于公开信息的推测。

YY 到底是谁,目前没有任何官方确认,我也不会下定论。

但比较有意思的是,它折射出的是整个行业正在发生的一个趋势。

过去一年,中国 AI 人才的流动烈度远超此前任何时期。中国 AI 核心技术岗缺口超过80万人,顶尖人才的年薪已经突破300万,跳槽涨幅集中在20%到30%,关键岗位企业还愿意再往上加。

DeepSeek 不到200人的团队,半年走了5个核心,覆盖四条主线。

但硬币的另一面是:人才流动本身也在创造价值。

每一个人带走的不只是简历上几行字,而是从零到一搭建过一条技术线的全部积累,包括那些论文里写不出来的工程直觉。

如果 Unlimited OCR 的背后确实站着一位从 DeepSeek OCR 一路走过来的人,那这篇报告可能就代表了:一个研究者带着自己对问题的深层理解,换了一个环境,碰上了不同的资源和产品方向,于是做出了比上一份工作更大胆的尝试。

而百度最近在 AI 方面释放出的信号,从技术报告的写法到开源的节奏,再到这次团队构成透露出的信息,都让人感觉内部的氛围在发生变化。

YY 是谁?也许过不了多久,答案很快会浮出水面。