[IR]《Multi-Vector Embeddings are Provably More Expressive than Single Vector Embeddings》R Jayaram [Google Research] (2026)
在神经信息检索领域,单向量嵌入(SV)因其简单性而成为主流,但其精度始终难以逾越以 ColBERT 为代表的多向量(MV)模型。过去,学术界一直无法证明这种优越性是否源于本质的几何优势,还是仅仅因为多向量模型使用了更大的存储空间,即是否存在一种等效的单向量映射方案。
本文的核心洞见是:将相似度近似问题转化为矩阵近似秩的下界证明。研究者通过构造一种特殊的点云数据集,使其 Chamfer 相似度矩阵精确对应布尔函数的模式矩阵。由此,利用模式矩阵方法将检索精度与多项式次数挂钩,证明了单向量模型若要模拟多向量的交互逻辑,其维度必须呈指数级或高阶多项式级增长。
这项工作真正留下的遗产是为多向量检索架构的优越性提供了首个严谨的理论支撑,终结了关于两种表示范式表达能力的长期争论。它为后来者打开的新门是确立了单向量模型在处理复杂几何关系时存在无法逾越的维度瓶颈,但尚未跨过的门槛是未能完全抹平理论下界与现有算法上界之间的具体数值间隙。
arxiv.org/abs/2606.23475 机器学习 人工智能 论文 AI创造营
