文档LLM校勘

Evo-Retriever——阿里巴巴云计算-CVPR-2026

研究目的

主要关注复杂视觉文档检索，即从大量的财务报表、合同、学术论文中，精准检索出包含图表、文本和特定排版的页面。

目的是解决三个问题

空间感知能力不足，即难以结合页面中空间距离较远但语义相关的节点共同理解，对复杂排版理解出现割裂
易受文本混淆影响，忽略了“文本相似但视觉不匹配”的样本
静态训练课程导致停滞，模型能力受限于初始的静态负样本，没有学习到更多知识

创新点

提出了三个核心架构：

多视角图像对齐（MVA - Multi-View Image Alignment），在训练时，除了原始图像外，还会通过水平拼接、降采样、旋转等方式构建出多视角复合图像。这些图像并行通过共享的视觉编码器，并利用一致性损失（Consistency Loss）强行让模型在不同尺度和旋转角度下都能与文本查询保持表示一致
双向对比学习（BCL - Bidirectional Contrastive Learning），除了传统的“查询 $\rightarrow$ 文档”检索路径，引入了反向的“文档 $\rightarrow$ 查询”路径。论文利用一个自动化的“难负查询合成（HNQS）”流水线，让大模型（VLM）为每个正样本对合成语法或上下文极其相似、但语义实际上与该文档图片不符的“假查询”（Hard Negative Queries）
大模型引导的演进课程（LLM-EC），分为三个阶段
- 探索阶段（Exploration）： LLM 在不同的难度区间进行试探，监控损失函数（Loss）的变化，避免陷入不稳定或停滞
- 过渡阶段（Transition）： 过滤出产生“有效学习”（Loss 在 0.3 到 1.2 之间）的难度区间，并选择其中最具挑战性的区间作为主力训练的锚点。
- 锁定阶段（Lock-in）： 随着训练进行，LLM 定期评估模型的“学习速度”。如果模型掌握得很好，LLM 就“调高难度”（选择更接近正样本的极其相似的负样本）；如果模型开始挣扎，LLM 就会“降低难度”或回滚，实现教与学的动态协同演进。

实验结果

ViDoRe V2 榜单： Evo-Retriever-7B 取得了 65.2% 的 nDCG@5 得分，相比之前的最佳模型 llama-nemoretriever 提升了 1.7%

MMEB (VisDoc) 榜单： Evo-Retriever-7B 取得了 77.12% 的优异成绩