Evo-Retriever——阿里巴巴云计算-CVPR-2026
研究目的
主要关注复杂视觉文档检索,即从大量的财务报表、合同、学术论文中,精准检索出包含图表、文本和特定排版的页面。
目的是解决三个问题
-
空间感知能力不足,即难以结合页面中空间距离较远但语义相关的节点共同理解,对复杂排版理解出现割裂
-
易受文本混淆影响,忽略了“文本相似但视觉不匹配”的样本
-
静态训练课程导致停滞,模型能力受限于初始的静态负样本,没有学习到更多知识
创新点
提出了三个核心架构:
-
多视角图像对齐(MVA - Multi-View Image Alignment),在训练时,除了原始图像外,还会通过水平拼接、降采样、旋转等方式构建出多视角复合图像。这些图像并行通过共享的视觉编码器,并利用一致性损失(Consistency Loss)强行让模型在不同尺度和旋转角度下都能与文本查询保持表示一致
-
双向对比学习(BCL - Bidirectional Contrastive Learning),除了传统的“查询 $\rightarrow$ 文档”检索路径,引入了反向的“文档 $\rightarrow$ 查询”路径。论文利用一个自动化的“难负查询合成(HNQS)”流水线,让大模型(VLM)为每个正样本对合成语法或上下文极其相似、但语义实际上与该文档图片不符的“假查询”(Hard Negative Queries)
-
大模型引导的演进课程(LLM-EC),分为三个阶段
- 探索阶段(Exploration): LLM 在不同的难度区间进行试探,监控损失函数(Loss)的变化,避免陷入不稳定或停滞
- 过渡阶段(Transition): 过滤出产生“有效学习”(Loss 在 0.3 到 1.2 之间)的难度区间,并选择其中最具挑战性的区间作为主力训练的锚点。
- 锁定阶段(Lock-in): 随着训练进行,LLM 定期评估模型的“学习速度”。如果模型掌握得很好,LLM 就“调高难度”(选择更接近正样本的极其相似的负样本);如果模型开始挣扎,LLM 就会“降低难度”或回滚,实现教与学的动态协同演进。
实验结果
ViDoRe V2 榜单: Evo-Retriever-7B 取得了 65.2% 的 nDCG@5 得分,相比之前的最佳模型 llama-nemoretriever 提升了 1.7%
MMEB (VisDoc) 榜单: Evo-Retriever-7B 取得了 77.12% 的优异成绩