Visual Document Retrieval最新综述

要点提炼

视觉文档的主要特征：

文章将现有方法(Method)总结归纳为三大范式：

VDR领域的评估指标：

生成式检索 (Generative Retrieval)：探索“自回归检索”范式，例如：Embed-via-answering：通过让模型回答问题来提取嵌入向量。生成式软标记：让模型生成不可读的“软标记（Soft Tokens）”来迭代优化表征。

混合专家模型 (Mixture of Experts, MoE)：为不同的文档模态（如纯文本、复杂图表、音频等）训练专门的专家，提升处理异构数据的灵活性和专业性。

先思考再嵌入 (Think-then-Embed)：在生成向量前，先让模型生成一段推理轨迹（Rationale），使得最终的嵌入向量包含深层逻辑信息。

自适应修剪与合并：动态识别并丢弃文档中的冗余补丁，例如 DocPruner

Matryoshka表征学习：训练具有层次化结构的嵌入向量，允许在推理时根据性能需求动态截断维度

主动感知：赋予 Agent 在检索页面后执行“缩放（Zoom-in）”、“裁剪（Crop）”等动作的能力，以获取细则知识。

深度研究工作流：研究 Agent 如何分解复杂查询，并根据中间检索结果动态修正后续的搜索路径。

Agent 与 VDR 工具的协同设计：不再是简单的调用，而是让检索器感知 Agent 的当前状态，提供更具上下文相关性的反馈。

论文研读大模型相关

#MLLM #VQA

Visual Document Retrieval最新综述

http://example.com/2026/02/26/Visual-Document-Retrieval最新综述/

作者

Munger Yang

发布于

2026年2月26日

许可协议