LoT视觉推理入门基础教程(非常详细),搞定知识型VQA看这篇就够了!

张开发
2026/4/6 19:53:49 15 分钟阅读

分享文章

LoT视觉推理入门基础教程(非常详细),搞定知识型VQA看这篇就够了!
一、研究方向及背景这篇论文属于多模态大语言模型MLLM与知识增强视觉问答Knowledge-based VQA, KB-VQA交叉方向核心关注的是当模型回答图像问题时不仅要看图还要结合外部检索到的文本知识但这些知识往往有噪声、图像中真正相关的区域也未必能被模型准确关注因此模型容易出现证据选择不准、推理受干扰的问题。论文提出一种无需训练、仅在推理阶段运行的方法帮助 MLLM 在视觉证据和文本证据中“二次聚焦”提升回答质量。从更细的学术脉络看它同时落在以下几个子方向中检索增强多模态推理面向 KB-VQA将外部知识与图像共同输入模型注意力机制解释与利用把模型内部注意力当作“隐式相关性信号”推理时增强inference-time enhancement不改模型参数、不额外训练只在推理时动手多模态幻觉缓解与视觉定位增强通过高亮真正相关区域减少模型被无关内容误导。二、主要研究方法或创新点提出 Look TwiceLoT让模型“先看一眼再重点看一眼”论文的核心方法叫Look Twice (LoT)。它的思想很直观先让模型做一次非常轻量的前向分析只生成一个额外 token借此读取模型内部注意力然后根据这些注意力判断“图里哪里重要、文本里哪句话重要”最后再把这些关键证据显式高亮送给模型进行正式回答。整个过程不需要重新训练模型也不改模型结构。论文在第 1 页和第 2 页就明确指出LoT 的关键价值在于利用预训练 MLLM 自己的内部注意力动态做多模态证据筛选与再强调。这比重新设计复杂 RAG 流程或额外训练模块更轻量。视觉侧创新基于“问题对象→图像 token”的注意力做目标区域定位在视觉证据选择上LoT不是粗暴看整图而是从问题中先识别出目标对象比如问题里真正被问到的是“female butterfly”。然后它提取这些对象词 token 到视觉 token 的注意力聚合多层、多头得到每个视觉 token 的相关性分数再形成二维注意力图。这一点在图1第5页里画得很清楚方法从问题、图像和检索文本三部分出发分别做视觉证据选择和文本证据选择最后把重要区域和重要句子高亮出来。图中上半部分展示了视觉证据选择下半部分展示了文本证据选择。视觉侧另一关键点引入 attention sink filtering抑制伪高响应区域论文认为MLLM 的注意力里存在类似“attention sink”的问题也就是某些 token 或图像区域会无意义地吸走大量注意力导致模型关注偏了。为此作者设计了多层 attention sink 过滤机制先找出那些在隐藏维度上表现得像 sink 的视觉 token再把它们从视觉相关性分数中压掉使最终热图更集中到真正相关的目标区域。这一点在图2第6页特别重要。图2左边展示了原始 attention map能看到许多高响应点其实并不对应目标过滤之后的 attention map 明显更集中红框也更贴近目标实体。图2右侧还展示了 sink token 在某些隐藏维度上的异常高激活特征。文本侧创新用“最后生成 token→上下文 token”的注意力选关键句对于检索到的文本知识LoT 不直接全盘相信而是分析模型在生成答案前最后一个 token 对上下文 token 的注意力计算每个句子的得分再选出最相关的句子进行高亮。换句话说它不是重新训练 reranker而是借助模型自身的注意力找到“模型本来就最可能依赖的句子”再把这些句子显式包上特殊标记提醒模型重点使用。论文将这种方式称为Self-Guided Textual Evidence Selection。用 prompt-level markers 显式高亮证据而非修改模型LoT 的一个很实用的设计是对文本证据插入START_IMPORTANT_TXT和END_IMPORTANT_TXT对视觉证据用裁剪出的关键图像区域插入START_IMPORTANT_IMG和END_IMPORTANT_IMG。第 21 页给出了具体 prompt 模板系统提示会明确告诉模型这些 marker 包围的内容是重要视觉/文本证据不要把 marker 输出到答案里用户模板则将裁剪图像和关键句子嵌入输入。这个设计说明论文不是靠新训练技巧取胜而是靠推理时的证据组织方式优化。只增加极小推理开销作者强调LoT 只要求多生成一个 token 来分析注意力因此计算额外成本非常低。第 21 页统计显示在 E-VQA 上用 Qwen2.5-VL-3B 时最终回答平均生成约 18 个 token多出来的 1 个 token 仅带来大约5.6%的生成开销。同时视觉裁剪还把平均视觉 token 数从 291 降到 208减少了约28.5%。这说明 LoT 不只是“效果涨一点”而且在工程上也有较好的可部署性。三、实验结果KB-VQA 主实验在多个数据集和多个模型上稳定提升论文在表1第11页报告了 KB-VQA 主结果覆盖 E-VQA、InfoSeek、OVEN、ViQuAE 四个基准以及 Qwen2-VL / Qwen2.5-VL / Qwen3-VL / InternVL3.5-VL 多种不同规模模型。整体趋势非常一致LoT 在所有模型规模上都能带来提升。几个有代表性的结果如下Qwen2-VL-2B平均分从10.2提升到11.9增益1.7Qwen2.5-VL-3B平均分从21.2提升到25.5增益4.3Qwen2-VL-7B平均分从22.9提升到28.2增益5.3Qwen3-VL-8B平均分从31.5提升到35.0增益3.5InternVL3.5-38B平均分从34.1提升到37.5增益3.1。从这些结果可以看出LoT 对小模型和大模型都有效不是某个单一 backbone 的偶然收益。在 InfoSeek 和 ViQuAE 上提升尤其明显论文特别指出LoT 在需要更强知识对齐和检索证据整合的场景里收益更显著。例如在InfoSeek上Qwen2-VL-2B 从5.4提升到10.3InternVL3.5-4B 从28.9提升到33.2。在ViQuAE上InternVL3.5-4B 从36.4提升到45.6Qwen3-VL-8B 从43.7提升到51.0。这说明 LoT 更像是在“证据选择”这个瓶颈上发力因此在知识密集型、多证据干扰强的任务上优势更大。消融实验视觉高亮和文本高亮都有效联合最好表2第13页对视觉高亮、文本高亮、两者联合进行了消融。结果显示单独做文本高亮性能提升单独做视觉高亮性能也提升二者结合时通常效果最好。以Qwen2.5-VL-3B为例E-VQA All 从27.8提升到文本高亮29.4视觉高亮29.6LoT 全部启用30.4InfoSeek All 从22.4提升到文本高亮24.1视觉高亮23.9LoT 全部启用25.2。这表明视觉与文本证据是互补的不是二选一。检索文档越多时LoT 更能抗噪声论文在图4第13页左图研究了检索 passage 数量 n 的影响。结论是随着检索文档数增加普通 baseline 往往因为噪声变多而收益有限但 LoT 仍能保持稳定提升因为它能把真正相关证据从更多候选中挑出来并高亮。这点对于实际 RAG 系统很重要因为真实部署时检索结果很难做到完全纯净。即便给 oracle evidenceLoT 仍有增益图4第13页右图显示即使直接给模型正确实体的 Wikipedia 页面也就是“oracle evidence”LoT 仍然能继续提升表现。这说明它不仅是在“纠正检索错误”更是在优化模型如何使用证据本身——即便证据本身是对的模型也未必能第一时间聚焦最关键片段。对一般多模态基准也有泛化能力论文在表3第14页还测试了不带外部文本检索的标准 MLLM 任务此时 LoT 只保留视觉高亮。结果显示在 RealWorldQA、V-Star、TextVQA、OCRBench、ChartQA、POPE、AMBER-D 等任务上多数模型都能取得提升或持平表现。例如Qwen2.5-VL-3B 在 RealWorldQA 从59.1提升到61.7在 V-Star 从59.7到61.8在 TextVQA 从62.5到66.4在 OCRBench 从76.1到79.7在 AMBER-D 从17.2大幅提升到40.5。这说明 LoT 不只是 KB-VQA 专用技巧它对一般视觉定位、OCR、图表理解和幻觉抑制也有帮助。定性结果说明方法确实找到了“该看哪里、该读哪句”论文的图3第12页和图6第24页展示了多个 KB-VQA 定性例子模型会把问题对应的目标对象框出来同时从长段检索文本里高亮出真正回答问题的那一句然后成功给出正确答案。而图7第24页则展示了在 POPE 和 AMBER 等幻觉基准上的例子说明视觉高亮可以帮助模型更准确地判断图中到底有没有目标物体。四、总结这篇论文的核心贡献不在于提出一个更重、更复杂的多模态 RAG 体系而在于提出一种极轻量、训练自由、推理时可插拔的方法 LoT。它利用模型自身内部注意力把“相关的图像区域”和“相关的文本句子”先找出来再显式高亮给模型看从而提升知识型视觉问答的准确率。它的优点主要有三点第一无需训练易于迁移到现有 MLLM第二额外成本小只增加一个 token 的前置分析第三泛化性强不仅 KB-VQA 提升明显在一般视觉问答与幻觉评测上也有效。当然这篇文章也有一定局限它本质上仍依赖模型内部注意力是否能可靠反映“相关性”如果注意力本身偏差很大LoT 的上限也会受到影响。但就论文呈现结果来看这种“从模型内部挖掘证据再反过来指导模型自己”的思路非常适合做轻量级推理增强具有很强的方法学启发意义。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章