（2026|UTN CMU，SteerViT，将文本直接注入视觉编码器，早融合，门控图文交叉注意力，VLM，ViT，RoBERTa，目标检测）可操控的视觉表示

张开发

• 2026/6/5 6:31:02 • 15 分钟阅读

分享文章

（2026|UTN CMU，SteerViT，将文本直接注入视觉编码器，早融合，门控图文交叉注意力，VLM，ViT，RoBERTa，目标检测）可操控的视觉表示

Steerable Visual Representations论文地址https://arxiv.org/abs/2604.02327项目页面https://jonaruthardt.github.io/project/SteerViT/进 Q 学术交流群922230617 或加 CV_EDPJ 进 W 交流群目录1. 引言2. 相关工作3. SteerViT基于文本的视觉 Transformer 导向方法3.1 架构3.2 训练目标3.3 训练数据4. 实验4.1 条件检索用文本导向全局语义4.2 MOSAIC 定位文本实现目标注意力4.3 保持视觉表示质量的同时实现导向4.4 文本特异性引导语义粒度4.5 可视化和分析导向后的嵌入空间4.6 文本促进零样本领域迁移4.7 SteerViT 分析5. 注与 Grounding DINO 和 SAM3 的对比5.1 最关键区别5.2 架构与图文对齐方式核心差异5.3 核心任务与能力对比5.4 训练与部署特点5.5 一句话总结三者关系1. 引言预训练的视觉 TransformerViT如 DINOv2 和 MAE提供了通用的图像特征可用于检索、分类和分割等多种下游任务。然而这类表示往往聚焦于图像中最显著的视觉线索无法引导其关注次要的目标概念。相比之下多模态大语言模型MLLM可通过文本提示进行引导但其表示偏向语言对通用视觉任务的效率下降。为解决这一问题本文提出可导向视觉表示Steerable Visual Representations这是一种新型视觉表示其全局和局部特征可通过自然语言进行导向。大多数视觉-语言模型如 CLIP在编码后将文本与视觉特征融合晚期融合而本文将文本直接注入视觉编码器的层中早期融合通过轻量级交叉注意力实现。本文引入了衡量表示可导向性的基准实验表明所提可导向视觉特征能在保留底层表示质量的同时聚焦图像中任意期望的目标。该方法在异常检测和个性化目标判别上也达到或超越了专用方法展现出对分布外任务的零样本泛化能力。如下图所示DINOv2 主要编码显著目标如“猫”而 SteerViT 可通过文本导向将注意力中间和全局特征语义右侧转向查询的视觉概念如 “书架” 或 “遥控器”。2. 相关工作视觉表示类别。如表 1 和图 3 所示单模态自监督编码器DINOv2、MAE学习丰富的视觉特征但无法接受查询。跨模态编码器CLIP、SigLIP使用文本作为训练监督但其视觉编码器仍不能由文本导向。MLLM 最接近目标提供中等程度的可导向性和视觉质量但其表示位于语言空间且参数量达数十亿。SteerViT 反转了这一范式以语言为条件来编码视觉在冻结的 ViT 上仅增加约 21M 可训练参数同时产生更强的视觉特征如下图所示。文本条件的视觉特征。据本文所知尚无工作能同时实现文本导向和保持表示质量。最接近的工作 FLAIR 在冻结的 SigLIP 编码器上使用文本条件的注意力池化晚期融合导向性次优且在标准视觉基准上不及单模态编码器如上图所示。同期工作 TIE 和 ELIP 也面向窄管道。相比之下SteerViT 是通用的可导向视觉表示框架可迁移到多种任务。3. SteerViT基于文本的视觉 Transformer 导向方法3.1 架构SteerViT 包含四个组件如上图所示冻结文本编码器和视觉编码器只训练 MLP 和门控交叉注意力1视觉编码器ViT 将图像 X_v ∈ R^{H×W×3} 编码为 N 个 patch token Z_v ∈ R{N×d_v}。所有原始 ViT 参数保持冻结新增能力仅来自插入的交叉注意力层。2文本编码器使用冻结的 RoBERTa-Large 将提示 X_t 编码为 token 级嵌入 Z_t ∈ R^{L×d_t}。3多模态适配器每个文本嵌入经 ℓ2 归一化后通过可训练的两层 MLP 映射到与视觉对齐的嵌入空间 H_t ∈ R^{L×d_v}。4门控交叉注意力层在每两个 Transformer 块中插入一层交叉注意力CA视觉 patch token 作为查询文本 token 作为键和值通过 tanh 门控可学习标量 α_ℓ初始为 0将输出集成到残差流中初始时 tanh(0)0模型与冻结 ViT 完全相同。门控梯度为其中sech^2(0) 1因此 α_ℓ 可在优化中逐步激活语言调节路径。【注由于论文未给出架构细节。使用大模型依照官方代码画的详细架构图如下所示】3.2 训练目标为了鼓励视觉编码器能够利用并整合语言信息采用指代分割referential segmentation作为前置任务给定图像 X_v 和指向某目标的提示 X_t模型预测哪些 patch 对应所指区域。真实标签 y_i 为二值分割掩码在 ViT 网格上的像素占比。线性分类头将每个 patch 表示 Z^i_v ∈ R^d 通过 softmax 映射为掩码概率 p_i。使用软交叉熵损失该损失促使交叉注意力层将文本信息路由到对应的视觉 patch token 中从而产生导向后的表示。在 patch 级而非像素级执行分割降低了训练复杂度无需像素级解码器。3.3 训练数据混合多个指代分割和 grounding 数据集RefCOCO//g、Visual Genome、LVIS、Mapillary Vistas共包含 162k 张独立图像和 2.28M 对图像-文本。4. 实验本节验证所学的可导向表示的性质并展示在多个下游任务中的应用。基线。本文比较多个模型家族单模态视觉编码器DINOv2、MAE跨模态编码器CLIP、SigLIP采用后验元素级加法晚期融合融合文本与视觉特征MLLMInternVL3、Qwen3-VL、LFM-2.5-VL按照 E5-V 方法提取最后 token 的摘要池化summary pooling作为以提示为条件的视觉特征开放词汇定位模型SAM3、GroundingDINO使用并评估其中间多模态状态。所有模型将图像处理为 336×336 分辨率。4.1 条件检索用文本导向全局语义本文提出CORE 基准COnditional REtrieval条件检索衡量模型如何用文本导向其全局特征。从 SUN397 中为三个室内和三个室外场景各选 100 张图像使用 FLUX.2 图像编辑模型向每张图像内嵌入五个场景适配的目标如厨房中的水果碗。任务为 one-vs-all 检索查询图像包含嵌入目标 Ω目标是检索出同一场景中也包含 Ω 的其他图像。这衡量模型能否将全局特征从场景级相似性转向指定的非显著目标。查询和库图像编码时使用相同的简短目标描述。采用 top-1 检索准确率。如上图 a 所示DINOv2 嵌入图左上角显示没有对象的可区分性而基于文本的嵌入则为不同的文本提示形成了不同的聚类。这证实了 SteerViT 能够围绕所查询的概念重新组织其嵌入空间。在文本引导的图像检索方面如上图 b 所示查询无关的编码器MAE、DINOv2失败DINOv2 仅 44%。跨模态编码器CLIP、SigLIP也表现不佳。SteerViT 达到 96% 的准确率确认文本条件将全局表示从场景级转向查询概念。MLLM 和开放词汇模型具有可导向性但效率低或专用化。SteerViT 在仅增加 21M 参数下优于 InternVL3-1B 和 -3B49 和 20 个百分点。随机错误类别提示下SteerViT 性能大幅下降-47.7 个百分点证实导向由提示驱动。在真实世界条件图像检索基准 GeneCIS 上SteerViT 达到 25.4% R1优于 DINOv29.6%和专用基线18.7%如表 2 所示。4.2 MOSAIC 定位文本实现目标注意力本文构建 MOSAIC 基准将四张 PASCAL-VOC 图像拼成 2×2 拼接图共 363 张合成图像降低每个主目标的显著性。最后自注意力块中 [CLS] 到 patch 的注意力分数显示全局注意力如何被文本提示重定向。定性结果如图 6 所示DINOv2 关注突出目标SteerViT 根据提示关注指定区域。定量上DINOv2 的 PR-AUCprecision-recall-curve为 14.3%SteerViT 达到 50.2%。发现 1SteerViT 能用文本将其视觉特征导向查询概念而标准编码器坍缩到显著视觉线索。4.3 保持视觉表示质量的同时实现导向本文将 CORE 性能与视觉中心的下游任务表示质量进行对比在 ImageWoof、Waterbirds、StanfordCars 上训练线性探针以及在 ADE20k 上进行二值目标分割。如上图右所示存在三个区域开放词汇定位模型SAM3、GroundingDINO可导向性高但通用视觉任务得分低MLLM 分类尚可但密集预测差且参数量大查询无关编码器特征可迁移但不可导向。SteerViT 桥接了这一差距实现了高度的可操控性同时又完全保留了底层 ViT 的表征质量。交叉注意力门作为连续控制旋钮。推理时通过因子 ω∈[0,1] 缩放学到的门控参数 α_ℓ可在原始 ViT 和完全文本条件状态间平滑插值。如上图所示Pareto 前沿的最优点在 ω0.6此时 DINOv2 和 SigLIP 的表示质量甚至略超原始 ViT同时解锁高可导向性。发现 2SteerViT 产生了第一类既能用文本导向又不牺牲底层视觉编码器表示质量的视觉表示。4.4 文本特异性引导语义粒度使用 PODS 基准评估模型识别特定目标如你的杯子 vs. 其他杯子的能力。本文改变提示的详细程度从粗粒度超类别如“杯子”、目标名称到 MLLM 生成的详细描述。如图 8 所示提示越详细个性化表示质量越好甚至超过经过微调的 DINOv258.1% vs. 48.0% PR-AUC。发现 3文本条件的详细程度直接控制可导向视觉表示的粒度。4.5 可视化和分析导向后的嵌入空间从 PASCAL-VOC 中选取 500 张图像每张包含八类目标之一。UMAP 降维后1DINOv2 按目标类刚性聚类。2当条件为 “animal”时SteerViT 形成两个宏簇动物和非动物同时保留细粒度结构。3条件为 “bird” 增强鸟与非鸟的可分性。4条件为 “eye”有眼睛的类别包括人聚在一起无眼睛的无生命物体聚在一起表明可通过组合属性导向。发现 4SteerViT 能通过文本重新组织其嵌入空间控制语义抽象层级和聚类准则。4.6 文本促进零样本领域迁移在工业异常分割数据集 MVTec AD 上评估零样本异常分割。模型以 “object 中的异常” 风格提示通过上采样线性分割头生成的热力图得到异常图。如图 10 和表 3 所示SteerViT 达到 82.1 PROPer-Region-Overlap匹配专用零样本方法如 FADE 84.5远超 CLIPseg34.6和 SAM354.5。发现 5SteerViT 能使用自然语言将丰富的单模态视觉编码器迁移到分布外领域无需任务特定训练。4.7 SteerViT 分析本文消融关键设计决策。采用 DINOv2 ViT-B/14 和 RoBERTa-Large在 336×336 分辨率下训练 500k 迭代约 84 H100 小时。评估指标细粒度分类探针fine-grained classification probe accuracyFG-CLS、CORE 检索、带有描述性提示的 PODS 数据集上的个性化对象识别的 PR-AUC 值架构选择表 4。早期融合 vs. 晚期融合晚期融合行 3也可实现高可导向性93.3和更高 FG-CLS91.8但 PODS 大幅下降36.6 vs. 58.1。门控的作用移除 tanh 门行 4使三个指标分别下降 4.2、1.4、11.0。语言投影器两层 MLP 优于线性投影行 5。跨骨干泛化表 5。SteerViT 在 DINOv2、SigLIP、MAE 上均优于晚期融合其中相对较弱的骨干提升更大MAE 提升 33.9 点SigLIP 提升 15.9 点。监督信号的作用。在所有后续评估中分割这一训练目标均优于指向即在边界框中心使用高斯核这使得视觉和多模态理解得到了提升。视觉和文本编码器的规模调整。更大的 ViT 框架在所有任务中都能显著提升性能。将 RoBERTa-Large 简化为基础版本会使视觉质量略有下降如 FG-CLS、ADE20k但能保持多模态理解能力如 CORE、PODS。FFN 的作用。从每个交叉注意力块中移除门控的 FFN 会带来相当或更好的性能。这种效果在 MAE 中尤为显著因为在此情况下添加 FFN 会严重降低可操控性和零样本迁移能力。5. 注与 Grounding DINO 和 SAM3 的对比从 Grounding DINO 到 DINO-X开放集目标检测的架构演进与细节拆解2026|ICLR|MetaSAM3基于概念提示的图像/视频分割基于人工AI验证的数据引擎SAM3 AgentMLLM基于概念的任意分割5.1 最关键区别SteerViT文本深度内插、逐层 steer视觉 Transformer冻结主干、轻量适配生成通用文本可控视觉特征不是检测 / 分割头。一句话给 ViT 装方向盘文本在每一层引导视觉特征。Grounding DINO开放词汇目标检测文本→定位物体→输出框类别检测为核心、 grounding 是手段。一句话看到图文本把 “猫” 和 “红色汽车” 框出来。SAM 3开放词汇分割文本→分割物体→输出掩码分割为核心、 grounding 是手段。一句话看到图文本把 “猫”“条纹杯子” 抠出来。5.2 架构与图文对齐方式核心差异1SteerViT主干完全冻结ViT如 DINOv2 冻结文本编码器RoBERTa文本介入时机每一层 ViT 之间插入 Cross-Attention Gate图像特征每过一层 ViT就用文本特征 steer 一次文本→视觉单向引导融合方式文本特征投影到视觉空间每层ViT → CrossAttn(visual, text) → Gate 融合 → 下一层参数极小仅插入的适配器主干完全不动输出文本可控的通用视觉特征无检测 / 分割头2Grounding DINO主干DINO 检测器Transformer 编码器 - 解码器文本编码器文本介入时机编码器后期解码器全程三阶段融合特征增强 → 语言引导查询选择 → 跨模态解码器融合方式双向 / 强耦合图像 - 文本互注意力文本指导的检测查询query的生成与解码参数全模型可训主干文本融合检测头输出边界框类别分数 grounding 对齐3SAM 3主干图像编码器ViT-H文本提示编码器轻量掩码解码器文本介入时机解码器阶段后期融合图像先独立编码文本在掩码解码时注入融合方式文本→视觉单向文本作为 prompt交叉注意力图像特征文本提示 → 掩码参数主干基本冻结解码器文本编码器可训输出像素级分割掩码5.3 核心任务与能力对比维度SteerViTGrounding DINOSAM 3核心任务通用文本可控视觉表征开放词汇目标检测框开放词汇分割掩码文本作用控制、 steer 特征方向grounding定位物体grounding分割物体输出空间特征空间通用2D 框类别像素掩码零样本能力强冻结 CLIP/DINOv2极强开放集检测极强开放集分割多模态深度最深逐层融合中编码器解码器浅仅解码器主干修改0%完全冻结全量可训主干冻结、解码器微调5.4 训练与部署特点SteerViT训练极轻量仅训练少量适配器5% 参数量即插即用可插在任何预训练 ViT上DINOv2、CLIP、ViT-L/14适合少样本、域适应、可控特征、论文 / 轻量应用Grounding DINO全量训练需大规模 grounding 数据Grounding-100M适合开放世界检测、自动标注、OVD、referring expressionSAM 3解码器轻量训练海量分割数据SA-1B适合任意物体分割、文本引导抠图、编辑、标注5.5 一句话总结三者关系SteerViT做 “可控特征”—— 文本深度 steer 视觉通用、轻量、冻结主干。Grounding DINO做 “检测”—— 文本→框开放集检测最强。SAM 3做 “分割”—— 文本→掩码开放集分割最强。简单记要特征可控、少训、即插即用→SteerViT要框出物体→Grounding DINO要抠出物体→SAM 3