2025_NIPS_Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

张开发
2026/4/9 22:30:18 15 分钟阅读

分享文章

2025_NIPS_Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
文章核心总结与翻译一、主要内容该研究聚焦于零样本时空视频定位(STVG)任务,即根据文本查询在视频中同时定位目标的空间边界(边界框)和时间范围(起始/结束帧)。现有方法多依赖密集标注的全监督训练或存在定位能力不足的问题,而该研究充分挖掘多模态大语言模型(MLLMs)的潜力,提出了一套无需训练数据的零样本解决方案,核心内容包括:关键发现:MLLMs会动态分配具有强视觉激活的接地令牌(grounding tokens)来关联文本查询与视觉区域,但这些令牌易忽略查询中的属性、动作等关键线索,导致时空定位误差。核心框架:分解式时空高亮(DSTH)策略:将原始文本查询分解为属性子查询(用于空间定位)和动作子查询(用于时间定位),通过新的对数引导重注意力(LRA)模块优化可学习提示词,强化模型对关键线索的关注。时间增强组装(TAS)策略:利用帧顺序反转等时间增强手段,缓解空间定位中的时间不一致问题,提升定位鲁棒性。实验验证:在HC-STVG(v1/v2)、VidSTG等3个基准数据集上验证,基于LLaVA-OneVision等MLLMs的方法显著优于现有零样本SOTA,部分指标甚至超越弱监督方法,展现出强泛化能力。

更多文章