2025_NIPS_DualCnst: Enhancing Zero-Shot Out-of-Distribution Detection via Text-Image Consistency ...

张开发
2026/4/18 17:54:32 15 分钟阅读

分享文章

2025_NIPS_DualCnst: Enhancing Zero-Shot Out-of-Distribution Detection via Text-Image Consistency ...
文章核心总结与翻译一、主要内容文章提出DualCnst框架,用于零样本分布外(OOD)检测,核心是融合文本-图像双一致性提升检测性能。现有基于视觉-语言模型(如CLIP)的方法仅依赖文本语义相似性,难以区分语义相近但视觉不同的样本(如斑马与野马)。DualCnst通过文本到图像生成模型(Stable Diffusion)为分布内(ID)和挖掘的OOD标签合成图像,同时计算测试图像与文本标签的语义相似性、与合成图像的视觉相似性,通过统一评分函数融合两类信息,无需ID图像或额外训练。在ImageNet系列、CIFAR等多个基准数据集上,该框架在FPR95和AUROC指标上显著优于现有方法,且具有无训练依赖、数据无关、可扩展的特点。二、创新点提出文本-图像双一致性框架:首次将语义相似性与视觉相似性结合,解决语义重叠OOD样本的检测难题。文本驱动的合成图像生成:无需真实ID图像,通过Stable Diffusion为ID和OOD标签生成视觉样本,弥补视觉信息缺失。理论支撑的多模态融合:证明多模态负标签聚合可降低评分方差,提升ID-OOD可分离性,提供概率分析与数学推导。高兼容性与实用性:可无缝集成到现有VLM-based管道,无需微调,适用于医疗成像、自动驾驶等安全关键领域。三、关键部分翻译(Markdown格式)Abstract

更多文章