视觉Transformer的「近视眼」手术——LaSt-ViT如何让机器真正「看懂」图像

张开发
2026/4/17 5:50:15 15 分钟阅读

分享文章

视觉Transformer的「近视眼」手术——LaSt-ViT如何让机器真正「看懂」图像
一、先从一个奇怪的实验说起想象一下这个场景:你正在训练一个视觉模型来识别图片里的猫。你给它看一张猫坐在沙发上的照片,模型说:「这是猫。」准确无误。但当你问它:「你『看』到了什么?」它指着沙发、指着地毯、指着墙上的挂饰——唯独没有指着那只猫。这听起来很荒谬,对吧?但这正是 Vision Transformer(ViT)过去几年的真实写照。香港大学程石团队在今年 CVPR 2026 上发表的论文“Vision Transformers Need More Than Registers”(LaSt-ViT),揭示了这个令人困惑的现象,并只用一招就解决了它。二、ViT 的「近视」症状:能分类,却看不懂那个反直觉的发现研究团队做了一个简单到令人发指的实验:把图片里模型「最关注」的 50% 区域直接涂黑,看看会发生什么。你猜怎么着?准确率不仅没降,反而还提升了 1.2%。这就像一个人声称自己看懂了这张图是「猫」,但当你把他声称看到的部分全部遮掉,他的判断反而更准确了。这说明什么?他根本就没在看猫。他在看背景。Patch Score:照妖镜下的真相研究团队发明了一个简

更多文章