阈值之惑:静态分析工具准确性对大语言模型漏洞修复效能的影响研究

张开发
2026/4/3 20:05:58 15 分钟阅读
阈值之惑:静态分析工具准确性对大语言模型漏洞修复效能的影响研究
阈值之惑:静态分析工具准确性对大语言模型漏洞修复效能的影响研究摘要静态分析工具(SAST)与大语言模型(LLM)的融合被视为自动化漏洞修复领域的突破性方向,但现有研究多聚焦于“能否修复”这一命题,忽视了SAST输出的准确性对LLM修复效能的关键调节作用。本研究通过构建包含2,346个真实漏洞样本的实验数据集,系统操纵SAST工具的误报率(FP)与漏报率(FN),考察其对GPT-4、DeepSeek V3及本地微调CodeLlama修复行为的影响。研究发现:(1)SAST误报率每提升10%,LLM的修复采纳率下降约7.2%,且模型会产生“报警疲劳”导致的修复退缩;(2)漏报问题更为隐蔽——当SAST漏报率达到38%时,LLM的独立检测补充率仅能覆盖其中21.6%,形成漏洞修复的“责任真空”;(3)混合架构中,SAST的精度(而非召回)是决定LLM修复效能的关键瓶颈,精度低于45%时LLM的修复正确率趋近随机水平。基于上述发现,本文提出“置信度门控”架构与动态阈值调节机制,实验证明该方案可在保持召回率的同时将误报诱导的无效修复减少54.3%。研究为构建可靠的LLM-SAST协同修复系统提供了实证基础与工程指导。关键词:静态分析;大语言模型;漏洞修复;工具准确性;人机协同一、引言1.1 研究背景与问题提出软件安全漏洞的检测与修复是DevSecOps实践中的核心挑战。传统静态应用安全测试工具通过规则匹配、数据流分析等技术,能够在编码阶段识别潜在缺陷,已成为CI/CD流水线的标准组件

更多文章