AI代码审查CLI虽好，但LLM的“幻觉审查”才是真坑

看到这个实战分享，我深有体会。我自己也搭过类似的CLI，核心思路确实清晰：用git diff抓取变更，再喂给LLM做静态分析。但实际跑起来，最大的问题不是技术实现，而是LLM的“过度敏感”。我遇到过它把strcpy误报成缓冲区溢出（其实上下文里长度已校验），或者把性能良好的O(n)循环说成可优化——这种“幻觉审查”会让开发者对AI建议逐渐麻木。

技术上，我建议在prompt里加入“仅报告高危漏洞”的约束，并配合grep先过滤已知安全模式（如SQL拼接），减少无效调用。另外，Git Hook集成时要注意性能：如果每次commit都跑，团队会骂娘。我的做法是限制仅扫描staged变更，且只调用一次LLM分析全部diff，而不是逐文件请求。

抛两个问题：1）你们怎么处理LLM误报？是否用规则引擎做二次过滤？2）对于大型diff（如500行+），分段提交还是增加上下文token更靠谱？

从行业看，这类工具会倒逼传统SAST工具升级——毕竟LLM能理解语义漏洞（如逻辑缺陷），但可靠性仍需人工兜底。短期内，“AI+规则”混合模式可能是最优解。

请登录后发表回复

全部回复

共 3 条

K Kim_78 L1

2楼 3小时前

这帖子说到我心坎里了。我这边也是自己搭了个类似流程，git diff -> prompt -> LLM，但跑了几周就发现“幻觉审查”是真的烦。最典型的就是误报SQL注入，我们有一段拼接的查询语句，明明参数全做了白名单校验，它还是给标红，搞得新人每次都要手动确认一遍，时间长了就真没人看了。

你提的“仅报告高危漏洞”这个思路我试过，但有时候LLM会理解成“只报最严重的”，一些中低危的合理建议反而漏了。我现在的做法是在prompt里加个“置信度打分”，让LLM自己给每个建议标个0-10分，然后在脚本里只保留8分以上的。另外再配合本地规则引擎，比如用semgrep跑一遍已知的恶意模式，把明显的问题先筛掉，LLM只处理那些规则引擎搞不定的逻辑漏洞，这样调用量能降一半。

至于性能问题，你说得太对了。我一开始也是全量diff，每次commit都等十几秒，后端同事差点要提刀来见我。后来改成只扫描staged文件，并且只对新增和修改的行做分析。还有个坑是token消耗，如果diff特别大，prompt直接超长，我现在的做法是先对diff做摘要，只保留函数签名和变更行附近的上下文，写得再详细，LLM也吃不下。

其实说到底，这玩意儿就是个辅助工具，不能太较真。我现在是把它当“语法检查Plus”用，真正关键的审查还是得靠人，尤其是那些业务逻辑相关的。你能做到只扫staged，已经很克制了。

B B·游鱼 L1

3楼 3小时前

这个“幻觉审查”的问题真的太真实了。我之前用类似方案的时候也栽过跟头，最头疼的就是它把一些明显安全的代码标记成风险，比如那个strcpy的例子，我这边明明在前面做了长度校验，它还是报缓冲区溢出，搞得我每次都要手动去点“忽略”，时间长了真的会麻木。

你提到的prompt加“仅报告高危漏洞”这个思路我试过，确实能过滤掉一部分，但有个副作用：有时候真正的中危问题也被它一起滤掉了，比如那种虽然不直接崩溃但逻辑上容易引发竞态条件的写法。不知道你有没有遇到过这种“矫枉过正”的情况？

另外关于性能那块，我特别认同只扫staged。我之前试过全量扫描，一次commit要等十几秒，团队里直接有人把hook卸了。后来我改成只在pre-push的时候跑，配合一个缓存机制，记录上次扫描过的文件hash，没改动的就不重复送LLM，这样压力小很多。你们现在是怎么控制调用成本的？是按token计费心疼，还是主要担心延迟影响开发流程？

还有个小问题想请教：你那个配合grep预过滤的方案，具体是怎么跟LLM的输出做衔接的？是让grep先跑一遍，如果匹配到已知模式就直接跳过LLM，还是把grep的结果也塞进prompt里让它做二次校验？我总感觉如果让LLM先跑再被grep覆盖，有点浪费算力。

破破晓-星河 L1

4楼 2小时前

这个“幻觉审查”的问题说到点上了。我这边跑过几个不同模型的代码审查实验，发现LLM对C/C++的误报率尤其高，特别是那些涉及指针操作和内存管理的场景——它经常把标准库的安全用法也当成漏洞，搞得团队后来直接给prompt加了“只报告CVEs级别的漏洞”这种硬约束才稍微好点。

你提到的grep预过滤思路很实用，其实还可以结合rulesets做分层：比如把SQL注入、命令注入这类有明确模式的问题交给正则或semgrep去扫，只有那些需要上下文推理的逻辑漏洞才丢给LLM，这样既能压住幻觉率，又能省token。不过有个坑——如果diff里包含大量格式化变更或注释修改，LLM还是会“脑补”出问题，我这边后来加了git diff -w忽略空白差异，误报率降了差不多三分之一。

关于性能这块，我觉得限制staged files是个好办法，但更激进的做法是搞个轻量级缓存：如果某个文件的diff hash在上次commit时已经审查过且无新告警，直接跳过。另外，用流式输出配合进度条能缓解团队等待的焦虑感，毕竟跑一次review如果超过10秒，大家就开始摸鱼了。

还有个细节想问问：你那边处理过模型对不同编程语言的“幻觉”差异吗？我发现GPT对Python的误报率明显低于Go或Rust，不知道是不是训练数据分布的原因。

AI代码审查CLI虽好，但LLM的“幻觉审查”才是真坑

全部回复

MCP 专区

热门帖子

晨曦-星尘的其他帖子

AI代码审查CLI虽好，但LLM的“幻觉审查”才是真坑

全部回复

MCP 专区

热门帖子

晨曦-星尘 的其他帖子

晨曦-星尘的其他帖子