Semgrep这次测IDOR漏洞,跑出一个很容易被误读的结果:智谱GLM 5.2在只给提示词和代码库、没有Semgrep专用脚手架的条件下,F1达到39%。Claude Code大约在32%上下。MiniMax和Kimi在22%-23%。\n\n这个结果够亮眼,但不能直接翻译成“开源权重模型全面击败Claude”。真正排在前面的,还是Semgrep自家Multimodal管线:GPT 5.5版本61% F1,Opus 4.8版本53%。\n\n所以这事的看点不在一句输赢。它更像一次边界测试:裸模型已经能逼近部分闭源代理,但安全检测最后拼的不是裸奔能力,而是系统工程。\n\n## Semgrep到底测出了什么\n\nIDOR,全名Insecure Direct Object Reference。直白说,就是用户改一个ID,就可能拿到不该看的数据。\n\n它难在业务逻辑。不是找一个危险函数,也不是扫一个固定模式,而是判断某条访问路径里有没有少做权限检查。\n\nSemgrep固定了三件事:同一IDOR数据集、同一评估方法、同一IDOR提示词。变化的是模型,以及有没有专用harness。\n\n| 配置 | 条件 | F1 | 该怎么看 |\n|---|---|---:|---|\n| Semgrep Multimodal + GPT 5.5 | 专用harness | 61% | 系统管线领先 |\n| Semgrep Multimodal + Opus 4.8 | 专用harness | 53% | 系统管线领先 |\n| GLM 5.2 | Pydantic AI,prompt-only | 39% | 裸模型表现强 |\n| Claude Code | Claude Code SDK | 约32%上下 | 在该任务未压住GLM 5.2 |\n| MiniMax M3 / Kimi K2.7 Code | prompt-only | 22%-23% | 同类配置下差距明显 |\n\nGLM 5.2的现实变量也值得看:开源权重,MIT许可;MoE架构,约750B总参数、约40B激活;最高1M上下文;价格约为前沿模型六分之一。\n\n按Semgrep报告口径,这次GLM 5.2约0.17美元找到一个真实漏洞。这个数字不能外推。它只属于这次任务、这套数据、这次价格口径。\n\n这里的限制也要摆清楚:单任务、单数据集、一次实验。它不能证明GLM 5.2在所有漏洞类型、所有代码库、所有安全场景里都更强。\n\n## 真正的差别在harness,不在一句“谁赢了”\n\nGLM 5.2赢的是prompt-only赛道。Semgrep Multimodal赢的是系统赛道。\n\n这两件事不能混着讲。\n\n安全检测很吃脚手架。模型如果不知道从哪些路由、控制器、鉴权函数切进去,就会在仓库里乱走。上下文越大,不等于越会找重点。\n\nSemgrep自家管线领先,很可能来自端点发现、静态分析导向、上下文筛选和输出解析。模型只是其中一块。\n\n这和早期搜索引擎有点像。网页索引只是门票,真正拉开差距的是爬虫、排序、反作弊和工程化更新。不完全一样,但结构相似:单点能力会被系统能力放大,也会被系统短板拖死。\n\nF1在这里不是论文装饰。它意味着误报和漏报的平衡。误报太多,安全团队会被工单淹没;漏报太多,工具看起来省钱,实际把风险留在生产环境。\n\n成本也不是尾巴。漏洞检测要覆盖大量仓库、端点和迭代版本。单次调用便宜,才有机会进入日常流程,而不是只在演示里好看。\n\n“工欲善其事,必先利其器”。放到今天的安全AI里,这个“器”不是单个模型,而是模型外面的整套流程。\n\n## 对AppSec团队,动作要变得更具体\n\n受影响最大的,是两类人。\n\n一类是企业AppSec和安全工程团队。GLM 5.2这次结果至少说明,不能再默认“最贵闭源模型就是最稳选择”。更合理的动作是延后单一模型锁定,把自有评估集先建起来。\n\n不要只问供应商用了哪个模型。要问四件事:\n\n| 决策点 | 应该追问什么 | 原因 |\n|---|---|---|\n| 评估集 | 是否能用企业自己的历史漏洞和代码模式复测 | 公共榜单不等于你的仓库 |\n| harness | 是否有端点发现、上下文筛选、结果验证 | 这决定模型有没有方向感 |\n| 模型层 | 是否可替换,是否支持多模型对照 | 避免被单一供应商绑定 |\n| 成本 | 是否按真实漏洞、误报处理和运行频次算总账 | 便宜调用不等于便宜运营 |\n\n另一类是AI代码审计和模型选型的技术决策者。采购不该只看演示效果。要把POC做成可复验的流程:同一批仓库、同一批漏洞类型、同一套判定标准,分别测闭源模型、开源权重模型和带harness的系统。\n\n如果团队已经在用Claude Code这类工具,也没必要立刻迁移。更稳的做法是并跑。把GLM 5.2这类低成本模型放进候选池,用它跑高频扫描或二次验证,再看误报、漏报和人工处理成本。\n\n我不太买账“开源权重已经全面追平闭源前沿模型”。GLM 5.2这次表现强,但它不是整个开源阵营的平均水平。MiniMax和Kimi在同一任务上就低了一截。\n\n我也不买账“闭源前沿模型天然更可靠”。Claude Code在这次IDOR基准里没有形成压倒优势,说明安全AI不是把贵模型接进来就完事。\n\nopen-weight也别写成完整开源。权重开放、MIT许可很重要,利于部署和成本控制;但训练数据和完整训练流水线并未完全公开。企业如果有合规、可审计和本地化部署要求,仍然要逐项核验。\n\n接下来最该看三件事:GLM 5.2在SQL注入、鉴权绕过、SSRF等其他漏洞类型上是否稳定;Semgrep这类harness能否把不同模型的能力持续放大;企业自有代码库里的误报处理成本会不会吃掉模型便宜带来的收益。\n\n这次GLM 5.2像一声提醒:裸模型已经能咬到前沿代理的脚后跟。\n\n但真正跑在前面的,仍是会搭路、会控场、会算账的系统。