AI Coding 火了大半年,AI Debugging 也来了!
刚刚,OpenAI 发布由 GPT-5 驱动的“白帽”Agent —— Aardvark(土豚)。
这只“AI 安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。
据 OpenAI 报告,Aardvark 已识别出了 92%的已知与人工注入漏洞,而且能定位仅在复杂条件下出现的问题。
OpenAI 副总裁 Matt Knight表示:
我们的开发者发现,土豚在清晰地解释问题并引导他们找到修复方案方面确实非常有价值。这个信号告诉我们,我们正走在一条有意义的道路上。
而且,不仅 OpenAI。整个 10 月 Anthropic、谷歌、微软基本上是前脚跟后脚发布了类似的白帽 Agent。
这是怎么一回事。
Agentic AI + 自动修补漏洞
OpenAI 对这款白帽 Aardvark 的官方描述是 —— 代理型安全研究员(agentic security researcher)
Aardvark 的核心任务是持续分析源代码仓库,以识别安全漏洞、评估可利用性、确定风险等级,并提出有针对性的修复方案。
它通过监控代码提交(commits)与变更来工作,自动识别潜在漏洞、推断攻击路径并生成修复建议。
Aardvark 并不依赖传统的程序分析技术(如模糊测试 fuzzing 或软件成分分析 SCA),而是运用大语言模型驱动的推理与工具使用能力来理解代码行为,像人类安全研究员那样阅读、分析代码、编写测试并运行验证。
具体来说,它的工作流程从 Git 仓库出发,依次经历:威胁建模 → 漏洞发现 → 沙盒验证 → Codex 修复 → 人工复审 → 提交 Pull Request。
- 分析:对整个仓库进行全面分析,生成反映项目安全目标与设计的威胁模型(threat model)。 
- 提交扫描:新代码提交时,结合仓库和威胁模型扫描差异;首次连接仓库时回溯历史提交。同时解释发现的漏洞,在代码中标注,便于人工复审。 
- 验证:一旦识别出潜在漏洞,将在隔离环境中触发潜在漏洞,确认可利用性,同时说明验证步骤,确保结果准确且误报率低。 
- 修复:Aardvark 与 OpenAI Codex深度集成,为漏洞生成修复补丁,附于报告中,便于一键审阅与应用。 
目前,Aardvark 可无缝集成 GitHub、Codex 及现有开发流程,在不影响开发效率的前提下提供可执行的安全洞察。
内部测试显示,它不仅能识别安全漏洞,还能发现逻辑缺陷、不完整修复及隐私风险。
而且,Aardvark 已在内部和合作伙伴项目中测试运行,表现出色,验证了其实际可用性。
正如开头提到的,它不仅能够进行深度分析、定位仅在复杂条件下出现的问题,在对“黄金测试仓库(golden repositories)”的基准测试中,也实现了 92% 的识别率。
此外,Aardvark 也已应用于多个开源项目,发现并负责披露了众多漏洞,其中 10 个已获得 CVE 编号。
OpenAI 表示将为部分非商业开源仓库提供公益扫描服务,并提升整个开源生态与供应链的安全性。
Aardvark 现已开启内测,有需要的开发者可以直接在官网申请。
AI 编程完,AI 来修
就像开头提到的,不仅是 OpenAI,其他科技巨头也在积极布局 Agentic AI + 代码安全。
整个 10 月,谷歌、Anthropic、微软就想提前约好了似的,纷纷发布相关动作,OpenAI 这次反而显得稍晚。
例如,Anthropic 在 10 月 4 号表示将 Claude Sonnet 4.5应用于代码安全任务。
据悉,Claude Sonnet 4.5 在发现代码漏洞和其他网络安全技能方面,性能已经超越了 Opus 4.1,并且价格更低、速度更快。
谷歌在 10 月 6 号发布了 CodeMender,利用 Gemini Deep Think模型,实现自主调试和漏洞修复。
微软在 10 月 16 号发布了 Vuln.AI,正式宣告使用 AI 进行漏洞管理,而在 10 月的最后一天,OpenAI 也是姗姗来迟,跟上了这次更新的节奏。(注:各家在发布前均进行了数月的测试和验证)
那么,为什么这些巨头都选择在此时发力 AI 代码安全呢?
OpenAI 以及其他公司的解释高度一致:人工 Debug 与传统的自动化方法(如模糊测试)已经跟不上大规模代码库的漏洞发现与修复需求。
一方面,企业级网络中设备、服务、代码库数量巨大,另一方面 AI 技术虽能提高生产力,但也被用于快速寻找漏洞、生成攻击代码。
因此,在漏洞数量激增、攻击手段日益智能化的背景下,借助 AI 自动化发现与修复漏洞,已成为确保软件安全和降低企业风险的关键手段。
不过,大厂说管说,倒是有网友发现了“华点”:
我们有一个会制造安全漏洞的 Agent,也有一个会修复安全漏洞的 Agent,这就是最好的商业模式。
 
    		 
 
                 
 
                 
 
                 
 
                