11 月 14 日消息,Anthropic 今日发布报告,称其在 2025 年 9 月中旬发现了一起高度复杂的网络攻击案例,并确认攻击方大规模使用具备“智能体”能力的 AI 系统直接执行网络入侵。
Anthropic 表示,这起事件被认为是首次有文献记录的、由 AI 主导执行、且几乎无需人工参与的大规模网络攻击活动。
Anthropic 表示,其在例行监测中发现可疑迹象,进一步调查显示,该团队操控其 Claude Code 工具对约三十个全球目标发起尝试渗透,并在少部分案例中成功入侵。受攻击对象包括大型科技公司、金融机构、化工制造企业和政府机构。
在调查的十天里,团队持续确定攻击范围、冻结相关账户、通知受影响组织,并与相关部门合作共享可操作情报。
报告指出,这次行动展示了 AI 智能体的潜在风险。此类系统可长时间自主运行,以极少的人为干预完成复杂任务。如果被用于恶意目的,将显著提升大规模网络攻击的可行性。随着攻击手法迅速演进,团队称已扩大检测能力,并开发更完善的分类器用于识别恶意行为,同时探索更多侦测大规模分布式攻击的技术。
团队表示此次案例以公开方式分享,是为了协助产业界、政府和研究机构强化自身的网络防御,并承诺未来将持续发布类似报告。
报告称,这起网络攻击行动依赖多种过去一年才刚成熟的 AI 智能体特性,而攻击过程主要分为四大阶段:
第一阶段,人类操作者挑选目标(如某企业或政府机构),并建立一套能在极少人工参与下自主入侵系统的攻击框架。框架利用 Claude Code 作为自动化工具执行网络行动。攻击者随后需诱使被严格训练避免有害行为的 Claude 参与攻击,他们通过“越狱”等手段,将攻击拆分为看似无害的小任务,让模型因缺乏完整上下文而执行。此外,攻击者还让 Claude 误以为自己是某家合法网络安全公司的员工,用于防御测试。
第二阶段中,Claude Code 检查目标机构的系统与基础设施,并寻找价值最高的数据库。其侦察速度远快于人类黑客团队,随后向操作者反馈摘要信息。
随后的阶段中,Claude 通过研究和编写攻击代码识别并验证漏洞。攻击框架利用模型收集凭证(账号密码),并借此扩展访问权限,再从系统中提取大量私密数据并按情报价值分类。模型还识别高权限账户、建立后门,并在极少人工监督下完成数据外传。
最终阶段,攻击者指示 Claude 生成完整的行动文档,包括被盗凭证和被分析系统的档案,协助框架规划下一阶段行动。
整体来看,攻击者利用 AI 完成了 80% 至 90% 的任务,人类仅在少数关键决策点介入(注:每轮约 4–6 次)。模型在高峰期每秒发出多项请求,达到人类黑客难以匹敌的速度。报告也指出 Claude 并非全然准确,有时会“幻觉式”地生成虚假凭证或误将公开信息当作机密资料,这仍是完全自主攻击的障碍。
报告显示,高级网络攻击的门槛已大幅降低,且这一趋势将持续。具备智能体能力的 AI 系统可长期运行,完成原本需要整支资深黑客团队才能执行的任务,包括分析目标系统、生成攻击代码、处理大规模被盗数据等,甚至资源有限的组织也有能力发动此类行动。
Anthropic 团队指出,这次攻击比先前报告的“vibe hacking”更进一步,当时人类仍在频繁指导操作,而此次行动中人类介入大幅减少,而攻击规模却更大。虽然调查仅能看到 Claude 的使用情况,但团队认为这项案例可能反映了其他前沿模型的类似趋势。
对于“若模型可被如此滥用,为何仍继续开发与发布?”这一问题,Anthropic 团队回应称,使模型具备执行攻击的能力,也正是其在网络防御中发挥关键作用的原因。为了应对必然出现的复杂攻击,他们为 Claude 设计了多项安全防护,使其可协助专业团队侦测、阻断并准备未来版本的攻击。他们的威胁情报团队也在本次调查中大量使用 Claude 处理庞大的数据量。
报告认为,网络安全已发生根本变化,并建议安全团队在安全运营中心自动化、威胁侦测、漏洞分析和事件响应等领域尝试使用 AI;同时呼吁开发者持续强化平台安全机制,以减少对抗性滥用风险。随着更多攻击者采用类似技术,产业威胁情报共享、侦测方法改进与更强的安全控制变得愈发重要。