AI安全警报：顶尖模型因网络攻防能力过强被永久雪藏

模型能力超群，安全风险引发深度忧虑

近日，人工智能研究领域的领军企业Anthropic做出了一项引发行业震动的决定。该公司宣布，将无限期禁止其最新一代安全基座模型——Claude Mythos Preview——向公众及商业市场开放。这一决定是在其“软件安全合作计划”的最新进展评估中做出的，核心原因并非技术不成熟，恰恰相反，是因为该模型展现出的网络攻防能力过于强大。

测试结果惊人：效率提升十倍，漏洞无所遁形

在为期一个月的密集联合测试中，Anthropic携手微软、甲骨文、Cloudflare、Mozilla等近五十家顶尖科技与安全机构，展开了一场前所未有的网络安全压力测试。测试结果令人震惊：

在全球关键的数字与物理基础设施中，该模型成功扫描识别出超过10,000个被评定为高危或严重级别的“零日漏洞”。
英国人工智能安全研究所的独立评估报告确认，该模型是全球首个能够端到端攻破其所有模拟网络攻防靶场的AI系统。
效率实现数量级飞跃。以Mozilla为例，在测试中使用该模型，于Firefox浏览器中发现了271个待修复漏洞，这一数字达到使用其前代顶尖模型时的十倍以上。

能力与风险的双刃剑：为何选择“封印”？

如此卓越的性能，为何最终换来的是“无限期封存”的命运？Anthropic在公告中给出了清晰的解释。公司承认，Mythos Preview确实能极大降低专业安全研究人员发现系统缺陷的时间与金钱成本。然而，硬币的另一面是，如果将其无限制地公开发布，同样会使得恶意软件开发和网络攻击的成本急剧下降。

这无异于将一件威力巨大的“数字武器”的蓝图公之于众。在缺乏更强效、更可靠的安全对齐机制确保其不被滥用之前，贸然释放这种能力，可能给全球互联网的软件与物理基础设施带来难以估量的“武器化”灾难风险。在当前整个AI行业热衷于发布更强大模型、并不断降低使用门槛的竞争浪潮中，Anthropic的这一“反潮流”决定，凸显了其对技术安全边界的深刻审慎与责任担当。

行业陷入“修补过载”与安全竞赛的新僵局

此次事件也暴露出AI技术进步给网络安全生态带来的全新挑战。一方面，AI工具能以惊人的速度发现漏洞，迫使软件开发商和安全团队进入一种“修补过载”的紧张状态，疲于应对海量的修复任务。另一方面，安全界不得不开始思考，如何在这场由AI驱动的、不断升级的攻防“军备竞赛”中保持平衡。Anthropic的抉择，或许为整个行业设立了一个新的安全基准：有时，克制地使用力量，比展示力量更为重要。