模型能力超群,安全风险引发深度忧虑

近日,人工智能研究领域的领军企业Anthropic做出了一项引发行业震动的决定。该公司宣布,将无限期禁止其最新一代安全基座模型——Claude Mythos Preview——向公众及商业市场开放。这一决定是在其“软件安全合作计划”的最新进展评估中做出的,核心原因并非技术不成熟,恰恰相反,是因为该模型展现出的网络攻防能力过于强大。

测试结果惊人:效率提升十倍,漏洞无所遁形

在为期一个月的密集联合测试中,Anthropic携手微软、甲骨文、Cloudflare、Mozilla等近五十家顶尖科技与安全机构,展开了一场前所未有的网络安全压力测试。测试结果令人震惊:

  • 在全球关键的数字与物理基础设施中,该模型成功扫描识别出超过10,000个被评定为高危或严重级别的“零日漏洞”。
  • 英国人工智能安全研究所的独立评估报告确认,该模型是全球首个能够端到端攻破其所有模拟网络攻防靶场的AI系统。
  • 效率实现数量级飞跃。以Mozilla为例,在测试中使用该模型,于Firefox浏览器中发现了271个待修复漏洞,这一数字达到使用其前代顶尖模型时的十倍以上

能力与风险的双刃剑:为何选择“封印”?

如此卓越的性能,为何最终换来的是“无限期封存”的命运?Anthropic在公告中给出了清晰的解释。公司承认,Mythos Preview确实能极大降低专业安全研究人员发现系统缺陷的时间与金钱成本。然而,硬币的另一面是,如果将其无限制地公开发布,同样会使得恶意软件开发和网络攻击的成本急剧下降。

这无异于将一件威力巨大的“数字武器”的蓝图公之于众。在缺乏更强效、更可靠的安全对齐机制确保其不被滥用之前,贸然释放这种能力,可能给全球互联网的软件与物理基础设施带来难以估量的“武器化”灾难风险。在当前整个AI行业热衷于发布更强大模型、并不断降低使用门槛的竞争浪潮中,Anthropic的这一“反潮流”决定,凸显了其对技术安全边界的深刻审慎与责任担当。

行业陷入“修补过载”与安全竞赛的新僵局

此次事件也暴露出AI技术进步给网络安全生态带来的全新挑战。一方面,AI工具能以惊人的速度发现漏洞,迫使软件开发商和安全团队进入一种“修补过载”的紧张状态,疲于应对海量的修复任务。另一方面,安全界不得不开始思考,如何在这场由AI驱动的、不断升级的攻防“军备竞赛”中保持平衡。Anthropic的抉择,或许为整个行业设立了一个新的安全基准:有时,克制地使用力量,比展示力量更为重要。