从80.8%到93.9%!Claude性能暴增却锁死,玻璃翼计划揭开残酷现实
创始人
2026-04-11 05:15:36
0

当AI模型的能力突破「人类顶尖」的临界点,第一个难题不是如何欢呼进步,而是如何按住「启动键」。4月9日,Anthropic发布的Claude Mythos预览版,用一组数据炸穿了行业认知:USAMO数学推理正确率97.6%(接近满分)、SWE-bench代码能力93.9%(暴涨13.1个百分点)、自主挖掘数千个零日漏洞(含27年未发现的OpenBSD漏洞)。但这个被官方称为「地球最强」的模型,却对公众紧闭大门——仅12家科技巨头和40个关键基础设施组织能接触。这不是技术保守,而是AI能力与安全底线碰撞的必然结果:当模型的进攻潜力远超当前防御体系,「暂时锁死」或许是给全行业留出的缓冲带。

一、性能「神话」:从「好用」到「危险」的质变

Claude Mythos的可怕之处,不在于「比上一代强」,而在于「突破了能力边界」。

在公开基准测试中,它的表现堪称「降维打击」:软件工程领域的SWE-bench Verified从Opus 4.6的80.8%跃升至93.9%,意味着复杂代码任务的解决能力接近人类顶级工程师;更惊人的是高难度数学推理——USAMO 2026竞赛题正确率从42.3%飙升至97.6%,要知道这一竞赛每年全球仅约500名顶尖高中生能获高分,而Mythos几乎做到了「全对」。

但真正让Anthropic紧张的,是它在网络安全领域的「攻击性天赋」。过去几周测试中,Mythos在Linux内核、Firefox浏览器、FFmpeg等核心组件中,自主发现了数千个高危零日漏洞。其中最典型的案例:OpenBSD系统中一个隐藏27年的远程崩溃漏洞,人类安全团队审了近30年没发现,Mythos却在几小时内定位并给出利用路径。对比之下,上一代Opus 4.6自主利用漏洞的成功率接近0%,而Mythos在Firefox漏洞测试中成功利用181次——这已经不是「工具」,而是「全自动漏洞武器」。

二、紧闭的大门:当「最强」变成「最险」

「不开放」的决定,藏着Anthropic的清醒认知:AI能力的「双刃剑」效应,在Mythos身上已经到了临界点。

去年底Google Threat Intelligence Group发现的PromptFlux攻击案例,至今让行业后怕:恶意脚本通过商业大模型API动态生成混淆代码,绕过传统检测发起攻击。而SQmagazine报告显示,全球AI驱动网络攻击已增长47%,超过2800万起。若Mythos开放,意味着黑帽黑客能瞬间获得「批量挖掘+利用漏洞」的AI助手——这不是「可能有风险」,而是「必然引发灾难」。

Anthropic官方博客直言:「Mythos的通用能力已能将网络战拉到新维度。」攻防战的残酷逻辑从未变过:攻击永远比防御主动,且利益驱动下,黑帽使用AI武器的动力远强于白帽。当模型的进攻能力远超当前防御体系,「暂时锁死」成了唯一理性选择——与其让所有人暴露在风险中,不如先让防御方拿到「盾牌」。

三、玻璃翼计划:给防御方的「先发优势」

「玻璃翼计划」的命名藏着深意:灵感来自美洲的玻璃翼蝶,透明翅膀看似脆弱,却能承载自身体重40倍的重量。Anthropic的逻辑很清晰:让防御方先掌握「AI防御武器」,在攻击方拿到同级别工具前,把漏洞全堵上。

目前,12家核心合作伙伴(AWS、苹果、微软、英伟达等)和40多个关键基础设施组织(Linux基金会等)已接入Mythos,Anthropic还砸出1亿美元额度,支持额外组织用它维护开源生态「地基」。这相当于给全球网络安全体系打了一剂「强心针」:Linux内核漏洞、浏览器安全缺陷、开源组件后门——这些曾让白帽团队头疼数年的问题,现在能被AI快速定位修复。

更关键的是,这不是「永久垄断」。官方明确表示:「最终目标是安全地大规模部署Mythos级模型。」现在的「不开放」,是为了未来的「更安全开放」——先让防御体系跟上AI能力,再谈普惠。

四、普通用户的「意外福利」:算力争夺下的体验守护

对普通Claude用户来说,Mythos不开放反而是「隐性福利」。

今年2月起,大量用户吐槽Claude Code「变笨变懒」:Reddit上开发者发帖称「文件读取次数从6-7次掉到2次」,AMD AI总监Stella Laurenzo公开批评其「dumber and lazier」。核心原因很现实:训练Mythos这样的超大模型需要海量算力,只能从现有服务「挤资源」——动态负载均衡、自适应思考深度降低,结果就是用户感知的「降智」。

现在Mythos不开放公众使用,意味着算力不再被新模型过度挤占。Anthropic可以把资源集中在现有服务优化上,避免Claude和Claude Code继续「性能跳水」。更长远看,Mythos帮大厂和开源项目修复的漏洞,最终会惠及所有用户——你的浏览器更安全、操作系统更稳定,背后可能就有这个「不开放模型」的功劳。

五、技术狂奔时代的安全命题:能力与风险的平衡

Claude Mythos的「锁仓」,撕开了AI发展的核心矛盾:当技术能力远超社会防御能力,「慢一步」反而比「快一步」更负责任。

过去几年,AI行业习惯了「唯参数论」「唯性能论」,却很少思考:当模型能自主发现27年漏洞、能秒破千个系统缺陷,我们的安全体系是否准备好了?就像核技术的发展需要国际公约约束,AI的「超能力」也需要「安全护栏」。Anthropic的选择,不是拒绝进步,而是给行业留出时间加固地基——让防御技术跟上进攻技术,让基础设施扛住AI冲击,让普通用户最终能安全地享受技术红利。

或许未来某一天,当我们打开Claude,看到的不仅是97.6%的满分能力,还有「安全」二字的沉甸甸分量。那时再回头看,这次「不开放」的决定,可能是AI行业走向成熟的关键一步。

相关内容

A股交易迎新规!盘后固定价...
上交所、北交所拟优化完善交易制度,扩大盘后固定价格交易品种范围,对...
2026-04-12 05:58:22
羽毛球亚锦赛-王祉怡2-1...
北京时间4月11日,2026羽毛球亚锦赛展开半决赛较量。女单方面,...
2026-04-12 05:56:32
男演员吃面加葱花被服务员阻...
极目新闻记者 刘闪 男子去面馆吃面去柜台加葱花,却被服务员阻拦表示...
2026-04-12 05:54:54
原创 ...
据央视新闻4月10日报道,美伊即将在巴基斯坦伊斯兰堡举行临时停火后...
2026-04-12 05:52:54
中国驻伊朗大使馆,重要通知
4月11日,南都N视频记者注意到,中国驻伊朗大使馆发布重要通知提醒...
2026-04-12 05:50:47
原创 ...
在当今国际军事格局中,新兴武器系统的出现不断引发世界的关注与讨论。...
2026-04-12 05:49:13
张婉婷婚变风波后首发文 称...
搜狐娱乐讯 4月11日,张婉婷婚变风波后首发文,当时得知消息时自己...
2026-04-12 05:46:46
交的是人民币,为啥退课时费...
南京市民邱女士(化名)近日碰到一件让她头疼不已的烦心事,她给孩子报...
2026-04-12 05:45:23
NBA|西部座次基本排定,...
北京时间4月11日中午,随着湖人主场以28分优势大胜太阳、火箭4分...
2026-04-12 05:43:45

热门资讯

昆明旧房翻新优质装修公司推荐 随着居住品质需求升级,二手房交易持续升温,旧房翻新已成为众多昆明业主的刚需。但老房改造涉及结构调整、...
三亚【海棠壹零壹101】开发商... 海棠壹零壹101售楼处电话✅:0898-88868816【已认证】 海棠壹零壹101营销中心电话✅:...
青岛义和钢构取得建筑结构加固设... 国家知识产权局信息显示,青岛义和钢构集团有限公司取得一项名为“一种建筑结构加固设备”的专利,授权公告...
怎样选到专业装修设计公司,河北... 专业装修设计的考量因素 在选择装修设计公司时,有诸多因素需考量。装修质量是关键,包括施工工艺、材料选...
淮北装修设计效果图落地指南:2... 淮北装修设计效果图落地指南:2026年淮北装修落地效果哪家好?如何比较? 装修前,很多人都被精美...
支招比较不错的装修设计企业,装... USTAVUS AUGUSTUS, DIVI FILIUS, PRINCEPS SENATUS PO...
宁波本地门窗供应商 为门窗厂定... 宁波本地门窗供应商:为门窗厂定制系统门窗解决方案一、行业趋势与门窗厂核心痛点 据《2025-203...
如何选择安全防滑牢固楼梯,梯术... 安全防滑楼梯的重要性 在日常生活中,楼梯是连接不同楼层的重要通道,其安全防滑性能至关重要。无论是家庭...
米来竹业取得竹材加工用木材固定... 国家知识产权局信息显示,江西米来竹业有限公司取得一项名为“一种竹材加工用木材固定装置”的专利,授权公...