

2026年6月9日,Anthropic 把一款被自己称为"Mythos级"的模型推到了公众面前,名字叫 Claude Fable 5。
这是该公司有史以来公开发布的最强模型,定价也是 Opus 4.8 的两倍:每百万输入 token 收费10美元,输出50美元。
发布当天,海外科技圈反应几乎是一边倒的"震动"。
前特斯拉 AI 总监、OpenAI 联合创始人 Andrej Karpathy 在 X 上写道:Fable 5 是一次"配得上大版本号跃升的台阶式进步",并把它与去年11月 Claude 4.5 那次飞跃放在同一量级。
CNBC、TechCrunch、Sherwood News 等媒体的标题用词也颇为统一:"最强公开模型"、"step change"(阶跃式变化)。
那么,真正让国际同行愿意用这种字眼描述它的,究竟是什么?
从"领先一点"到"领先一档"
最直接的冲击来自基准成绩。
在被业界视为衡量真实软件工程能力的 SWE-Bench Pro 上,Fable 5 拿到 80.3%,比 Anthropic 自家 Opus 4.8 高出 11.1 个百分点,比 OpenAI 的 GPT-5.5(58.6%)高出近 22 个百分点,比 Google 的 Gemini 3.1 Pro(54.2%)高出 26 个百分点。

业内长期习惯了"一两个百分点的拉锯",11 个百分点的跨越确实少见。
在 Cognition 公司的 FrontierCode Diamond 上,Fable 5 得分 29.3%,GPT-5.5 只有 5.7%。
在 Terminal-Bench 2.1 上,Fable 5 拿到 88.0%。
Anthropic 公布的一个细节具有说服力:在一个 5000 万行 Ruby 代码的真实代码库上,Fable 5 在一天之内完成了一项完整迁移工作,按人工评估,同样的工作量交给一支工程师团队,至少需要两个月以上。
视觉理解上的展示也颇有戏剧性。Fable 5 仅靠原始游戏画面截图,没有地图、没有外部辅助框架,从头到尾通关了《精灵宝可梦·火红版》,而此前的 Claude 模型完成这种任务必须依赖较复杂的辅助系统。

不过,这次发布并非没有争议。
一个被"装上保险栓"的最强模型
Anthropic 把同一个底层模型分成了两个版本:Fable 5 面向公众,Mythos 5 仅向少数获批的关键基础设施合作伙伴开放。
Fable 5 在网络安全、生物、化学、模型蒸馏等高风险议题上,会主动回退到能力较弱的 Opus 4.8 来作答,并明确告知用户。
Karpathy 在称赞之余也指出,Fable 5 的安全机制"有点过于敏感",在一些边界用例中会出现"误伤"。

X 和 Reddit 上的开发者社群反应更直接,有用户抱怨"Fable 5 与其说是模型发布,不如说是 AI 不平等的预演",认为对外公开版本相对内部 Mythos 预览版被人为削弱。
而更深层的争议在于 Anthropic 几天前刚发布的一篇博文,警告称当前 AI 系统正在逼近"递归自我改进"(RSI)阈值,并呼吁全球前沿实验室建立协调的"减速机制"。
但几天之后,它又把自家最强模型推向了公众市场。
外界对这种"一边喊危险、一边商业化"的姿态评价不一。
那么,中国大模型距离这条线还有多远?
把 Claude Fable 5 当成参照系,中国头部模型今天的位置可以分三个层面来看。
第一层是公开学术基准上的距离。
按斯坦福大学《2026 AI 指数报告》的数据,中美顶级模型在 LMArena Elo 评分上的差距已收窄至 2.7%(Claude Opus 4.6 的 1503 分对应 Dola-Seed-2.0 Preview 的 1464 分)。
这个差距在2025年2月时只有 0.4%,最高位时一度被 DeepSeek-R1 逼平 OpenAI 的 o1。
但需要注意,这个 2.7% 是在 Claude Fable 5 出来之前的横截面。Fable 5 在 SWE-Bench Pro 上把一众竞品甩开 11 到 26 个百分点,这一波领先很可能让短期内的差距重新被拉开。
第二层是工程范式和成本效率上的差距。
中国头部模型在另一条赛道上的优势同样真实。
公开数据显示,OpenAI GPT-5 的训练成本超过 5 亿美元,而 Kimi K2 Thinking 的训练成本约 460 万美元,DeepSeek-V3 也只用了约 557.6 万美元。DeepSeek V4-Flash 的推理成本约为 GPT-5.5 的三十五分之一。
DeepSeek-V3 的训练碳排放约 597 吨二氧化碳当量,而同期美国模型 Grok 4 高达 72816 吨,相差超过 120 倍。
也就是说,单从"每一分钱、每一度电能换到多少智能"这个角度看,国产模型的工程优化已经走在前沿。
第三层是真正决定差距的部分,是顶层架构创新与生态壁垒。
Fable 5 公开展示的几项能力,比如百万级 token 上下文连续工作、文件式持久记忆下的复杂代理任务、视觉端到端通关游戏,都在指向一个方向:模型正在从"会回答问题"走向"能持续干活"。
Anthropic 透露,在它的内部测试中,让 AI 优化训练代码的速度,未发布的 Mythos Preview 可以做到约 52 倍提速,而 Claude Opus 4 只能做到约 3 倍。
这些工程能力的拉开,不只是参数和数据的问题,更是研发节奏、工具链、安全机制、客户反馈闭环共同作用的结果。
结论:不是"被甩开",而是"赛道开始分叉"
综合来看,可以给出一个相对克制的判断:在通用学术基准上,中国头部模型与美国最领先模型的差距,从2025年初的"几乎贴身"被 Fable 5 这一波重新拉开到一个明显但并非天堑的位置,大约相当于半代到一代的差距。
在成本、开源生态、推理效率维度上,中国模型仍然领先,并正在通过 DeepSeek、Qwen、Kimi 这样的"开源梦之队"形成自己的全球用户飞轮。
在最顶层的智能体能力、长任务持续推理、安全机制工程化上,美国前沿实验室目前仍处于相对身位优势。
赛道并没有合并成一条,而是越来越像两条不同的曲线。
一条追求绝对智能上限和高价定位,一条追求工程效率与广泛可得性。
Fable 5 的出现,让前一条曲线又往前跳了一截。但这并不意味着后一条赛道就没有未来,反而可能因为算力门槛被推得更高,而让"用更少资源做更聪明事"这件事变得更有价值。
接下来这一年,真正值得关注的不只是中国大模型能不能在跑分上再追上来,而是中美两条路径会不会在2027年前后,演化出真正不同的产业形态
宝盈优配提示:文章来自网络,不代表本站观点。