GPT5.5:更贵不更烧,主角给到Codex,逼Claude慌忙修复降智问题
声明:本文来自于微信公众号硅星人Pro,作者:猫猫头,授权站长之家转载发布。
但它并不更烧token。
SamAltman在公布定价的同一条推文里补了一句:"Remember,youwillneedlesstokenspertaskthan5.4!"贵一倍,但每个任务token更少——"其实更划算"。OpenAI总裁GregBrockman在发布会上给了更大的词:"anewclassofintelligence."
先看模型本身。
主战场是agenticcoding和长文本:Terminal-Bench2.0上82.7%,碾压Opus4.7的69.4%;1Mtokencontextwindow让长文本检索(MRCRv2)从GPT-5.4的36.6%跳到74.0%,Opus4.7只有32.2%。GDPval(覆盖44个职业的知识工作基准)84.9%。但SWE-BenchPro(代码修复)只有58.6%,Opus4.7拿了64.3%——不是所有维度都赢。
用例方面,三个数字值得记住:24,771份K-1税表(71,637页)自动审阅省了两周;GPT-5.5参与了一个Ramsey数渐近证明,研究者说原本需要数月人工分析;OpenAI内部85%的员工每周都在用Codex。
所以
这是官方叙事。但4月23日的故事不止一个模型。
Benchmark先打起来了
发布当天,独立开发者@bridgemindai发了两条推文
几小时后:"ClaudeOpus4.7isnolongerthebestmodelintheworld.Notevenclose."
同一个人,同一天,结论完全相反。两边的数据都是真的:
SWE-BenchPro(编码):GPT-5.5不及Opus4.7。@deedydas指出OpenAI刻意没在发布材料里报这个成绩——"tryingreallyhardtoburythelede."
Terminal-Bench2.0(长时间推理):GPT-5.582.7%vsOpus4.769.4%。碾压。
幻觉率(AA-Omniscience):GPT-5.5为86%,Opus4.7为36%。上一代GPT-5.4是89%——两代之间只降了3个百分点。
Vending-BenchArena(多人博弈):GPT-5.5策略干净,照样赢了耍赖的Opus4.7。
宾夕法尼亚大学教授EthanMollick在给了个框架:jaggedfrontier。AI的能力边界不是平线推进,是锯齿膨胀。选报道哪颗齿,就决定你讲什么故事。
这说明:当"谁
Codex才是主菜
转移到哪?
GPT-5.5发布同天,Codex桌面端上线了浏览器控制、Sheets/Slides/Docs处理、系统级语音、自动审查。Mollick的分析框架值得借用:AI有三层——Models、Apps、Harnesses。4月23日OpenAI三层同时升级。
更重要的是生态卡位。
Anthropic封杀了OpenClaw通过订阅接口调用Claude。OpenAI则雇了OpenClaw创始人PeterSteinberger,宣布Codex订阅可以在任何第三方工具里用——JetBrains、Xcode、Pi,甚至ClaudeCode。
OpenAI开发者体验主管RomainHuet的原话:"WewantpeopletobeabletouseCodex,andtheirChatGPTsubscription,wherevertheylike!"
DjangoWeb框架发起人SimonWillison用ClaudeCode逆向了Codex认证机制,做了个插件直接用订阅调GPT-5.5。OpenAI没封,还半官方鼓励。CodexCLI已开源。
Anthropic守API利润率。OpenAI把订阅制变成了开放平台。
再看API延迟发布。官方说"workingonsecurityandsafeguards"。客观效果:API上线前想用GPT-5.5,
涨价两倍+API延后+Codex全面升级开放第三方。三个同步决策,一个意图:不卖算力,抢入口。
竞争不在于模型本身了,主角是一整个生态的配套能力,抢的是未来的入口。
加速才刚开始
GPT-5.5距GPT-5.4只隔了一个多月。OpenAI首席科学家JakubPachocki在发布会上说了句让人意外的话:"Iwouldsaythelastfewyearshavebeensurprisinglyslow."
过去几年——外界看来AI狂飙的几年——在OpenAI首席科学家眼里是慢的。
OpenAI员工@tszzl透露已有研究者用GPT-5.5做"隔夜实验":给个算法idea,通宵跑,醒来dashboard就绪。他的措辞是"competentAIresearchpartner"。不是assistant,是partner。
Mollick四个prompt拿到一篇完整学术论文,统计方法正确,文献综述真实。问题不在能力——"假设不够有趣"。
AI的瓶颈从能力滑向了品味。模型的竞赛,从跑分滑向了生态。
OpenAI在4月23日押注的不是更聪明的模型。是一个让用户走不掉的入口。
而对于OpenAI新模型
此前两者的竞争里,势头已经被Anthropic拿走,但这一次OpenAI的势头回来了。在发布当天,Claude官方开发平台账号发布公告,承认了大家诟病已久的“降智”问题,并表示已经修复。
网友揶揄道:被用户指责了足足一个月后,在对手发布更强模型后你来承认和修复了。
这可能是GPT5.5能力之强的
