文章作者、来源:0x9999in1,ME News  TL;DR OpenAI工程师把推理成本砍掉超过50%,还顺手减少了对英伟达GPU的依赖,这不是省钱,这是重新洗牌。 Anthropic把Claude Sonnet 5的首发价压到输入$2/输出$10每百万Token,理由却是"分词器变了,Token用得更多文章作者、来源:0x9999in1,ME News  TL;DR OpenAI工程师把推理成本砍掉超过50%,还顺手减少了对英伟达GPU的依赖,这不是省钱,这是重新洗牌。 Anthropic把Claude Sonnet 5的首发价压到输入$2/输出$10每百万Token,理由却是"分词器变了,Token用得更多

高级模型 vs 低价Token:AI公司的定价心机

2026/07/01 12:02
阅读时长 18 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:0x9999in1,ME News



TL;DR

  • OpenAI工程师把推理成本砍掉超过50%,还顺手减少了对英伟达GPU的依赖,这不是省钱,这是重新洗牌。
  • Anthropic把Claude Sonnet 5的首发价压到输入$2/输出$10每百万Token,理由却是"分词器变了,Token用得更多了"——降价背后有玄机。
  • 谷歌Nano Banana 2 Lite把1K图像生成压到4秒、每千张0.034美元,图像生成正在滑向"白菜价"。
  • 用户面对的从来不是"贵还是便宜",而是"我该花effort级别的钱,还是花模型档次的钱"。
  • AI公司的定价,正在从"按Token算"悄悄变成"按脑力算"。
  • 别再问哪个模型最便宜,问问自己:这一次调用,值不值得动用Opus 4.8的脑子。

一、这个夏天,AI圈的三条消息,其实是同一件事

2026年7月的第一天,AI圈的信息密度又一次爆表。

The Information爆料,OpenAI把推理成本砍了一半以上,还减少了对英伟达GPU的依赖。Anthropic正式推出Claude Sonnet 5,主打Agent自主规划,首发价打骨折。谷歌甩出Nano Banana 2 Lite,1K图像4秒生成,千张才0.034美元。

三条消息,三家公司,看起来各干各的。

但你把它们摆在一起看——这其实是同一件事:AI公司正在集体重新回答一个问题——用户到底在为什么付费?

过去两年,答案很简单:为Token付费。输入多少,输出多少,一乘一算,账单送到。

现在呢?这个逻辑正在崩塌。

二、更强的模型和更便宜的Token,看起来是好事,其实是陷阱

先说结论:用户面对的不是"要性能还是要便宜",而是"你根本不知道自己到底花了多少钱"。

为什么这么说?

Claude Sonnet 5这次的首发定价,$2输入/$10输出,比标准价$3/$15便宜了三分之一。听起来是让利。

但Anthropic自己在公告里说得很清楚:新分词器让相同文本产生的Token数量增加了1.0到1.35倍。

翻译一下:同样一段话,你以前用100个Token能搞定,现在可能要135个。

再翻译一下:降价三分之一,Token膨胀三分之一,你的实际账单和以前基本持平。

Anthropic自己都说了,首发优惠"旨在让用户切换模型时的实际成本基本持平"。这话说得漂亮,其实是坦白:这不是降价,这是换算。

到2026年8月31日优惠结束,价格恢复到$3/$15,Token量还是膨胀的——那时候用户会突然发现,账单默默涨了三成。

这就是这场游戏的第一个陷阱:标价降了,单位变了,你看到的价格和你付出的钱,不是同一回事。

三、OpenAI砍成本50%,钱去哪了?

The Information的报道里有一句话特别值得琢磨:OpenAI"未来可能将部分成本节约用于下调API服务价格,或提高ChatGPT等产品的用户查询额度"。

注意用词——"可能","部分"。

这两个词加起来,翻译成大白话就是:省下来的钱,不一定全给你。

为什么?因为OpenAI要烧钱的地方太多了。

训练下一代模型,要钱。Stargate数据中心那盘大棋,要钱。跟英伟达、AMD、博通同时谈判自研芯片,要钱。跟微软那份重新谈判过的合作协议,还是要钱。

省下来的50%推理成本,真正会流到用户手里的,可能只有一小部分。

大部分会变成什么?会变成ChatGPT Pro用户查询额度的小幅提升,会变成API价格表上某个层级的调整,会变成一次让人津津乐道的产品发布会。

但更多的部分,会沉进OpenAI自己的资本开支里。

这不是阴谋论,这是商业常识。

四、Agent时代,Token计费的旧规则正在失效

Claude Sonnet 5这次的核心卖点是什么?不是聪明,是自主

BrowseComp、OSWorld-Verified这些评估里,Sonnet 5大幅超越前代。它能自主规划任务,能调用浏览器,能操作终端。

用户通过调整effort级别,可以让Sonnet 5的性能直逼旗舰Opus 4.8。

听起来很酷。但你想过没有——一个自主运行的Agent,一次任务要消耗多少Token?

举个例子。你让Agent"帮我研究一下2026年上半年美股科技板块的表现,写一份报告"。

它会做什么?打开浏览器,搜索,读文章,读财报,做笔记,反思,再搜索,再总结,写草稿,改稿子,最后交付。

这一整套动作下来,Token消耗是过去传统对话的10倍、20倍,甚至100倍都有可能。

再叠加effort级别——你把思考投入度拉满,模型内部的推理链条会更长,Token消耗还会指数级增加。

所以你看到Anthropic把Sonnet 5的价格标得很"友好",$2/$10,比Opus便宜一大截。

但真到Agent场景,一次任务几美元不夸张,几十美元也不新鲜。

这就是我说的:Token越来越便宜,但你花的钱可能越来越多。

因为消耗规模在变。

五、谷歌Nano Banana 2 Lite:图像生成的"白菜价"时代

跟大语言模型的复杂定价比起来,图像生成这边简单粗暴多了。

谷歌新出的Nano Banana 2 Lite,API名字叫gemini-3.1-flash-lite-image。生成一张1K图像大约4秒,每千张0.034美元。

换算一下——每张图像的成本是0.0034美分,也就是三毫多一点。

这是什么概念?

你花1美元,可以生成将近3万张1K图像。

图像生成从"按张收费的稀缺资源",正在变成"几乎免费的基础设施"。

这背后是模型架构的进化,是推理效率的暴涨,也是谷歌打价格战的决心。

但同样的问题:便宜不代表你花得少。

当图像生成便宜到可以忽略不计,用户和产品会怎么用?会海量地用,会疯狂地用,会在每个页面、每次交互、每个动画帧里都塞进去用。

最终账单可能还是四位数、五位数。

只不过,你换来了以前想都不敢想的产品体验。

六、用户到底该怎么选?三个务实的判断

聊了这么多,回到用户视角。2026年下半场,你到底该怎么选模型?

我给三个务实的判断。

第一,别追旗舰,追"够用"。

Claude Opus 4.8聪明吗?聪明。但对绝大多数日常任务,Sonnet 5拉满effort级别就够了。价格便宜一半以上,效果差不了多少。

真正需要Opus的场景,是那些错一次代价就是几千美元的关键决策——严肃法律分析、复杂并购尽调、核心代码架构。除此之外,中端模型 + 高effort,是绝大多数场景的最优解。

第二,Agent场景,用量比单价重要。

如果你的业务大量使用Agent,Token单价从$3降到$2看起来省了33%,但Agent场景的Token消耗可能是过去的50倍。

你真正要关心的不是单价,是每次任务的总成本,以及任务成功率

一次成功的Agent任务,即便花了0.5美元,也比五次失败的0.05美元任务划算。

第三,图像和多媒体,直接选最便宜的能用的。

Nano Banana 2 Lite这种模型出来之后,图像生成的定价逻辑已经变了。除非有极高的画质或风格化要求,日常场景直接选最便宜的档位就行。

省下来的钱,留给真正需要花钱的地方。

七、AI公司应该怎么设计资费?三个方向已经清晰

从供给侧看,2026年下半场的定价设计,几个方向已经很清晰了。

方向一:从"按Token"到"按脑力"。

Anthropic的effort级别,OpenAI的reasoning tokens,都是同一个信号——模型开始按"思考深度"分层收费。

未来一年,主流API定价大概率会全面转向"基础Token价 + 推理深度加价"的两段式结构。

用户为思考的深度付费,而不仅仅是为文字的长度付费。

方向二:Agent场景需要"任务定价"。

Token计费在Agent时代天然不合理。用户不知道一个任务会消耗多少Token,也无法预估账单。

聪明的AI公司会开始提供"任务定价"选项:这个任务,无论内部消耗多少Token,用户只付一个固定价格。风险公司自己扛,用户预期清晰。

Cursor、Devin这些Agent产品已经在探索。API层面的"任务定价"也快出现了。

方向三:分词器和计价单位的透明化。

Sonnet 5这次分词器升级带来的Token膨胀,说白了是一次"隐性涨价"。用户很难在事前察觉,只能在账单上看到结果。

未来会有更多用户和企业客户要求AI公司公开分词器的变化,甚至要求提供"折算价"——同样一段中文,实际花多少钱,请直接告诉我。

透明化是趋势,藏不住。

八、这场游戏的本质:AI公司在赌,用户在赌,都在赌"未来"

写到最后,我想说一个观察。

OpenAI砍推理成本50%,是在赌什么?赌未来的模型和Agent会更贵、更强,现在省下来的钱要投进去。

Anthropic在Sonnet 5上做首发优惠,是在赌什么?赌用户会习惯Sonnet 5的能力,习惯之后就再也回不去,8月31日优惠结束时不会流失。

谷歌把Nano Banana 2 Lite价格压到白菜价,是在赌什么?赌图像生成变成基础设施之后,谁掌握底层管道,谁就掌握下一代应用生态。

而用户呢?用户在赌AI公司不会永远这么慷慨,赌自己能在价格战里薅到最后一波羊毛,赌自己现在建立的AI工作流不会因为一次涨价就崩盘。

大家都在赌。都在赌自己看得比对方远那么一步。

九、结尾:更强的模型和更便宜的Token,本来就不该二选一

回到最开始那个问题——更高级的模型和更低的Token费用,用户应该如何取舍?

我的答案是:这个问题本身就是个伪命题。

真正成熟的用户,早就不在"贵还是便宜"里纠结了。

他们纠结的是——这一次调用,值不值得动用最贵的脑子;这一个Agent任务,能不能一次跑对;这一个月的账单,有多少花在了产生价值的地方,又有多少花在了模型的"礼貌回复"和"重复思考"上。

AI公司也一样。真正会做生意的公司,不会在"高价高端"和"低价走量"里选边站。

它们会做的,是把定价体系做得足够精细——让不同的用户、不同的场景、不同的需求,都能找到自己最合理的付费方式。

Claude Sonnet 5的effort滑块,OpenAI的模型分层,谷歌的Lite版本——这些都是同一个方向的信号。

AI的定价,正在从"标准化商品"变成"个性化服务"。

至于我们这些用户,能做的其实很简单:

看清楚每一次调用花了什么钱,想清楚每一次任务值不值那个价,别被漂亮的降价数字迷惑,也别被吓人的旗舰价格劝退。

用得起最贵的,也用得好最便宜的。

这,才是2026年下半场AI用户该有的样子。

至于AI公司之间的价格战、能力战、Agent战——让他们打去吧。

我们只管挑最合适的那一个。

用完,下一个。

参考资料

  1. The Information:《OpenAI Engineers Cut Model Inference Costs by Over 50%, Reducing Reliance on Nvidia GPUs》,2026年6月
  2. Anthropic官方公告:《Introducing Claude Sonnet 5: Agentic Capabilities and New Pricing》,2026年6月
  3. Google DeepMind Developer Blog:《Nano Banana 2 Lite: Ultra-Fast, Low-Cost Image Generation via Gemini 3.1 Flash Lite Image》,2026年6月
  4. Anthropic Model Card:《Claude Sonnet 5 Technical Report — Tokenizer, Safety, and Benchmarks》,2026年6月
  5. OpenAI Developer Documentation:《API Pricing and Reasoning Tokens》,更新至2026年6月
  6. Google Cloud Vertex AI Pricing Page:《Gemini 3.1 Flash Lite Image Pricing》,2026年6月
  7. BrowseComp & OSWorld-Verified:《2026 Q2 Agent Benchmark Update》
  8. Stratechery分析文章:《The Unbundling of Token Pricing in the Agent Era》,Ben Thompson,2026年6月
市场机遇
ME 图标
ME实时价格 (ME)
$0.06037
$0.06037$0.06037
+6.71%
USD
ME (ME) 实时价格图表

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。