文章作者、来源：0x9999in1，ME News TL;DR OpenAI工程师把推理成本砍掉超过50%，还顺手减少了对英伟达GPU的依赖，这不是省钱，这是重新洗牌。 Anthropic把Claude Sonnet 5的首发价压到输入$2/输出$10每百万Token，理由却是"分词器变了，Token用得更多文章作者、来源：0x9999in1，ME News TL;DR OpenAI工程师把推理成本砍掉超过50%，还顺手减少了对英伟达GPU的依赖，这不是省钱，这是重新洗牌。 Anthropic把Claude Sonnet 5的首发价压到输入$2/输出$10每百万Token，理由却是"分词器变了，Token用得更多

高级模型 vs 低价Token：AI公司的定价心机

来源：MetaEra

2026/07/01 12:02

阅读时长 18 分钟

ME$0.06037+6.13%

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：0x9999in1，ME News

TL;DR

OpenAI工程师把推理成本砍掉超过50%，还顺手减少了对英伟达GPU的依赖，这不是省钱，这是重新洗牌。
Anthropic把Claude Sonnet 5的首发价压到输入$2/输出$10每百万Token，理由却是"分词器变了，Token用得更多了"——降价背后有玄机。
谷歌Nano Banana 2 Lite把1K图像生成压到4秒、每千张0.034美元，图像生成正在滑向"白菜价"。
用户面对的从来不是"贵还是便宜"，而是"我该花effort级别的钱，还是花模型档次的钱"。
AI公司的定价，正在从"按Token算"悄悄变成"按脑力算"。
别再问哪个模型最便宜，问问自己：这一次调用，值不值得动用Opus 4.8的脑子。

一、这个夏天，AI圈的三条消息，其实是同一件事

2026年7月的第一天，AI圈的信息密度又一次爆表。

The Information爆料，OpenAI把推理成本砍了一半以上，还减少了对英伟达GPU的依赖。Anthropic正式推出Claude Sonnet 5，主打Agent自主规划，首发价打骨折。谷歌甩出Nano Banana 2 Lite，1K图像4秒生成，千张才0.034美元。

三条消息，三家公司，看起来各干各的。

但你把它们摆在一起看——这其实是同一件事：AI公司正在集体重新回答一个问题——用户到底在为什么付费？

过去两年，答案很简单：为Token付费。输入多少，输出多少，一乘一算，账单送到。

现在呢？这个逻辑正在崩塌。

二、更强的模型和更便宜的Token，看起来是好事，其实是陷阱

先说结论：用户面对的不是"要性能还是要便宜"，而是"你根本不知道自己到底花了多少钱"。

为什么这么说？

Claude Sonnet 5这次的首发定价，$2输入/$10输出，比标准价$3/$15便宜了三分之一。听起来是让利。

但Anthropic自己在公告里说得很清楚：新分词器让相同文本产生的Token数量增加了1.0到1.35倍。

翻译一下：同样一段话，你以前用100个Token能搞定，现在可能要135个。

再翻译一下：降价三分之一，Token膨胀三分之一，你的实际账单和以前基本持平。

Anthropic自己都说了，首发优惠"旨在让用户切换模型时的实际成本基本持平"。这话说得漂亮，其实是坦白：这不是降价，这是换算。

到2026年8月31日优惠结束，价格恢复到$3/$15，Token量还是膨胀的——那时候用户会突然发现，账单默默涨了三成。

这就是这场游戏的第一个陷阱：标价降了，单位变了，你看到的价格和你付出的钱，不是同一回事。

三、OpenAI砍成本50%，钱去哪了？

The Information的报道里有一句话特别值得琢磨：OpenAI"未来可能将部分成本节约用于下调API服务价格，或提高ChatGPT等产品的用户查询额度"。

注意用词——"可能"，"部分"。

这两个词加起来，翻译成大白话就是：省下来的钱，不一定全给你。

为什么？因为OpenAI要烧钱的地方太多了。

训练下一代模型，要钱。Stargate数据中心那盘大棋，要钱。跟英伟达、AMD、博通同时谈判自研芯片，要钱。跟微软那份重新谈判过的合作协议，还是要钱。

省下来的50%推理成本，真正会流到用户手里的，可能只有一小部分。

大部分会变成什么？会变成ChatGPT Pro用户查询额度的小幅提升，会变成API价格表上某个层级的调整，会变成一次让人津津乐道的产品发布会。

但更多的部分，会沉进OpenAI自己的资本开支里。

这不是阴谋论，这是商业常识。

四、Agent时代，Token计费的旧规则正在失效

Claude Sonnet 5这次的核心卖点是什么？不是聪明，是自主。

BrowseComp、OSWorld-Verified这些评估里，Sonnet 5大幅超越前代。它能自主规划任务，能调用浏览器，能操作终端。

用户通过调整effort级别，可以让Sonnet 5的性能直逼旗舰Opus 4.8。

听起来很酷。但你想过没有——一个自主运行的Agent，一次任务要消耗多少Token？

举个例子。你让Agent"帮我研究一下2026年上半年美股科技板块的表现，写一份报告"。

它会做什么？打开浏览器，搜索，读文章，读财报，做笔记，反思，再搜索，再总结，写草稿，改稿子，最后交付。

这一整套动作下来，Token消耗是过去传统对话的10倍、20倍，甚至100倍都有可能。

再叠加effort级别——你把思考投入度拉满，模型内部的推理链条会更长，Token消耗还会指数级增加。

所以你看到Anthropic把Sonnet 5的价格标得很"友好"，$2/$10，比Opus便宜一大截。

但真到Agent场景，一次任务几美元不夸张，几十美元也不新鲜。

这就是我说的：Token越来越便宜，但你花的钱可能越来越多。

因为消耗规模在变。

五、谷歌Nano Banana 2 Lite：图像生成的"白菜价"时代

跟大语言模型的复杂定价比起来，图像生成这边简单粗暴多了。

谷歌新出的Nano Banana 2 Lite，API名字叫gemini-3.1-flash-lite-image。生成一张1K图像大约4秒，每千张0.034美元。

换算一下——每张图像的成本是0.0034美分，也就是三毫多一点。

这是什么概念？

你花1美元，可以生成将近3万张1K图像。

图像生成从"按张收费的稀缺资源"，正在变成"几乎免费的基础设施"。

这背后是模型架构的进化，是推理效率的暴涨，也是谷歌打价格战的决心。

但同样的问题：便宜不代表你花得少。

当图像生成便宜到可以忽略不计，用户和产品会怎么用？会海量地用，会疯狂地用，会在每个页面、每次交互、每个动画帧里都塞进去用。

最终账单可能还是四位数、五位数。

只不过，你换来了以前想都不敢想的产品体验。

六、用户到底该怎么选？三个务实的判断

聊了这么多，回到用户视角。2026年下半场，你到底该怎么选模型？

我给三个务实的判断。

第一，别追旗舰，追"够用"。

Claude Opus 4.8聪明吗？聪明。但对绝大多数日常任务，Sonnet 5拉满effort级别就够了。价格便宜一半以上，效果差不了多少。

真正需要Opus的场景，是那些错一次代价就是几千美元的关键决策——严肃法律分析、复杂并购尽调、核心代码架构。除此之外，中端模型 + 高effort，是绝大多数场景的最优解。

第二，Agent场景，用量比单价重要。

如果你的业务大量使用Agent，Token单价从$3降到$2看起来省了33%，但Agent场景的Token消耗可能是过去的50倍。

你真正要关心的不是单价，是每次任务的总成本，以及任务成功率。

一次成功的Agent任务，即便花了0.5美元，也比五次失败的0.05美元任务划算。

第三，图像和多媒体，直接选最便宜的能用的。

Nano Banana 2 Lite这种模型出来之后，图像生成的定价逻辑已经变了。除非有极高的画质或风格化要求，日常场景直接选最便宜的档位就行。

省下来的钱，留给真正需要花钱的地方。

七、AI公司应该怎么设计资费？三个方向已经清晰

从供给侧看，2026年下半场的定价设计，几个方向已经很清晰了。

方向一：从"按Token"到"按脑力"。

Anthropic的effort级别，OpenAI的reasoning tokens，都是同一个信号——模型开始按"思考深度"分层收费。

未来一年，主流API定价大概率会全面转向"基础Token价 + 推理深度加价"的两段式结构。

用户为思考的深度付费，而不仅仅是为文字的长度付费。

方向二：Agent场景需要"任务定价"。

Token计费在Agent时代天然不合理。用户不知道一个任务会消耗多少Token，也无法预估账单。

聪明的AI公司会开始提供"任务定价"选项：这个任务，无论内部消耗多少Token，用户只付一个固定价格。风险公司自己扛，用户预期清晰。

Cursor、Devin这些Agent产品已经在探索。API层面的"任务定价"也快出现了。

方向三：分词器和计价单位的透明化。

Sonnet 5这次分词器升级带来的Token膨胀，说白了是一次"隐性涨价"。用户很难在事前察觉，只能在账单上看到结果。

未来会有更多用户和企业客户要求AI公司公开分词器的变化，甚至要求提供"折算价"——同样一段中文，实际花多少钱，请直接告诉我。

透明化是趋势，藏不住。

八、这场游戏的本质：AI公司在赌，用户在赌，都在赌"未来"

写到最后，我想说一个观察。

OpenAI砍推理成本50%，是在赌什么？赌未来的模型和Agent会更贵、更强，现在省下来的钱要投进去。

Anthropic在Sonnet 5上做首发优惠，是在赌什么？赌用户会习惯Sonnet 5的能力，习惯之后就再也回不去，8月31日优惠结束时不会流失。

谷歌把Nano Banana 2 Lite价格压到白菜价，是在赌什么？赌图像生成变成基础设施之后，谁掌握底层管道，谁就掌握下一代应用生态。

而用户呢？用户在赌AI公司不会永远这么慷慨，赌自己能在价格战里薅到最后一波羊毛，赌自己现在建立的AI工作流不会因为一次涨价就崩盘。

大家都在赌。都在赌自己看得比对方远那么一步。

九、结尾：更强的模型和更便宜的Token，本来就不该二选一

回到最开始那个问题——更高级的模型和更低的Token费用，用户应该如何取舍？

我的答案是：这个问题本身就是个伪命题。

真正成熟的用户，早就不在"贵还是便宜"里纠结了。

他们纠结的是——这一次调用，值不值得动用最贵的脑子；这一个Agent任务，能不能一次跑对；这一个月的账单，有多少花在了产生价值的地方，又有多少花在了模型的"礼貌回复"和"重复思考"上。

AI公司也一样。真正会做生意的公司，不会在"高价高端"和"低价走量"里选边站。

它们会做的，是把定价体系做得足够精细——让不同的用户、不同的场景、不同的需求，都能找到自己最合理的付费方式。

Claude Sonnet 5的effort滑块，OpenAI的模型分层，谷歌的Lite版本——这些都是同一个方向的信号。

AI的定价，正在从"标准化商品"变成"个性化服务"。

至于我们这些用户，能做的其实很简单：

看清楚每一次调用花了什么钱，想清楚每一次任务值不值那个价，别被漂亮的降价数字迷惑，也别被吓人的旗舰价格劝退。

用得起最贵的，也用得好最便宜的。

这，才是2026年下半场AI用户该有的样子。

至于AI公司之间的价格战、能力战、Agent战——让他们打去吧。

我们只管挑最合适的那一个。

用完，下一个。

参考资料

The Information：《OpenAI Engineers Cut Model Inference Costs by Over 50%, Reducing Reliance on Nvidia GPUs》，2026年6月
Anthropic官方公告：《Introducing Claude Sonnet 5: Agentic Capabilities and New Pricing》，2026年6月
Google DeepMind Developer Blog：《Nano Banana 2 Lite: Ultra-Fast, Low-Cost Image Generation via Gemini 3.1 Flash Lite Image》，2026年6月
Anthropic Model Card：《Claude Sonnet 5 Technical Report — Tokenizer, Safety, and Benchmarks》，2026年6月
OpenAI Developer Documentation：《API Pricing and Reasoning Tokens》，更新至2026年6月
Google Cloud Vertex AI Pricing Page：《Gemini 3.1 Flash Lite Image Pricing》，2026年6月
BrowseComp & OSWorld-Verified：《2026 Q2 Agent Benchmark Update》
Stratechery分析文章：《The Unbundling of Token Pricing in the Agent Era》，Ben Thompson，2026年6月

市场机遇

ME实时价格 (ME)

$0.06037

$0.06037$0.06037

+6.71%

USD

ME (ME) 实时价格图表

世界杯预测，一单串多场，搏200倍收益！

MEXC App 6.60.0 全新升级，巴西/法国/阿根廷等最多20场组合，一键轻松下注！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。