文章作者、来源:0x9999in1,ME News

2026年7月的第一天,AI圈的信息密度又一次爆表。
The Information爆料,OpenAI把推理成本砍了一半以上,还减少了对英伟达GPU的依赖。Anthropic正式推出Claude Sonnet 5,主打Agent自主规划,首发价打骨折。谷歌甩出Nano Banana 2 Lite,1K图像4秒生成,千张才0.034美元。
三条消息,三家公司,看起来各干各的。
但你把它们摆在一起看——这其实是同一件事:AI公司正在集体重新回答一个问题——用户到底在为什么付费?
过去两年,答案很简单:为Token付费。输入多少,输出多少,一乘一算,账单送到。
现在呢?这个逻辑正在崩塌。
先说结论:用户面对的不是"要性能还是要便宜",而是"你根本不知道自己到底花了多少钱"。
为什么这么说?
Claude Sonnet 5这次的首发定价,$2输入/$10输出,比标准价$3/$15便宜了三分之一。听起来是让利。
但Anthropic自己在公告里说得很清楚:新分词器让相同文本产生的Token数量增加了1.0到1.35倍。
翻译一下:同样一段话,你以前用100个Token能搞定,现在可能要135个。
再翻译一下:降价三分之一,Token膨胀三分之一,你的实际账单和以前基本持平。
Anthropic自己都说了,首发优惠"旨在让用户切换模型时的实际成本基本持平"。这话说得漂亮,其实是坦白:这不是降价,这是换算。
到2026年8月31日优惠结束,价格恢复到$3/$15,Token量还是膨胀的——那时候用户会突然发现,账单默默涨了三成。
这就是这场游戏的第一个陷阱:标价降了,单位变了,你看到的价格和你付出的钱,不是同一回事。
The Information的报道里有一句话特别值得琢磨:OpenAI"未来可能将部分成本节约用于下调API服务价格,或提高ChatGPT等产品的用户查询额度"。
注意用词——"可能","部分"。
这两个词加起来,翻译成大白话就是:省下来的钱,不一定全给你。
为什么?因为OpenAI要烧钱的地方太多了。
训练下一代模型,要钱。Stargate数据中心那盘大棋,要钱。跟英伟达、AMD、博通同时谈判自研芯片,要钱。跟微软那份重新谈判过的合作协议,还是要钱。
省下来的50%推理成本,真正会流到用户手里的,可能只有一小部分。
大部分会变成什么?会变成ChatGPT Pro用户查询额度的小幅提升,会变成API价格表上某个层级的调整,会变成一次让人津津乐道的产品发布会。
但更多的部分,会沉进OpenAI自己的资本开支里。
这不是阴谋论,这是商业常识。
Claude Sonnet 5这次的核心卖点是什么?不是聪明,是自主。
BrowseComp、OSWorld-Verified这些评估里,Sonnet 5大幅超越前代。它能自主规划任务,能调用浏览器,能操作终端。
用户通过调整effort级别,可以让Sonnet 5的性能直逼旗舰Opus 4.8。
听起来很酷。但你想过没有——一个自主运行的Agent,一次任务要消耗多少Token?
举个例子。你让Agent"帮我研究一下2026年上半年美股科技板块的表现,写一份报告"。
它会做什么?打开浏览器,搜索,读文章,读财报,做笔记,反思,再搜索,再总结,写草稿,改稿子,最后交付。
这一整套动作下来,Token消耗是过去传统对话的10倍、20倍,甚至100倍都有可能。
再叠加effort级别——你把思考投入度拉满,模型内部的推理链条会更长,Token消耗还会指数级增加。
所以你看到Anthropic把Sonnet 5的价格标得很"友好",$2/$10,比Opus便宜一大截。
但真到Agent场景,一次任务几美元不夸张,几十美元也不新鲜。
这就是我说的:Token越来越便宜,但你花的钱可能越来越多。
因为消耗规模在变。
跟大语言模型的复杂定价比起来,图像生成这边简单粗暴多了。
谷歌新出的Nano Banana 2 Lite,API名字叫gemini-3.1-flash-lite-image。生成一张1K图像大约4秒,每千张0.034美元。
换算一下——每张图像的成本是0.0034美分,也就是三毫多一点。
这是什么概念?
你花1美元,可以生成将近3万张1K图像。
图像生成从"按张收费的稀缺资源",正在变成"几乎免费的基础设施"。
这背后是模型架构的进化,是推理效率的暴涨,也是谷歌打价格战的决心。
但同样的问题:便宜不代表你花得少。
当图像生成便宜到可以忽略不计,用户和产品会怎么用?会海量地用,会疯狂地用,会在每个页面、每次交互、每个动画帧里都塞进去用。
最终账单可能还是四位数、五位数。
只不过,你换来了以前想都不敢想的产品体验。
聊了这么多,回到用户视角。2026年下半场,你到底该怎么选模型?
我给三个务实的判断。
第一,别追旗舰,追"够用"。
Claude Opus 4.8聪明吗?聪明。但对绝大多数日常任务,Sonnet 5拉满effort级别就够了。价格便宜一半以上,效果差不了多少。
真正需要Opus的场景,是那些错一次代价就是几千美元的关键决策——严肃法律分析、复杂并购尽调、核心代码架构。除此之外,中端模型 + 高effort,是绝大多数场景的最优解。
第二,Agent场景,用量比单价重要。
如果你的业务大量使用Agent,Token单价从$3降到$2看起来省了33%,但Agent场景的Token消耗可能是过去的50倍。
你真正要关心的不是单价,是每次任务的总成本,以及任务成功率。
一次成功的Agent任务,即便花了0.5美元,也比五次失败的0.05美元任务划算。
第三,图像和多媒体,直接选最便宜的能用的。
Nano Banana 2 Lite这种模型出来之后,图像生成的定价逻辑已经变了。除非有极高的画质或风格化要求,日常场景直接选最便宜的档位就行。
省下来的钱,留给真正需要花钱的地方。
从供给侧看,2026年下半场的定价设计,几个方向已经很清晰了。
方向一:从"按Token"到"按脑力"。
Anthropic的effort级别,OpenAI的reasoning tokens,都是同一个信号——模型开始按"思考深度"分层收费。
未来一年,主流API定价大概率会全面转向"基础Token价 + 推理深度加价"的两段式结构。
用户为思考的深度付费,而不仅仅是为文字的长度付费。
方向二:Agent场景需要"任务定价"。
Token计费在Agent时代天然不合理。用户不知道一个任务会消耗多少Token,也无法预估账单。
聪明的AI公司会开始提供"任务定价"选项:这个任务,无论内部消耗多少Token,用户只付一个固定价格。风险公司自己扛,用户预期清晰。
Cursor、Devin这些Agent产品已经在探索。API层面的"任务定价"也快出现了。
方向三:分词器和计价单位的透明化。
Sonnet 5这次分词器升级带来的Token膨胀,说白了是一次"隐性涨价"。用户很难在事前察觉,只能在账单上看到结果。
未来会有更多用户和企业客户要求AI公司公开分词器的变化,甚至要求提供"折算价"——同样一段中文,实际花多少钱,请直接告诉我。
透明化是趋势,藏不住。
写到最后,我想说一个观察。
OpenAI砍推理成本50%,是在赌什么?赌未来的模型和Agent会更贵、更强,现在省下来的钱要投进去。
Anthropic在Sonnet 5上做首发优惠,是在赌什么?赌用户会习惯Sonnet 5的能力,习惯之后就再也回不去,8月31日优惠结束时不会流失。
谷歌把Nano Banana 2 Lite价格压到白菜价,是在赌什么?赌图像生成变成基础设施之后,谁掌握底层管道,谁就掌握下一代应用生态。
而用户呢?用户在赌AI公司不会永远这么慷慨,赌自己能在价格战里薅到最后一波羊毛,赌自己现在建立的AI工作流不会因为一次涨价就崩盘。
大家都在赌。都在赌自己看得比对方远那么一步。
回到最开始那个问题——更高级的模型和更低的Token费用,用户应该如何取舍?
我的答案是:这个问题本身就是个伪命题。
真正成熟的用户,早就不在"贵还是便宜"里纠结了。
他们纠结的是——这一次调用,值不值得动用最贵的脑子;这一个Agent任务,能不能一次跑对;这一个月的账单,有多少花在了产生价值的地方,又有多少花在了模型的"礼貌回复"和"重复思考"上。
AI公司也一样。真正会做生意的公司,不会在"高价高端"和"低价走量"里选边站。
它们会做的,是把定价体系做得足够精细——让不同的用户、不同的场景、不同的需求,都能找到自己最合理的付费方式。
Claude Sonnet 5的effort滑块,OpenAI的模型分层,谷歌的Lite版本——这些都是同一个方向的信号。
AI的定价,正在从"标准化商品"变成"个性化服务"。
至于我们这些用户,能做的其实很简单:
看清楚每一次调用花了什么钱,想清楚每一次任务值不值那个价,别被漂亮的降价数字迷惑,也别被吓人的旗舰价格劝退。
用得起最贵的,也用得好最便宜的。
这,才是2026年下半场AI用户该有的样子。
至于AI公司之间的价格战、能力战、Agent战——让他们打去吧。
我们只管挑最合适的那一个。
用完,下一个。


