2024年GPT-4的API价格是$30/百万输入token。2026年6月,同等级别的模型价格已经跌到了$1-3。两年跌了90%以上。
这不是夸张。我翻了一下自己过去两年的API账单,2024年Q2月均消费大概$800,2026年Q2做同样的事情,月均$120。任务量还涨了3倍。
价格战打到这个程度,作为开发者其实是受益的。但价格降了,选择反而更难了——每家都说自己性价比最高,到底信谁?我把主流模型的最新价格整理了一遍,顺便聊聊怎么省钱。
一、主流模型最新定价(2026年6月)
先上数据。以下是主流模型的API定价,按输入token价格排序:
| 模型 | 输入价格($/M tokens) | 输出价格($/M tokens) | 上下文窗口 | 备注 |
|---|---|---|---|---|
| DeepSeek-V3 | 0.27 | 1.10 | 128K | 国产开源,便宜到离谱 |
| Gemini 2.5 Flash | 0.15 | 0.60 | 1M | Google出品,超长上下文 |
| GPT-4o-mini | 0.15 | 0.60 | 128K | OpenAI轻量版,日常够用 |
| Claude 3.5 Haiku | 0.80 | 4.00 | 200K | Anthropic快速版 |
| GPT-4o | 2.50 | 10.00 | 128K | OpenAI主力,综合能力强 |
| Claude Sonnet 4 | 3.00 | 15.00 | 200K | Anthropic主力,代码和推理强 |
| Gemini 2.5 Pro | 1.25 | 10.00 | 1M | Google旗舰,多模态强 |
| Claude Opus 4 | 15.00 | 75.00 | 200K | Anthropic最强,复杂推理 |
| GPT-4.5 | 75.00 | 150.00 | 128K | OpenAI最强,贵得离谱 |
| Qwen3-235B | 0.40 | 1.20 | 128K | 阿里开源,中文能力强 |
看完这个表,几个直观感受:
第一,便宜的模型真的便宜了。DeepSeek-V3和Gemini Flash的价格已经低到每百万token几毛钱,比很多开发者自己部署开源模型还便宜。自己跑GPU的电费和运维成本,不一定比直接调API低。
第二,贵的模型还是很贵。GPT-4.5的输出价格是$150/百万token,是DeepSeek-V3的136倍。但说实话,大多数任务用不上GPT-4.5。我测过,写代码、写文章、做翻译这些常见任务,GPT-4o和GPT-4.5的差距远没有价格差距那么大。
第三,国产模型的性价比确实高。DeepSeek-V3和Qwen3-235B的价格只有GPT-4o的十分之一,但在中文场景下的表现并不差。特别是代码生成和数学推理,DeepSeek-V3甚至能跟GPT-4o打平。
二、价格降了,质量跟上了吗?
这是个好问题。价格降了90%,是不是质量也降了90%?
不是。实际上,便宜的模型比两年前贵的模型还强。GPT-4o-mini的价格是2024年GPT-3.5-turbo的三分之一,但能力已经接近2024年的GPT-4。这种"降价不降质"的背后是训练效率的提升、推理优化、和硬件成本的下降。
但有一个值得注意的现象:模型之间的差距在缩小。2024年,GPT-4和第二名的差距很明显。2026年,GPT-4o、Claude Sonnet 4、Gemini 2.5 Pro在大多数基准测试上的差距在5%以内。这意味着"选最贵的模型"这个策略越来越没必要了。
我做了一个非正式的测试:用10个不同类型的编程任务(从简单函数到复杂系统设计),分别跑GPT-4o、Claude Sonnet 4、DeepSeek-V3。结果是GPT-4o赢了4个,Claude赢了3个,DeepSeek赢了3个。用人类评估的话,三者的差距在"几乎注意不到"的范围内。
三、省钱策略:我实际在用的5个方法
1. 任务分级:简单任务用便宜模型
这是最直接的省钱方式。我把任务分成三个级别:
- 低复杂度(格式转换、简单问答、文本分类):用GPT-4o-mini或DeepSeek-V3,成本几乎可以忽略
- 中复杂度(写代码、写文章、数据分析):用GPT-4o或Claude Sonnet 4,平衡质量和成本
- 高复杂度(架构设计、复杂推理、数学证明):用Claude Opus 4或GPT-4.5,只在必要时用
实际效果:按这个分级策略,我的API成本降了60%,质量基本没下降。因为80%的任务其实都是低中复杂度的。
2. 缓存重复请求
如果你的应用有大量重复或相似的请求(比如客服场景),prompt caching能省很多钱。OpenAI和Anthropic都支持prompt caching,缓存命中的话价格打5折。
我有一个知识库问答系统,系统提示词有3000多token。开了prompt caching之后,系统提示词的部分只在第一次请求时计费,后续请求直接走缓存。光这一项就省了40%的成本。
3. 控制输出长度
输出token比输入token贵2-5倍。很多开发者忽略了这一点,让模型自由发挥,结果输出了一堆没用的内容。
在prompt里明确要求输出长度(比如"用100字以内回答"),或者设置max_tokens参数,能有效控制成本。我在一个分类任务里把max_tokens从默认的4096改成了100,每月省了$30。
4. 批量处理
OpenAI和Anthropic都有Batch API,价格是实时API的50%。如果你的任务不急(比如每天跑一次的数据分析),用Batch API能直接省一半。
5. 用统一API平台管理多模型
这一点我特别推荐。用SevenFa AI Hub这样的统一API平台,好处是可以在一个接口后面接多个模型,根据任务自动路由到最合适的模型。不用自己维护每个厂商的SDK和API key,还能集中监控成本和用量。
# 通过统一API平台实现智能路由
import openai
client = openai.OpenAI(
base_url="https://ne.07fa.cc/v1",
api_key="your-api-key"
)
def smart_call(prompt, complexity="low"):
"""根据任务复杂度选择模型"""
models = {
"low": "gpt-4o-mini", # $0.15/M tokens
"medium": "gpt-4o", # $2.50/M tokens
"high": "claude-sonnet-4" # $3.00/M tokens
}
response = client.chat.completions.create(
model=models[complexity],
messages=[{"role": "user", "content": prompt}]
)
return response.choices[0].message.content
# 简单分类任务 - 用便宜模型
result = smart_call("这篇文章属于什么类别?", "low")
# 复杂代码任务 - 用强模型
result = smart_call("实现一个分布式锁,支持可重入和超时", "high")
四、各家模型的实际体验差异
价格只是一方面,实际用起来还是有区别的。我说说我常用的几个模型的感受:
GPT-4o:综合最均衡。代码、写作、分析都能做,没有明显短板。响应速度快,稳定性好。适合做"主力模型"。
Claude Sonnet 4:代码能力是我用过最好的。特别是理解复杂代码库、做代码审查、写重构方案这些场景,Claude比GPT-4o明显强一档。写作能力也不错,但风格偏正式。
DeepSeek-V3:性价比之王。便宜,速度快,中文理解好。代码能力接近GPT-4o,数学推理甚至更强。缺点是偶尔会出现"幻觉",特别是在需要引用具体数据的时候。
Gemini 2.5 Pro:多模态最强。图片理解、视频分析这些场景,Gemini比其他模型好很多。100万token的上下文窗口也是独一份。但纯文本任务的表现不如GPT-4o和Claude。
Qwen3-235B:中文写作最好。如果你的应用面向中文用户,Qwen3的中文表达比其他模型自然很多。不是那种翻译腔,是真的像中国人写的。
五、价格战会持续吗?
我的判断是:会继续降价,但降速会放缓。
2024-2025年的大幅降价,主要是因为训练成本在快速下降、竞争在加剧。但到了2026年,训练成本的下降空间已经没那么大了(主要是GPU和电力成本在涨),竞争格局也基本稳定了。
接下来的降价可能更多来自推理优化。比如MoE(混合专家)架构的普及、量化技术的进步、推理硬件的专用化。这些能让同样的硬件跑更多的请求,从而降低单次调用的成本。
另一个值得关注的趋势是"按效果付费"。现在大家是按token计费,但token多不代表效果好。有些厂商在探索按任务完成度计费的模式——比如一个分类任务,模型答对了才收钱。这种模式如果跑通,对开发者来说是好事。
六、我的建议
如果你现在刚开始做AI应用,别纠结选哪个模型。先用GPT-4o或Claude Sonnet 4跑起来,它们是目前最稳的选择。等你对业务场景有了更深的理解,再根据具体需求换模型。
如果你已经在跑AI应用,但没认真看过API账单,建议花一个小时分析一下。把任务分分级,该用便宜模型的换便宜模型,该开缓存的开缓存。这些优化不需要改代码逻辑,纯配置层面就能省不少钱。
价格战对开发者是好事。用更少的钱做更多的事,这本来就是技术进步该有的样子。