每隔几个月,网上就会冒出一波"GPT-5要来了"的消息。从2024年传到2025年,又传到2026年。到今天,GPT-5还是没出来。
但这个话题确实值得聊。因为2026年下半年,几家大厂的动作都挺明显的。我根据公开信息、行业信号和一些技术趋势,做个预测。错了别怪我,预测这东西本来就不靠谱。
OpenAI:GPT-5到底在磨什么
OpenAI现在的情况挺微妙的。GPT-4o还是他们的主力模型,但竞争力在下降。Claude Opus 4在编程和长文本上已经反超了,Gemini 2.5 Pro在多模态上也更激进。GPT-4o的优势主要剩下生态——用户基数大、API兼容性好、第三方工具支持多。
OpenAI的压力不小。我猜他们在GPT-5上纠结的不是"能不能做出来",而是"做出来够不够惊艳"。如果GPT-5只是比GPT-4o强20%,那大家的反应大概率是"就这?"。他们需要一个足够大的跳跃,才能重新拉开差距。
我的预测:GPT-5大概率在2026年Q3-Q4发布。可能是9-10月。发布形式可能是先给Plus用户试用,再逐步开放API。模型能力方面,编程和推理会有明显提升,但不会像GPT-3到GPT-4那样是质变。更可能是一个量变——各方面都强一点,但没有某个维度的碾压式领先。
另外一个值得关注的信号:OpenAI最近在疯狂招Agent方向的人。Sam Altman在几次采访中都提到"2026年下半年会有重大发布",虽然没明说是什么,但从招聘方向看,大概率跟Agent有关。可能是GPT-5+Agent的组合拳。
Anthropic:Claude之后是什么
Anthropic的节奏跟OpenAI不一样。他们不太喜欢搞大发布会,更倾向于悄悄更新、让用户自己发现。
Claude Opus 4是2026年3月发布的,到现在才3个月。按照Anthropic的节奏,下一个大版本可能要到2026年底或2027年初。但中间大概率会有一些"小版本"更新——比如Claude Sonnet 4.5或者Claude Haiku的升级版。
Anthropic现在的优势在编程和长文本。Claude Opus 4处理10万token以上的上下文,质量明显好于GPT-4o。在代码生成方面,很多开发者的体感是Claude比GPT"更懂代码"。这个优势他们会继续强化。
我比较好奇的是Anthropic在多模态上的进展。Claude目前的图像理解能力还行,但视频和音频基本没涉及。如果下半年Claude突然支持视频理解,我不会意外。
另外一个信号:Anthropic最近拿了新一轮融资,估值到了600亿美元。钱多了,算力就多了,模型训练的速度自然也会快。但Anthropic一直把安全放在前面,不会为了赶进度牺牲安全性。
Google:Gemini的逆袭
Google在AI上的表现,2024年可以用"混乱"来形容。Gemini 1.0发布的时候闹了不少笑话(比如生成历史人物图片的争议),Bard改名Gemini也搞得用户体验断裂。
但2025年到2026年,Google追上来了。Gemini 2.5 Pro在多模态任务上的表现确实不错,特别是处理长视频和音频转写。它也是目前唯一一个原生支持100万token上下文的主流模型。
Google的优势是基础设施。他们有自己的TPU芯片、自己的云服务、自己的搜索数据。这些资源是其他公司很难复制的。劣势是产品能力——Google做AI产品的品味一直不太行,经常把好技术做成烂体验。
2026年下半年,我预计Gemini会有一次比较大的更新。可能是Gemini 3.0,也可能是Gemini 2.5 Ultra。重点应该在推理能力上——Google最近在推理模型上的投入很大,o1出来之后他们一直在追。
开源阵营:别忘了他们
闭源模型的讨论很多,但开源模型的进步其实更值得关注。
Llama 4 Scout(2025年底发布)在很多基准测试上已经接近GPT-4o的水平。Qwen3在中文场景下的表现甚至超过了大部分闭源模型。DeepSeek V3的性价比高到离谱——性能接近GPT-4o,价格只有它的1/50。
2026年下半年,开源阵营有几个值得期待的:
Llama 4 Behemoth。Meta说这是他们最大的Llama模型,参数量可能超过2万亿。如果真的发布,可能会在某些任务上追平甚至超过GPT-4o。但训练成本和推理成本也是个问题——这么大的模型,普通开发者根本跑不起。
Qwen4。阿里的Qwen系列一直在稳步进步。Qwen3已经很强了,如果Qwen4在推理和Agent能力上有突破,对中文用户来说可能是最好的选择。
DeepSeek V4。DeepSeek的路线是"用更少的钱训更好的模型"。V3已经证明了这条路走得通。V4如果继续这个方向,可能会在性价比上再次拉开差距。
模型能力的天花板在哪
聊了这么多"谁会发布什么",我想讨论一个更根本的问题:模型能力的天花板在哪?
现在的模型,本质上还是在做"统计预测"——给定一段文字,预测下一个最可能的token。这个范式从GPT-2到现在没变过。变化的是数据量、参数量和训练方法。
问题是:这种范式有没有上限?
我觉得有。在某些任务上,模型的能力已经接近天花板了。比如文本生成——GPT-4o写的文章,质量已经很高了,再提升的空间不大。比如翻译——主流语言之间的翻译,现在的模型已经做得很好了。
但在另一些任务上,还有很大的提升空间。比如复杂推理——让模型解一道需要10步推导的数学题,现在的模型还是会犯错。比如长期规划——让Agent制定一个跨多天的计划并执行,目前还做不到。比如真正的理解——模型能复述一段话的意思,但它真的"理解"了吗?这个问题学界还在争论。
所以我的判断是:下一代模型(GPT-5、Claude 5等)在推理和Agent能力上会有明显提升,但在文本生成、翻译这类"已经做得很好"的任务上,提升幅度会越来越小。
对普通用户意味着什么
说了这么多技术层面的东西,普通用户最关心的还是:这些变化对我有什么影响?
短期来看(2026年下半年),最大的变化可能是价格继续下降。GPT-5发布后,GPT-4o大概率会降价或者变成免费模型。Claude和Gemini也会跟进。这意味着你可以用更低的成本使用更好的模型。
中期来看(2027年),Agent能力的提升会改变你使用AI的方式。现在你跟AI对话,AI给你回答。未来你可能给AI一个任务,AI自己去完成——查资料、写代码、发邮件、操作软件,全程不需要你介入。
长期来看,AI模型之间的差异会越来越小。GPT-5、Claude 5、Gemini 3,可能在大部分任务上的表现差不多。竞争的焦点会从"谁的模型更强"转向"谁的生态更好"、"谁的集成更方便"。
如果你想第一时间体验这些新模型,SevenFa AI Hub会在新模型发布后第一时间接入。用统一的API接口,不用每个平台都单独注册和充值。在操练场里可以实时切换模型对比效果。
一句话总结
GPT-5大概率2026年Q3-Q4,Claude下一个大版本要到年底或2027年初,Gemini会有一次重要更新,开源模型会继续追近闭源。不管谁先发,最终受益的都是用户——更好的模型、更低的价格、更多的选择。