GPT-5测评:进步有限,略感失望
发布时间:2025-08-08 22:25 浏览量:1
距离 GPT-4 发布,已经过去整整两年半了。
我还清晰记得那是2023年的3月14号,距离我从大厂离开还不到一周时间。 那个时刻,对AI的兴奋和热情完全掩盖了面对未知前路的恐惧。
在这两年多里,OpenAI其实已经发布了十多个不同的模型(包括什么4o、4.1、4.5、o1、o3、o4……模型名字快赶上显卡厂商了)。
但这次,他们终于喊出了 GPT-5 的名号。
所以,它到底有什么新变化?值不值得你切换?其他AI是不是要下岗了?
在展开介绍之前,我们先来看看一个小乌龙:
世界顶级AI公司也能做出这种PPT?在发布会的图表里,OpenAI展示了一个模型评估的对比:
你看这个数字, 52.8 比 69.1 还高 ,你信吗?
而且,这个错误还不止一次
...
我服了这个草台班子的世界。
我合理怀疑,这PPT要是让GPT-5自己来做,可能反而更靠谱。
“自适应思考”:抄了Claude的作业?这次GPT-5最大的变化之一,是加入了 自适应思考能力 :
也就是说,模型会根据你的问题,动态决定要不要深度思考、思考多久。
这听起来很先进,你不需要纠结选GPT-4o还是o3还是o4-mini之类的模型了,但实际上……
Claude 的 CEO 早已提出过类似的理念 —— 让模型既能快速直觉(系统一),又能深度推理(系统二),而不是二选一。 Claude模型从3.7开始也就是这么设计的。
所以OpenAI这波,多少有点跟随者的味道。
发布会最大重点:全力押注编程能力 超过一半时间都在讲「编程能力」和「Agent执行」。一组数据告诉你,现在OpenAI真有点急
OpenAI 总年收入: 约 125 亿美元
Anthropic 总年收入: 约 50 亿美元 (其中 API 收入已反超 OpenAI )
而且 Anthropic 的 API 收入中,显然主要来自写代码的用户。
这也是 OpenAI 为什么在 GPT-5 上要主打「编程」,它是真想在API市场和Anthropic刚一刚。
GPT-5 vs Claude 4.1,代码实测结果来了我也挑了发布会里两个 GPT-5 展示案例,复制了 Prompt,用 Claude 4.1 在 Cursor 中重跑了一遍。
✅ 案例1:学习法语的卡牌游戏网站
Create a beautiful, highly interactive web app for my partner, an English speaker, to learn French.Track her daily progress.Use a highly engaging theme.Include a variety of activities (e.g., flashcards, quizzes, etc.).One activity should be a snake-style game in which the snake is replaced by a mouse and the apples are replaced by cheese. Each time the mouse eats a piece of cheese, play a voice-over that introduces a new French word so she can practice pronunciation while playing.Make it controllable with the arrow keys.Think before answering. Render everything in canvas.GPT-5 演示的效果很不错,多个卡牌、页面抽卡逻辑也在线。
但我用 Claude 4.1 复现时,发现页面结构也基本一致,只是交互有点小bug。
结论:表现接近,GPT-5略强,但不是质变。
Please create a finance dashboard for my Series D startup, which makes digital fidget spinners for Al agents.The target audience is the CFO and c-suite, to check every day and quickly understand how things are going. It should be beautifully and tastefully designed, with some interactivity, and have clear hierarchy for easy focus on what matters. Use fake names for any companies and generate sample data.Make it colorful!Use Next.js and tailwind CSS.GPT-5 的可视化仪表盘做得很精致。
但 Claude 4.1 给出的交互式图表也几乎一样,甚至细节上更有设计感。
结论:不分上下,我个人更偏爱 Claude 的审美。
那GPT-5到底强在哪?值不值得用?OpenAI官方当然是放了一堆Benchmark,什么AIME数学 100%,SWE-Bench 74.9%……
但我想说句实话:
这些Benchmark的价值越来越低了。
高强度数理逻辑对普通人来说没意义;从98.4%提升到99%,对真实使用体验没多少帮助;
用户更关心的是它是否能帮我 写得更好、写得更自然。
最后GPT-5说实话是有点令人失望了,更像是一次 GPT-4.6 式的升级。
或者,也许,我们再也不应该以2022年11月的ChatGPT、2023年3月的GPT-4那种发布的震撼级别来要求OpenAI了。
OpenAI在那刻时刻就已经完成了他们石破天惊的历史使命,把大语言模型和训练方法带给了全世界。
现在模型能力的升级已经进入了深水区,也许我们后面真的只能一次次看到挤牙膏式的性能提升,或者成本降低。
可惜,AGI还没来。
幸好,AGI还没来。
在通用人工智能降世,彻底消除术门槛之前,依然还留有让我们通过自身能力,来实现AI创业的窗口。
所以我创建了 星球【AI编程:从入门到精通】。
希望帮助更多普通人从创造产品中收获快乐,通过代码杠杆获得财富上的自由。
星球中会为你提供:
1、独家Cursor中文教程,并配备7*24小时解答Cursor问题的GPT(顺便提一句,我是上过GPT Store首页的全球Top100 GPTs 开发者)
2、循序渐进的项目实操图文教程,AI编程是实践的艺术,你需要在实践中获得快速反馈和成长
3、专属视频教学,我会持续发布网站、app、小程序的项目开发实战
4、10+项目源码,我会分享我自己开发
5、付费社群特权,你可以在社群链接更多0基础起步但开发出了产品的同好
时代浪潮转瞬即逝,谁也说不准风口何时过去,下一个又出现在何方。