GPT-5 vs Claude Opus 4.1:编程能力测评
发布时间:2025-08-12 17:40 浏览量:2
大数据文摘受权转载自夕小瑶科技说
聊起严肃的编程,Anthropic 的 Claude 几乎是公认的王者,在很多开发者心里都是 No.1 的位置。
但最近,风向似乎有点变了。
OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。
虽然看了很多说 GPT-5 是“编程新王”所谓的噱头和关于 GPT5 的评测,说实话,我还没看到一份有说服力的报告。要么是拿官方的 demo 说事,要么是测了几个美观度还行的 web 网页就说 GPT-5 强。用这些下结论有点草率了吧。
所以,对于 GPT-5 和 Claude 谁更厉害,模型编程 Feature 各自擅长什么,好多人和我一样好奇,
今天刷到国外的一位开发者老哥 Rohit 发布了一篇 GPT-5 vs Claude Opus 4.1 编程能力的评测博客,比较实用,这里 share 出来。
首选,评测生成的所有代码都开源了,可以在这个链接查看。
先说核心的结论:
算法:GPT‑5 在速度与 token 数量上胜出(8K vs 79K)。
网页开发:Opus 4.1 对 Figma 设计稿的还原度更高,但消耗的 token 量更大(90 万 vs 140 万 + token);
GPT-5 响应更快且成本更低, token 消耗比 Opus 4.1 节省约 90%,更适合作为一个高效的日常开发助手使用;如果你想要设计还原度高,而且预算灵活,Opus 4.1 则更具优势。
再来看模型基础信息与 token 使用效率对比:
上下文窗口:Claude Opus 4.1 支持 20 万 token,上限输出不详;而 GPT‑5 支持 40 万 token 上下文,最大可输出 128K token。
Token 使用效率:尽管 GPT‑5 的上下文空间更大,但在相同任务下它总是使用更少的 token,从而大幅降低运行成本。
虽然在 SWE-bench 等编码基准测试中,GPT‑5 略微领先于 Opus 4.1,但作者后续还实测了一些 case。
测试内容涵盖实际开发常见场景:
编程语言与任务类型:
算法题:使用 Java 语言实现 LeetCode Advanced 题目。
Web 开发:使用 TypeScript + React,编写基于 Figma 设计的 Next.js 页面,通过 Rube MCP(一种通用 MCP 接入层)进行代码生成。
其他任务:包括客户流失预测模型等业务逻辑实现。
环境:所有任务均在 Cursor IDE 联合 Rube MCP 的环境中完成。
测量指标:token 数量、耗时、代码质量、实际结果。
两个模型使用完全一样的提示词。
01 Figma 设计稿开发
Rohit 从 Figma 社区找了一个复杂的仪表盘设计,要求它俩用 Next.js 和 TypeScript 把它复刻出来。
提示词如下:
Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
Responsive design
Proper component structure
Styled-components or CSS modules
Interactive elements
两位选手的表现:
GPT-5:
耗时:约 10 分钟Tokens:906,485(90 万 token)GPT-5 的效率没得说,10 分钟就交卷了,应用也能跑。但成品……怎么说呢,功能完备,但视觉效果一言难尽。它 get 到了设计的框架,却完全忽略了灵魂。颜色、间距、字体都和原稿相去甚远,仿佛开了“低保真”模式。
是一个能干活的工程师,但是不懂审美而且干活很粗糙。
Claude Opus 4.1:
耗时:更长(因为反复迭代)Tokens:超过 140 万 token (比 GPT-5 多了 55%!)Opus 4.1 上来先耍了点“小脾气”,明明指定了 styled-components,它非要用 Tailwind,需要人工纠正。但当它“认错”并开始工作后,结果令人震惊。
UI 几乎与 Figma 设计稿一模一样! 视觉保真度堪称完美。
一位追求完美的“艺术家”,虽然烧钱又有点犟,但作品无可挑剔。
02 LeetCode 算法题
为了考验纯粹的逻辑和效率,Rohit 抛出了经典的 LeetCode 难题:“寻找两个正序数组的中位数”,并要求时间复杂度为 O(log(m+n))”。
提示词如下:
Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).
GPT-5:
GPT-5 几乎没有任何废话,13 秒内给出了一个干净利落、完全正确的二分查找解法。代码优雅,效率拉满。
耗时:约 34 秒Tokens:78,920 (接近 GPT-5 的 10 倍!)Opus 4.1 则完全是另一种画风。它不仅给出了答案,还附上了一篇“小论文”:详细的推理步骤、全面的代码注释,甚至内置了测试用例,生怕你学不会。虽然算法核心是一样的,但它的输出附带了极高的“教育价值”。
想快速要答案,找 GPT-5;想学习解题思路,Opus 4.1 是你最好的老师。
03 ML 复杂任务
最后一个挑战是构建一个完整的机器学习的 pipeline,预测客户流失。
然而,在见识了 Opus 4.1 在第一轮中惊人的 token 消耗后,Rohit 出于对钱包的尊重,明智地让它“轮休”了。这一局,只有 GPT-5 单挑。
提示词如下:
Build a complete ML pipeline for predicting customer churn, including:
Data preprocessing and cleaning
Feature engineering
Model selection and training
Evaluation and metrics
Explain the reasoning behind each step in detail
结果显示,GPT-5 完全能胜任这种复杂的端到端任务。从数据预处理、特征工程,到多模型训练(逻辑回归、随机森林、XGBoost),再到使用 SMOTE 处理数据不平衡问题和全面的效果评估,整个流程一气呵成,代码扎实可靠。
04 成本对决:真金白银的较量
效果看完了,那我们来算算账。毕竟,这才可能是最能影响开发者选择的因素。
GPT-5 (Thinking 模式)-完成三项测试任务
Web 应用:~$2.58
算法:~$0.03
ML 流水线:~$0.88
总计:约 $3.50Opus 4.1 (Thinking + Max 模式)-仅完成两项测试任务
Web 应用:~$7.15
算法:~$0.43
总计:$7.58结论一目了然:Opus 4.1 的使用成本是 GPT-5 的两倍以上。
05 评测结论
GPT-5 的优势
算法任务中 token 使用少、响应快,效率极高。
更适合日常开发,尤其是快速迭代与原型验证。
整体 token 成本大幅低于 Opus 4.1。
Claude Opus 4.1 的优势:
提供清晰的、一步步解释的代码逻辑,对学习过程友好。
在视觉 fidelity(设计还原度)方面表现出色,非常贴近 Figma 原稿。
适合对界面精度要求高的场景。
所以,如果你是日常开发,优先使用 GPT‑5,性能与成本兼顾。如果界面还原要求高的设计任务,可选择 Claude Opus 4.1,提升最终效果,但需预算充足。
推荐组合策略:先用 GPT‑5 打好基础,然后在关键界面环节,用 Opus 4.1 打磨细节,实现效率与精度的平衡。
参考文献
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!