用了两周时间,拿手头的真实项目做了对比测试,不是 benchmark,是实际干活的感受。
测试维度
- 写新代码(10 个任务)
- Debug(5 个任务)
- 代码审查(5 个任务)
结论速览
| 维度 | Claude 3.5 Sonnet | GPT-4o |
|---|---|---|
| 写新代码 | ✅ 更好 | 🟡 稍弱 |
| Debug | ✅ 明显更好 | ❌ 容易绕弯路 |
| 代码审查 | ✅ 更细致 | 🟡 偏表面 |
| 遵循指令 | ✅ 更准确 | 🟡 偶尔跑偏 |
| 速度 | 🟡 稍慢 | ✅ 更快 |
我的建议:写代码用 Claude,需要快速迭代原型用 GPT-4o。两个都开着轮换用是目前最优解。
2 Replies
#1
Debug 这块 +1,Claude 遇到复杂 bug 会先理解整体逻辑再定位问题,GPT-4o 经常直接猜一个「可能是这里」然后改错地方,来回几轮很浪费时间。
#2
速度差这块补充一下:GPT-4o 的 streaming 首 token 延迟比 Claude 低很多,如果做用户对话类产品,响应感知上 GPT 更快。纯批处理任务的话差别不大。
Login to join the discussion
Login with GitHub