一句话结论
GPT 通用、Claude 写代码和长上下文好、Gemini 多模态强、国产模型便宜稳定,按场景叠用。
适用场景
- 刚开始接 API,想知道默认选哪个
- 已经上线但发现某类任务效果差
- 想为客户做一份模型推荐
常见现象
- 中文长文输出乱、断句奇怪
- 代码任务连续几次跑偏
- 成本控不住,想换更便宜的模型
原因解释
- 不同模型在不同任务上的强项不一样
- 长上下文能力差距很大(128k vs 1M)
- 国内访问稳定性 / 合规要求
解决步骤
- 通用问答先用 GPT-4o-mini 试水
- 写代码 / 长上下文阅读优先 Claude 系列
- 图像、视频、多模态优先 Gemini
- 中文成本敏感场景用国产(Doubao、Qwen、DeepSeek 等)
- 建一张本地评测表:5-10 个真实任务跑一遍,按胜率排
仍然不行怎么办
- 选不出来就主用 + 备用两个模型,别只押一家
- 评测样本太小不准就再加 5 条真实任务
小白先准备什么
- 先准备 10 条真实任务,不要只看模型排行榜。
- 每条任务写清楚好答案标准,例如准确、便宜、快、少废话、会引用资料。
- 至少选一个强模型、一个便宜模型、一个备用模型做对比。
- 记录每次测试的回答质量、速度、失败率和预估成本。
验收标准
- 每个业务场景都有主模型和备用模型。
- 简单任务不会默认走最贵模型。
- 重要任务有质量检查或人工复核。
- 模型切换后,关键 Prompt 和输出格式仍然稳定。
可复制评测表
| 任务 | 模型 | 准确度 1-5 | 速度 1-5 | 成本 1-5 | 是否可上线 | 备注 |
| --- | --- | --- | --- | --- | --- | --- |
| 客服分类 | ___ | ___ | ___ | ___ | ___ | ___ |
| 长文总结 | ___ | ___ | ___ | ___ | ___ | ___ |
| 代码修改 | ___ | ___ | ___ | ___ | ___ | ___ |
| 知识库问答 | ___ | ___ | ___ | ___ | ___ | ___ |
常见误区和不适合场景
- 误区一:只看别人推荐,不测自己的真实任务。
- 误区二:只看一次回答好不好,不看长期稳定性和失败率。
- 误区三:没有备用模型,主模型限流时整个工作流停掉。
- 不适合:答案必须 100% 正确但没有人工复核的高风险场景。
还卡着?
可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。