一句话结论
便宜模型预处理、强模型只做关键判断、可复用结果走缓存,单次调用成本能降 60% 以上。
适用场景
- Agent 跑得起来但额度烧太快
- 批量任务跑一晚就用掉一半余额
- 想给老板/客户出一份成本测算
常见现象
- 短时间额度掉得很快
- 明明只是简单分类却用了强模型
- 重复问题反复调用
原因解释
- 所有任务都用一个强模型
- 上下文每次都塞最长,没有压缩
- 重复请求没有缓存
解决步骤
- 把任务拆成「简单处理」和「关键判断」两段,前者用便宜模型
- 上下文裁剪:把长文档拆成检索段,按需拼接,不要一次塞全
- 把可复用结果(FAQ、商品介绍)写到缓存或本地 KV
- 批量任务在低峰错峰跑,并发别一上来就拉满
- 记录每条请求的 token 数和耗时,方便后续对账
仍然不行怎么办
- 成本始终降不下来就先看是不是上下文重复发送
- 极端场景考虑切到本地小模型(Llama / Qwen)做兜底
小白先准备什么
- 先收集最近 7 天的调用量、失败量、模型名称和大概花费。
- 把任务分成便宜任务和重要任务,例如草稿、总结、客服、代码、长文。
- 确认是否有重复发送、无限重试、把整份文档反复塞给模型的问题。
- 先定一个月预算上限,再反推每天可用额度。
验收标准
- 每类任务都有默认模型和备用模型。
- 重试次数有上限,失败不会无限扣费。
- 长文任务有摘要、分段或缓存策略,不会每次重发全部内容。
- 后台能看到谁在用、用什么模型、消耗多少。
可复制成本估算提示词
下面是我最近的模型使用记录:
- 模型:___
- 每天请求数:___
- 平均输入长度:___
- 平均输出长度:___
- 主要场景:___
- 当前预算:___
请帮我做成本优化:
1. 哪些任务可以换便宜模型。
2. 哪些任务必须保留强模型。
3. 怎么设置每日额度和告警。
4. 哪些重复调用可以缓存或合并。
常见误区和不适合场景
- 误区一:还没看日志就直接改倍率或限额,最后不知道钱花在哪里。
- 误区二:所有任务都用最强模型,简单分类、摘要、改写也走高价线路。
- 误区三:失败自动重试太多次,错误请求也能烧钱。
- 不适合:没有日志、没有用户区分、没有模型区分的成本分析。
还卡着?
可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。