一句话结论
标签先建好、判断规则写清、低置信度转人工,分类 Agent 才能上线。
适用场景
- 咨询入口多、人工客服压力大
- 想给售前、售后、技术、账单分别派不同处理人
- 希望统计每个标签的占比,方便做产品改进
常见现象
- 回复都靠人工拖
- 高优先级客户被淹没
- 不知道哪些是产品问题、哪些是销售问题
解决步骤
- 用 20 条历史咨询打标签,整理出 5-7 个核心标签
- 为每个标签写一句话判断规则 + 1-2 条样例
- Agent 拿到消息先判断标签、再给推荐回复
- 低于 0.7 置信度就转人工,不要硬答
- 上线后每周复盘标签分布,调整规则
仍然不行怎么办
- 分类不准就细化标签 / 加更多样例
- 样例不足就先做半自动:Agent 提建议、人工确认
小白先准备什么
- 先从历史咨询里挑 50 条消息,人工分成售前、售后、技术、账单、投诉、垃圾信息等标签。
- 每个标签写 2 条正例和 1 条反例,告诉 Agent 什么情况不算这个标签。
- 设置低置信度阈值,例如低于 0.7 就转人工或只给建议不自动回复。
- 提前决定分流后的动作:派给谁、发什么模板、记录到哪个表。
验收标准
- 用 50 条历史消息回测,主要标签准确率达到可接受水平。
- 不确定消息不会被强行归类,而是进入人工复核。
- 输出包含标签、置信度、原因、建议回复和下一步动作。
- 每周能根据错分案例更新标签说明和样例。
可复制分流 JSON
{
"label": "售前|售后|技术|账单|投诉|垃圾信息|待人工确认",
"confidence": 0.82,
"reason": "用户在询问价格和交付时间,属于售前咨询。",
"suggested_reply": "您好,我先帮您确认需求和交付时间。请问您需要的是哪一类服务?",
"next_action": "assign_to_sales"
}
常见误区和不适合场景
- 误区一:标签太多。小白先用 5-7 个核心标签,准确后再细分。
- 误区二:没有置信度。Agent 不确定时必须知道怎么退回人工。
- 误区三:只分类不记录,后续无法统计哪类问题最多。
- 不适合:投诉、退款、合同争议等高风险消息完全自动处理。
还卡着?
可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。