Agent Skills 技能库 · 高级

MediaCrawler 怎么变成 Agent 内容研究工作流

用 MediaCrawler 的多平台采集能力,把小红书、抖音、B站、微博、贴吧、知乎等公开内容整理成知识库素材。

  • MediaCrawler
  • 小红书
  • 数据采集
  • 内容研究
更新于 2026-05-19

一句话结论

MediaCrawler 适合做内容研究和评论分析底座,但要先守住合规边界:学习、测试、小规模、尊重平台规则。

适用场景

  • 想研究某个 AI 工具在小红书、抖音、B站的真实反馈
  • 想把评论区问题整理成 FAQ 和客服知识库
  • 想给内容生产 Agent 提供选题、痛点、用户语言素材

常见现象

  • 人工复制评论太慢,资料不成结构
  • 不知道用户到底怎么描述痛点
  • Agent 写出来的内容太像广告,缺少真实用户语言

原因解释

  • MediaCrawler 基于 Playwright / CDP 复用浏览器登录态,能采集多平台公开内容
  • 它支持关键词搜索、指定帖子、二级评论、创作者主页、登录态缓存、代理池和词云图等能力
  • 采集工具天然有合规风险,只能用于学习研究和小规模内部分析

解决步骤

  1. 先明确研究问题,例如“OpenClaw 小白最常问什么”或“AI 客服用户最担心什么”
  2. 只采公开内容,控制关键词、页数和频率,不做大规模抓取
  3. 用 Chrome CDP 模式复用本地登录态,减少重复扫码和风控
  4. 导出 CSV / JSON / Excel / SQLite,再让 Agent 做聚类、FAQ、教程草稿
  5. 把结果人工复核后再写入静态站,不要直接发布未核对的抓取内容

可复制命令

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync
uv run main.py --platform xhs --lt qrcode --type search
uv run main.py --platform xhs --lt qrcode --type detail
uv run main.py --help

仍然不行怎么办

  • 如果登录态失效,先在浏览器里重新登录,再跑 CDP 模式
  • 如果平台风控明显,立即降低频率或停止,不要硬爬
  • 如果只是要少量资料,优先用 Agent Reach 或人工采样,不必上完整爬虫

把采集结果变成知识库的 5 步

  1. 去重:删除重复帖子、广告和无意义评论。
  2. 脱敏:去掉用户 ID、手机号、链接、订单号等个人信息。
  3. 分类:按痛点、问题、反对意见、购买动机、教程需求分组。
  4. 转写:把用户原话改成 FAQ、教程标题和 Agent 回复样例。
  5. 复核:人工确认事实和合规后,再发布到静态站或知识库。

合规提醒

  • 不要采集非公开内容,不要绕过平台限制做商业化大规模抓取。
  • 不要保存或发布个人隐私数据。
  • 不要用主账号批量自动化操作,测试账号也要控制频率。
  • 公开站点只发布整理后的知识,不发布原始评论库。

参考来源

  • MediaCrawler:https://github.com/NanmiCoder/MediaCrawler
  • MediaCrawler 数据存储指南:https://github.com/NanmiCoder/MediaCrawler/blob/main/docs/data_storage_guide.md

相关问题

还卡着?

可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。