Agent Skills 技能库 · 高级

MediaCrawler 怎么变成 Agent 内容研究工作流

用 MediaCrawler 的多平台采集能力，把小红书、抖音、B站、微博、贴吧、知乎等公开内容整理成知识库素材。

MediaCrawler
小红书
数据采集
内容研究

更新于 2026-05-19

一句话结论

MediaCrawler 适合做内容研究和评论分析底座，但要先守住合规边界：学习、测试、小规模、尊重平台规则。

适用场景

想研究某个 AI 工具在小红书、抖音、B站的真实反馈
想把评论区问题整理成 FAQ 和客服知识库
想给内容生产 Agent 提供选题、痛点、用户语言素材

常见现象

人工复制评论太慢，资料不成结构
不知道用户到底怎么描述痛点
Agent 写出来的内容太像广告，缺少真实用户语言

原因解释

MediaCrawler 基于 Playwright / CDP 复用浏览器登录态，能采集多平台公开内容
它支持关键词搜索、指定帖子、二级评论、创作者主页、登录态缓存、代理池和词云图等能力
采集工具天然有合规风险，只能用于学习研究和小规模内部分析

解决步骤

先明确研究问题，例如“OpenClaw 小白最常问什么”或“AI 客服用户最担心什么”
只采公开内容，控制关键词、页数和频率，不做大规模抓取
用 Chrome CDP 模式复用本地登录态，减少重复扫码和风控
导出 CSV / JSON / Excel / SQLite，再让 Agent 做聚类、FAQ、教程草稿
把结果人工复核后再写入静态站，不要直接发布未核对的抓取内容

可复制命令

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync
uv run main.py --platform xhs --lt qrcode --type search

uv run main.py --platform xhs --lt qrcode --type detail
uv run main.py --help

仍然不行怎么办

如果登录态失效，先在浏览器里重新登录，再跑 CDP 模式
如果平台风控明显，立即降低频率或停止，不要硬爬
如果只是要少量资料，优先用 Agent Reach 或人工采样，不必上完整爬虫

把采集结果变成知识库的 5 步

去重：删除重复帖子、广告和无意义评论。
脱敏：去掉用户 ID、手机号、链接、订单号等个人信息。
分类：按痛点、问题、反对意见、购买动机、教程需求分组。
转写：把用户原话改成 FAQ、教程标题和 Agent 回复样例。
复核：人工确认事实和合规后，再发布到静态站或知识库。

合规提醒

不要采集非公开内容，不要绕过平台限制做商业化大规模抓取。
不要保存或发布个人隐私数据。
不要用主账号批量自动化操作，测试账号也要控制频率。
公开站点只发布整理后的知识，不发布原始评论库。

参考来源

MediaCrawler：https://github.com/NanmiCoder/MediaCrawler
MediaCrawler 数据存储指南：https://github.com/NanmiCoder/MediaCrawler/blob/main/docs/data_storage_guide.md

相关问题

还卡着？

可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。