一句话结论
MediaCrawler 适合做内容研究和评论分析底座,但要先守住合规边界:学习、测试、小规模、尊重平台规则。
适用场景
- 想研究某个 AI 工具在小红书、抖音、B站的真实反馈
- 想把评论区问题整理成 FAQ 和客服知识库
- 想给内容生产 Agent 提供选题、痛点、用户语言素材
常见现象
- 人工复制评论太慢,资料不成结构
- 不知道用户到底怎么描述痛点
- Agent 写出来的内容太像广告,缺少真实用户语言
原因解释
- MediaCrawler 基于 Playwright / CDP 复用浏览器登录态,能采集多平台公开内容
- 它支持关键词搜索、指定帖子、二级评论、创作者主页、登录态缓存、代理池和词云图等能力
- 采集工具天然有合规风险,只能用于学习研究和小规模内部分析
解决步骤
- 先明确研究问题,例如“OpenClaw 小白最常问什么”或“AI 客服用户最担心什么”
- 只采公开内容,控制关键词、页数和频率,不做大规模抓取
- 用 Chrome CDP 模式复用本地登录态,减少重复扫码和风控
- 导出 CSV / JSON / Excel / SQLite,再让 Agent 做聚类、FAQ、教程草稿
- 把结果人工复核后再写入静态站,不要直接发布未核对的抓取内容
可复制命令
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync
uv run main.py --platform xhs --lt qrcode --type search
uv run main.py --platform xhs --lt qrcode --type detail
uv run main.py --help
仍然不行怎么办
- 如果登录态失效,先在浏览器里重新登录,再跑 CDP 模式
- 如果平台风控明显,立即降低频率或停止,不要硬爬
- 如果只是要少量资料,优先用 Agent Reach 或人工采样,不必上完整爬虫
把采集结果变成知识库的 5 步
- 去重:删除重复帖子、广告和无意义评论。
- 脱敏:去掉用户 ID、手机号、链接、订单号等个人信息。
- 分类:按痛点、问题、反对意见、购买动机、教程需求分组。
- 转写:把用户原话改成 FAQ、教程标题和 Agent 回复样例。
- 复核:人工确认事实和合规后,再发布到静态站或知识库。
合规提醒
- 不要采集非公开内容,不要绕过平台限制做商业化大规模抓取。
- 不要保存或发布个人隐私数据。
- 不要用主账号批量自动化操作,测试账号也要控制频率。
- 公开站点只发布整理后的知识,不发布原始评论库。
参考来源
- MediaCrawler:https://github.com/NanmiCoder/MediaCrawler
- MediaCrawler 数据存储指南:https://github.com/NanmiCoder/MediaCrawler/blob/main/docs/data_storage_guide.md
还卡着?
可以把截图、日志、需求单或当前页面链接发到 zhemuy@gmail.com。