能不能用 LLM 替代传统爬虫做数据提取？实测结果分享

Mar 3, 2026

562034

最近在做一个竞品监控工具，尝试了用 LLM 直接从原始 HTML 提取结构化数据，分享一下结论。

测试方案

传统方案：写 CSS selector + 定期维护 LLM 方案：把 HTML 扔给 Claude，让它返回 JSON

结论

✅ LLM 方案的优势：

不需要维护 selector，页面改版后自动适应
对非结构化文本（如用户评论情感分析）效果好
开发速度快 10 倍

❌ LLM 方案的劣势：

成本：处理一个页面约 $0.01–0.05，大规模爬取不现实
速度：比传统爬虫慢 5–10 倍
稳定性：偶尔返回格式不对，需要重试逻辑

我的结论：小规模、低频率的数据提取用 LLM 很香；大规模爬取还是用传统方案 + LLM 做后处理。

0 Replies

Login to join the discussion

Login with GitHub