AI Tools Hub
创意工坊

能不能用 LLM 替代传统爬虫做数据提取?实测结果分享

Mar 3, 2026
468034

最近在做一个竞品监控工具,尝试了用 LLM 直接从原始 HTML 提取结构化数据,分享一下结论。

测试方案

传统方案:写 CSS selector + 定期维护 LLM 方案:把 HTML 扔给 Claude,让它返回 JSON

结论

✅ LLM 方案的优势:

  • 不需要维护 selector,页面改版后自动适应
  • 对非结构化文本(如用户评论情感分析)效果好
  • 开发速度快 10 倍

❌ LLM 方案的劣势:

  • 成本:处理一个页面约 $0.01–0.05,大规模爬取不现实
  • 速度:比传统爬虫慢 5–10 倍
  • 稳定性:偶尔返回格式不对,需要重试逻辑

我的结论:小规模、低频率的数据提取用 LLM 很香;大规模爬取还是用传统方案 + LLM 做后处理。

0 Replies

Login to join the discussion

Login with GitHub