最近在做一个竞品监控工具,尝试了用 LLM 直接从原始 HTML 提取结构化数据,分享一下结论。
测试方案
传统方案:写 CSS selector + 定期维护 LLM 方案:把 HTML 扔给 Claude,让它返回 JSON
结论
✅ LLM 方案的优势:
- 不需要维护 selector,页面改版后自动适应
- 对非结构化文本(如用户评论情感分析)效果好
- 开发速度快 10 倍
❌ LLM 方案的劣势:
- 成本:处理一个页面约 $0.01–0.05,大规模爬取不现实
- 速度:比传统爬虫慢 5–10 倍
- 稳定性:偶尔返回格式不对,需要重试逻辑
我的结论:小规模、低频率的数据提取用 LLM 很香;大规模爬取还是用传统方案 + LLM 做后处理。
0 Replies
Login to join the discussion
Login with GitHub