在做一个长对话应用,想了解一下 context window 超限的行为。
场景是这样的:用户可能和 AI 聊很久,历史消息越来越长,超过 200k token 之后会发生什么?
- API 直接返回错误吗?
- 还是 Claude 自动截断早期消息?
- 有没有推荐的滑动窗口策略?目前我的思路是保留最近 N 条消息 + 用摘要压缩早期内容,这个方向对吗?
谢谢。
0 Replies
Login to join the discussion
Login with GitHub在做一个长对话应用,想了解一下 context window 超限的行为。
场景是这样的:用户可能和 AI 聊很久,历史消息越来越长,超过 200k token 之后会发生什么?
谢谢。
Login to join the discussion
Login with GitHub