跳到主要内容
Context Window

LLM 上下文长度怎么理解

上下文长度就是模型在一次处理里能同时看到的 token 总数。系统提示词、历史对话、检索内容、当前提问和正在生成的输出,都会一起占用这个窗口。

Context Window
返回原理演示
查看产品

滑动窗口演示

LLM 上下文长度怎么理解

点击播放后,高亮窗口会沿着 token 序列移动。窗口外的内容不是永久消失,而是这一次生成里不再被同时看到。

当前可见

1 / 10
系统
提示词
角色
规则
历史1
历史2
历史3

窗口外内容

业务背景用户问题补充资料检索片段A检索片段B当前提问模型输出1模型输出2模型输出3

推荐下一步

推荐下一步

继续沿着相关主题看下去,会更容易把概念和工程实现串起来。

History + Latest Input -> Context Window

多轮对话记忆

演示历史消息如何逐轮进入上下文,以及为什么对话越长越需要摘要和裁剪。

打开演示
Query -> Retrieve -> Rerank -> Context -> Generate

RAG 检索增强生成

演示查询改写、召回、重排、拼接上下文与最终生成的完整流程。

打开演示
Input -> Tokenize -> Count -> Process

什么是 Token

用动画把一句话拆成模型真正处理的 token,理解 token 不是“一个字=一个 token”。

打开演示