跳到主要内容
Demos

原理演示

把大模型、RAG 与向量空间的核心处理链路拆解成更容易观察和理解的可视化页面。

Demos
打开 LLM Demo
我们的产品

学习路径

学习路径

按主题理解这些演示,会比按时间顺序逐个点开更容易形成整体认识。

基础概念

基础概念

先建立对 token、上下文、提示词和采样的直觉,再看工程演示会更顺。

Tokenize -> Embed -> Attend -> Decode -> Answer
01

LLM 问答过程动画

把提问、编码、推理、解码和输出的链路拆成可观察节点。

重点:Transformer 处理链路

打开演示
Input -> Tokenize -> Count -> Process
02

什么是 Token

用动画把一句话拆成模型真正处理的 token,理解 token 不是“一个字=一个 token”。

重点:切分、计量与生成单位

打开演示
System + History + User + Output <= Context Window
03

LLM 上下文长度

通过滑动窗口展示模型一次真正能“看到”的 token 范围,以及为什么旧内容会被截断。

重点:可见窗口与截断直觉

打开演示
System + Few-shot + User -> Final Prompt
04

Prompt 结构演示

展示 system、user、assistant 示例如何被拼成最终输入,理解“提示词”不是单独一句话。

重点:消息结构与角色分工

打开演示
Low Temp -> Stable | High Temp -> Diverse
05

Temperature 温度演示

用同一个问题对比低温和高温采样,理解模型为什么会更稳或更发散。

重点:随机性与稳定性

打开演示
History + Latest Input -> Context Window
06

多轮对话记忆

演示历史消息如何逐轮进入上下文,以及为什么对话越长越需要摘要和裁剪。

重点:历史消息与上下文占用

打开演示

RAG / 检索

RAG / 检索

理解向量、召回、分块、重排和阈值,才能看懂知识库为什么有时答得准、有时会偏。

Query -> Retrieve -> Rerank -> Context -> Generate
01

RAG 检索增强生成

演示查询改写、召回、重排、拼接上下文与最终生成的完整流程。

重点:检索链路

打开演示
Text -> Vector -> Similarity -> Clusters
02

Embedding 向量空间

通过二维示意和相似度说明文本如何落入向量空间。

重点:向量空间直觉

打开演示
Document -> Chunk -> Embed -> Retrieve
03

RAG 分块 Chunking 演示

对比大块、适中、小块切分对召回命中的影响,理解为什么 chunk 大小会改变答案质量。

重点:切块粒度与召回质量

打开演示
Retrieve -> Score -> Rerank -> Keep Top Results
04

RAG 重排 Rerank

展示召回结果为什么还要重排,以及最终真正送进模型的片段通常只有少数几条。

重点:召回不等于最终采用

打开演示
Vector Similarity >= Threshold ?
05

Embedding 相似度阈值

通过相似度阈值控制展示为什么“有点像”不等于应该被采纳。

重点:相似度阈值与误召回

打开演示

Agent / 编排

Agent / 编排

关注技能路由、工具调用、结构化输出和安全边界,理解模型如何接近真实系统。

Task -> Skill Match -> Tool Plan -> Structured Output
01

什么是 Skills

把 Skills 理解成给模型的能力模块,演示请求如何被技能路由并转成稳定执行过程。

重点:能力路由与执行规范

打开演示
Task -> Tool -> Result -> Next Action
02

Agent 工具调用演示

展示 Agent 如何理解任务、挑选工具、读取结果并决定下一步,而不是一次性给答案。

重点:工具使用闭环

打开演示
Prompt -> Schema Match -> JSON Arguments
03

Function Calling / JSON 输出

展示模型如何把自然语言请求转成结构化参数,而不是只返回一段描述文字。

重点:结构化输出与参数映射

打开演示
System Rules > User Injection > Guardrails
04

Prompt 注入 / 安全边界

说明为什么 system 指令、权限隔离和工具边界不能只靠模型“自觉遵守”。

重点:安全约束与越权风险

打开演示

工程平台

工程平台

看平台如何处理模型路由、资源分配和质量成本平衡。

Task -> Route Policy -> Best Model
01

模型路由

展示同一个请求为什么会按成本、速度和质量要求被分发给不同模型。

重点:路由策略与成本质量平衡

打开演示

Concepts

基础概念

先理解这些概念,再去看动画,会更容易把模型处理过程和工程限制对应起来。

什么是 Token

Token 是模型处理文本时使用的最小计量单位,不完全等于“一个汉字”或“一个英文单词”。模型会先把输入拆成 token,再进行编码、注意力计算和生成。英文里常常一个词会拆成多个 token,中文里短句也可能按词块或子词切分。理解 token,有助于理解计费、速度和上下文限制。

LLM 上下文长度怎么理解

上下文长度可以理解为模型当前一次能“看见”的总 token 数量,里面同时包含系统提示词、历史对话、用户新输入以及模型生成内容。它不是只算你的提问文本。上下文越长,模型能参考的信息越多,但成本、延迟和注意力分配压力也会增加。

什么是 Skills

Skills 可以理解为给模型预先准备好的能力模块或工作说明。它不只是知识说明,更像一套可复用的操作规范,告诉模型在某类任务里该怎样判断、调用什么工具、遵循什么输出格式。Skills 做得好,模型表现会更稳定,也更接近真正可交付的系统。