一文读懂大模型专业术语

[!info] 阅读指南本文面向希望系统了解大语言模型（LLM）技术体系的读者。所有术语均配有通俗解释、类比说明和可视化图表。建议按顺序阅读，也可通过目录跳转到感兴趣的章节。

[[#一、全局视野：大模型从哪里来，到哪里去]]
[[#二、基础概念篇——先搞懂这些词]]
[[#三、模型架构篇——Transformer 的世界里有什么]]
[[#四、训练流程篇——模型是怎么被「教」出来的]]
[[#五、推理与生成篇——模型是怎么「说话」的]]
[[#六、提示词工程篇——如何跟模型高效沟通]]
[[#七、微调与高效训练篇——如何低成本定制模型]]
[[#八、检索增强与智能体篇——给模型装上「外挂」]]
[[#九、评估与安全篇——怎么判断模型好不好]]
[[#十、部署与优化篇——模型怎么上线服务]]
[[#十一、前沿方向篇——未来在发生什么]]

一、全局视野：大模型从哪里来，到哪里去

在深入每个术语之前，先建立全局观。下面这张图展示了一个大模型从「诞生」到「上岗」的完整生命周期：

flowchart TD
    A["<b>1. 数据收集</b><br>网页 / 书籍 / 代码 / 论文"]
    B["<b>2. 分词处理</b><br>Tokenization"]
    C["<b>3. 预训练</b><br>Pre-training"]
    D["<b>4. 监督微调</b><br>SFT"]
    E["<b>5. 对齐训练</b><br>RLHF / DPO"]
    F["<b>6. 部署推理</b><br>Deployment"]
    G["<b>7. 应用层</b><br>Chat / RAG / Agent"]

    A -->|"清洗去重 / 质量过滤"| B
    B -->|"BPE / SentencePiece"| C
    C -->|"产出 Base Model 基座模型"| D
    D -->|"产出 SFT Model 微调模型"| E
    E -->|"产出 Aligned Model 对齐模型"| F
    F -->|"量化 / 推理优化 / API"| G

    style A fill:#a5d8ff,stroke:#1971c2,color:#000
    style B fill:#d0bfff,stroke:#7048e8,color:#000
    style C fill:#b2f2bb,stroke:#2f9e44,color:#000
    style D fill:#ffd8a8,stroke:#e8590c,color:#000
    style E fill:#ffc9c9,stroke:#e03131,color:#000
    style F fill:#c3fae8,stroke:#099268,color:#000
    style G fill:#fff3bf,stroke:#e67700,color:#000

下面我们按照这条流水线，逐环节拆解其中的核心术语。

二、基础概念篇——先搞懂这些词

2.1 Token（词元）

一句话解释：Token 是模型处理文本的最小单位，可以粗略理解为「分词后的一个片段」。

Token 不是字，也不是词，而是介于两者之间的一种单位。不同模型的分词方式不同：

英文中："unbelievable" 可能被分为 ["un", "believ", "able"] 三个 Token
中文里："大语言模型" 可能被分为 ["大", "语言", "模型"] 或 ["大语", "言", "模型"]，取决于分词器

flowchart LR
    A["原始文本"] --> B["分词器 Tokenizer"]
    B --> C["Token 序列"]
    D["'Hello, 你好世界'"] --> E["分词"]
    E --> F["[Hello] [,] [▁你] [好] [世界]"]
    F --> G["[15496] [11] [29871] [29961] [30360]"]
    G --> H["Token IDs"]
    style A fill:#e8f4f8,stroke:#333
    style C fill:#b2f2bb,stroke:#333
    style H fill:#ffd8a8,stroke:#333

[!tip] 经验法则 1 个中文字 ≈ 1~2 个 Token；1 个英文单词 ≈ 1~1.5 个 Token。 GPT-4 的 Tokenizer 中，100 Token 大约对应 75 个英文单词或 50 个中文字。

2.2 Embedding（嵌入 / 向量表示）

一句话解释：Embedding 把每个 Token 映射成一个高维数字向量，让模型能够「理解」词语之间的语义关系。

把词语想象成地图上的点——语义相近的词在地图上距离也近。

graph TD
    subgraph 词向量空间
        K1["国王 👑"] --- K2["女王 👑"]
        K1 --- K3["男人"]
        K2 --- K4["女人"]
        A1["苹果 🍎"] --- A2["香蕉 🍌"]
        A1 --- A3["水果"]
    end
    K1 -. "向量运算<br>国王 - 男人 + 女人 ≈ 女王" .-> K2

Embedding 的维度通常在 768 到 12288 之间，取决于模型大小。这些数字本身没有直观含义，但它们编码了丰富的语义信息。

2.3 Parameters（参数量）

一句话解释：Parameters 是模型内部的「旋钮」，训练过程就是调整数十亿个旋钮，让模型的输出越来越准确。

模型规模	参数量级	类比
小模型	< 1B（十亿）	一个小学生的知识量
中模型	1B ~ 10B	一个大学生的知识量
大模型	10B ~ 100B	一个专家团队的知识量
超大模型	100B+	整个研究院的集体智慧

常见的参数量表示法：

B = Billion = 十亿（如 7B = 70 亿参数）
M = Million = 百万
T = Trillion = 万亿（目前尚未有单个模型达到）

2.4 Context Window（上下文窗口）

一句话解释：Context Window 是模型一次能「看到」的文本长度上限，好比一个人的「工作记忆」容量。

flowchart LR
    subgraph 上下文窗口
        direction LR
        P["之前的对话"] --> Q["当前问题"] --> A["模型生成的回答"]
    end
    style P fill:#e8f4f8,stroke:#333
    style Q fill:#ffd8a8,stroke:#333
    style A fill:#b2f2bb,stroke:#333

模型	上下文窗口
GPT-3.5	4K / 16K Token
GPT-4o	128K Token
Claude 3.5	200K Token
Gemini 1.5 Pro	1M ~ 2M Token
Kimi / 通义千问	最高支持 200K+

[!note] 注意上下文窗口越大 ≠ 效果越好。模型对超长文本中间部分的信息容易「遗忘」，这被称为 Lost in the Middle 效应。

2.5 Vocabulary（词表）

一句话解释：Vocabulary 是分词器能识别的所有 Token 的集合，相当于模型的「字典」。

GPT-4 的词表大小约 100,278 个 Token（BPE 分词）
LLaMA 3 的词表大小为 128,256 个 Token
词表越大，对多语言和特殊符号的支持通常越好

三、模型架构篇——Transformer 的世界里有什么

3.1 Transformer

一句话解释：Transformer 是当前几乎所有大模型的「心脏」——一种基于注意力机制的神经网络架构，2017 年由 Google 在论文《Attention Is All You Need》中提出。

flowchart TB
    subgraph Transformer 架构
        direction TB
        I["输入 Embedding<br>+ 位置编码"] --> E1["Encoder 编码器<br>×N 层"]
        E1 --> O["输出表示"]
        I2["输出 Embedding<br>+ 位置编码"] --> D1["Decoder 解码器<br>×N 层"]
        D1 --> OUT["最终输出"]
        O --> D1
    end
    style I fill:#a5d8ff,stroke:#333
    style I2 fill:#d0bfff,stroke:#333
    style E1 fill:#b2f2bb,stroke:#333
    style D1 fill:#ffd8a8,stroke:#333
    style OUT fill:#ffc9c9,stroke:#333

Transformer 的发展分出两条主线：

路线	代表模型	特点
Encoder-Only	BERT、RoBERTa	只用编码器，擅长理解任务（分类、抽取）
Decoder-Only	GPT 系列、LLaMA	只用解码器，擅长生成任务（对话、写作）
Encoder-Decoder	T5、BART	两者都用，擅长序列到序列任务（翻译、摘要）

当前主流大模型（GPT-4、Claude、Gemini、DeepSeek）几乎全部采用 Decoder-Only 架构。

3.2 Self-Attention（自注意力机制）

一句话解释：Self-Attention 让模型在处理一个词时，能够「回头看看」句子中所有其他词，决定每个词对自己有多重要。

flowchart LR
    subgraph 句子: "猫坐在垫子上，因为它很暖和"
        C["猫"] -->|"强关注"| I["它"]
        D["垫子"] -->|"强关注"| I
        Z["坐"] -->|"弱关注"| I
    end
    I["'它'指的是谁？<br>→ 猫 or 垫子？"]
    style I fill:#ffc9c9,stroke:#e03131
    style C fill:#a5d8ff,stroke:#333
    style D fill:#b2f2bb,stroke:#333

Attention 计算的核心公式：Attention(Q, K, V) = softmax(QK^T / √d) × V

用通俗的话说：

Q（Query）：当前词发出的「查询」——「我在找什么信息？」
K（Key）：每个词提供的「标签」——「我能提供什么信息？」
V（Value）：每个词包含的「内容」——「我的具体信息是什么？」

3.3 Multi-Head Attention（多头注意力）

一句话解释：Multi-Head Attention = 多组 Q/K/V 同时计算注意力，让模型从不同角度理解文本。

类比：就像读书时有 8 个人同时阅读，每个人关注不同方面（有人关注语法，有人关注情感，有人关注逻辑），最后把所有人的理解汇总。

3.4 Positional Encoding（位置编码）

一句话解释：因为 Transformer 本身没有「顺序」概念，Positional Encoding 给每个 Token 贴上「位置标签」，让模型知道词的先后顺序。

主流位置编码方案：

方案	使用者	特点
正弦编码	原始 Transformer	固定的数学函数
RoPE（旋转位置编码）	LLaMA、Qwen	支持外推，目前最主流
ALiBi	BLOOM、MPT	通过距离惩罚实现位置感知

3.5 FFN / MLP（前馈网络）

一句话解释：每一层 Transformer 中，Attention 机制负责「收集信息」，FFN / MLP 负责「加工存储信息」——可以理解为模型的「记忆模块」。

近年来 FFN 也发展出了多种变体：

GLU（Gated Linear Unit）：引入门控机制，提升性能（SwiGLU 是目前最流行的激活函数）
MoE（Mixture of Experts）：把一个大 FFN 拆成多个小 FFN（专家），每次只激活少数几个（详见 [[#7.5 MoE（混合专家模型）]]）

四、训练流程篇——模型是怎么被「教」出来的

4.1 Pre-training（预训练）

一句话解释：Pre-training 就是让模型「博览群书」——用海量无标注文本让模型学会预测下一个 Token。

这是整个训练过程中最耗资源的阶段：

flowchart LR
    A["万亿级文本数据<br>网页/书籍/代码/论文"] --> B["Next Token Prediction<br>下一 Token 预测"]
    B --> C["基座模型<br>Base Model"]
    C --> D["能力：续写文本<br>但不能对话"]
    style A fill:#a5d8ff,stroke:#333
    style C fill:#b2f2bb,stroke:#333
    style D fill:#fff3bf,stroke:#333

训练目标：给定前面的 Token，预测下一个 Token 的概率分布。

关键数字参考：

GPT-3：300B Token 训练数据
LLaMA 2：2T Token
LLaMA 3：15T+ Token

4.2 SFT（Supervised Fine-Tuning，监督微调）

一句话解释：预训练后的模型只会「续写」，SFT 教它学会「听指令、给回答」。

flowchart LR
    A["基座模型<br>只会续写"] --> B["指令-回答配对数据<br>约 1~10 万条"]
    B --> C["SFT 模型<br>能听懂指令"]
    style A fill:#b2f2bb,stroke:#333
    style C fill:#ffd8a8,stroke:#333

SFT 数据示例：

用户: 请用三句话介绍太阳系。
助手: 太阳系是以太阳为中心的行星系统，包含八大行星。
地球是太阳系中第三颗行星，也是目前唯一已知存在生命的星球。
木星是太阳系中最大的行星，其质量超过其他所有行星的总和。

4.3 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）

一句话解释：RLHF 让模型学会「什么回答更好」——通过人类偏好评分来训练一个奖励模型，再用强化学习优化大模型。

flowchart TB
    subgraph 第一步：训练奖励模型
        P["同一问题的多个回答"] --> H["人类标注偏好<br>A > B > C"]
        H --> RM["奖励模型<br>Reward Model"]
    end
    subgraph 第二步：强化学习优化
        SFT["SFT 模型"] --> G["生成回答"]
        G --> RM
        RM --> R["给出奖励分数"]
        R --> UP["更新模型策略<br>PPO 算法"]
    end
    style RM fill:#ffc9c9,stroke:#e03131
    style SFT fill:#ffd8a8,stroke:#333

4.4 DPO（Direct Preference Optimization，直接偏好优化）

一句话解释：DPO 是 RLHF 的简化版——跳过奖励模型，直接用人类偏好数据优化大模型，训练更简单更稳定。

对比项	RLHF	DPO
是否需要奖励模型	需要	不需要
训练复杂度	高（需要 4 个模型）	低（只需 1 个模型）
稳定性	需要仔细调参	更稳定
效果	成熟可靠	已接近甚至超越 RLHF

DPO 的出现（2023 年）大大降低了训练对齐模型的门槛。之后又涌现出许多变体：

IPO：更稳健的偏好优化
KTO：只需要好/坏标签，不需要成对偏好
ORPO：将 SFT 和偏好优化合二为一
SimPO：简化 DPO，无需参考模型

4.5 PPO（Proximal Policy Optimization，近端策略优化）

一句话解释：PPO 是 RLHF 中使用的强化学习算法，负责根据奖励分数更新模型参数，同时防止更新幅度过大导致模型「崩溃」。

五、推理与生成篇——模型是怎么「说话」的

5.1 自回归生成（Autoregressive Generation）

一句话解释：Autoregressive Generation 是大模型生成文本的方式——「一个一个 Token 往后蹦」，每次根据前面所有的 Token，预测下一个最可能的 Token。

flowchart LR
    T1["今天"] --> T2["天气"]
    T2 --> T3["真"]
    T3 --> T4["好"]
    T4 --> T5["，"]
    T5 --> T6["适合"]
    T6 --> T7["..."]

    subgraph 每一步
        C["已知: 今天天气真"] --> P["预测概率分布"]
        P --> N["下一个: 好"]
    end
    style T1 fill:#a5d8ff,stroke:#333
    style T7 fill:#ffc9c9,stroke:#e03131

5.2 Temperature（温度）

一句话解释：Temperature 控制模型生成的「创造性」——温度越低越保守精确，温度越高越天马行空。

flowchart LR
    T0["Temperature = 0<br>确定性输出<br>每次结果相同"] --> T05["Temperature = 0.5<br>较保守<br>适合编程/分析"]
    T05 --> T1["Temperature = 1.0<br>默认值<br>平衡创造与准确"]
    T1 --> T15["Temperature = 1.5<br>较发散<br>适合头脑风暴"]
    T15 --> T2["Temperature = 2.0<br>非常随机<br>可能语无伦次"]
    style T0 fill:#a5d8ff,stroke:#333
    style T1 fill:#b2f2bb,stroke:#333
    style T2 fill:#ffc9c9,stroke:#e03131

数学原理：温度 T 作用于 softmax 函数 softmax(logits / T)。T 越小，概率分布越尖锐（集中于高概率选项）；T 越大，概率分布越平坦（各选项概率趋于平均）。

5.3 Top-K 采样

一句话解释：Top-K 就是只从概率最高的 K 个 Token 中随机选一个，其余的全部忽略。

例如 Top-K = 50，意味着每一步只在排名前 50 的候选 Token 中采样。

5.4 Top-P（Nucleus Sampling，核采样）

一句话解释：Top-P（Nucleus Sampling） 不是选固定个数，而是选概率之和刚好超过 P 的那些 Token。

flowchart TB
    subgraph "Top-P = 0.9 示例"
        direction LR
        A["Token A: 40%"] --> B["Token B: 25%"]
        B --> C["Token C: 15%"]
        C --> D["Token D: 12%"]
        D --> E["累积: 92% > 90% → 停止"]
        F["Token E: 5%"] --> G["Token F: 3%<br>被排除"]
    end
    style A fill:#b2f2bb,stroke:#333
    style B fill:#b2f2bb,stroke:#333
    style C fill:#b2f2bb,stroke:#333
    style D fill:#b2f2bb,stroke:#333
    style F fill:#ffc9c9,stroke:#e03131
    style G fill:#ffc9c9,stroke:#e03131

实际使用中，通常 同时设置 Top-K 和 Top-P，取两者的交集。

5.5 KV Cache（键值缓存）

一句话解释：KV Cache 把之前算过的注意力 Key 和 Value 缓存起来，避免每生成一个新 Token 都重新计算全部历史——这是推理加速的关键技术。

flowchart LR
    subgraph 无 KV Cache
        A1["生成第 1 个 Token<br>计算 1 次"] --> A2["生成第 2 个<br>重新计算 1+2"]
        A2 --> A3["生成第 3 个<br>重新计算 1+2+3"]
        A3 --> A4["计算量: O(n²)"]
    end
    subgraph 有 KV Cache
        B1["生成第 1 个 Token<br>计算并缓存 KV"] --> B2["生成第 2 个<br>只算新的 + 复用缓存"]
        B2 --> B3["生成第 3 个<br>只算新的 + 复用缓存"]
        B3 --> B4["计算量: O(n)"]
    end
    style A4 fill:#ffc9c9,stroke:#e03131
    style B4 fill:#b2f2bb,stroke:#333

5.6 Speculative Decoding（投机解码）

一句话解释：Speculative Decoding 用一个小模型「打草稿」生成多个 Token，然后让大模型一次性验证这些 Token 是否正确，从而加速推理。

5.7 Beam Search（束搜索）

一句话解释：Beam Search 是每一步保留概率最高的 N 条候选路径（beam），最终选择总概率最高的完整序列。比贪心搜索更全局最优，但比采样更确定。

5.8 Reasoning / Thinking Tokens（推理 / 思考 Token）

一句话解释：Reasoning Tokens 是模型在给出最终回答前「内心独白」的中间步骤，用户通常看不到但会计入 Token 消耗。

这是 OpenAI o1/o3、DeepSeek-R1 等推理模型引入的新概念。模型先「思考」（生成推理链），再输出答案。

flowchart TB
    subgraph 传统模型
        Q1["问题: 13×17=?"] --> A1["直接: 221"]
    end
    subgraph 推理模型
        Q2["问题: 13×17=?"]
        Q2 --> S1["<i>思考</i><br>拆解: 13×(10+7)"]
        S1 --> S2["<i>思考</i><br>计算: 13×10=130"]
        S2 --> S3["<i>思考</i><br>计算: 13×7=91"]
        S3 --> S4["<i>思考</i><br>求和: 130+91=221"]
        S4 --> A2["最终: 221"]
    end
    style Q1 fill:#a5d8ff,stroke:#333
    style Q2 fill:#a5d8ff,stroke:#333
    style S1 fill:#ffd8a8,stroke:#e67700
    style S2 fill:#ffd8a8,stroke:#e67700
    style S3 fill:#ffd8a8,stroke:#e67700
    style S4 fill:#ffd8a8,stroke:#e67700

六、提示词工程篇——如何跟模型高效沟通

6.1 Prompt（提示词）

一句话解释：Prompt 就是你发给模型的输入文本——你的问题、指令或任何需要模型处理的内容。

6.2 System Prompt（系统提示词）

一句话解释：System Prompt 是在对话开始前预设的「人设」和「规则」，告诉模型应该扮演什么角色、遵循什么约束。

System: 你是一位资深 Python 工程师。回答要简洁、给出代码示例，避免冗长解释。
User: 如何读取 CSV 文件？

6.3 Zero-shot（零样本）

一句话解释：Zero-shot 是不给任何示例，直接让模型完成任务。

用户：请将以下文本翻译为英文：今天天气真好。

6.4 Few-shot（少样本）

一句话解释：Few-shot 是在 Prompt 中给几个示例，让模型「照猫画虎」。

用户：
苹果 → 水果
白菜 → 蔬菜
牛肉 → ？

6.5 Chain-of-Thought（CoT，思维链）

一句话解释：Chain-of-Thought（CoT） 让模型「一步一步思考」，把推理过程展示出来，而不是直接给答案。

flowchart LR
    Q["问题"] --> S1["步骤 1<br>理解问题"]
    S1 --> S2["步骤 2<br>分解子问题"]
    S2 --> S3["步骤 3<br>逐步求解"]
    S3 --> S4["步骤 4<br>验证结果"]
    S4 --> A["最终答案"]
    style Q fill:#a5d8ff,stroke:#333
    style A fill:#b2f2bb,stroke:#333

经典的触发方式：在 Prompt 末尾加上 Let's think step by step.

6.6 Tree-of-Thought（ToT，思维树）

一句话解释：Tree-of-Thought（ToT） 是 CoT 的升级版——不是一条线思考，而是生成多条推理路径，像树一样展开，然后评估选择最优路径。

6.7 ReAct（Reasoning + Acting）

一句话解释：ReAct 让模型交替进行「思考推理」和「采取行动（调用工具）」，边想边做。

sequenceDiagram
    participant U as 用户
    participant M as 模型
    participant T as 工具

    U->>M: 北京今天适合出游吗？
    M->>M: 思考：我需要查询北京天气
    M->>T: 调用天气 API（北京）
    T-->>M: 晴，25°C，微风
    M->>M: 思考：天气条件很好，可以推荐
    M->>U: 北京今天晴天25°C，非常适合出游！建议去...

七、微调与高效训练篇——如何低成本定制模型

7.1 Fine-tuning（微调）

一句话解释：Fine-tuning（微调） 是在预训练模型的基础上，用特定领域的数据继续训练，让模型在目标任务上表现更好。

7.2 LoRA（Low-Rank Adaptation，低秩适配）

一句话解释：LoRA 不修改原始模型参数，而是旁边挂一个「小插件」（低秩矩阵），只训练这个小插件即可实现微调。

flowchart TB
    subgraph 原始权重 W（冻结不训练）
        W["W ∈ R^d×d<br>参数量: d×d"]
    end
    subgraph LoRA 旁路（只训练这部分）
        A["A ∈ R^d×r"] --> B["B ∈ R^r×d"]
        R["r << d<br>例如 r=8, d=4096"]
    end
    subgraph 计算过程
        X["输入 x"] --> M["xW + xAB"]
        M --> O["输出"]
    end
    style W fill:#a5d8ff,stroke:#333
    style A fill:#b2f2bb,stroke:#333
    style B fill:#b2f2bb,stroke:#333

对比	全量微调	LoRA 微调
可训练参数	100%	通常 < 1%
显存需求	极高	低很多
训练速度	慢	快
效果	最佳	接近全量微调
多任务切换	需要多份完整模型	只需切换小插件

7.3 QLoRA（量化 LoRA）

一句话解释：QLoRA = 量化 + LoRA。先把模型量化到 4-bit，再用 LoRA 微调，进一步降低显存需求。

用 QLoRA 可以在单张 24GB 显存的消费级 GPU 上微调 70B 参数的模型。

7.4 量化（Quantization）

一句话解释：Quantization 把模型参数从高精度（如 16-bit 浮点数）压缩到低精度（如 4-bit 整数），用少量精度损失换取大幅的显存和速度优化。

flowchart LR
    FP16["FP16<br>16 位浮点<br>模型默认精度"] --> BF16["BF16<br>16 位浮点<br>训练更稳定"]
    FP16 --> INT8["INT8<br>8 位整数<br>体积减半"]
    INT8 --> INT4["INT4<br>4 位整数<br>体积为 1/4"]
    INT4 --> FP8["FP8 / NF4<br>4/8 位新格式<br>精度损失更小"]

    style FP16 fill:#a5d8ff,stroke:#333
    style INT4 fill:#b2f2bb,stroke:#333

常见量化方案：

GPTQ：训练后量化，适合推理
AWQ：保护重要权重的量化，精度更好
GGUF：llama.cpp 使用的量化格式，支持 CPU 推理
Bitsandbytes：与 QLoRA 配合使用的量化库

7.5 MoE（Mixture of Experts，混合专家模型）

一句话解释：MoE 把一个大模型拆成多个「专家」（小型 FFN），每次推理只激活少数几个专家，用「大模型的总参数」但只需「小模型的计算量」。

flowchart TB
    I["输入 Token"] --> R["路由器 / Gate<br>决定激活哪些专家"]
    R --> E1["专家 1<br>擅长语法"]
    R --> E3["专家 3<br>擅长逻辑"]
    R --> E7["专家 7<br>擅长代码"]
    E1 --> O["加权求和输出"]
    E3 --> O
    E7 --> O

    R -.-x E2["专家 2"]
    R -.-x E4["专家 4"]
    R -.-x E5["专家 5"]
    R -.-x E6["专家 6"]
    R -.-x E8["专家 8"]

    style I fill:#a5d8ff,stroke:#333
    style R fill:#ffd8a8,stroke:#333
    style O fill:#b2f2bb,stroke:#333

模型	总参数	激活参数	专家数
Mixtral 8x7B	46.7B	12.9B	8
DeepSeek-V3	671B	37B	256
Qwen2.5-Max	未公开	未公开	MoE 架构

MoE 是 2024-2025 年最重要的架构趋势之一，让模型在保持高性能的同时大幅降低推理成本。

7.6 知识蒸馏（Knowledge Distillation）

一句话解释：Knowledge Distillation = 用一个大模型（教师）来训练一个小模型（学生），让小模型学到接近大模型的能力。

flowchart LR
    T["教师模型<br>如 GPT-4<br>175B 参数"] -->|"生成数据/软标签"| S["学生模型<br>如 MiniCPM<br>2B 参数"]
    S --> R["最终效果：<br>小模型获得<br>接近大模型的能力"]
    style T fill:#a5d8ff,stroke:#333
    style S fill:#b2f2bb,stroke:#333

八、检索增强与智能体篇——给模型装上「外挂」

8.1 RAG（Retrieval-Augmented Generation，检索增强生成）

一句话解释：RAG 就是让模型在回答问题前，先从外部知识库中搜索相关资料，然后基于检索到的资料来生成回答——解决模型知识过时和幻觉问题。

flowchart TB
    Q["用户提问"] --> R["检索器<br>从知识库搜索"]
    KB["外部知识库<br>文档/网页/数据库"] --> R
    R --> C["将检索结果拼入 Prompt"]
    C --> M["大模型<br>基于检索内容生成"]
    M --> A["回答"]
    style Q fill:#a5d8ff,stroke:#333
    style KB fill:#d0bfff,stroke:#333
    style M fill:#b2f2bb,stroke:#333
    style A fill:#ffd8a8,stroke:#333

RAG 的典型流程：

文档切片：把长文档切成小段（Chunk）
向量化：用 Embedding 模型将每段变成向量
存入向量数据库：如 FAISS、Milvus、Chroma、Qdrant
检索：用户问题也向量化，计算相似度，取最相关的几段
生成：将检索到的内容拼入 Prompt，让模型据此回答

[!tip] RAG vs 微调

需要频繁更新知识 → 选 RAG（实时检索）

需要改变模型风格/格式 → 选微调（改变行为）

两者可以结合使用

8.2 Vector Database（向量数据库）

一句话解释：Vector Database 是专门存储和高效检索高维向量的数据库，是 RAG 系统的核心基础设施。

常见向量数据库：FAISS（Meta）、Milvus、Pinecone、Weaviate、Chroma、Qdrant、pgvector

8.3 Agent（智能体）

一句话解释：Agent 是能够自主感知环境、制定计划、调用工具、执行任务的大模型系统——不只是「问答」，而是「做事」。

flowchart TB
    U["用户目标"] --> P["规划 Planner<br>拆解为子任务"]
    P --> L["执行循环"]
    L --> T1["调用搜索工具"]
    L --> T2["调用代码解释器"]
    L --> T3["调用 API"]
    L --> T4["调用数据库"]
    T1 --> R["观察结果"]
    T2 --> R
    T3 --> R
    T4 --> R
    R --> D{"任务完成？"}
    D -->|否| L
    D -->|是| F["输出最终结果"]
    style U fill:#a5d8ff,stroke:#333
    style P fill:#ffd8a8,stroke:#333
    style F fill:#b2f2bb,stroke:#333

Agent 的核心组件：

Planning（规划）：将复杂任务拆解为步骤
Tool Use（工具使用）：调用外部 API、搜索、代码执行等
Memory（记忆）：短期记忆（上下文）和长期记忆（向量存储）
Reflection（反思）：评估自己的输出，决定是否调整策略

8.4 Function Calling（函数调用 / 工具调用）

一句话解释：Function Calling 让模型能够输出结构化的「调用请求」，触发预定义的外部函数——是 Agent 调用工具的基础机制。

// 模型输出：
{
  "function": "get_weather",
  "arguments": {"city": "北京", "date": "2026-04-08"}
}

8.5 MCP（Model Context Protocol，模型上下文协议）

一句话解释：MCP 是 Anthropic 在 2024 年底推出的开放协议，标准化了模型与外部工具/数据源的连接方式——好比 AI 世界的「USB 接口」。

flowchart LR
    M["大模型<br>Claude / GPT"] -->|"MCP 协议"| S["MCP Server"]
    S --> F["文件系统"]
    S --> D["数据库"]
    S --> G["GitHub"]
    S --> W["Web 搜索"]
    style M fill:#a5d8ff,stroke:#333
    style S fill:#ffd8a8,stroke:#333

8.6 A2A（Agent-to-Agent，智能体间通信协议）

一句话解释：A2A 是 Google 在 2025 年推出的协议，让不同的 Agent 之间能够互相发现、通信和协作。

九、评估与安全篇——怎么判断模型好不好

9.1 Benchmark（基准测试）

一句话解释：Benchmark 是标准化的考试题集，用于公平比较不同模型的能力。

Benchmark	考察方向	说明
MMLU	综合知识	57 个学科的多选题
HumanEval	代码能力	Python 编程题
GSM8K	数学推理	小学应用题
MATH	高等数学	竞赛级数学题
GPQA	专家知识	博士级问题
MT-Bench	对话质量	多轮对话评分
MMLU-Pro	综合知识（进阶）	更难版 MMLU
LiveCodeBench	代码（实时）	持续更新的编程测试

9.2 Hallucination（幻觉）

一句话解释：Hallucination 是指模型「一本正经地胡说八道」——生成看似合理但实际错误或虚构的内容。

flowchart LR
    Q["用户：李白是宋朝人吗？"] --> M["模型"]
    M --> A["错误回答：是的，李白是宋朝著名诗人<br>❌ 这是幻觉"]
    M --> B["正确回答：不是，李白是唐朝诗人<br>✓"]
    style A fill:#ffc9c9,stroke:#e03131
    style B fill:#b2f2bb,stroke:#333

幻觉的常见类型：

事实性幻觉：编造不存在的事实
引用幻觉：虚构论文、书籍或链接
推理幻觉：逻辑链中的错误跳步

缓解方法：RAG 检索、事实核查工具、降低 Temperature、让模型标注不确定性

9.3 Alignment（对齐）

一句话解释：Alignment 是指让模型的行为符合人类的价值观和期望——不仅要说得对，还要说得安全、有用、诚实。

三个核心目标（3H）：

Helpful（有用）：真正帮助用户解决问题
Honest（诚实）：不撒谎、不编造
Harmless（无害）：不输出危险、有害内容

9.4 Red Teaming（红队测试）

一句话解释：Red Teaming 是组织一批测试人员故意「刁难」模型，尝试让它输出有害内容，以发现和修复安全漏洞。

9.5 Safety Guardrails（安全护栏）

一句话解释：Safety Guardrails 是在模型的输入和输出端设置过滤机制，阻止有害请求和不当输出——好比「安全带」和「刹车」。

常见实现方式：

输入过滤器：检测并拒绝有害请求
输出过滤器：检查生成内容是否安全
Constitutional AI：让模型根据预设原则自我审查

十、部署与优化篇——模型怎么上线服务

10.1 Inference（推理）

一句话解释：Inference（推理） 是「应用」——用训练好的模型对新的输入生成输出的过程（训练是「学习」）。

10.2 PagedAttention

一句话解释：PagedAttention 借鉴操作系统的虚拟内存分页机制来管理 KV Cache，减少显存碎片，大幅提升推理吞吐量——是 vLLM 的核心创新。

10.3 主流推理框架

框架	开发者	特点
vLLM	UC Berkeley	PagedAttention，高吞吐，部署简单
TensorRT-LLM	NVIDIA	GPU 极致优化，支持 FP8
llama.cpp	Georgi Gerganov	纯 C++，CPU/GPU 混合推理
Ollama	Ollama 团队	llama.cpp 封装，一键本地部署
SGLang	UC Berkeley	结构化生成，编程式控制
TGI	HuggingFace	HuggingFace 官方推理服务器
MLC-LLM	CMU	编译优化，支持手机端部署

10.4 TTFT / TPOT / Throughput

指标	全称	含义
TTFT	Time To First Token	从发出请求到收到第一个 Token 的时间
TPOT	Time Per Output Token	每生成一个 Token 所需的时间
Throughput	吞吐量	每秒能处理的 Token 总数
Latency	延迟	从请求到完整响应的总时间

10.5 Continuous Batching（连续批处理）

一句话解释：Continuous Batching 不同于传统的「等一批请求全部处理完才接收新请求」，在有请求完成时立刻插入新请求，充分复用 GPU 资源。

10.6 Serving 部署架构

flowchart TB
    U["用户请求"] --> LB["负载均衡<br>nginx / envoy"]
    LB --> G1["推理实例 1<br>vLLM + GPU A"]
    LB --> G2["推理实例 2<br>vLLM + GPU B"]
    LB --> G3["推理实例 3<br>vLLM + GPU C"]
    G1 --> Q["队列 / 调度器"]
    G2 --> Q
    G3 --> Q
    Q --> R["响应返回"]
    style U fill:#a5d8ff,stroke:#333
    style LB fill:#ffd8a8,stroke:#333
    style R fill:#b2f2bb,stroke:#333

十一、前沿方向篇——未来在发生什么

11.1 多模态（Multimodal）

一句话解释：Multimodal 模型能同时理解文本、图像、音频、视频等多种输入，实现「看图说话」、「听音识意」等能力。

flowchart TB
    subgraph 输入模态
        TXT["文本"]
        IMG["图像"]
        AUD["音频"]
        VID["视频"]
    end
    subgraph 多模态模型
        MM["统一理解与生成"]
    end
    TXT --> MM
    IMG --> MM
    AUD --> MM
    VID --> MM
    MM --> OUT["输出：文本/图像/音频"]
    style MM fill:#d0bfff,stroke:#333

代表模型：GPT-4o、Gemini 2.0、Claude 3.5 Sonnet、Qwen-VL

11.2 长上下文（Long Context）

一句话解释：Long Context 是通过技术手段（如稀疏注意力、分块处理）将上下文窗口扩展到百万 Token 级别，让模型能一次「读完」整本书。

关键技术：

RoPE 外推：通过调整旋转角度扩展位置编码范围
YaRN：Yet another RoPE extensioN，高效外推方法
Ring Attention：分布式长序列处理
Mamba / SSM：状态空间模型，天然支持长序列

11.3 推理模型（Reasoning Models）

一句话解释：Reasoning Models（如 OpenAI o1/o3、DeepSeek-R1）在回答前会进行大量「内部思考」，显著提升数学、编程和复杂推理能力。

flowchart TB
    subgraph 传统模型
        Q1["问题: 解方程 x²-5x+6=0"] --> A1["直接: x=2 或 x=3"]
    end
    subgraph 推理模型
        Q2["问题: 解方程 x²-5x+6=0"]
        Q2 --> S1["<i>思考</i><br>判别式: Δ=b²-4ac"]
        S1 --> S2["<i>思考</i><br>计算: Δ=(-5)²-4×1×6=1"]
        S2 --> S3["<i>思考</i><br>公式: x=(5±1)/2"]
        S3 --> S4["<i>思考</i><br>结果: x₁=3, x₂=2"]
        S4 --> A2["最终: x=2 或 x=3"]
    end
    style Q1 fill:#a5d8ff,stroke:#333
    style Q2 fill:#a5d8ff,stroke:#333
    style S1 fill:#ffd8a8,stroke:#e67700
    style S2 fill:#ffd8a8,stroke:#e67700
    style S3 fill:#ffd8a8,stroke:#e67700
    style S4 fill:#ffd8a8,stroke:#e67700

11.4 SSM（State Space Model，状态空间模型）

一句话解释：SSM 是 Transformer 的潜在替代架构（代表：Mamba），通过维护固定大小的隐状态来处理序列，计算复杂度是线性的而非二次的。

11.5 合成数据（Synthetic Data）

一句话解释：Synthetic Data 是用大模型生成的数据来训练另一个大模型——「AI 训练 AI」。

[!warning] 模型坍缩如果完全依赖 AI 生成的数据来训练新模型，经过多轮迭代后，模型输出会逐渐退化，失去多样性——这被称为 Model Collapse（模型坍缩）。

11.6 推理时计算（Inference-Time Compute / Test-Time Compute）

一句话解释：Inference-Time Compute 是不增加模型参数，而是在推理时给模型更多「思考时间」来提升回答质量。这是 2024-2025 年最重要的新范式之一。

传统思路：想要更好的结果 → 训练更大的模型新思路：想要更好的结果 → 给模型更多的推理计算预算

11.7 On-Device LLM（端侧大模型）

一句话解释：On-Device LLM 是将大模型部署在手机、电脑等终端设备上运行，无需联网，保护隐私。

代表模型：Apple On-Device Model、Qwen2.5-1.5B、Phi-3-mini、MiniCPM

附录：术语速查表

英文术语	中文	一句话释义
Token	词元	模型处理文本的最小单位
Embedding	嵌入/向量	将文本转为数字向量表示
Transformer	变换器	大模型的核心神经网络架构
Attention	注意力	模型「关注」输入中哪些部分
Pre-training	预训练	海量数据上学习基础知识
SFT	监督微调	用指令数据教模型听指令
RLHF	人类反馈强化学习	用人类偏好优化模型
DPO	直接偏好优化	简化版 RLHF
LoRA	低秩适配	只训练少量参数的微调方法
Quantization	量化	压缩模型精度以降低资源消耗
MoE	混合专家	只激活部分参数的高效架构
RAG	检索增强生成	结合外部知识库的回答
Agent	智能体	能自主使用工具的 AI 系统
Hallucination	幻觉	模型编造虚假内容
KV Cache	键值缓存	缓存注意力计算结果加速推理
CoT	思维链	让模型展示推理过程
Temperature	温度	控制输出随机性的参数
Top-K	Top-K 采样	只从概率最高的 K 个中选
Top-P	核采样	选概率累积到 P 的那些
Context Window	上下文窗口	模型一次能处理的最大文本长度
Fine-tuning	微调	在特定数据上继续训练
Distillation	蒸馏	大模型教小模型
Benchmark	基准测试	标准化能力测试
MCP	模型上下文协议	AI 连接工具的标准化协议
TTFT	首 Token 延迟	收到第一个 Token 的时间
Speculative Decoding	投机解码	小模型打草稿 + 大模型验证
PagedAttention	分页注意力	高效管理 KV Cache 的技术
Function Calling	函数调用	模型调用外部工具的机制
Alignment	对齐	让模型符合人类价值观
Red Teaming	红队测试	主动攻击测试模型安全性

[!quote] 结语大模型技术发展日新月异，新的术语和概念层出不穷。本文力求覆盖当前最核心的知识体系，但技术迭代不可避免地会使部分内容过时。建议读者保持学习，关注最新的论文和社区动态。

最后更新：2026 年 4 月