Skip to the content.

一文读懂大模型专业术语

[!info] 阅读指南 本文面向希望系统了解大语言模型(LLM)技术体系的读者。所有术语均配有通俗解释、类比说明和可视化图表。建议按顺序阅读,也可通过目录跳转到感兴趣的章节。

目录


一、全局视野:大模型从哪里来,到哪里去

在深入每个术语之前,先建立全局观。下面这张图展示了一个大模型从「诞生」到「上岗」的完整生命周期:

flowchart TD
    A["<b>1. 数据收集</b><br>网页 / 书籍 / 代码 / 论文"]
    B["<b>2. 分词处理</b><br>Tokenization"]
    C["<b>3. 预训练</b><br>Pre-training"]
    D["<b>4. 监督微调</b><br>SFT"]
    E["<b>5. 对齐训练</b><br>RLHF / DPO"]
    F["<b>6. 部署推理</b><br>Deployment"]
    G["<b>7. 应用层</b><br>Chat / RAG / Agent"]

    A -->|"清洗去重 / 质量过滤"| B
    B -->|"BPE / SentencePiece"| C
    C -->|"产出 Base Model 基座模型"| D
    D -->|"产出 SFT Model 微调模型"| E
    E -->|"产出 Aligned Model 对齐模型"| F
    F -->|"量化 / 推理优化 / API"| G

    style A fill:#a5d8ff,stroke:#1971c2,color:#000
    style B fill:#d0bfff,stroke:#7048e8,color:#000
    style C fill:#b2f2bb,stroke:#2f9e44,color:#000
    style D fill:#ffd8a8,stroke:#e8590c,color:#000
    style E fill:#ffc9c9,stroke:#e03131,color:#000
    style F fill:#c3fae8,stroke:#099268,color:#000
    style G fill:#fff3bf,stroke:#e67700,color:#000

下面我们按照这条流水线,逐环节拆解其中的核心术语。


二、基础概念篇——先搞懂这些词

2.1 Token(词元)

一句话解释Token 是模型处理文本的最小单位,可以粗略理解为「分词后的一个片段」。

Token 不是字,也不是词,而是介于两者之间的一种单位。不同模型的分词方式不同:

flowchart LR
    A["原始文本"] --> B["分词器 Tokenizer"]
    B --> C["Token 序列"]
    D["'Hello, 你好世界'"] --> E["分词"]
    E --> F["[Hello] [,] [▁你] [好] [世界]"]
    F --> G["[15496] [11] [29871] [29961] [30360]"]
    G --> H["Token IDs"]
    style A fill:#e8f4f8,stroke:#333
    style C fill:#b2f2bb,stroke:#333
    style H fill:#ffd8a8,stroke:#333

[!tip] 经验法则 1 个中文字 ≈ 1~2 个 Token;1 个英文单词 ≈ 1~1.5 个 Token。 GPT-4 的 Tokenizer 中,100 Token 大约对应 75 个英文单词或 50 个中文字。

2.2 Embedding(嵌入 / 向量表示)

一句话解释Embedding 把每个 Token 映射成一个高维数字向量,让模型能够「理解」词语之间的语义关系。

把词语想象成地图上的点——语义相近的词在地图上距离也近。

graph TD
    subgraph 词向量空间
        K1["国王 👑"] --- K2["女王 👑"]
        K1 --- K3["男人"]
        K2 --- K4["女人"]
        A1["苹果 🍎"] --- A2["香蕉 🍌"]
        A1 --- A3["水果"]
    end
    K1 -. "向量运算<br>国王 - 男人 + 女人 ≈ 女王" .-> K2

Embedding 的维度通常在 768 到 12288 之间,取决于模型大小。这些数字本身没有直观含义,但它们编码了丰富的语义信息。

2.3 Parameters(参数量)

一句话解释Parameters 是模型内部的「旋钮」,训练过程就是调整数十亿个旋钮,让模型的输出越来越准确。

模型规模 参数量级 类比
小模型 < 1B(十亿) 一个小学生的知识量
中模型 1B ~ 10B 一个大学生的知识量
大模型 10B ~ 100B 一个专家团队的知识量
超大模型 100B+ 整个研究院的集体智慧

常见的参数量表示法:

2.4 Context Window(上下文窗口)

一句话解释Context Window 是模型一次能「看到」的文本长度上限,好比一个人的「工作记忆」容量。

flowchart LR
    subgraph 上下文窗口
        direction LR
        P["之前的对话"] --> Q["当前问题"] --> A["模型生成的回答"]
    end
    style P fill:#e8f4f8,stroke:#333
    style Q fill:#ffd8a8,stroke:#333
    style A fill:#b2f2bb,stroke:#333
模型 上下文窗口
GPT-3.5 4K / 16K Token
GPT-4o 128K Token
Claude 3.5 200K Token
Gemini 1.5 Pro 1M ~ 2M Token
Kimi / 通义千问 最高支持 200K+

[!note] 注意 上下文窗口越大 ≠ 效果越好。模型对超长文本中间部分的信息容易「遗忘」,这被称为 Lost in the Middle 效应。

2.5 Vocabulary(词表)

一句话解释Vocabulary 是分词器能识别的所有 Token 的集合,相当于模型的「字典」。


三、模型架构篇——Transformer 的世界里有什么

3.1 Transformer

一句话解释Transformer 是当前几乎所有大模型的「心脏」——一种基于注意力机制的神经网络架构,2017 年由 Google 在论文《Attention Is All You Need》中提出。

flowchart TB
    subgraph Transformer 架构
        direction TB
        I["输入 Embedding<br>+ 位置编码"] --> E1["Encoder 编码器<br>×N 层"]
        E1 --> O["输出表示"]
        I2["输出 Embedding<br>+ 位置编码"] --> D1["Decoder 解码器<br>×N 层"]
        D1 --> OUT["最终输出"]
        O --> D1
    end
    style I fill:#a5d8ff,stroke:#333
    style I2 fill:#d0bfff,stroke:#333
    style E1 fill:#b2f2bb,stroke:#333
    style D1 fill:#ffd8a8,stroke:#333
    style OUT fill:#ffc9c9,stroke:#333

Transformer 的发展分出两条主线:

路线 代表模型 特点
Encoder-Only BERT、RoBERTa 只用编码器,擅长理解任务(分类、抽取)
Decoder-Only GPT 系列、LLaMA 只用解码器,擅长生成任务(对话、写作)
Encoder-Decoder T5、BART 两者都用,擅长序列到序列任务(翻译、摘要)

当前主流大模型(GPT-4、Claude、Gemini、DeepSeek)几乎全部采用 Decoder-Only 架构。

3.2 Self-Attention(自注意力机制)

一句话解释Self-Attention 让模型在处理一个词时,能够「回头看看」句子中所有其他词,决定每个词对自己有多重要。

flowchart LR
    subgraph 句子: "猫坐在垫子上,因为它很暖和"
        C["猫"] -->|"强关注"| I["它"]
        D["垫子"] -->|"强关注"| I
        Z["坐"] -->|"弱关注"| I
    end
    I["'它'指的是谁?<br>→ 猫 or 垫子?"]
    style I fill:#ffc9c9,stroke:#e03131
    style C fill:#a5d8ff,stroke:#333
    style D fill:#b2f2bb,stroke:#333

Attention 计算的核心公式:Attention(Q, K, V) = softmax(QK^T / √d) × V

用通俗的话说:

3.3 Multi-Head Attention(多头注意力)

一句话解释Multi-Head Attention = 多组 Q/K/V 同时计算注意力,让模型从不同角度理解文本。

类比:就像读书时有 8 个人同时阅读,每个人关注不同方面(有人关注语法,有人关注情感,有人关注逻辑),最后把所有人的理解汇总。

3.4 Positional Encoding(位置编码)

一句话解释:因为 Transformer 本身没有「顺序」概念,Positional Encoding 给每个 Token 贴上「位置标签」,让模型知道词的先后顺序。

主流位置编码方案:

方案 使用者 特点
正弦编码 原始 Transformer 固定的数学函数
RoPE(旋转位置编码) LLaMA、Qwen 支持外推,目前最主流
ALiBi BLOOM、MPT 通过距离惩罚实现位置感知

3.5 FFN / MLP(前馈网络)

一句话解释:每一层 Transformer 中,Attention 机制负责「收集信息」,FFN / MLP 负责「加工存储信息」——可以理解为模型的「记忆模块」。

近年来 FFN 也发展出了多种变体:


四、训练流程篇——模型是怎么被「教」出来的

4.1 Pre-training(预训练)

一句话解释Pre-training 就是让模型「博览群书」——用海量无标注文本让模型学会预测下一个 Token。

这是整个训练过程中最耗资源的阶段:

flowchart LR
    A["万亿级文本数据<br>网页/书籍/代码/论文"] --> B["Next Token Prediction<br>下一 Token 预测"]
    B --> C["基座模型<br>Base Model"]
    C --> D["能力:续写文本<br>但不能对话"]
    style A fill:#a5d8ff,stroke:#333
    style C fill:#b2f2bb,stroke:#333
    style D fill:#fff3bf,stroke:#333

训练目标:给定前面的 Token,预测下一个 Token 的概率分布。

关键数字参考

4.2 SFT(Supervised Fine-Tuning,监督微调)

一句话解释:预训练后的模型只会「续写」,SFT 教它学会「听指令、给回答」。

flowchart LR
    A["基座模型<br>只会续写"] --> B["指令-回答配对数据<br>约 1~10 万条"]
    B --> C["SFT 模型<br>能听懂指令"]
    style A fill:#b2f2bb,stroke:#333
    style C fill:#ffd8a8,stroke:#333

SFT 数据示例:

用户: 请用三句话介绍太阳系。
助手: 太阳系是以太阳为中心的行星系统,包含八大行星。
地球是太阳系中第三颗行星,也是目前唯一已知存在生命的星球。
木星是太阳系中最大的行星,其质量超过其他所有行星的总和。

4.3 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)

一句话解释RLHF 让模型学会「什么回答更好」——通过人类偏好评分来训练一个奖励模型,再用强化学习优化大模型。

flowchart TB
    subgraph 第一步:训练奖励模型
        P["同一问题的多个回答"] --> H["人类标注偏好<br>A > B > C"]
        H --> RM["奖励模型<br>Reward Model"]
    end
    subgraph 第二步:强化学习优化
        SFT["SFT 模型"] --> G["生成回答"]
        G --> RM
        RM --> R["给出奖励分数"]
        R --> UP["更新模型策略<br>PPO 算法"]
    end
    style RM fill:#ffc9c9,stroke:#e03131
    style SFT fill:#ffd8a8,stroke:#333

4.4 DPO(Direct Preference Optimization,直接偏好优化)

一句话解释DPORLHF 的简化版——跳过奖励模型,直接用人类偏好数据优化大模型,训练更简单更稳定。

对比项 RLHF DPO
是否需要奖励模型 需要 不需要
训练复杂度 高(需要 4 个模型) 低(只需 1 个模型)
稳定性 需要仔细调参 更稳定
效果 成熟可靠 已接近甚至超越 RLHF

DPO 的出现(2023 年)大大降低了训练对齐模型的门槛。之后又涌现出许多变体:

4.5 PPO(Proximal Policy Optimization,近端策略优化)

一句话解释PPORLHF 中使用的强化学习算法,负责根据奖励分数更新模型参数,同时防止更新幅度过大导致模型「崩溃」。


五、推理与生成篇——模型是怎么「说话」的

5.1 自回归生成(Autoregressive Generation)

一句话解释Autoregressive Generation 是大模型生成文本的方式——「一个一个 Token 往后蹦」,每次根据前面所有的 Token,预测下一个最可能的 Token。

flowchart LR
    T1["今天"] --> T2["天气"]
    T2 --> T3["真"]
    T3 --> T4["好"]
    T4 --> T5[","]
    T5 --> T6["适合"]
    T6 --> T7["..."]

    subgraph 每一步
        C["已知: 今天天气真"] --> P["预测概率分布"]
        P --> N["下一个: 好"]
    end
    style T1 fill:#a5d8ff,stroke:#333
    style T7 fill:#ffc9c9,stroke:#e03131

5.2 Temperature(温度)

一句话解释Temperature 控制模型生成的「创造性」——温度越低越保守精确,温度越高越天马行空。

flowchart LR
    T0["Temperature = 0<br>确定性输出<br>每次结果相同"] --> T05["Temperature = 0.5<br>较保守<br>适合编程/分析"]
    T05 --> T1["Temperature = 1.0<br>默认值<br>平衡创造与准确"]
    T1 --> T15["Temperature = 1.5<br>较发散<br>适合头脑风暴"]
    T15 --> T2["Temperature = 2.0<br>非常随机<br>可能语无伦次"]
    style T0 fill:#a5d8ff,stroke:#333
    style T1 fill:#b2f2bb,stroke:#333
    style T2 fill:#ffc9c9,stroke:#e03131

数学原理:温度 T 作用于 softmax 函数 softmax(logits / T)。T 越小,概率分布越尖锐(集中于高概率选项);T 越大,概率分布越平坦(各选项概率趋于平均)。

5.3 Top-K 采样

一句话解释Top-K 就是只从概率最高的 K 个 Token 中随机选一个,其余的全部忽略。

例如 Top-K = 50,意味着每一步只在排名前 50 的候选 Token 中采样。

5.4 Top-P(Nucleus Sampling,核采样)

一句话解释Top-P(Nucleus Sampling) 不是选固定个数,而是选概率之和刚好超过 P 的那些 Token。

flowchart TB
    subgraph "Top-P = 0.9 示例"
        direction LR
        A["Token A: 40%"] --> B["Token B: 25%"]
        B --> C["Token C: 15%"]
        C --> D["Token D: 12%"]
        D --> E["累积: 92% > 90% → 停止"]
        F["Token E: 5%"] --> G["Token F: 3%<br>被排除"]
    end
    style A fill:#b2f2bb,stroke:#333
    style B fill:#b2f2bb,stroke:#333
    style C fill:#b2f2bb,stroke:#333
    style D fill:#b2f2bb,stroke:#333
    style F fill:#ffc9c9,stroke:#e03131
    style G fill:#ffc9c9,stroke:#e03131

实际使用中,通常 同时设置 Top-K 和 Top-P,取两者的交集。

5.5 KV Cache(键值缓存)

一句话解释KV Cache 把之前算过的注意力 Key 和 Value 缓存起来,避免每生成一个新 Token 都重新计算全部历史——这是推理加速的关键技术。

flowchart LR
    subgraph 无 KV Cache
        A1["生成第 1 个 Token<br>计算 1 次"] --> A2["生成第 2 个<br>重新计算 1+2"]
        A2 --> A3["生成第 3 个<br>重新计算 1+2+3"]
        A3 --> A4["计算量: O(n²)"]
    end
    subgraph 有 KV Cache
        B1["生成第 1 个 Token<br>计算并缓存 KV"] --> B2["生成第 2 个<br>只算新的 + 复用缓存"]
        B2 --> B3["生成第 3 个<br>只算新的 + 复用缓存"]
        B3 --> B4["计算量: O(n)"]
    end
    style A4 fill:#ffc9c9,stroke:#e03131
    style B4 fill:#b2f2bb,stroke:#333

5.6 Speculative Decoding(投机解码)

一句话解释Speculative Decoding 用一个小模型「打草稿」生成多个 Token,然后让大模型一次性验证这些 Token 是否正确,从而加速推理。

5.7 Beam Search(束搜索)

一句话解释Beam Search 是每一步保留概率最高的 N 条候选路径(beam),最终选择总概率最高的完整序列。比贪心搜索更全局最优,但比采样更确定。

5.8 Reasoning / Thinking Tokens(推理 / 思考 Token)

一句话解释Reasoning Tokens 是模型在给出最终回答前「内心独白」的中间步骤,用户通常看不到但会计入 Token 消耗。

这是 OpenAI o1/o3、DeepSeek-R1 等推理模型引入的新概念。模型先「思考」(生成推理链),再输出答案。

flowchart TB
    subgraph 传统模型
        Q1["问题: 13×17=?"] --> A1["直接: 221"]
    end
    subgraph 推理模型
        Q2["问题: 13×17=?"]
        Q2 --> S1["<i>思考</i><br>拆解: 13×(10+7)"]
        S1 --> S2["<i>思考</i><br>计算: 13×10=130"]
        S2 --> S3["<i>思考</i><br>计算: 13×7=91"]
        S3 --> S4["<i>思考</i><br>求和: 130+91=221"]
        S4 --> A2["最终: 221"]
    end
    style Q1 fill:#a5d8ff,stroke:#333
    style Q2 fill:#a5d8ff,stroke:#333
    style S1 fill:#ffd8a8,stroke:#e67700
    style S2 fill:#ffd8a8,stroke:#e67700
    style S3 fill:#ffd8a8,stroke:#e67700
    style S4 fill:#ffd8a8,stroke:#e67700

六、提示词工程篇——如何跟模型高效沟通

6.1 Prompt(提示词)

一句话解释Prompt 就是你发给模型的输入文本——你的问题、指令或任何需要模型处理的内容。

6.2 System Prompt(系统提示词)

一句话解释System Prompt 是在对话开始前预设的「人设」和「规则」,告诉模型应该扮演什么角色、遵循什么约束。

System: 你是一位资深 Python 工程师。回答要简洁、给出代码示例,避免冗长解释。
User: 如何读取 CSV 文件?

6.3 Zero-shot(零样本)

一句话解释Zero-shot 是不给任何示例,直接让模型完成任务。

用户:请将以下文本翻译为英文:今天天气真好。

6.4 Few-shot(少样本)

一句话解释Few-shot 是在 Prompt 中给几个示例,让模型「照猫画虎」。

用户:
苹果 → 水果
白菜 → 蔬菜
牛肉 → ?

6.5 Chain-of-Thought(CoT,思维链)

一句话解释Chain-of-Thought(CoT) 让模型「一步一步思考」,把推理过程展示出来,而不是直接给答案。

flowchart LR
    Q["问题"] --> S1["步骤 1<br>理解问题"]
    S1 --> S2["步骤 2<br>分解子问题"]
    S2 --> S3["步骤 3<br>逐步求解"]
    S3 --> S4["步骤 4<br>验证结果"]
    S4 --> A["最终答案"]
    style Q fill:#a5d8ff,stroke:#333
    style A fill:#b2f2bb,stroke:#333

经典的触发方式:在 Prompt 末尾加上 Let's think step by step.

6.6 Tree-of-Thought(ToT,思维树)

一句话解释Tree-of-Thought(ToT)CoT 的升级版——不是一条线思考,而是生成多条推理路径,像树一样展开,然后评估选择最优路径。

6.7 ReAct(Reasoning + Acting)

一句话解释ReAct 让模型交替进行「思考推理」和「采取行动(调用工具)」,边想边做。

sequenceDiagram
    participant U as 用户
    participant M as 模型
    participant T as 工具

    U->>M: 北京今天适合出游吗?
    M->>M: 思考:我需要查询北京天气
    M->>T: 调用天气 API(北京)
    T-->>M: 晴,25°C,微风
    M->>M: 思考:天气条件很好,可以推荐
    M->>U: 北京今天晴天25°C,非常适合出游!建议去...

七、微调与高效训练篇——如何低成本定制模型

7.1 Fine-tuning(微调)

一句话解释Fine-tuning(微调) 是在预训练模型的基础上,用特定领域的数据继续训练,让模型在目标任务上表现更好。

7.2 LoRA(Low-Rank Adaptation,低秩适配)

一句话解释LoRA 不修改原始模型参数,而是旁边挂一个「小插件」(低秩矩阵),只训练这个小插件即可实现微调。

flowchart TB
    subgraph 原始权重 W(冻结不训练)
        W["W ∈ R^d×d<br>参数量: d×d"]
    end
    subgraph LoRA 旁路(只训练这部分)
        A["A ∈ R^d×r"] --> B["B ∈ R^r×d"]
        R["r << d<br>例如 r=8, d=4096"]
    end
    subgraph 计算过程
        X["输入 x"] --> M["xW + xAB"]
        M --> O["输出"]
    end
    style W fill:#a5d8ff,stroke:#333
    style A fill:#b2f2bb,stroke:#333
    style B fill:#b2f2bb,stroke:#333
对比 全量微调 LoRA 微调
可训练参数 100% 通常 < 1%
显存需求 极高 低很多
训练速度
效果 最佳 接近全量微调
多任务切换 需要多份完整模型 只需切换小插件

7.3 QLoRA(量化 LoRA)

一句话解释QLoRA = 量化 + LoRA。先把模型量化到 4-bit,再用 LoRA 微调,进一步降低显存需求。

用 QLoRA 可以在单张 24GB 显存的消费级 GPU 上微调 70B 参数的模型。

7.4 量化(Quantization)

一句话解释Quantization 把模型参数从高精度(如 16-bit 浮点数)压缩到低精度(如 4-bit 整数),用少量精度损失换取大幅的显存和速度优化。

flowchart LR
    FP16["FP16<br>16 位浮点<br>模型默认精度"] --> BF16["BF16<br>16 位浮点<br>训练更稳定"]
    FP16 --> INT8["INT8<br>8 位整数<br>体积减半"]
    INT8 --> INT4["INT4<br>4 位整数<br>体积为 1/4"]
    INT4 --> FP8["FP8 / NF4<br>4/8 位新格式<br>精度损失更小"]

    style FP16 fill:#a5d8ff,stroke:#333
    style INT4 fill:#b2f2bb,stroke:#333

常见量化方案:

7.5 MoE(Mixture of Experts,混合专家模型)

一句话解释MoE 把一个大模型拆成多个「专家」(小型 FFN),每次推理只激活少数几个专家,用「大模型的总参数」但只需「小模型的计算量」。

flowchart TB
    I["输入 Token"] --> R["路由器 / Gate<br>决定激活哪些专家"]
    R --> E1["专家 1<br>擅长语法"]
    R --> E3["专家 3<br>擅长逻辑"]
    R --> E7["专家 7<br>擅长代码"]
    E1 --> O["加权求和输出"]
    E3 --> O
    E7 --> O

    R -.-x E2["专家 2"]
    R -.-x E4["专家 4"]
    R -.-x E5["专家 5"]
    R -.-x E6["专家 6"]
    R -.-x E8["专家 8"]

    style I fill:#a5d8ff,stroke:#333
    style R fill:#ffd8a8,stroke:#333
    style O fill:#b2f2bb,stroke:#333
模型 总参数 激活参数 专家数
Mixtral 8x7B 46.7B 12.9B 8
DeepSeek-V3 671B 37B 256
Qwen2.5-Max 未公开 未公开 MoE 架构

MoE 是 2024-2025 年最重要的架构趋势之一,让模型在保持高性能的同时大幅降低推理成本。

7.6 知识蒸馏(Knowledge Distillation)

一句话解释Knowledge Distillation = 用一个大模型(教师)来训练一个小模型(学生),让小模型学到接近大模型的能力。

flowchart LR
    T["教师模型<br>如 GPT-4<br>175B 参数"] -->|"生成数据/软标签"| S["学生模型<br>如 MiniCPM<br>2B 参数"]
    S --> R["最终效果:<br>小模型获得<br>接近大模型的能力"]
    style T fill:#a5d8ff,stroke:#333
    style S fill:#b2f2bb,stroke:#333

八、检索增强与智能体篇——给模型装上「外挂」

8.1 RAG(Retrieval-Augmented Generation,检索增强生成)

一句话解释RAG 就是让模型在回答问题前,先从外部知识库中搜索相关资料,然后基于检索到的资料来生成回答——解决模型知识过时和幻觉问题。

flowchart TB
    Q["用户提问"] --> R["检索器<br>从知识库搜索"]
    KB["外部知识库<br>文档/网页/数据库"] --> R
    R --> C["将检索结果拼入 Prompt"]
    C --> M["大模型<br>基于检索内容生成"]
    M --> A["回答"]
    style Q fill:#a5d8ff,stroke:#333
    style KB fill:#d0bfff,stroke:#333
    style M fill:#b2f2bb,stroke:#333
    style A fill:#ffd8a8,stroke:#333

RAG 的典型流程:

  1. 文档切片:把长文档切成小段(Chunk)
  2. 向量化:用 Embedding 模型将每段变成向量
  3. 存入向量数据库:如 FAISS、Milvus、Chroma、Qdrant
  4. 检索:用户问题也向量化,计算相似度,取最相关的几段
  5. 生成:将检索到的内容拼入 Prompt,让模型据此回答

[!tip] RAG vs 微调

8.2 Vector Database(向量数据库)

一句话解释Vector Database 是专门存储和高效检索高维向量的数据库,是 RAG 系统的核心基础设施。

常见向量数据库:FAISS(Meta)、Milvus、Pinecone、Weaviate、Chroma、Qdrant、pgvector

8.3 Agent(智能体)

一句话解释Agent 是能够自主感知环境、制定计划、调用工具、执行任务的大模型系统——不只是「问答」,而是「做事」。

flowchart TB
    U["用户目标"] --> P["规划 Planner<br>拆解为子任务"]
    P --> L["执行循环"]
    L --> T1["调用搜索工具"]
    L --> T2["调用代码解释器"]
    L --> T3["调用 API"]
    L --> T4["调用数据库"]
    T1 --> R["观察结果"]
    T2 --> R
    T3 --> R
    T4 --> R
    R --> D{"任务完成?"}
    D -->|否| L
    D -->|是| F["输出最终结果"]
    style U fill:#a5d8ff,stroke:#333
    style P fill:#ffd8a8,stroke:#333
    style F fill:#b2f2bb,stroke:#333

Agent 的核心组件:

8.4 Function Calling(函数调用 / 工具调用)

一句话解释Function Calling 让模型能够输出结构化的「调用请求」,触发预定义的外部函数——是 Agent 调用工具的基础机制。

// 模型输出:
{
  "function": "get_weather",
  "arguments": {"city": "北京", "date": "2026-04-08"}
}

8.5 MCP(Model Context Protocol,模型上下文协议)

一句话解释MCP 是 Anthropic 在 2024 年底推出的开放协议,标准化了模型与外部工具/数据源的连接方式——好比 AI 世界的「USB 接口」。

flowchart LR
    M["大模型<br>Claude / GPT"] -->|"MCP 协议"| S["MCP Server"]
    S --> F["文件系统"]
    S --> D["数据库"]
    S --> G["GitHub"]
    S --> W["Web 搜索"]
    style M fill:#a5d8ff,stroke:#333
    style S fill:#ffd8a8,stroke:#333

8.6 A2A(Agent-to-Agent,智能体间通信协议)

一句话解释A2A 是 Google 在 2025 年推出的协议,让不同的 Agent 之间能够互相发现、通信和协作。


九、评估与安全篇——怎么判断模型好不好

9.1 Benchmark(基准测试)

一句话解释Benchmark 是标准化的考试题集,用于公平比较不同模型的能力。

Benchmark 考察方向 说明
MMLU 综合知识 57 个学科的多选题
HumanEval 代码能力 Python 编程题
GSM8K 数学推理 小学应用题
MATH 高等数学 竞赛级数学题
GPQA 专家知识 博士级问题
MT-Bench 对话质量 多轮对话评分
MMLU-Pro 综合知识(进阶) 更难版 MMLU
LiveCodeBench 代码(实时) 持续更新的编程测试

9.2 Hallucination(幻觉)

一句话解释Hallucination 是指模型「一本正经地胡说八道」——生成看似合理但实际错误或虚构的内容。

flowchart LR
    Q["用户:李白是宋朝人吗?"] --> M["模型"]
    M --> A["错误回答:是的,李白是宋朝著名诗人<br>❌ 这是幻觉"]
    M --> B["正确回答:不是,李白是唐朝诗人<br>✓"]
    style A fill:#ffc9c9,stroke:#e03131
    style B fill:#b2f2bb,stroke:#333

幻觉的常见类型:

缓解方法:RAG 检索、事实核查工具、降低 Temperature、让模型标注不确定性

9.3 Alignment(对齐)

一句话解释Alignment 是指让模型的行为符合人类的价值观和期望——不仅要说得对,还要说得安全、有用、诚实。

三个核心目标(3H):

9.4 Red Teaming(红队测试)

一句话解释Red Teaming 是组织一批测试人员故意「刁难」模型,尝试让它输出有害内容,以发现和修复安全漏洞。

9.5 Safety Guardrails(安全护栏)

一句话解释Safety Guardrails 是在模型的输入和输出端设置过滤机制,阻止有害请求和不当输出——好比「安全带」和「刹车」。

常见实现方式:


十、部署与优化篇——模型怎么上线服务

10.1 Inference(推理)

一句话解释Inference(推理) 是「应用」——用训练好的模型对新的输入生成输出的过程(训练是「学习」)。

10.2 PagedAttention

一句话解释PagedAttention 借鉴操作系统的虚拟内存分页机制来管理 KV Cache,减少显存碎片,大幅提升推理吞吐量——是 vLLM 的核心创新。

10.3 主流推理框架

框架 开发者 特点
vLLM UC Berkeley PagedAttention,高吞吐,部署简单
TensorRT-LLM NVIDIA GPU 极致优化,支持 FP8
llama.cpp Georgi Gerganov 纯 C++,CPU/GPU 混合推理
Ollama Ollama 团队 llama.cpp 封装,一键本地部署
SGLang UC Berkeley 结构化生成,编程式控制
TGI HuggingFace HuggingFace 官方推理服务器
MLC-LLM CMU 编译优化,支持手机端部署

10.4 TTFT / TPOT / Throughput

指标 全称 含义
TTFT Time To First Token 从发出请求到收到第一个 Token 的时间
TPOT Time Per Output Token 每生成一个 Token 所需的时间
Throughput 吞吐量 每秒能处理的 Token 总数
Latency 延迟 从请求到完整响应的总时间

10.5 Continuous Batching(连续批处理)

一句话解释Continuous Batching 不同于传统的「等一批请求全部处理完才接收新请求」,在有请求完成时立刻插入新请求,充分复用 GPU 资源。

10.6 Serving 部署架构

flowchart TB
    U["用户请求"] --> LB["负载均衡<br>nginx / envoy"]
    LB --> G1["推理实例 1<br>vLLM + GPU A"]
    LB --> G2["推理实例 2<br>vLLM + GPU B"]
    LB --> G3["推理实例 3<br>vLLM + GPU C"]
    G1 --> Q["队列 / 调度器"]
    G2 --> Q
    G3 --> Q
    Q --> R["响应返回"]
    style U fill:#a5d8ff,stroke:#333
    style LB fill:#ffd8a8,stroke:#333
    style R fill:#b2f2bb,stroke:#333

十一、前沿方向篇——未来在发生什么

11.1 多模态(Multimodal)

一句话解释Multimodal 模型能同时理解文本、图像、音频、视频等多种输入,实现「看图说话」、「听音识意」等能力。

flowchart TB
    subgraph 输入模态
        TXT["文本"]
        IMG["图像"]
        AUD["音频"]
        VID["视频"]
    end
    subgraph 多模态模型
        MM["统一理解与生成"]
    end
    TXT --> MM
    IMG --> MM
    AUD --> MM
    VID --> MM
    MM --> OUT["输出:文本/图像/音频"]
    style MM fill:#d0bfff,stroke:#333

代表模型:GPT-4o、Gemini 2.0、Claude 3.5 Sonnet、Qwen-VL

11.2 长上下文(Long Context)

一句话解释Long Context 是通过技术手段(如稀疏注意力、分块处理)将上下文窗口扩展到百万 Token 级别,让模型能一次「读完」整本书。

关键技术:

11.3 推理模型(Reasoning Models)

一句话解释Reasoning Models(如 OpenAI o1/o3、DeepSeek-R1)在回答前会进行大量「内部思考」,显著提升数学、编程和复杂推理能力。

flowchart TB
    subgraph 传统模型
        Q1["问题: 解方程 x²-5x+6=0"] --> A1["直接: x=2 或 x=3"]
    end
    subgraph 推理模型
        Q2["问题: 解方程 x²-5x+6=0"]
        Q2 --> S1["<i>思考</i><br>判别式: Δ=b²-4ac"]
        S1 --> S2["<i>思考</i><br>计算: Δ=(-5)²-4×1×6=1"]
        S2 --> S3["<i>思考</i><br>公式: x=(5±1)/2"]
        S3 --> S4["<i>思考</i><br>结果: x₁=3, x₂=2"]
        S4 --> A2["最终: x=2 或 x=3"]
    end
    style Q1 fill:#a5d8ff,stroke:#333
    style Q2 fill:#a5d8ff,stroke:#333
    style S1 fill:#ffd8a8,stroke:#e67700
    style S2 fill:#ffd8a8,stroke:#e67700
    style S3 fill:#ffd8a8,stroke:#e67700
    style S4 fill:#ffd8a8,stroke:#e67700

11.4 SSM(State Space Model,状态空间模型)

一句话解释SSMTransformer 的潜在替代架构(代表:Mamba),通过维护固定大小的隐状态来处理序列,计算复杂度是线性的而非二次的。

11.5 合成数据(Synthetic Data)

一句话解释Synthetic Data 是用大模型生成的数据来训练另一个大模型——「AI 训练 AI」。

[!warning] 模型坍缩 如果完全依赖 AI 生成的数据来训练新模型,经过多轮迭代后,模型输出会逐渐退化,失去多样性——这被称为 Model Collapse(模型坍缩)

11.6 推理时计算(Inference-Time Compute / Test-Time Compute)

一句话解释Inference-Time Compute 是不增加模型参数,而是在推理时给模型更多「思考时间」来提升回答质量。这是 2024-2025 年最重要的新范式之一。

传统思路:想要更好的结果 → 训练更大的模型 新思路:想要更好的结果 → 给模型更多的推理计算预算

11.7 On-Device LLM(端侧大模型)

一句话解释On-Device LLM 是将大模型部署在手机、电脑等终端设备上运行,无需联网,保护隐私。

代表模型:Apple On-Device Model、Qwen2.5-1.5B、Phi-3-mini、MiniCPM


附录:术语速查表

英文术语 中文 一句话释义
Token 词元 模型处理文本的最小单位
Embedding 嵌入/向量 将文本转为数字向量表示
Transformer 变换器 大模型的核心神经网络架构
Attention 注意力 模型「关注」输入中哪些部分
Pre-training 预训练 海量数据上学习基础知识
SFT 监督微调 用指令数据教模型听指令
RLHF 人类反馈强化学习 用人类偏好优化模型
DPO 直接偏好优化 简化版 RLHF
LoRA 低秩适配 只训练少量参数的微调方法
Quantization 量化 压缩模型精度以降低资源消耗
MoE 混合专家 只激活部分参数的高效架构
RAG 检索增强生成 结合外部知识库的回答
Agent 智能体 能自主使用工具的 AI 系统
Hallucination 幻觉 模型编造虚假内容
KV Cache 键值缓存 缓存注意力计算结果加速推理
CoT 思维链 让模型展示推理过程
Temperature 温度 控制输出随机性的参数
Top-K Top-K 采样 只从概率最高的 K 个中选
Top-P 核采样 选概率累积到 P 的那些
Context Window 上下文窗口 模型一次能处理的最大文本长度
Fine-tuning 微调 在特定数据上继续训练
Distillation 蒸馏 大模型教小模型
Benchmark 基准测试 标准化能力测试
MCP 模型上下文协议 AI 连接工具的标准化协议
TTFT 首 Token 延迟 收到第一个 Token 的时间
Speculative Decoding 投机解码 小模型打草稿 + 大模型验证
PagedAttention 分页注意力 高效管理 KV Cache 的技术
Function Calling 函数调用 模型调用外部工具的机制
Alignment 对齐 让模型符合人类价值观
Red Teaming 红队测试 主动攻击测试模型安全性

[!quote] 结语 大模型技术发展日新月异,新的术语和概念层出不穷。本文力求覆盖当前最核心的知识体系,但技术迭代不可避免地会使部分内容过时。建议读者保持学习,关注最新的论文和社区动态。

最后更新:2026 年 4 月