术语表
大模型领域的核心术语中英对照 + 一句话解释。按字母排序,方便查阅。
A
| 术语 | 中文 | 解释 |
|---|
| Activation Checkpointing | 激活检查点 | 训练时不保存所有中间激活,反向传播时重新计算,用计算换显存 |
| Adam / AdamW | — | 自适应学习率优化器,AdamW 解耦了权重衰减,是大模型训练标配 |
| Agent | 智能体 | 能感知环境、做决策、使用工具来完成任务的 AI 系统 |
| Alignment | 对齐 | 让模型行为符合人类意图和价值观的过程(RLHF、DPO 等) |
| Attention | 注意力机制 | 让模型动态关注输入中不同部分的机制,Transformer 的核心 |
B
| 术语 | 中文 | 解释 |
|---|
| Backpropagation | 反向传播 | 通过链式法则从输出到输入逐层计算梯度的算法 |
| Beam Search | 束搜索 | 同时维护多条候选路径的解码策略,适合翻译等任务 |
| BF16 (BFloat16) | — | 16 位浮点格式,与 FP32 相同的指数范围,训练更稳定 |
| BPE | 字节对编码 | 最主流的子词分词算法,反复合并高频相邻对 |
C
| 术语 | 中文 | 解释 |
|---|
| Causal Attention | 因果注意力 | 每个 token 只能看到它之前的 token,用于自回归生成 |
| Chain-of-Thought (CoT) | 思维链 | 让模型逐步推理的提示技术,显著提升复杂推理能力 |
| Chinchilla | — | DeepMind 提出的计算最优 Scaling Law:模型和数据应同等扩展 |
| Constitutional AI | 宪法式 AI | Anthropic 的对齐方法,用明确原则指导模型自我改进 |
| Continuous Batching | 连续批处理 | 迭代级别的请求调度,新请求无需等待当前 batch 完成 |
| Cross-Entropy | 交叉熵 | 语言模型的标准损失函数,衡量预测分布与真实分布的差距 |
D
| 术语 | 中文 | 解释 |
|---|
| Decoder-Only | 仅解码器 | 只有 Transformer Decoder 的架构(GPT、Llama 等),主流 LLM 架构 |
| Distillation | 蒸馏 | 用大模型(Teacher)的知识训练小模型(Student) |
| DPO | 直接偏好优化 | 不需要 Reward Model 的对齐方法,直接从偏好数据优化策略 |
| Dropout | 随机失活 | 训练时随机将神经元输出置零,防止过拟合 |
E
| 术语 | 中文 | 解释 |
|---|
| Embedding | 嵌入 | 将离散 token 映射为连续向量的过程/结果 |
| Emergent Abilities | 涌现能力 | 小模型不具备但大模型突然出现的能力(存在争议) |
F
| 术语 | 中文 | 解释 |
|---|
| Few-shot | 少样本 | 在 prompt 中提供少量示例让模型学习,无需训练 |
| Fine-tuning | 微调 | 在预训练模型基础上用特定数据继续训练 |
| Flash Attention | — | 通过分块计算避免 HBM 读写的高效注意力实现 |
| FLOPs | 浮点运算数 | 衡量计算量的单位,训练 FLOPs ≈ 6ND |
| FP16 / FP32 | — | 16/32 位浮点数,精度与速度的权衡 |
G
| 术语 | 中文 | 解释 |
|---|
| GELU | — | GPT 系列使用的激活函数,ReLU 的平滑版本 |
| GQA | 分组查询注意力 | 多个 Query 头共享一组 KV 头,平衡效果和效率 |
| Gradient Clipping | 梯度裁剪 | 限制梯度最大范数,防止梯度爆炸 |
| GRPO | 组相对策略优化 | DeepSeek 提出的无 Critic 的 RL 对齐方法 |
H-I
| 术语 | 中文 | 解释 |
|---|
| Hallucination | 幻觉 | 模型生成看似合理但事实错误的内容 |
| HBM | 高带宽内存 | GPU 的主显存(如 A100 的 80GB HBM2e) |
| In-Context Learning (ICL) | 上下文学习 | 模型从 prompt 中的示例学习新任务,无需参数更新 |
| INT4 / INT8 | — | 4/8 位整数量化,大幅减少模型大小和推理显存 |
K-L
| 术语 | 中文 | 解释 |
|---|
| KL Divergence | KL 散度 | 衡量两个概率分布差异的非对称度量 |
| KV Cache | — | 缓存已计算的 Key/Value 避免重复计算,推理加速的核心 |
| LayerNorm | 层归一化 | 在特征维度上归一化,Transformer 的标准归一化方法 |
| LoRA | 低秩适配 | 冻结原始权重,只训练低秩增量矩阵 ,参数量减少 99%+ |
M
| 术语 | 中文 | 解释 |
|---|
| MHA | 多头注意力 | 将注意力分成多个头并行计算,捕获不同的注意力模式 |
| Mixed Precision | 混合精度 | 训练时混合使用 FP16 和 FP32,加速训练且省显存 |
| MoE | 混合专家 | 每个 token 只激活部分专家(FFN),在增大容量的同时控制计算量 |
| MQA | 多查询注意力 | 所有 Query 头共享一组 KV,极致压缩 KV Cache |
N-O
| 术语 | 中文 | 解释 |
|---|
| Next-Token Prediction | 下一 Token 预测 | LLM 预训练目标:给定前文预测下一个 token |
| ONNX | — | 开放神经网络交换格式,用于跨框架模型部署 |
P
| 术语 | 中文 | 解释 |
|---|
| PagedAttention | 分页注意力 | 借鉴 OS 虚拟内存,将 KV Cache 分页管理,显存利用率接近 100% |
| PPO | 近端策略优化 | RLHF 中最经典的 RL 算法,通过 clip 限制策略更新幅度 |
| Prefill | 预填充 | 推理的第一阶段,一次性处理整个 prompt 并计算 KV Cache |
| Prompt Engineering | 提示工程 | 设计有效的输入 prompt 来引导模型输出 |
Q-R
| 术语 | 中文 | 解释 |
|---|
| Quantization | 量化 | 将高精度参数(FP16)转为低精度(INT8/INT4),压缩模型 |
| QLoRA | — | 4-bit 量化基础模型 + FP16 LoRA,极致省显存的微调方法 |
| RAG | 检索增强生成 | 先检索相关文档再让 LLM 基于检索结果生成回答 |
| Reward Model | 奖励模型 | 学习人类偏好,给模型输出打分,用于 RLHF |
| RLHF | 人类反馈强化学习 | 用人类偏好数据训练奖励模型,再用 RL 优化策略 |
| RMSNorm | — | LayerNorm 的简化版,去掉均值中心化,Llama 采用 |
| RoPE | 旋转位置编码 | 通过复数旋转编码相对位置,支持长度外推 |
S
| 术语 | 中文 | 解释 |
|---|
| Scaling Laws | 缩放定律 | 模型性能与参数量/数据量/计算量之间的幂律关系 |
| SFT | 监督微调 | 用指令-回答对微调预训练模型,让它学会"怎么说话" |
| Softmax | — | 将 logits 转为概率分布的函数 |
| Speculative Decoding | 投机解码 | 用小模型快速草拟,大模型并行验证,加速推理 |
| SwiGLU | — | Llama 系列的 FFN 激活函数,带门控机制 |
T
| 术语 | 中文 | 解释 |
|---|
| Temperature | 温度 | 控制采样随机性的参数,越低越确定 |
| Tensor Parallelism | 张量并行 | 将单层的权重矩阵切分到多个 GPU 上 |
| Token | — | 文本的最小处理单元,由分词器产生 |
| Top-k / Top-p | — | 采样时限制候选 token 数量(Top-k)或累积概率(Top-p) |
| Transformer | — | 基于自注意力的序列模型架构,LLM 的基础 |
| TTFT | 首 Token 延迟 | Time To First Token,用户等待第一个输出的时间 |
V-Z
| 术语 | 中文 | 解释 |
|---|
| vLLM | — | 高性能 LLM 推理引擎,核心是 PagedAttention |
| Warmup | 预热 | 训练初期学习率从 0 线性增长,避免梯度不稳定 |
| Weight Tying | 权重共享 | 输入 Embedding 和输出 LM Head 共享权重 |
| Zero-shot | 零样本 | 不提供任何示例,直接让模型完成任务 |