术语表

大模型领域的核心术语中英对照 + 一句话解释。按字母排序，方便查阅。

A

术语	中文	解释
Activation Checkpointing	激活检查点	训练时不保存所有中间激活，反向传播时重新计算，用计算换显存
Adam / AdamW	—	自适应学习率优化器，AdamW 解耦了权重衰减，是大模型训练标配
Agent	智能体	能感知环境、做决策、使用工具来完成任务的 AI 系统
Alignment	对齐	让模型行为符合人类意图和价值观的过程（RLHF、DPO 等）
Attention	注意力机制	让模型动态关注输入中不同部分的机制，Transformer 的核心

B

术语	中文	解释
Backpropagation	反向传播	通过链式法则从输出到输入逐层计算梯度的算法
Beam Search	束搜索	同时维护多条候选路径的解码策略，适合翻译等任务
BF16 (BFloat16)	—	16 位浮点格式，与 FP32 相同的指数范围，训练更稳定
BPE	字节对编码	最主流的子词分词算法，反复合并高频相邻对

C

术语	中文	解释
Causal Attention	因果注意力	每个 token 只能看到它之前的 token，用于自回归生成
Chain-of-Thought (CoT)	思维链	让模型逐步推理的提示技术，显著提升复杂推理能力
Chinchilla	—	DeepMind 提出的计算最优 Scaling Law：模型和数据应同等扩展
Constitutional AI	宪法式 AI	Anthropic 的对齐方法，用明确原则指导模型自我改进
Continuous Batching	连续批处理	迭代级别的请求调度，新请求无需等待当前 batch 完成
Cross-Entropy	交叉熵	语言模型的标准损失函数，衡量预测分布与真实分布的差距

D

术语	中文	解释
Decoder-Only	仅解码器	只有 Transformer Decoder 的架构（GPT、Llama 等），主流 LLM 架构
Distillation	蒸馏	用大模型（Teacher）的知识训练小模型（Student）
DPO	直接偏好优化	不需要 Reward Model 的对齐方法，直接从偏好数据优化策略
Dropout	随机失活	训练时随机将神经元输出置零，防止过拟合

E

术语	中文	解释
Embedding	嵌入	将离散 token 映射为连续向量的过程/结果
Emergent Abilities	涌现能力	小模型不具备但大模型突然出现的能力（存在争议）

F

术语	中文	解释
Few-shot	少样本	在 prompt 中提供少量示例让模型学习，无需训练
Fine-tuning	微调	在预训练模型基础上用特定数据继续训练
Flash Attention	—	通过分块计算避免 HBM 读写的高效注意力实现
FLOPs	浮点运算数	衡量计算量的单位，训练 FLOPs ≈ 6ND
FP16 / FP32	—	16/32 位浮点数，精度与速度的权衡

G

术语	中文	解释
GELU	—	GPT 系列使用的激活函数，ReLU 的平滑版本
GQA	分组查询注意力	多个 Query 头共享一组 KV 头，平衡效果和效率
Gradient Clipping	梯度裁剪	限制梯度最大范数，防止梯度爆炸
GRPO	组相对策略优化	DeepSeek 提出的无 Critic 的 RL 对齐方法

H-I

术语	中文	解释
Hallucination	幻觉	模型生成看似合理但事实错误的内容
HBM	高带宽内存	GPU 的主显存（如 A100 的 80GB HBM2e）
In-Context Learning (ICL)	上下文学习	模型从 prompt 中的示例学习新任务，无需参数更新
INT4 / INT8	—	4/8 位整数量化，大幅减少模型大小和推理显存

K-L

术语	中文	解释
KL Divergence	KL 散度	衡量两个概率分布差异的非对称度量
KV Cache	—	缓存已计算的 Key/Value 避免重复计算，推理加速的核心
LayerNorm	层归一化	在特征维度上归一化，Transformer 的标准归一化方法
LoRA	低秩适配	冻结原始权重，只训练低秩增量矩阵 $B A$ ，参数量减少 99%+

M

术语	中文	解释
MHA	多头注意力	将注意力分成多个头并行计算，捕获不同的注意力模式
Mixed Precision	混合精度	训练时混合使用 FP16 和 FP32，加速训练且省显存
MoE	混合专家	每个 token 只激活部分专家（FFN），在增大容量的同时控制计算量
MQA	多查询注意力	所有 Query 头共享一组 KV，极致压缩 KV Cache

N-O

术语	中文	解释
Next-Token Prediction	下一 Token 预测	LLM 预训练目标：给定前文预测下一个 token
ONNX	—	开放神经网络交换格式，用于跨框架模型部署

P

术语	中文	解释
PagedAttention	分页注意力	借鉴 OS 虚拟内存，将 KV Cache 分页管理，显存利用率接近 100%
PPO	近端策略优化	RLHF 中最经典的 RL 算法，通过 clip 限制策略更新幅度
Prefill	预填充	推理的第一阶段，一次性处理整个 prompt 并计算 KV Cache
Prompt Engineering	提示工程	设计有效的输入 prompt 来引导模型输出

Q-R

术语	中文	解释
Quantization	量化	将高精度参数（FP16）转为低精度（INT8/INT4），压缩模型
QLoRA	—	4-bit 量化基础模型 + FP16 LoRA，极致省显存的微调方法
RAG	检索增强生成	先检索相关文档再让 LLM 基于检索结果生成回答
Reward Model	奖励模型	学习人类偏好，给模型输出打分，用于 RLHF
RLHF	人类反馈强化学习	用人类偏好数据训练奖励模型，再用 RL 优化策略
RMSNorm	—	LayerNorm 的简化版，去掉均值中心化，Llama 采用
RoPE	旋转位置编码	通过复数旋转编码相对位置，支持长度外推

S

术语	中文	解释
Scaling Laws	缩放定律	模型性能与参数量/数据量/计算量之间的幂律关系
SFT	监督微调	用指令-回答对微调预训练模型，让它学会"怎么说话"
Softmax	—	将 logits 转为概率分布的函数
Speculative Decoding	投机解码	用小模型快速草拟，大模型并行验证，加速推理
SwiGLU	—	Llama 系列的 FFN 激活函数，带门控机制

T

术语	中文	解释
Temperature	温度	控制采样随机性的参数，越低越确定
Tensor Parallelism	张量并行	将单层的权重矩阵切分到多个 GPU 上
Token	—	文本的最小处理单元，由分词器产生
Top-k / Top-p	—	采样时限制候选 token 数量（Top-k）或累积概率（Top-p）
Transformer	—	基于自注意力的序列模型架构，LLM 的基础
TTFT	首 Token 延迟	Time To First Token，用户等待第一个输出的时间

V-Z

术语	中文	解释
vLLM	—	高性能 LLM 推理引擎，核心是 PagedAttention
Warmup	预热	训练初期学习率从 0 线性增长，避免梯度不稳定
Weight Tying	权重共享	输入 Embedding 和输出 LM Head 共享权重
Zero-shot	零样本	不提供任何示例，直接让模型完成任务