Skip to content

术语表

大模型领域的核心术语中英对照 + 一句话解释。按字母排序,方便查阅。

A

术语中文解释
Activation Checkpointing激活检查点训练时不保存所有中间激活,反向传播时重新计算,用计算换显存
Adam / AdamW自适应学习率优化器,AdamW 解耦了权重衰减,是大模型训练标配
Agent智能体能感知环境、做决策、使用工具来完成任务的 AI 系统
Alignment对齐让模型行为符合人类意图和价值观的过程(RLHF、DPO 等)
Attention注意力机制让模型动态关注输入中不同部分的机制,Transformer 的核心

B

术语中文解释
Backpropagation反向传播通过链式法则从输出到输入逐层计算梯度的算法
Beam Search束搜索同时维护多条候选路径的解码策略,适合翻译等任务
BF16 (BFloat16)16 位浮点格式,与 FP32 相同的指数范围,训练更稳定
BPE字节对编码最主流的子词分词算法,反复合并高频相邻对

C

术语中文解释
Causal Attention因果注意力每个 token 只能看到它之前的 token,用于自回归生成
Chain-of-Thought (CoT)思维链让模型逐步推理的提示技术,显著提升复杂推理能力
ChinchillaDeepMind 提出的计算最优 Scaling Law:模型和数据应同等扩展
Constitutional AI宪法式 AIAnthropic 的对齐方法,用明确原则指导模型自我改进
Continuous Batching连续批处理迭代级别的请求调度,新请求无需等待当前 batch 完成
Cross-Entropy交叉熵语言模型的标准损失函数,衡量预测分布与真实分布的差距

D

术语中文解释
Decoder-Only仅解码器只有 Transformer Decoder 的架构(GPT、Llama 等),主流 LLM 架构
Distillation蒸馏用大模型(Teacher)的知识训练小模型(Student)
DPO直接偏好优化不需要 Reward Model 的对齐方法,直接从偏好数据优化策略
Dropout随机失活训练时随机将神经元输出置零,防止过拟合

E

术语中文解释
Embedding嵌入将离散 token 映射为连续向量的过程/结果
Emergent Abilities涌现能力小模型不具备但大模型突然出现的能力(存在争议)

F

术语中文解释
Few-shot少样本在 prompt 中提供少量示例让模型学习,无需训练
Fine-tuning微调在预训练模型基础上用特定数据继续训练
Flash Attention通过分块计算避免 HBM 读写的高效注意力实现
FLOPs浮点运算数衡量计算量的单位,训练 FLOPs ≈ 6ND
FP16 / FP3216/32 位浮点数,精度与速度的权衡

G

术语中文解释
GELUGPT 系列使用的激活函数,ReLU 的平滑版本
GQA分组查询注意力多个 Query 头共享一组 KV 头,平衡效果和效率
Gradient Clipping梯度裁剪限制梯度最大范数,防止梯度爆炸
GRPO组相对策略优化DeepSeek 提出的无 Critic 的 RL 对齐方法

H-I

术语中文解释
Hallucination幻觉模型生成看似合理但事实错误的内容
HBM高带宽内存GPU 的主显存(如 A100 的 80GB HBM2e)
In-Context Learning (ICL)上下文学习模型从 prompt 中的示例学习新任务,无需参数更新
INT4 / INT84/8 位整数量化,大幅减少模型大小和推理显存

K-L

术语中文解释
KL DivergenceKL 散度衡量两个概率分布差异的非对称度量
KV Cache缓存已计算的 Key/Value 避免重复计算,推理加速的核心
LayerNorm层归一化在特征维度上归一化,Transformer 的标准归一化方法
LoRA低秩适配冻结原始权重,只训练低秩增量矩阵 BA,参数量减少 99%+

M

术语中文解释
MHA多头注意力将注意力分成多个头并行计算,捕获不同的注意力模式
Mixed Precision混合精度训练时混合使用 FP16 和 FP32,加速训练且省显存
MoE混合专家每个 token 只激活部分专家(FFN),在增大容量的同时控制计算量
MQA多查询注意力所有 Query 头共享一组 KV,极致压缩 KV Cache

N-O

术语中文解释
Next-Token Prediction下一 Token 预测LLM 预训练目标:给定前文预测下一个 token
ONNX开放神经网络交换格式,用于跨框架模型部署

P

术语中文解释
PagedAttention分页注意力借鉴 OS 虚拟内存,将 KV Cache 分页管理,显存利用率接近 100%
PPO近端策略优化RLHF 中最经典的 RL 算法,通过 clip 限制策略更新幅度
Prefill预填充推理的第一阶段,一次性处理整个 prompt 并计算 KV Cache
Prompt Engineering提示工程设计有效的输入 prompt 来引导模型输出

Q-R

术语中文解释
Quantization量化将高精度参数(FP16)转为低精度(INT8/INT4),压缩模型
QLoRA4-bit 量化基础模型 + FP16 LoRA,极致省显存的微调方法
RAG检索增强生成先检索相关文档再让 LLM 基于检索结果生成回答
Reward Model奖励模型学习人类偏好,给模型输出打分,用于 RLHF
RLHF人类反馈强化学习用人类偏好数据训练奖励模型,再用 RL 优化策略
RMSNormLayerNorm 的简化版,去掉均值中心化,Llama 采用
RoPE旋转位置编码通过复数旋转编码相对位置,支持长度外推

S

术语中文解释
Scaling Laws缩放定律模型性能与参数量/数据量/计算量之间的幂律关系
SFT监督微调用指令-回答对微调预训练模型,让它学会"怎么说话"
Softmax将 logits 转为概率分布的函数
Speculative Decoding投机解码用小模型快速草拟,大模型并行验证,加速推理
SwiGLULlama 系列的 FFN 激活函数,带门控机制

T

术语中文解释
Temperature温度控制采样随机性的参数,越低越确定
Tensor Parallelism张量并行将单层的权重矩阵切分到多个 GPU 上
Token文本的最小处理单元,由分词器产生
Top-k / Top-p采样时限制候选 token 数量(Top-k)或累积概率(Top-p)
Transformer基于自注意力的序列模型架构,LLM 的基础
TTFT首 Token 延迟Time To First Token,用户等待第一个输出的时间

V-Z

术语中文解释
vLLM高性能 LLM 推理引擎,核心是 PagedAttention
Warmup预热训练初期学习率从 0 线性增长,避免梯度不稳定
Weight Tying权重共享输入 Embedding 和输出 LM Head 共享权重
Zero-shot零样本不提供任何示例,直接让模型完成任务