基础知识

本章介绍大模型学习所需的基础知识，包括数学、Python、神经网络和 NLP。

学习路线

如果你已有相关基础，可以直接跳到模型架构章节。

在大模型体系中的位置 (L11)
感知机到多层网络 (L25)
- 单个神经元 (L27)
- 多层感知机 (MLP) (L39)
- 万能逼近定理 (L86)
激活函数 (L94)
- ReLU 及其变体 (L96)
- Sigmoid 与 Tanh (L106)
- GELU (GPT 使用) (L114)
- SwiGLU (Llama 使用) (L122)
损失函数 (L134)
- MSE (均方误差) (L136)
- 交叉熵损失 (L144)
- 交叉熵的梯度推导 (L192)
反向传播 (L259)
- 计算图 (L261)
- 链式法则在计算图上的应用 (L265)
- PyTorch 的自动微分 (L342)
优化器 (L357)
- SGD 与动量 (L359)
- Adam 的数学推导 (L371)
- AdamW (解耦权重衰减) (L396)
- 学习率调度 (L406)
正则化 (L419)
- Dropout (L421)
- Layer Normalization (L433)
- Weight Decay (L453)
前沿优化器：Muon (L465)
- 核心思想 (L467)
- Newton-Schulz 迭代：高效计算 msign (L491)
- 简化版 Muon 实现 (L501)
- Muon vs AdamW 对比 (L542)
苏格拉底时刻 (L559)
常见问题 & 面试考点 (L571)
推荐资源 (L584)

在大模型体系中的位置 (L11)
文本表示 (L24)
- One-Hot 编码的局限 (L26)
- 词嵌入的直觉 (L55)
- Word2Vec (L92)
分词基础 (L140)
- 字符级 vs 词级 vs 子词级 (L142)
- 分词的实现 (L152)
序列建模 (L222)
- RNN 的基本结构 (L224)
- 梯度消失问题 (L239)
- LSTM 的门控机制 (L249)
- GRU (L277)
Seq2Seq 与注意力 (L293)
- Encoder-Decoder 架构 (L295)
- 注意力机制的起源 (Bahdanau Attention) (L306)
- 从 RNN+Attention 到 Transformer (L319)
语言模型 (L343)
- 统计语言模型 (N-gram) (L345)
- 神经语言模型 (L361)
- Perplexity 评估指标 (L371)
苏格拉底时刻 (L386)
推荐资源 (L398)

PyTorch 基础 (L10)
- 张量创建与基础操作 (L14)
- 广播机制（Broadcasting） (L57)
- 设备管理（CPU / GPU） (L78)
Autograd 原理 (L106)
- 计算图与 .backward() (L110)
- 梯度累积与清零 (L129)
- detach 与 no_grad (L151)
nn.Module 详解 (L173)
- __init__ 与 forward (L177)
- 参数管理 (L210)
- Hook 机制 (L235)
数据处理 (L263)
- 自定义 Dataset (L267)
- Collate Function 与动态 Padding (L297)
- DataLoader 的关键参数 (L340)
Hugging Face 生态 (L350)
- transformers：AutoModel / AutoTokenizer / Trainer (L354)
- datasets：高效数据加载 (L407)
- accelerate：多卡训练封装 (L432)
wandb 实验追踪 (L456)
常用调试工具 (L491)
- torch.profiler：性能瓶颈分析 (L493)
- 显存监控 (L515)
苏格拉底时刻 (L537)
推荐资源 (L546)