基础知识
本章介绍大模型学习所需的基础知识,包括数学、Python、神经网络和 NLP。
学习路线
| 主题 | 核心内容 | 预计时间 |
|---|---|---|
| 数学基础 | 线性代数、微积分、概率统计 | 1-2 周 |
| Python & ML | NumPy、PyTorch、Scikit-learn | 1-2 周 |
| 神经网络 | 前馈网络、反向传播、优化器 | 1 周 |
| NLP 基础 | 词嵌入、RNN、Seq2Seq | 1 周 |
如果你已有相关基础,可以直接跳到模型架构章节。
详细内容索引
math.md — 数学基础 (371 lines)
- 在大模型体系中的位置 (L10)
- 线性代数 (L23)
- 向量与矩阵运算 (L25)
- 特征值与特征向量 (L39)
- 矩阵的秩与 LoRA 的关系 (L57)
- 广播机制 (L69)
- 微积分 (L90)
- 导数与梯度 (L92)
- 链式法则 (L102)
- 雅可比矩阵 (L112)
- 梯度消失与梯度爆炸 (L126)
- 概率与信息论 (L140)
- 概率分布 (L142)
- 信息量与熵 (L154)
- 交叉熵 (L172)
- KL 散度 (L233)
- 最大似然估计 (L249)
- Softmax 函数 (L267)
- 数学定义与直觉 (L269)
- 数值稳定性问题 (L286)
- 苏格拉底时刻 (L350)
- 推荐资源 (L364)
neural-networks.md — 神经网络基础 (591 lines)
- 在大模型体系中的位置 (L11)
- 感知机到多层网络 (L25)
- 单个神经元 (L27)
- 多层感知机 (MLP) (L39)
- 万能逼近定理 (L86)
- 激活函数 (L94)
- ReLU 及其变体 (L96)
- Sigmoid 与 Tanh (L106)
- GELU (GPT 使用) (L114)
- SwiGLU (Llama 使用) (L122)
- 损失函数 (L134)
- MSE (均方误差) (L136)
- 交叉熵损失 (L144)
- 交叉熵的梯度推导 (L192)
- 反向传播 (L259)
- 计算图 (L261)
- 链式法则在计算图上的应用 (L265)
- PyTorch 的自动微分 (L342)
- 优化器 (L357)
- SGD 与动量 (L359)
- Adam 的数学推导 (L371)
- AdamW (解耦权重衰减) (L396)
- 学习率调度 (L406)
- 正则化 (L419)
- Dropout (L421)
- Layer Normalization (L433)
- Weight Decay (L453)
- 前沿优化器:Muon (L465)
- 核心思想 (L467)
- Newton-Schulz 迭代:高效计算 msign (L491)
- 简化版 Muon 实现 (L501)
- Muon vs AdamW 对比 (L542)
- 苏格拉底时刻 (L559)
- 常见问题 & 面试考点 (L571)
- 推荐资源 (L584)
nlp-basics.md — NLP 基础概念 (406 lines)
- 在大模型体系中的位置 (L11)
- 文本表示 (L24)
- One-Hot 编码的局限 (L26)
- 词嵌入的直觉 (L55)
- Word2Vec (L92)
- 分词基础 (L140)
- 字符级 vs 词级 vs 子词级 (L142)
- 分词的实现 (L152)
- 序列建模 (L222)
- RNN 的基本结构 (L224)
- 梯度消失问题 (L239)
- LSTM 的门控机制 (L249)
- GRU (L277)
- Seq2Seq 与注意力 (L293)
- Encoder-Decoder 架构 (L295)
- 注意力机制的起源 (Bahdanau Attention) (L306)
- 从 RNN+Attention 到 Transformer (L319)
- 语言模型 (L343)
- 统计语言模型 (N-gram) (L345)
- 神经语言模型 (L361)
- Perplexity 评估指标 (L371)
- 苏格拉底时刻 (L386)
- 推荐资源 (L398)
python-ml.md — Python & 机器学习 (554 lines)
- PyTorch 基础 (L10)
- 张量创建与基础操作 (L14)
- 广播机制(Broadcasting) (L57)
- 设备管理(CPU / GPU) (L78)
- Autograd 原理 (L106)
- 计算图与 .backward() (L110)
- 梯度累积与清零 (L129)
- detach 与 no_grad (L151)
- nn.Module 详解 (L173)
- __init__ 与 forward (L177)
- 参数管理 (L210)
- Hook 机制 (L235)
- 数据处理 (L263)
- 自定义 Dataset (L267)
- Collate Function 与动态 Padding (L297)
- DataLoader 的关键参数 (L340)
- Hugging Face 生态 (L350)
- transformers:AutoModel / AutoTokenizer / Trainer (L354)
- datasets:高效数据加载 (L407)
- accelerate:多卡训练封装 (L432)
- wandb 实验追踪 (L456)
- 常用调试工具 (L491)
- torch.profiler:性能瓶颈分析 (L493)
- 显存监控 (L515)
- 苏格拉底时刻 (L537)
- 推荐资源 (L546)