Skip to content

基础知识

本章介绍大模型学习所需的基础知识,包括数学、Python、神经网络和 NLP。

学习路线

主题核心内容预计时间
数学基础线性代数、微积分、概率统计1-2 周
Python & MLNumPy、PyTorch、Scikit-learn1-2 周
神经网络前馈网络、反向传播、优化器1 周
NLP 基础词嵌入、RNN、Seq2Seq1 周

如果你已有相关基础,可以直接跳到模型架构章节。

详细内容索引

math.md — 数学基础 (371 lines)

  • 在大模型体系中的位置 (L10)
  • 线性代数 (L23)
    • 向量与矩阵运算 (L25)
    • 特征值与特征向量 (L39)
    • 矩阵的秩与 LoRA 的关系 (L57)
    • 广播机制 (L69)
  • 微积分 (L90)
    • 导数与梯度 (L92)
    • 链式法则 (L102)
    • 雅可比矩阵 (L112)
    • 梯度消失与梯度爆炸 (L126)
  • 概率与信息论 (L140)
    • 概率分布 (L142)
    • 信息量与熵 (L154)
    • 交叉熵 (L172)
    • KL 散度 (L233)
    • 最大似然估计 (L249)
  • Softmax 函数 (L267)
    • 数学定义与直觉 (L269)
    • 数值稳定性问题 (L286)
  • 苏格拉底时刻 (L350)
  • 推荐资源 (L364)

neural-networks.md — 神经网络基础 (591 lines)

  • 在大模型体系中的位置 (L11)
  • 感知机到多层网络 (L25)
    • 单个神经元 (L27)
    • 多层感知机 (MLP) (L39)
    • 万能逼近定理 (L86)
  • 激活函数 (L94)
    • ReLU 及其变体 (L96)
    • Sigmoid 与 Tanh (L106)
    • GELU (GPT 使用) (L114)
    • SwiGLU (Llama 使用) (L122)
  • 损失函数 (L134)
    • MSE (均方误差) (L136)
    • 交叉熵损失 (L144)
    • 交叉熵的梯度推导 (L192)
  • 反向传播 (L259)
    • 计算图 (L261)
    • 链式法则在计算图上的应用 (L265)
    • PyTorch 的自动微分 (L342)
  • 优化器 (L357)
    • SGD 与动量 (L359)
    • Adam 的数学推导 (L371)
    • AdamW (解耦权重衰减) (L396)
    • 学习率调度 (L406)
  • 正则化 (L419)
    • Dropout (L421)
    • Layer Normalization (L433)
    • Weight Decay (L453)
  • 前沿优化器:Muon (L465)
    • 核心思想 (L467)
    • Newton-Schulz 迭代:高效计算 msign (L491)
    • 简化版 Muon 实现 (L501)
    • Muon vs AdamW 对比 (L542)
  • 苏格拉底时刻 (L559)
  • 常见问题 & 面试考点 (L571)
  • 推荐资源 (L584)

nlp-basics.md — NLP 基础概念 (406 lines)

  • 在大模型体系中的位置 (L11)
  • 文本表示 (L24)
    • One-Hot 编码的局限 (L26)
    • 词嵌入的直觉 (L55)
    • Word2Vec (L92)
  • 分词基础 (L140)
    • 字符级 vs 词级 vs 子词级 (L142)
    • 分词的实现 (L152)
  • 序列建模 (L222)
    • RNN 的基本结构 (L224)
    • 梯度消失问题 (L239)
    • LSTM 的门控机制 (L249)
    • GRU (L277)
  • Seq2Seq 与注意力 (L293)
    • Encoder-Decoder 架构 (L295)
    • 注意力机制的起源 (Bahdanau Attention) (L306)
    • 从 RNN+Attention 到 Transformer (L319)
  • 语言模型 (L343)
    • 统计语言模型 (N-gram) (L345)
    • 神经语言模型 (L361)
    • Perplexity 评估指标 (L371)
  • 苏格拉底时刻 (L386)
  • 推荐资源 (L398)

python-ml.md — Python & 机器学习 (554 lines)

  • PyTorch 基础 (L10)
    • 张量创建与基础操作 (L14)
    • 广播机制(Broadcasting) (L57)
    • 设备管理(CPU / GPU) (L78)
  • Autograd 原理 (L106)
    • 计算图与 .backward() (L110)
    • 梯度累积与清零 (L129)
    • detach 与 no_grad (L151)
  • nn.Module 详解 (L173)
    • __init__ 与 forward (L177)
    • 参数管理 (L210)
    • Hook 机制 (L235)
  • 数据处理 (L263)
    • 自定义 Dataset (L267)
    • Collate Function 与动态 Padding (L297)
    • DataLoader 的关键参数 (L340)
  • Hugging Face 生态 (L350)
    • transformers:AutoModel / AutoTokenizer / Trainer (L354)
    • datasets:高效数据加载 (L407)
    • accelerate:多卡训练封装 (L432)
  • wandb 实验追踪 (L456)
  • 常用调试工具 (L491)
    • torch.profiler:性能瓶颈分析 (L493)
    • 显存监控 (L515)
  • 苏格拉底时刻 (L537)
  • 推荐资源 (L546)