Skip to content

学习路线

本页提供推荐的学习顺序和每个模块的预估时间,帮助你制定自己的学习计划。

总览

整个教程预计需要 8-12 周(每周投入 10-15 小时)。你可以根据自身背景跳过已熟悉的模块。


第一阶段:基础知识

预计时间:2-3 周 | 难度:入门

如果你已有深度学习基础(熟悉 PyTorch、反向传播、基本 NLP),可以快速浏览或跳过本阶段。

序号主题预计时间前置知识
1.1数学基础6-8 小时高中数学
1.2Python & 机器学习4-6 小时Python 基础
1.3神经网络基础4-6 小时线性代数、PyTorch
1.4NLP 基础概念3-4 小时神经网络

阶段目标: 能手写一个简单的前馈神经网络,理解梯度下降和反向传播的原理。


第二阶段:模型架构(核心)

预计时间:2-3 周 | 难度:中等

这是整个教程的核心模块,建议所有人认真学习,不要跳过。

序号主题预计时间前置知识
2.1Transformer 完全解析6-8 小时神经网络、NLP 基础
2.2注意力机制深入4-6 小时Transformer
2.3分词器3-4 小时NLP 基础
2.4解码策略2-3 小时Transformer
2.5GPT 架构3-4 小时Transformer
2.6Llama 架构详解4-6 小时GPT
2.7DeepSeek-V3 技术分析4-6 小时Llama

阶段目标: 能从零实现一个完整的 Transformer,理解主流大模型的架构设计选择。


第三阶段:训练

预计时间:1-2 周 | 难度:中等偏高

序号主题预计时间前置知识
3.1预训练流程4-6 小时模型架构
3.2数据集构建3-4 小时NLP 基础
3.3监督微调 (SFT)3-4 小时预训练
3.4偏好对齐 (RLHF/DPO/GRPO)6-8 小时SFT

阶段目标: 理解大模型从预训练到对齐的完整流程,能使用开源框架完成一次 SFT 微调。


第四阶段:工程化

预计时间:1-2 周 | 难度:中等偏高

序号主题预计时间前置知识
4.1推理优化4-6 小时模型架构
4.2模型量化3-4 小时线性代数、模型架构
4.3分布式训练4-6 小时预训练
4.4模型评估3-4 小时训练

阶段目标: 能独立部署一个大模型推理服务,理解常见的性能优化手段。


第五阶段:深度剖析

预计时间:持续进行 | 难度:高

本模块可以与其他模块穿插进行,在学完相关基础后随时深入。

序号主题预计时间前置知识
5.1深度剖析(持续更新中)4-6 小时模型架构

更多深度剖析文章持续更新中(vLLM 源码分析等)

阶段目标: 培养阅读大型开源项目源码的能力,建立工程批判性思维。


第六阶段:应用

预计时间:1-2 周 | 难度:中等

序号主题预计时间前置知识
6.1RAG 检索增强生成4-6 小时模型架构
6.2Agent 智能体4-6 小时RAG
6.3多模态大模型4-6 小时模型架构

阶段目标: 能构建一个基于 RAG 的问答系统或简单的 Agent 应用。


不同背景的推荐路径

计算机专业学生(有编程基础)

快速浏览第一阶段 → 重点学习第二、三阶段 → 选修第四、五、六阶段

预计时间:6-8 周

AI/ML 从业者(有深度学习经验)

跳过第一阶段 → 重点学习第二阶段 → 根据工作需要选修后续模块

预计时间:4-6 周

完全零基础的初学者

按顺序从第一阶段开始,不要跳过任何模块

预计时间:10-12 周


学习建议

  1. 动手优先:每学完一个概念就运行配套代码,不要只看不练。
  2. 做好笔记:用自己的话复述学到的内容,这是检验理解程度的最好方式。
  3. 善用练习系统:从选择题开始,逐步过渡到代码填空和完整实现。
  4. 不要赶进度:宁可一个模块学透,也不要囫囵吞枣地赶完全部内容。
  5. 参与社区:在 GitHub Issues 中提问和讨论,和其他学习者互相帮助。