新手通识 - 学习路径规划指导

关于这个阶段

不管你以后做什么方向——影像、时序还是图神经网络，这个阶段的内容都要先学好。

很多同学想跳过基础直接学高级的，这样做是不对的，后面会遇到很多问题看不懂。踏踏实实把基础打好，后面学什么都快。

第1课：AI概述必学

这节课讲什么

带你了解人工智能的发展历程，从最早的图灵测试、专家系统，到后来的神经网络、深度学习，再到现在的大模型。让你对AI这个领域有一个整体的认识，知道我们学的东西在整个体系里处于什么位置。

你需要重点理解的内容

AI的几个发展阶段各有什么特点，为什么深度学习能火起来
神经网络的基本结构：输入层、隐藏层、输出层分别是干什么的
什么是前向传播、什么是反向传播，神经网络是怎么"学习"的
激活函数的作用是什么，为什么需要非线性
什么是梯度消失和梯度爆炸，大概知道是怎么回事就行

怎么学这节课

这节课主要是看视频听讲，不需要写代码。但是你要边看边做笔记，把关键概念用自己的话记下来。看完之后，试着给别人解释一下"神经网络是怎么学习的"，如果能讲清楚，说明你理解了。

学完自检

能回答这些问题就算过关：1）深度学习和传统机器学习有什么区别？2）反向传播算法的核心思想是什么？3）为什么深层网络比浅层网络效果好？

第2课：环境配置必学

这节课讲什么

教你在自己电脑上搭建深度学习的开发环境。包括Python安装、Anaconda的使用、PyTorch的安装、CUDA和cuDNN的配置。

重要提醒

环境配置是新手最容易卡住的地方，很多人学了一个月还在装环境。我的建议是：严格按照视频的步骤来，不要自己乱改；遇到报错先复制错误信息去搜索，大部分问题网上都有答案；实在解决不了就截图发群里问，不要在这个环节耗太久。

你需要掌握的操作

Anaconda的安装和基本使用：创建虚拟环境、激活环境、在环境里安装包
查看自己显卡型号，确定支持的CUDA版本
根据CUDA版本选择对应的PyTorch版本并安装
验证安装是否成功：import torch; print(torch.cuda.is_available()) 返回True才算成功
常见问题的解决方法：换源加速下载、版本不兼容怎么处理

怎么学这节课

这节课必须动手操作，光看视频没有用。建议先完整看一遍视频了解流程，然后跟着视频一步一步操作，每一步都要验证成功了再进行下一步。把自己的配置过程记录下来，以后换电脑或者重装系统的时候还能用。

常见问题解决

安装包太慢：换成清华源或者阿里源
torch.cuda.is_available()返回False：检查显卡驱动版本、CUDA版本、PyTorch版本是否匹配
报错DLL load failed：通常是CUDA版本和PyTorch版本不对应

第3课：Python编程基础必学

这节课讲什么

从零开始教Python编程。包括基础语法、数据类型、函数定义、面向对象编程，以及NumPy和Pandas这两个数据处理必备的库。

分情况说

如果你之前完全没学过Python，这节课要认真学，每个知识点都要敲代码练习，不能只看不练。如果你有Python基础，可以快速过一遍，重点看NumPy数组操作和Pandas数据处理，这两个后面天天要用。

你需要掌握的内容

变量定义和六大数据类型：数字、字符串、列表、元组、字典、集合
三大程序结构：顺序执行、条件分支(if-else)、循环(for/while)
函数的定义和调用，参数传递，返回值
面向对象：类的定义、对象的创建、属性和方法、继承。这个一定要搞懂，PyTorch的代码全是面向对象的写法
NumPy：数组的创建、索引和切片、数学运算、广播机制
Pandas：DataFrame的创建和操作、数据读取(read_csv)、数据筛选和清洗

怎么学这节课

一定要动手敲代码，看视频的时候老师写一行你就跟着写一行。每个知识点学完之后自己想一个小例子练习。课程里的练习题一定要做，做不出来就回去看视频。

学完自检

能独立写一个简单的程序（比如学生成绩管理），能用NumPy做矩阵运算，能用Pandas读取CSV文件并做简单的数据分析。

第4课：机器学习重要

这节课讲什么

教你传统机器学习的主要算法，包括线性回归、逻辑回归、决策树、随机森林、支持向量机、K近邻、XGBoost、LightGBM等，以及聚类、降维等无监督学习方法。

为什么要学机器学习

很多同学问我：我是做深度学习的，还需要学这些传统算法吗？需要的，原因有三：第一，机器学习是深度学习的基础，很多概念是相通的；第二，不是所有问题都需要深度学习，有些场景传统算法效果更好、速度更快；第三，写论文的时候，这些算法经常作为baseline进行对比。

你需要掌握的内容

监督学习和无监督学习的区别
回归问题和分类问题的区别
线性回归和逻辑回归的原理和使用场景
决策树的原理，随机森林为什么比单棵决策树效果好
集成学习的两种方式：Bagging和Boosting的区别
XGBoost和LightGBM的特点和使用方法
模型评估指标：准确率、精确率、召回率、F1值、AUC，什么时候用哪个
交叉验证是什么，为什么要做
过拟合和欠拟合是什么，怎么判断，怎么解决

怎么学这节课

每个算法都要做到三点：能用自己的话解释原理（不需要推公式，但要理解核心思想）；能用sklearn库调用这个算法跑一个例子；知道这个算法适合什么场景、有什么优缺点。建议在鸢尾花、泰坦尼克号、房价预测这些经典数据集上把各种算法都跑一遍，对比效果。

学完自检

能独立完成一个完整的机器学习项目：数据读取、数据清洗、特征工程、模型训练、模型评估、结果分析。

第5课：深度学习核心必学

这节课讲什么

这是新手通识阶段最重要的一节课。教你PyTorch框架的完整使用方法，以及CNN、RNN、Transformer三大基础网络的原理和实现。学完这节课，你就正式入门深度学习了。

学习建议

这节课内容多、难度大，建议至少花2到3周时间来学。不要赶进度，每个知识点都要吃透。特别是PyTorch的Dataset、DataLoader、模型定义、训练循环这些内容，后面天天要用，必须非常熟练。

PyTorch基础部分

张量(Tensor)：创建方式、数据类型、索引切片、数学运算、和NumPy数组的相互转换
自动求导(autograd)：什么是计算图，requires_grad的作用，backward()怎么用
Dataset类：怎么写自己的数据集类，__len__和__getitem__方法的作用
DataLoader：批量加载数据，batch_size、shuffle、num_workers这些参数的含义
nn.Module：怎么定义自己的网络模型，forward方法怎么写
损失函数：交叉熵损失、均方误差损失等，什么时候用哪个
优化器：SGD、Adam的区别，学习率怎么设置
训练循环的标准写法：前向传播→计算损失→反向传播→更新参数，这个必须背下来

三大基础网络

CNN（卷积神经网络）：卷积层的原理，卷积核是怎么提取特征的，池化层的作用，全连接层的作用。经典网络LeNet、AlexNet、VGG的结构特点
RNN/LSTM/GRU：循环神经网络的原理，为什么能处理序列数据，LSTM怎么解决长期依赖问题
Transformer：自注意力机制的原理，多头注意力是什么，位置编码为什么需要。这个现在非常重要，必须掌握

怎么学这节课

PyTorch基础部分要跟着视频把每个API都敲一遍，理解每个函数的输入输出。网络部分先理解原理，再看代码实现，最后自己从头写一遍。

最重要的：一定要完成猫狗分类实战项目。这个项目包含了完整的深度学习流程：数据加载、数据增强、模型定义、训练、评估、预测。做完这个项目，你就真正会训练模型了。

学完自检

能自己写一个Dataset类加载自己的图片数据
能自己定义一个CNN模型并完成训练
能看懂GitHub上大多数PyTorch项目的代码结构
知道训练过程中loss不下降、过拟合等问题怎么排查和解决

新手通识学完之后

恭喜你完成了新手通识阶段的学习！接下来根据你的数据类型，选择对应的实验室继续深入学习：

处理图片数据 → 影像实验室

处理时间序列数据 → 时序实验室

处理表格数据或图结构数据 → AI+实验室

← 返回首页下一步：选择实验室 →