影像实验室 - 学习路径规划指导

关于影像实验室

影像实验室专门处理图片类型的数据，包括医学影像（CT、X光、MRI、病理切片）、遥感图像、工业检测图像、自然图像等。

学完这个实验室的课程，你就能独立完成图像分类、语义分割、目标检测这些任务了。下面我把每节课都给你讲清楚。

点击图片可放大查看完整课程结构

第一节：框架拆解

深度学习项目框架拆解重要

这节课讲什么

带你拆解三个经典的深度学习项目：ViT（图像分类）、nnU-Net（医学图像分割）、YOLOv8（目标检测）。教你怎么阅读和理解一个完整的深度学习项目代码。

为什么要学框架拆解

你以后写论文、做项目，不可能每次都从零开始写代码。基本上都是找一个现成的项目，在它的基础上修改。所以你必须学会看懂别人的代码，知道项目里每个文件夹是干什么的，哪个文件负责数据处理，哪个文件负责模型定义，哪个文件是训练脚本。这个能力非常重要。

ViT项目框架拆解

Vision Transformer的整体架构：图像怎么切成patch，patch怎么变成token
位置编码是什么，为什么需要加位置编码
Transformer Encoder的结构：多头自注意力、前馈网络、残差连接、Layer Norm
分类头怎么设计，CLS token的作用
代码结构分析：config文件、model.py、train.py、inference.py各自的功能

nnU-Net项目框架拆解

U-Net的编码器-解码器结构，跳跃连接的作用
nnU-Net的自动化配置：为什么它能自适应不同的数据集
医学图像的特殊处理：3D数据怎么处理，多模态怎么融合
数据预处理流程、训练策略、后处理方法

YOLOv8项目框架拆解

YOLO的检测原理：怎么同时预测物体的位置和类别
Anchor-based和Anchor-free的区别
YOLOv8的网络结构：Backbone、Neck、Head各部分的作用
怎么用自己的数据集训练YOLOv8

怎么学这节课

不要只是看视频，一定要把项目代码下载下来自己跑一遍。跑通之后，在代码里打断点，一步一步看数据是怎么流动的，tensor的shape在每一步是怎么变化的。在关键的代码行加上自己的注释，用自己的话解释这行代码在干什么。

作业建议

选一个项目，画出它的代码结构图，写一份项目分析文档。这个练习做完，你读代码的能力会提升很多。

第二节：数据处理

数据标注、预处理与增强必学

这节课讲什么

教你怎么处理图像数据，包括数据标注、数据预处理、数据增强。这是做项目的第一步，数据处理好了，模型才能训练好。

重要提醒

做深度学习有句话叫"垃圾进垃圾出"，数据质量直接决定模型效果。很多同学模型效果不好，第一反应是去换更复杂的模型，其实问题往往出在数据上。这节课要认真学，特别是数据增强，这是提升模型性能的重要手段。

数据标注

分类数据：一个文件夹对应一个类别，图片放在对应的文件夹里
分割数据：用labelme等工具进行像素级标注，生成和原图对应的mask
检测数据：用labelImg等工具标注边界框，了解YOLO格式和COCO格式的区别
标注的质量控制：怎么保证标注的一致性和准确性

数据预处理

数据读取：支持的图像格式，批量读取的方法
尺寸调整：Resize到模型需要的输入尺寸
归一化：像素值从0-255转换到0-1
标准化：用ImageNet的均值和标准差进行标准化
格式转换：PIL Image转换成PyTorch的Tensor

数据增强

几何变换：水平翻转、垂直翻转、随机旋转、随机裁剪、随机缩放
颜色变换：亮度调整、对比度调整、饱和度调整、色相调整
噪声添加：高斯噪声、椒盐噪声
高级增强方法：Mixup、CutMix、CutOut、Mosaic
根据任务特点选择合适的增强策略：比如医学图像一般不做颜色变换

怎么学这节课

自己标注一个小数据集（20到50张图就够了），体验一下标注的过程。然后用torchvision.transforms写一套完整的数据预处理和增强代码。把增强后的图片可视化出来看看效果，确保增强没有把图片搞坏。

学完自检

能用标注工具标注分类、分割、检测数据
能写一个完整的Dataset类，包含数据读取和预处理
能根据任务特点设计合理的数据增强方案

第三节：算法讲解

图像分类、分割、检测算法核心必学

这节课讲什么

这是影像实验室最核心的内容，教你图像分类、语义分割、目标检测三大任务的主流算法。

学习建议

这节课内容很多，但你不需要每个算法都精通。根据你的论文或项目方向，选一个任务深入学就行。比如你做医学图像分割，就重点学U-Net系列；做工业缺陷检测，就重点学YOLO系列。其他的了解一下就可以。

图像分类算法

任务：判断一张图片属于哪个类别。

VGG：经典的深层CNN，让你理解"深度"对性能的影响
ResNet：残差连接，解决深层网络训练困难的问题。这个必须会，后面很多模型都以它为基础
ViT：用Transformer做图像分类，现在的主流方向
EfficientNet、ConvNeXt：更现代的分类网络

语义分割算法

任务：对图像的每个像素进行分类，得到分割掩码。

U-Net：编码器-解码器结构，跳跃连接保留细节信息。做分割的必须会这个
DeepLab系列：空洞卷积扩大感受野，ASPP模块提取多尺度特征
TransUNet：把Transformer引入U-Net
SAM（Segment Anything）：通用分割大模型，2023年Meta发布的

目标检测算法

任务：找出图像中的目标物体，用边界框框出来，并识别类别。

YOLO系列：实时检测，速度快。做检测的必须会，建议从YOLOv5或YOLOv8开始学
Faster R-CNN：两阶段检测器，精度高但速度慢
DETR：用Transformer做检测，端到端，不需要NMS后处理
Deformable DETR：DETR的改进版，收敛更快

其他任务（选学）

视频分类：SlowFast、3D-CNN，处理视频数据
目标追踪：SIAM系列、OSTrack，在视频中追踪目标

怎么学这节课

每个算法都要做到：能画出网络结构图，说清楚数据怎么流动的；知道这个算法的创新点是什么，解决了什么问题；能跑通官方代码，在一个数据集上训练并得到结果；会修改代码，比如换一个backbone、改一个loss函数。

常见论文算法组合

医学影像分类：ResNet/EfficientNet/ViT + 迁移学习 + Focal Loss
医学图像分割：U-Net/nnU-Net/TransUNet + Dice Loss + 深度监督
工业缺陷检测：YOLOv8/Faster R-CNN + 数据增强 + 小目标检测优化
遥感图像分割：DeepLabV3+/HRNet + 多尺度融合 + 边界优化

第四节：模型改进

模型改进与创新方法论文必备

这节课讲什么

教你怎么在基础模型上做改进。这是写论文最关键的部分，你的论文创新点基本上都是从这里来的。

关于创新点

很多同学问我怎么找创新点，觉得创新很难。其实创新不一定要发明全新的东西，把别人的方法用到你的场景里，或者把两个方法组合起来，只要能带来效果提升，就是创新。这节课教你的就是这些改进的套路，学会了你就知道怎么写论文了。

数据层面的改进

更强的数据增强策略：Mixup、CutMix、Mosaic等
处理数据不平衡问题：过采样、欠采样、类别权重调整
利用无标签数据：自监督学习、半监督学习

模型结构的改进

添加注意力机制：SE、CBAM、ECA、Self-Attention等，让模型关注重要的特征。这是最常用的改进方法
多尺度特征融合：FPN、ASPP、PANet，提升对不同大小目标的处理能力
换Backbone：把ResNet换成Swin Transformer、ConvNeXt等
添加残差连接、密集连接：借鉴ResNet、DenseNet的思想
改进上采样方式：转置卷积、双线性插值、像素重排

损失函数的改进

分割任务：Dice Loss、Focal Loss、Boundary Loss、组合Loss
检测任务：GIoU Loss、DIoU Loss、CIoU Loss
分类任务：Label Smoothing、Focal Loss

训练策略的改进

学习率调度：Warmup、余弦退火、ReduceLROnPlateau
优化器选择：Adam、AdamW、SAM优化器
正则化技巧：Dropout、DropPath、权重衰减

模型轻量化（按需学习）

知识蒸馏：用大模型教小模型
模型剪枝：去掉不重要的参数
模型量化：降低参数精度
轻量级网络：MobileNet、ShuffleNet、GhostNet

怎么学这节课

先在baseline模型上跑出一个基准结果，然后一个一个加改进模块，每加一个就测一下效果。记录每次实验的配置和结果，这就是消融实验。

写论文的标准实验流程

1. 跑baseline模型，得到基准结果
2. 添加改进模块A，测试效果提升（消融实验）
3. 添加改进模块B，测试效果提升（消融实验）
4. A+B+...组合，测试最终效果
5. 和现有方法对比（对比实验）
6. 可视化分析，解释为什么有效

影像实验室学完之后

到这里，影像实验室的核心内容就学完了。接下来你可以：

1. 根据自己的论文方向，深入学习对应的算法（分类/分割/检测）

2. 找一个公开数据集，完整做一个项目练手

3. 如果需要更高级的技术，可以去学习前沿技术部分（多模态、生成式AI等）

← 新手通识前沿技术 →