关于前沿技术
这部分是进阶内容,不是所有人都需要学。根据你的论文方向和项目需求,选择需要的部分学习。
如果你的论文不涉及这些内容,可以先跳过。等以后需要用到了再回来学。
一、多模态学习
什么是多模态学习
多模态学习是同时处理多种类型数据(如图像+文本、图像+音频)的技术。让模型能够理解和关联不同模态的信息。
什么时候需要学这个
- 做图文匹配、图像检索
- 做图像描述生成(Image Captioning)
- 做视觉问答(VQA)
- 做零样本分类(用文本描述来分类图像)
- 做医学报告+影像融合分析
主要模型和方法
- CLIP:OpenAI的对比学习模型,把图像和文本映射到同一空间。零样本分类效果很好,必学
- BLIP/BLIP-2:图像-文本理解和生成的统一模型
- ViLT:视觉和语言Transformer
- ALBEF:对齐前融合的多模态模型
- Coca、BEiT-3:最新的多模态大模型
怎么学
先学CLIP,理解对比学习的原理。跑通官方代码,在自己的数据上试试零样本分类。然后根据需要学其他模型。
应用举例
- 用CLIP做零样本图像分类:不需要训练,直接用文本描述就能分类
- 用CLIP做图像检索:输入文本,找到最相关的图像
- 医学影像+报告的联合分析
这部分讲什么
处理视频数据,视频同时包含图像序列和音频信息。
主要方法
- 双流网络:分别处理视觉和音频,然后融合
- I3D:3D卷积处理视频
- Video Transformer:用Transformer处理视频
- ST-GCN:时空图卷积网络,用于动作识别
什么时候学
做视频理解、动作识别、视频分类等任务时再学。
二、生成式AI
什么是GAN
生成对抗网络(GAN)是一种生成模型,通过生成器和判别器的对抗训练来生成逼真的数据。
什么时候需要学这个
- 做图像生成
- 做图像风格迁移
- 做图像超分辨率
- 做数据增强(生成更多训练数据)
- 做图像修复、图像补全
主要模型
- GAN:原始GAN,理解对抗训练的原理
- CycleGAN:无配对数据的风格迁移,比如马变斑马
- Pix2Pix:有配对数据的图像翻译
- SRGAN:图像超分辨率
- StyleGAN:生成高质量人脸图像
怎么学
先理解GAN的对抗训练原理,知道生成器和判别器是怎么博弈的。然后根据你的任务选择对应的GAN变体学习。GAN训练比较难,要注意训练技巧。
什么是VAE
变分自编码器(VAE)是另一种生成模型,通过学习数据的隐变量分布来生成新数据。
主要模型
- VAE:原始变分自编码器
- VQ-VAE:向量量化VAE,离散隐变量
- VQ-VAE-2:多尺度VQ-VAE
什么时候学
需要做隐变量学习、数据生成、或者作为其他模型(如扩散模型)的组件时学习。
什么是扩散模型
扩散模型是目前最火的生成模型,通过逐步去噪的过程生成高质量图像。Stable Diffusion、DALL-E、Midjourney都是基于扩散模型。
什么时候需要学这个
- 做高质量图像生成
- 做文本到图像生成(Text-to-Image)
- 做图像编辑
- 做医学图像生成(数据增强)
主要模型
- DDPM:扩散模型的基础,必学
- DDIM:加速采样
- Stable Diffusion:开源的文生图模型,目前最流行
- DALL-E系列:OpenAI的文生图模型
- ControlNet:可控图像生成
怎么学
先学DDPM理解扩散和去噪的原理。然后学Stable Diffusion,了解怎么用预训练模型生成图像。如果要做科研,还需要深入理解数学原理。
科研应用
- 用扩散模型做医学图像数据增强
- 用扩散模型做图像修复
- 用扩散模型做跨模态生成
三、强化学习
什么是强化学习
强化学习是让智能体通过与环境交互来学习最优策略的方法。和监督学习不同,强化学习没有标签,而是通过奖励信号来学习。
什么时候需要学这个
- 做机器人控制
- 做游戏AI
- 做自动化决策
- 做推荐系统(序列决策)
- 做量化交易
基本概念
- 智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)
- 马尔可夫决策过程(MDP)
- 策略(Policy)、价值函数(Value Function)
- 探索与利用的平衡
主要算法
- Q-Learning、DQN:基于值函数的方法
- PPO:目前最常用的策略梯度算法,必学
- A3C:异步优势Actor-Critic
- DDPG:连续动作空间的Actor-Critic
- SAC:最大熵强化学习
怎么学
先理解强化学习的基本概念和框架。然后在OpenAI Gym的简单环境(CartPole、MountainCar)上跑通DQN和PPO。强化学习的调参比较难,需要耐心。
多智能体强化学习
- 多个智能体同时学习和交互
- MADDPG:多智能体DDPG
- 应用:多机器人协作、博弈论
强化学习与其他领域结合
- 强化学习+影像数据:医学图像中的病灶定位
- 强化学习+时序数据:量化交易策略
- 强化学习+NLP:对话系统、文本生成
量化交易应用
- 把交易建模为马尔可夫决策过程
- 状态:市场特征、持仓信息
- 动作:买入、卖出、持有
- 奖励:收益率
- 需要处理数据泄露、过拟合等问题
四、大语言模型
什么时候需要学这个
- 做文本相关的AI应用
- 需要用大模型辅助数据分析
- 做AI Agent开发
主要内容
- Prompt Engineering:怎么写好提示词
- RAG(检索增强生成):结合知识库的问答系统
- 微调技术:LoRA、QLoRA等高效微调方法
- LangChain:大模型应用开发框架
说明
大语言模型是当前最热门的方向,但和前面的CV/时序/GNN方向关系不大。如果你的研究方向涉及文本处理或者想做AI应用开发,可以学习这部分内容。
前沿技术总结
前沿技术内容很多,但你不需要全学。根据自己的论文方向和项目需求,选择需要的部分深入学习即可。
建议的学习顺序:
1. 先把新手通识和对应实验室的课程学扎实
2. 确定论文方向后,看是否需要前沿技术
3. 需要用到什么就学什么,不要盲目追热点