← 返回首页

前沿技术

进阶选修内容,按需学习

关于前沿技术

这部分是进阶内容,不是所有人都需要学。根据你的论文方向和项目需求,选择需要的部分学习。

如果你的论文不涉及这些内容,可以先跳过。等以后需要用到了再回来学。

一、多模态学习

图像-文本多模态 选学

什么是多模态学习

多模态学习是同时处理多种类型数据(如图像+文本、图像+音频)的技术。让模型能够理解和关联不同模态的信息。

什么时候需要学这个

主要模型和方法

怎么学

先学CLIP,理解对比学习的原理。跑通官方代码,在自己的数据上试试零样本分类。然后根据需要学其他模型。

应用举例
  • 用CLIP做零样本图像分类:不需要训练,直接用文本描述就能分类
  • 用CLIP做图像检索:输入文本,找到最相关的图像
  • 医学影像+报告的联合分析
图像-文本-音频多模态 选学

这部分讲什么

处理视频数据,视频同时包含图像序列和音频信息。

主要方法

什么时候学

做视频理解、动作识别、视频分类等任务时再学。

二、生成式AI

GAN系列 选学

什么是GAN

生成对抗网络(GAN)是一种生成模型,通过生成器和判别器的对抗训练来生成逼真的数据。

什么时候需要学这个

主要模型

怎么学

先理解GAN的对抗训练原理,知道生成器和判别器是怎么博弈的。然后根据你的任务选择对应的GAN变体学习。GAN训练比较难,要注意训练技巧。

VAE系列 选学

什么是VAE

变分自编码器(VAE)是另一种生成模型,通过学习数据的隐变量分布来生成新数据。

主要模型

什么时候学

需要做隐变量学习、数据生成、或者作为其他模型(如扩散模型)的组件时学习。

扩散模型 热门

什么是扩散模型

扩散模型是目前最火的生成模型,通过逐步去噪的过程生成高质量图像。Stable Diffusion、DALL-E、Midjourney都是基于扩散模型。

什么时候需要学这个

主要模型

怎么学

先学DDPM理解扩散和去噪的原理。然后学Stable Diffusion,了解怎么用预训练模型生成图像。如果要做科研,还需要深入理解数学原理。

科研应用
  • 用扩散模型做医学图像数据增强
  • 用扩散模型做图像修复
  • 用扩散模型做跨模态生成

三、强化学习

强化学习基础 选学

什么是强化学习

强化学习是让智能体通过与环境交互来学习最优策略的方法。和监督学习不同,强化学习没有标签,而是通过奖励信号来学习。

什么时候需要学这个

基本概念

主要算法

怎么学

先理解强化学习的基本概念和框架。然后在OpenAI Gym的简单环境(CartPole、MountainCar)上跑通DQN和PPO。强化学习的调参比较难,需要耐心。

强化学习进阶 选学

多智能体强化学习

强化学习与其他领域结合

量化交易应用

四、大语言模型

LLM相关技术 热门

什么时候需要学这个

主要内容

说明

大语言模型是当前最热门的方向,但和前面的CV/时序/GNN方向关系不大。如果你的研究方向涉及文本处理或者想做AI应用开发,可以学习这部分内容。

前沿技术总结

前沿技术内容很多,但你不需要全学。根据自己的论文方向和项目需求,选择需要的部分深入学习即可。

建议的学习顺序:

1. 先把新手通识和对应实验室的课程学扎实

2. 确定论文方向后,看是否需要前沿技术

3. 需要用到什么就学什么,不要盲目追热点