← 返回首页

AI+实验室

处理结构化数据与图结构数据的AI科研方向

关于AI+实验室

AI+实验室处理两类数据:一是结构化数据(表格数据),二是图结构数据。这两类数据在现实中非常常见,处理方法和影像、时序都不同。

结构化数据就是Excel表格那种形式的数据,图结构数据包括社交网络、分子结构、知识图谱、交通网络等。

AI+实验室课程大图

点击图片可放大查看完整课程结构

第一部分:结构化数据处理

第1节:特征工程 必学

这节课讲什么

教你怎么处理表格形式的数据。对于结构化数据,特征工程往往比模型选择更重要。好的特征工程能让简单模型也有很好的效果。

重要提示

对于表格数据,传统机器学习方法(XGBoost、LightGBM)往往比深度学习效果更好。不要一上来就想着用神经网络,先把特征工程做好,用树模型跑一跑。

数值特征处理

类别特征处理

时间特征处理

特征构造

特征选择

怎么学这节课

找一个Kaggle的表格数据竞赛,从数据探索到特征工程完整做一遍。看看Top方案都做了哪些特征工程,学习他们的思路。

第2节:树模型 核心必学

这节课讲什么

教你表格数据的首选模型:梯度提升树系列。XGBoost和LightGBM是处理表格数据最强的工具,必须熟练掌握。

XGBoost

LightGBM

CatBoost

模型融合

怎么学这节课

在一个数据集上把XGBoost和LightGBM都跑一遍,体验调参的过程。用Optuna做超参数搜索。参加一个Kaggle竞赛,看看自己能排到什么名次。

表格数据竞赛常见套路
  • 做好数据清洗和特征工程
  • 用交叉验证评估模型效果
  • 多训练几个不同参数的模型
  • 用Stacking或Blending融合模型

第二部分:图神经网络

第3节:图神经网络基础 核心必学

这节课讲什么

教你图神经网络的基本原理。GNN是处理图结构数据的核心方法,近年来在学术界非常热门。

图的基本概念

消息传递机制

核心概念

GNN的核心思想是:每个节点通过聚合邻居节点的信息来更新自己的表示。这个过程叫做消息传递(Message Passing)。不同的GNN模型,区别主要在于怎么聚合邻居信息。

GCN(图卷积网络)

GAT(图注意力网络)

GraphSAGE

PyG框架

怎么学这节课

先理解消息传递的原理,不需要推导公式,但要理解GNN是怎么聚合邻居信息的。然后用PyG在Cora数据集上跑通GCN和GAT,理解代码的写法。自己动手实现一个简单的GCN。

第4节:图神经网络应用 重要

这节课讲什么

教你怎么把GNN用到实际任务中,不同的任务有不同的处理方式。

节点分类

预测图中每个节点的类别。

链接预测

预测两个节点之间是否存在边。

图分类

预测整个图的类别。

应用场景详解

怎么学这节课

根据你的研究方向选一个应用场景,完整做一个项目。比如做分子属性预测,就用OGB数据集;做推荐系统,就用MovieLens数据集。

第5节:图神经网络进阶 选学

进阶内容

常见改进方向

AI+实验室学完之后

到这里,AI+实验室的核心内容就学完了。接下来你可以:

1. 如果做结构化数据,继续深入学习特征工程和模型融合技巧

2. 如果做图数据,根据应用场景深入学习对应的GNN变体

3. 如果需要更高级的技术,可以去学习前沿技术部分