Machine Learning & Data Mining

This course will introduce you to machine learning, covering some of the core ideas, methods and theory currently used and understood by practitioners

更新于：2025-05-01

模型分类

判别式和生成式

判别模型：学习条件概率P(Y|X)，也可以学习决策边界，目标是直接分类，不考虑数据是如何生成

代表有逻辑回归、SVM、感知机perception、k近邻算法KNN、决策树、随机森林、梯度提升树（GBDT、XGBoost、LightGBM）Boosting框架下的判别模型、神经网络（MLP、CNN、RNN）非线性函数近似器。
生成模型：学习联合概率P(X,Y)，也可以学习边际概率P(X)或条件概率P(Y|X)，利用贝叶斯定理，然后用MAP（最大后验概率估计）进行分类。

代表有朴素贝叶斯（假设特征条件独立估计P(X,Y)）、GMM（高斯混合模型）。

概率和非概率模型

概率模型：建模的是数据的概率分布，通常学习P(X)或P(X|Y)或联合分布P(X,Y)，模型的输出是一个概率值或者概率驱动的。

代表有朴素贝叶斯分类器、贝叶斯网络、GMM（高斯混合模型）、逻辑回归。
非概率模型：不直接建立概率分布，而是输出一个确定性的函数结果（决策边界、标签值）。

代表有决策树、SVM、k近邻算法KNN、感知机perception。

监督和无监督

监督学习：训练数据包含输入特征和对应的标签，模型通过学习输入特征与标签之间的关系来进行预测。

代表有线性回归、逻辑回归、决策树、随机森林、SVM、k近邻算法KNN、神经网络。
监督学习：训练数据包含输入特征和对应的标签，模型通过学习输入特征与标签之间的关系来进行预测。

代表有线性回归、逻辑回归、决策树、随机森林、SVM、k近邻算法KNN、神经网络。
无监督学习：训练数据仅包含输入特征，没有标签，模型通过学习输入特征之间的关系来进行聚类或降维，目标是数据挖掘。

代表有k均值聚类、层次聚类、主成分分析PCA、GMM（高斯混合模型）、Autoencoder（自编码器）。

线性和非线性

线性模型：模型输出是输入特征的线性组合。

代表有线性回归、逻辑回归、感知机perception、线性SVM。
非线性模型：模型中包含非线性关系，不能用单一的线性函数来表示。

代表有决策树、神经网络、非线性SVM（非线性核函数）、k近邻算法KNN。

稳定和不稳定模型

稳定性：用来描述学习算法对训练数据微小变化的敏感程度。

稳定模型：对于训练数据的小幅度变化不敏感，即使训练集略有改动，模型输出基本不变。

代表有k近邻算法KNN和线性回归，他们的方差较低，预测结果平稳，所以通过集成学习方法（如Bagging）对其性能提升不明显。
不稳定模型：对于训练数据的小幅度变化敏感，即使训练集略有改动，模型输出也会发生较大变化。

代表有决策树，他们具有较高的方差，容易过拟合训练数据，通过集成多个模型（如Bagging）可以有效降低方差，提升模型泛化能力。