机器学习分类
-
监督学习
监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。在监督学习的过程中会提供对错指示,通过不断地重复训练,使其找到给定的训练数据集中的某种模式或规律,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,主要应用于分类和预测。
-
非监督学习
与监督学习不同,在非监督学习中,无须对数据集进行标记,即没有输出。其需要从数据集中发现隐含的某种结构,从而获得样本数据的结构特征,判断哪些数据比较相似。因此,非监督学习目标不是告诉计算机怎么做,而是让它去学习怎样做事情。
-
半监督学习
半监督学习是监督学习和非监督学习的结合,其在训练阶段使用的是未标记的数据和已标记的数据,不仅要学习属性之间的结构关系,也要输出分类模型进行预测。
-
强化学习
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题.
常见的机器学习算法
计划随使用补上简单介绍
-
Linear Algorithms
- Linear Regression
- Lasso Regression
- Ridge Regression
- Logistic Regression
-
Decision Tree
- ID3
- C4.5
- CART
-
SVM
-
Naive Bayes Algorithms
- Naive Bayes
- Gaussian Naive Bayes
- Multinomial Naive Bayes
- Bayesian Belief Network (BBN)
- Bayesian Network (BN)
-
kNN
-
Clustering Algorithms
- k-Means
- k-Medians
- Expectation Maximisation (EM)
- Hierarchical Clustering
-
K-Means
-
Random Forest
-
Dimensionality Reduction Algorithms
-
Gradient Boosting algorithms
- GBM
- XGBoost
- LightGBM
- CatBoost
-
Deep Learning Algorithms
- Convolutional Neural Network (CNN)
- Recurrent Neural Networks (RNNs)
- Long Short-Term Memory Networks (LSTMs)
- Stacked Auto-Encoders
- Deep Boltzmann Machine (DBM)
- Deep Belief Networks (DBN)
机器学习损失函数
- 0-1损失函数
- 绝对值损失函数
- 平方损失函数
- log对数损失函数
- 指数损失函数
- Hinge损失函数
机器学习优化方法
梯度下降是最常用的优化方法之一,它使用梯度的反方向更新参数,使得目标函数达到最小化的一种优化方法,这种方法我们叫做梯度更新.
- (全量)梯度下降
- 随机梯度下降
- 小批量梯度下降
- 引入动量的梯度下降
- 自适应学习率的Adagrad算法
- 牛顿法
其中: : 迭代的轮数
: 学习率
: 前t次迭代的梯度和
很小的数,防止除0错误
: 损失函数相当于的Hession矩阵在处的估计
评估指标概述
分类算法常见的评估指标如下:
- 对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
- 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
对于回归预测类常见的评估指标如下:
- 平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)
平均绝对误差
平均绝对误差(Mean Absolute Error,MAE):平均绝对误差,其能更好地反映预测值与真实值误差的实际情况,其计算公式如下:
均方误差
均方误差(Mean Squared Error,MSE),均方误差,其计算公式为:
R2(R-Square)的公式为:
残差平方和:
总平均值:
其中
Top-k准确率
混淆矩阵
混淆矩阵 | Predicted as Positive | Predicted as Negative |
---|---|---|
Labeled as Positive | True Positive(TP) | False Negative(FN) |
Labeled as Negative | False Positive(FP) | True Negative(TN) |
-
真正例(True Positive, TP):真实类别为正例, 预测类别为正例
-
假负例(False Negative, FN): 真实类别为正例, 预测类别为负例
-
假正例(False Positive, FP): 真实类别为负例, 预测类别为正例
-
真负例(True Negative, TN): 真实类别为负例, 预测类别为负例
-
真正率(True Positive Rate, TPR): 被预测为正的正样本数 / 正样本实际数
- 假负率(False Negative Rate, FNR): 被预测为负的正样本数/正样本实际数
- 假正率(False Positive Rate, FPR): 被预测为正的负样本数/负样本实际数,
- 真负率(True Negative Rate, TNR): 被预测为负的负样本数/负样本实际数,
- 准确率(Accuracy)
- 精准率
- 召回率
- F1-Score
- ROC
ROC曲线的横轴为“假正例率”,纵轴为“真正例率”. 以FPR为横坐标,TPR为纵坐标,那么ROC曲线就是改变各种阈值后得到的所有坐标点 (FPR,TPR) 的连线,画出来如下。红线是随机乱猜情况下的ROC,曲线越靠左上角,分类器越佳.
- AUC(Area Under Curve)
AUC就是ROC曲线下的面积. 真实情况下,由于数据是一个一个的,阈值被离散化,呈现的曲线便是锯齿状的,当然数据越多,阈值分的越细,”曲线”越光滑.

用AUC判断分类器(预测模型)优劣的标准:
- AUC = 1 是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器.
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值.
- AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测.