统计学习方法1

统计学习方法=模型+策略+方法

统计学习方法之间的不同，主要来自于其模型、策略、算法的不同。确定了模型、策略和算法，统计学习方法也就确定了。

Note: 以下以监督学习为基础来进行论述。非监督学习和强化学习同样也拥有这三要素。

模型

在监督学习当中，我们的目的是学习一个由输入到输出的映射，这个映射就是模型。一般来说，模型有两种形式，一种是概率模型（由条件概率分布表示的模型），另一种形式是非概率模型（由决策函数表示的模型）。我们根据实际情况和具体的学习方法来决定是用概率模型还是用非概率模型。

模型的假设空间（hypothesis space）是一集合：由输入空间到输出空间所有映射的集合，包含所有可能的条件概率分布或决策函数。

假设空间${ F}={ f|Y=f(X)} $,这时候${\scr F}$是决策函数的集合，由参数向量决定： ${F}={ f|Y=f_\theta(X)}$，$\theta$取值于n维欧式空间$R^n$,称为参数空间。

表示为条件概率集合${ F}={ P|P(Y|X)} $,${F}$是一个参数向量决定的条件概率分布簇。

策略

统计学习的目标在于从假设空间中选取最优模型。策略即为按照什么样的准则或方法来找到这个最优模型。首先介绍损失函数和风险函数。

损失函数（代价函数）：一次预测的好坏
风险函数：平均意义下模型预测的好坏

包括：

损失函数：

0-1损失函数 0-1 loss function
平方损失函数 quadratic loss function
绝对损失函数 absolute loss function
对数损失函数

2）风险函数

模型f(x)关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作$R_{emp} $.

期望风险Rexp(f)是模型关于联合分布的期望损失，经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险Rempf(x)趋于期望风险Rexpf(x)，所以一个很自然的想法是用经验风险估计期望风险。但是，由于现实中训练样本数目有限甚至很小，所以用经验风险估计期望风险常常并不理想，常常会导致过拟合。为了防止过拟合现象，结构风险最小化这个策略被提了出来。

当样本容量很小时，经验风险最小化学习的效果未必很好，会产生“ 过拟合over-fitting”。

结构风险最小化 structure risk minimization，为防止过拟合提出的策略，等价于正则化（ regularization），加入正则化项regularizer，或罚项 penalty term。惩罚项的大小与模型复杂度有关。

3)经验风险最小化

在假设空间，损失函数以及训练数据集确定的情况下，经验风险函数式就可以确定，经验风险最小化（empirical risk
minimizatiion, ERM）的策略认为，经验风险最小的模型是最优模型。

当样本容量是够大时，经验风险最小化能保证有很好的学习效果，在现实中被广泛应用，比如，极大似然估计（maximum likelihood estimation）就是经验风险最小化的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。但是，当样本容量很小时，经验风险最小化学习的效果就未必很好，会产生“过拟合（over-fitting）”现象。

4)结构化风险最小化

结构化风险最小化（structural risk minimization, SRM）是为了防止过拟合而提出来的策略。结构风险在经验风险上加上表示模型复杂度的正则化项（regularizer）或罚项（penalty term）。在假设空间，损失函数以及训练数据集确定的情况下，结构风险的定义是：

其中J(f)为模型的复杂度，是定义在假设空间 F 上的泛函，模型 f 越复杂，复杂度J(f)就越大；反之，模型 f 越简单，复杂度J(f)就越小，也就是说，复杂度表示了对复杂模型的惩罚，λ≥0是系数，用以权衡经验风险和模型复杂度，结构风险小需要经验风险与模型复杂度同时小，结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。
结构风险最小化的策略认为结构风险最小的模型是最优的模型：