看完统计学习方法这本书, 我对数据分析算是有了入门级的了解..以下总结一些所学, 希望以后能够有实践的机会~

统计方法三要素

统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)

实现统计学习方法的步骤如下:

  • 得到一个有限的训练数据集合
  • 确定包含所有可能的模型的假设空间,即学习模型的集合
  • 确定模型选择的准则,即学习的策略
  • 实现求解最优模型的算法,即学习的算法
  • 通过学习方法选择最优模型
  • 利用学习的最优模型对新数据进行预测或分析

常用的学习方法

常用的学习方法有监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

监督学习

监督学习(supervised learning)通过学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测.

简单来说, 监督学习就是基于已有数据训练出一个函数, 并且根据这个函数进行预测.

模型的确定

模型就是所要学习的条件概率分布或决策函数。

策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。

损失函数和风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。损失函数值越小,模型就越好。理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)学习的目标就是选择期望风险最小的模型。

监督学习问题就变成了经验风险或结构风险函数的最优化问题.

算法

算法是指学习模型的具体计算方法。

模型评估与选择

统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准。

过拟合

如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting)过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

正则化与交叉验证

模型选择的典型方法是正则化(regularization)正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。

奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。

交叉验证

如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set)训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。

泛化能力

学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。

生成模型与判别模型

监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型, 即生成模型

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。

分类问题

在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)

分类器对新的输入进行输出的预测(prediction),称为分类(classification)

分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。评价分类器性能的指标一般是分类准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率.

对于二类分类问题常用的评价指标是精确率(precision)与召回率(recall)通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确.

许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等.

标注问题

可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。

回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据.

分类方法

分类方法

参考资料

统计学习方法 - 李航