吴恩达机器学习：方差与偏差 - 好文

在前几周的课程里，我们已经学习了监督学习中的线性回归
<http://hertzcat.com/2018/03/24/coursera-ml-andrewng-linear-regression/>、逻辑回归
<http://hertzcat.com/2018/03/31/coursera-ml-andrewng-logistic-regression/>、神经网络
<http://hertzcat.com/2018/04/07/coursera-ml-andrewng-nn-multi-class/>（点击进入笔记
）。回顾课程作业，所有的样本数据都被用来训练模型。验证模型时，也只是将模型的数据结果与正确结果作对比来看正确率。
这样的训练方法是否正确？正确率是否能作为评价模型的标准？这周就将学习如何评价我们的模型，以及如何采取正确有效的改进策略。

点击课程视频
<https://www.bilibili.com/video/av9912938?from=search&seid=5092317489110083757>
你就能不间断地学习 Ng 的课程，关于课程作业的 Python 代码已经放到了 Github 上，点击课程代码
<https://github.com/hertzcat/Coursera-Machine-Learning> 就能去 Github 查看（无法访问
Github 的话可以点击Coding
<https://coding.net/u/hertzcat/p/Coursera-Machine-Learning/git?public=true> 查看
），代码中的错误和改进欢迎大家指出。

以下是 Ng 机器学习课程第五周的笔记。

改进策略

对于预测函数，我们通常会使用以下几种手段来改进：

* 采集更多的样本数据
* 减少特征数量，去除非主要的特征
* 引入更多的相关特征
* 采用多项式特征
* 减小正则化参数 λλ
* 增加正则化参数 λλ
Andrew Ng 告诉大家，他见过很多开发者盲目地使用改进策略，为此耗费了大量的时间和精力，却没什么效果。所以我们需要一些依据来帮助我们选择合适的策略。

数据集划分

为了评价模型，我们通常将数据集分为三个部分，60%60% 的训练集、20%20% 的交叉验证集和 20%20% 的测试集，并使用误差
作为模型使用在这些集合上的评价，误差的形式与之前的代价函数相同（线性回归误差函数如下）。

Js(θ)=12ms∑i=1ms(hθ(x(i)s)−y(i)s)2 (s=train,cv,test)Js(θ)=12ms∑i=1ms(hθ(xs(i
))−ys(i))2 (s=train,cv,test)

在被划分的集合中，我们使用训练集来训练参数 θθ，使用交叉验证集来选择模型（比如该使用多少次的多项式特征），使用测试集来评估模型的预测能力。

方差与偏差

当我们的模型表现不佳时，通常是出现两种问题，一种是高偏差问题，另一种是高方差问题。识别它们有助于选择正确的优化方式，所以我们先来看下偏差与方差
的意义。
- 偏差: 描述模型输出结果的期望与样本真实结果的差距。
- 方差: 描述模型对于给定值的输出稳定性。

就像打靶一样，偏差描述了我们的射击总体是否偏离了我们的目标，而方差描述了射击准不准。接下来让我们通过各种情况下训练集和交叉验证集的误差
曲线来直观地理解高偏差与高方差的意义。

对于多项式回归，当次数选取较低时，我们的训练集误差和交叉验证集误差都会很大；当次数选择刚好时，训练集误差和交叉验证集误差
都很小；当次数过大时会产生过拟合，虽然训练集误差很小，但交叉验证集误差会很大（关系图如下）。

所以我们可以计算 Jtrain(θ)Jtrain(θ) 和 Jcv(θ)Jcv(θ)，如果他们同时很大的话，就是遇到了高偏差问题，而 Jcv(θ)Jcv(θ
) 比 Jtrain(θ)Jtrain(θ) 大很多的话，则是遇到了高方差问题。

对于正则化参数，使用同样的分析方法，当参数比较小时容易产生过拟合现象，也就是高方差问题。而参数比较大时容易产生欠拟合现象，也就是高偏差问题。

学习曲线

无论你是要检查你的学习算法是否正常工作或是要改进算法的表现，学习曲线都是一个十分直观有效的工具。学习曲线的横轴是样本数，纵轴为训练集和交叉验证集的
误差。所以在一开始，由于样本数很少，Jtrain(θ)Jtrain(θ) 几乎没有，而 Jcv(θ)Jcv(θ) 则非常大。随着样本数的增加，Jtrain(θ)
Jtrain(θ) 不断增大，而 Jcv(θ)Jcv(θ) 因为训练数据增加而拟合得更好因此下降。所以学习曲线看上去如下图：

在高偏差的情形下，Jtrain(θ)Jtrain(θ) 与 Jcv(θ)Jcv(θ) 已经十分接近，但是误差
很大。这时候一味地增加样本数并不能给算法的性能带来提升。

在高方差的情形下，Jtrain(θ)Jtrain(θ) 的误差较小，Jcv(θ)Jcv(θ) 比较大，这时搜集更多的样本很可能带来帮助。

总结

有了以上的分析手段，就能够得出在何种场景下使用我们的改进策略：

* [高方差] 采集更多的样本数据
* [高方差] 减少特征数量，去除非主要的特征
* [高偏差] 引入更多的相关特征
* [高偏差] 采用多项式特征
* [高偏差] 减小正则化参数 λλ
* [高方差] 增加正则化参数 λλ
So~，第五周的内容就是这些了，谢谢大家耐心阅读。

热门工具换一换