监督学习

单变量线性回归

课程介绍

机器学习的两种主要类型是监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。其中监督学习是实际运用最多的，也是进步最快和创新最多的算法。

本课程本课程主要讲解前面这两种学习方法。或许你也听说过强化学习(Reinforcement Learning)，但不那么常用，本课程不讲。

监督学习介绍

监督学习是指学习输入到输出映射的算法。它的主要特点是，你给你的学习算法提供正确的例子去学习，最终使得算法可以在只给输入的条件下得到合理准确的预测。

常见的应用有：

垃圾邮件过滤器(spam filtering)：给一封电子邮件判断是否为垃圾邮件；
语音识别(speech recognition)：输入一段语音，输出对应的文本；
机器翻译(machine translation)：输入一段文字，输出对应的译文；
在线广告推荐(online advertising)：输入用户的个人信息，判断某个广告该用户是否会点击；
自动驾驶(self-driving car)：输入一张图片以及传感器的数据，输出其他车辆的位置；
视觉检测(visual inspection)：输入一张手机的图片，判断该手机是否有刮伤、凹痕等产品缺陷。

举两个个具体的例子，比如想根据房子的大小来预测房价，就需要收集数据，绘制成图像，用直线或曲线拟合，然后预测出在某一点处的房价。（如下图）

这属于监督学习的一种主要类型——回归(Regression)，回归指从无限多个可能的数中预测出一个数。

再比如根据肿瘤的大小判断肿瘤是良性的还是恶性的，甚至还可以预测肿瘤的种类。你也可以把可能的因素也加进来作为输入，比如病人的年龄等。（如下图）

这属于监督学习的另一种主要类型——分类(classification)。分类和回归的区别在于，分类只有一个有限的输出。

无监督学习介绍

无监督学习中，我们只给输入，然后在数据中发掘一些内在的联系。

无监督学习的主要类型有：

聚类算法(clustering)：将无标签数据分成两类或多类，比如把提到相似词语的文章放到一起推荐给用户；
异常检测(Anomaly detection)：金融欺诈检测等；
降维(Demensionality reduction)：将大数据集分成小数据集，并尽可能减少信息的丢失。

线性回归模型

线性回归(Linear Regression)模型，指通过一条直线来拟合数据。

在房价预测的例子中，我们习惯把收集到的数据画成表，图中的每一个叉都对应着表中的一行数据。

符号约定：

$m$ ：训练样本的总数；
$x$ ：特征/输入变量；
$y$ ：目标变量/输出变量，是训练集中的真实值；
$(x, y)$ ：训练集中的一个实例，有很多个训练样本时，用上标 $^{(i)}$ 表示第 $i$ 个，即用 $(x^{(i)}, y^{(i)})$ 表示第 $i$ 个训练样本；
$f$ ：学习算法的函数，也称为假设(hypothesis)或模型(model)；
$\overset{y}{^}$ ：通过 $f$ 得到的预测值(prediction)， $\overset{y}{^} = f (x)$ ， $\overset{y}{^}$ 是 $y$ 的估计值或预测值。

图片中用直线去拟合数据，此时 $f$ 可以写成：

$f (x) = f_{w, b} (x) = w x + b$

其中 $w$ 和 $b$ 是模型的参数(parameter)，在机器学习中，模型的参数就是在训练的过程中可以调整的变量，用于改进模型，它们有时也叫做系数(coefficient)或权重(weight)。

像这样输入只是单个变量的线性回归叫做一元线性回归(Linear Regression with One Variable)或者单变量线性回归(Univariate Linear Regression)。

代价函数

代价函数(Cost Function)是评价模型的一个指标，有助于我们优化模型。

在一元线性回归中，根据参数 $w$ 和 $b$ 的不同，可以得到不同的直线，这些不同的直线对数据的吻合度不同，这时就需要通过代价函数来评估吻合度了。

我们常用平方误差代价函数，其中除以2是为了让后面的计算更简洁：

$J (w, b) = \frac{1}{2 m} i = 1 \sum m (\overset{y}{^}^{(i)} - y^{(i)})^{2} = \frac{1}{2 m} i = 1 \sum m (f_{w, b} (x^{(i)}) - y^{(i)})^{2}$

我们的目标是寻找合适的 $w$ 和 $b$ 来使代价函数的值最小，用数学语言来表示就是 $w, b minimize J (w, b)$ .

若令 $b = 0$ ，改变 $w$ ，那么对于某一组数据，代价函数的图像如下：

如果同时改变 $w$ 和 $b$ ，那么代价函数的图像如下图左，我们更习惯用等高线表示，如下图右，对于不同的三组 $w$ 和 $b$ ，在某个点处 $J$ 可以是相同的。

梯度下降

梯度下降的介绍

梯度下降(Gradient Descent)是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数 $J (w, b)$ 的最小值。

梯度下降的思想是，首先把 $w$ 和 $b$ 都随机初始化成某个值，比如0，然后不断地改变这些参数，使得代价函数 $J (w, b)$ 达到或接近最小值。

如上图（图中没有用平方误差代价函数，而是考虑任意的代价函数），起始位置的不同，可能会导致梯度下降的方向不一样，最终达到不同的最小值，这些不同的最小值叫做局部最小值(local minima)，而这里面最小的那个值就叫做全局最小值(global minima)。因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值，选择不同的初始参数组合，可能会找到不同的局部最小值。

而使用平方误差代价函数（凸函数）的一个好处是，它只有一个局部最小值，即全局最小值。

不同的书对函数凹凸性的定义不同，有时是相反的，这里我们说像碗状的这种函数是凸函数。

梯度下降的公式

使用梯度下降更新单变量线性回归的参数的公式如下：

$w := w - α \frac{\partial}{\partial w} J (w, b) = w - α \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)}) x^{(i)} b := b - α \frac{\partial}{\partial b} J (w, b) = w - α \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)})$

这种梯度下降叫做批梯度下降(batch gradient descent)，每一步梯度下降都会考虑到所有的样本。我们后面还会学习其他的梯度下降。

其中 $α$ 是学习率(learning rate)，它决定了向下走的每一步的步幅。学习率越小，梯度下降越慢，需要多次梯度下降才能达到代价函数最小值，学习率越大，梯度下降越快，但容易跨过最小值，出现过拟合现象。可采用逐渐减小的学习率。

我们不断地使用这两条公式同时更新参数 $w$ 和 $b$ ，直至算法收敛。收敛指达到局部最小值的点。

这里面有个细节，更新完 $w$ 后，更新 $b$ 用的 $w$ 是还没有更新的那个 $w$ ，这就是所谓的“同时更新”。后面说更新参数的时候，都默认使用这种“同时更新”。

其中 $\frac{\partial}{\partial w} J (w, b)$ 的计算过程如下：

$\frac{\partial}{\partial w} J (w, b) = \frac{\partial}{\partial w} \frac{1}{2 m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)})^{2} = \frac{\partial}{\partial w} \frac{1}{2 m} \sum_{i = 1}^{m} (w x^{(i)} + b - y^{(i)})^{2} = \frac{1}{2 m} \sum_{i = 1}^{m} (w x^{(i)} + b - y^{(i)}) 2 x^{(i)} = \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)}) x^{(i)}$

同理， $\frac{\partial}{\partial b} J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)})$ .

梯度下降的直观理解

为了理解梯度下降为什么能使函数达到最小值，下面画图来解释，为了简化图像，我们把代价函数的 $b$ 暂时去掉：

如上图左，导数就是切线的斜率，图中的点处曲线是向上的，因此 $\frac{\partial}{\partial w} J (w, b)$ 是正数，而 $w := w - α \cdot \frac{\partial}{\partial w} J (w, b)$ 也就会使 $w$ 减小，这时 $J (w)$ 就会往左边走，也就更接近最小值了。如上图右，图中的点处曲线是向下的，因此 $w$ 更新后会增大，这时 $J (w)$ 会往右边走，也会更接近最小值。而如果恰好落在了最小值处，那么 $\frac{\partial}{\partial w} J (w, b)$ 等于0，就不会再更新 $w$ 了。

多元线性回归

多元线性回归模型

之前预测房价的例子中，我们只考虑了用房子的大小来预测房价，如果我们想把房子的其他加进来，比如房间数、楼层数、房龄等，我们可以用 $x_{1}, x_{2}, \dots, x_{n}$ 来表示这些特征。

符号约定：

$n$ ：特征的数量；
$x_{j}$ ：第 $j$ 个特征；
$x^{(i)}$ ：第 $i$ 个输入变量，是特征矩阵中的第 $i$ 行；是一个向量(vector)；
$x_{j}^{(i)}$ ：特征矩阵中的第 $i$ 行的第 $j$ 个特征，有时为了强调这是一个向量，会写成 $x_{j}^{(i)}$ 。

此时线性回归模型的函数 $f$ 可以写成：

$f_{w, b} (x) = w_{1} x_{1} + w_{2} x_{2} + \dots + w_{n} x_{n} + b$

不同的特征对房价的影响不同，因此它们有不同的系数。

其中 $w = [w_{1} w_{2} \dots w_{n}]$ ， $w$ 有时也写成 $w$ ，这样的表示方法叫做向量化(vectorization)，向量化后计算机可以并行计算，加快运算速度；对应地，我们也会把 $x$ 写成一个向量， $x = [x_{1} x_{2} \dots x_{n}]$ ，有时也写成 $x$ ；而 $b$ 和之前一样，是一个数字而不是向量。因此， $f_{w, b} (x)$ 也可以写成：

$f_{w, b} (x) = w \cdot x + b$

这样的线性回归叫做多元线性回归(Multiple Linear Regression)。

多元线性回归的梯度下降

类似地，参照单变量线性回归的梯度下降，我们可以写出多元线性回归梯度下降的计算公式：

$w_{j} := w_{j} - α \frac{\partial}{\partial w _{j}} J (w_{1}, \dots, w_{n}, b) b := b - α \frac{\partial}{\partial b} J (w_{1}, \dots, w_{n}, b)$

使用向量化后可以写成：

$w_{j} := w_{j} - α \frac{\partial}{\partial w _{j}} J (w, b) = w_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} b := b - α \frac{\partial}{\partial b} J (w, b) = b - α \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)})$

随着批梯度下降的迭代次数增加，代价函数的值应该是不断减小的。如果增大或者不断变大变小，可能是学习率太大导致跨过了最小值，或者是算法出了问题；如果几乎不变，可能是算法已经收敛了。实际应用中判断算法是否已经收敛，可以设置一个很小的值，比如 $ε = 1 0^{- 3}$ ，如果 $J$ 在一次迭代过后减小的量小于这个数，就可以说它收敛了。

特征缩放

对于房价预测的例子，房子的尺寸可能300-2000平方英尺之间，而房间数可能在0-5之间，一般来说，参数越大对应的 $w_{j}$ 就越小，这就导致了不同特征对应的 $w_{j}$ 可能会不在同一个数量级上，有些特征的变化几乎不会改变代价函数的值，而有些特征的微小变化却对代价函数的值影响很大。

要保证不同的特征都具有相近的尺度，可以尝试将特征缩放到-1到1之间。

一种做法是将特征除以它的最大值。比如对于一个取值范围在300-2000的特征，可以让它除以2000，这样它的取值范围就变成了0.15-1.

另一种做法是均值归一化(mean normalization)，先找出该特征的均值 $μ_{j}$ ，然后将 $x_{j}$ 减去 $μ_{j}$ 后再除以它的取值范围之差。比如对于一个取值范围在300-2000的特征， $x_{j} := \frac{x _{j} - μ _{j}}{2000 - 300}$ .

还有一种做法是z-score标准化(z-score normalization)，先计算特征的均值 $μ_{j}$ 和标准差 $σ_{j}$ ，然后 $x_{j} := \frac{x _{j} - μ _{j}}{σ _{j}}$ .

当特征的取值在-1或者1附近的时候（比如-2、0.5、3等），一般不需要缩放，只有当特征取值过大或过小才需要缩放。

学习率的选择

学习率一般尝试几个不同的数，并且从小往大开始试验，比如0.001、0.003、0.01、0.03、0.1、0.3、1、…。也可以使用逐渐减小的学习率。

通过观察代价函数的值随迭代次数变化的曲线判断是否收敛以及收敛速度如何，选择大小合适的学习率。

特征的选择

特征的选择对学习算法的性能有很大的影响。比如预测房价的例子，我们会选择房子的面积作为一个参数，而不是房子的长和宽作为两个参数，这样可以让算法通过更简单的模型作出更准确的预测。因此要对研究的项目进行深入的了解，判断选择哪些特征作为模型的影响因素。

多项式回归

前面只用了直线进行拟合，我们也可以通过多项式回归(Polynomial Regression)来用曲线进行拟合。

$f_{w, b} (x) = w_{1} x + w_{2} x^{2} + w_{3} x^{3} + \dots + b$

上面是一个特征时的情况。多个特征时，不同的特征可以有不同的最高幂数。

由于使用了特征的高次幂，这时特征缩放就显得尤为重要了。

（补充）正规方程

到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方程方法是更好的解决方案。

对于多元线性回归，若约定 $x_{0} = 1$ ，那么可以写成 $f_{w, b} (x) = b x_{0} + w_{1} x_{1} + w_{2} x_{2} + \dots + w_{n} x_{n}$ ，向量化后可以写成 $f_{θ} (x) = θ^{T} X$ ，相应地，代价函数可以写成 $J (θ)$ .

我们的目标是寻找使代价函数最小的一组参数，即找代价函数的最低点，而最低点则意味着此时函数的导数为0，因此只需对 $θ_{j}$ 求偏导即可：

$\frac{\partial}{\partial θ _{j}} J (θ) = 0$

上述方程的解是：

$θ = (X^{T} X)^{- 1} X^{T} y$

其中上标 $^{T}$ 表示转置，上标 $^{- 1}$ 表示矩阵的逆。

推导过程：

$J (θ) = \frac{1}{2} (Xθ - y)^{2}$ ，其中 $X$ 为 $m \times n$ 的矩阵（ $m$ 为样本数， $n$ 为特征数，即 $X$ 是由各样本的行向竖向堆叠而成的）， $θ$ 为 $n \times 1$ 的矩阵， $y$ 为 $m \times 1$ 的矩阵。把平方展开写就是：

$J (θ) = \frac{1}{2} (Xθ - y)^{T} (Xθ - y) = \frac{1}{2} (θ^{T} X^{T} - y^{T}) (Xθ - y) = \frac{1}{2} (θ^{T} X^{T} Xθ - θ^{T} X^{T} y - y^{T} Xθ - y^{T} y)$

接下来对 $J (θ)$ 求偏导，其中矩阵偏导的法则是 $\frac{d A B}{d B} = A^{T}$ 、 $\frac{d X ^{T} A X}{d X} = 2 A X$ 。

$\frac{\partial J ( θ )}{\partial θ} = \frac{1}{2} (2 X^{T} Xθ - X^{T} y - (y^{T} X)^{T} - 0) = X^{T} Xθ - X^{T} y$

若令 $\frac{\partial J ( θ )}{\partial θ} = 0$ ，则 $θ = (X^{T} X)^{- 1} X^{T} y$

对于不可逆的矩阵，正规方程法是不能用的。矩阵不可逆通常是特征之间不独立导致的，可以适当删除特征，或者使用正交化，也可以使用伪逆矩阵替代。

与梯度下降相比，正规方程的优点在于：1. 不需要设置学习率 $α$ ；2. 可以一次性算出无需迭代。而它的缺点是：1. 当数据量较大时（比如超过10,000时）运算代价较大；2. 只适用于线性模型，其他模型不能用（比如后面的逻辑回归）。

逻辑回归

线性回归的预测结果是任意的数字，而分类问题的预测结果只有几个可能的取值，这时就需要使用逻辑回归(Logistic Regression)。

逻辑回归

对于只有两种可能的分类问题，称为二分类问题(Binary Classification)。比如对于垃圾邮件过滤器，我们只需判断一封邮件“是”或“不是”垃圾邮件。计算机中一般用0表示“错误”，用1表示“正确”，因此我们也习惯用0和1来表示模型的两种预测结果，分别称为负样本(Negative Class)和正样本(Positive Class)，比如0表示“不是垃圾邮件”（负样本），而1表示“是垃圾邮件”（正样本），这些符号的表示是人为定义的，你也可以反过来。

要使用逻辑回归，首先要了解Sigmoid函数，有时也叫做逻辑函数：

$g (z) = \frac{1}{1 + e ^{- z}}$

其中 $e$ 是自然常数，约等于2.7。它的图像如下：

可见，它的输出总是在0到1之间的。

逻辑回归首先用一个函数计算出 $z$ ，比如线性回归函数 $z = w \cdot x + b$ ，然后将 $z$ 传递给Sigmoid函数得到一个0到1之间的值，这个值就是输出的标签为1的概率，即 $P (y = 1∣ x; w, b) = f_{w, b} (x)$ ，而输出标签为0的概率就是用1减去这个概率：

$f_{w, b} (x) = g (w \cdot x + b) = \frac{1}{1 + e ^{- (w \cdot x + b)}}$

我们一般会设置一个阈值，当输出的概率高于该阈值时 $\overset{y}{^} = 1$ ，当输出的概率低于该阈值时 $\overset{y}{^} = 0$ 。我们常把这个阈值设置为0.5。

决策边界

根据逻辑回归的公式可知，当 $w \cdot x + b \geq 0$ 时，输出的概率大于0.5，也即认为模型的预测为1；相反的，当 $w \cdot x + b < 0$ 时，预测为0。因此我们称 $z = w \cdot x + b = 0$ 这条线为决策边界。

比如，对于上图的数据，假设计算出来函数是 $f_{w, b} (x) = g (z) = g (w_{1} x_{1} + w_{2} x_{2} + b) = g (x_{1} + x_{2} - 3)$ ，即 $w_{1} = 1$ 、 $w_{2} = 1$ 、 $b = - 3$ ，则它的决策边界是 $z = w \cdot x + b = 0 \Rightarrow z = x_{1} + x_{2} - 3 = 0 \Rightarrow x_{1} + x_{2} = 3$ ，即图中紫色的线，在这条线的左边，逻辑回归会预测 $\overset{y}{^} = 0$ ，而在这条线的右边，会预测 $\overset{y}{^} = 1$ 。

逻辑回归中也可以用多项式回归函数来计算 $z$ ，这时得到的决策边界就可以是一条曲线甚至是圆等其他形状。

逻辑回归的代价函数

对于逻辑回归来说，平方误差不是一个好的代价函数，它的图像是非凸(non-convexfunction)的，有很多个局部最小值，如下图。

逻辑回归通常使用交叉熵损失函数(Loss Function)，它可以使逻辑回归的代价函数变成凸函数，从而只有一个局部最小值：

$L (f_{w, b} (x^{(i)}), y^{(i)}) = {- lo g (f_{w, b} (x^{(i)})), - lo g (1 - f_{w, b} (x^{(i)})), y^{(i)} = 1 y^{(i)} = 0$

如果算法预测的概率接近1，而真实标签是1，那么计算出的损失就会很小（是一个小于1且很接近1的正数）；而如果算法预测的概率接近0，而真实标签是1，那么计算出的损失就会很大（是一个很大的正数）；也就是说，只有当预测的概率接近真实标签1时，损失才是最低的。

当 $f$ 的值接近0而真实标签是0时，计算出的损失就会很小（是一个大于0且很接近0的正数）；当 $f$ 的值接近1而真实标签是0时，计算出的损失就会很大（是一个很大的正数）；也就是说，只有当预测的概率接近真实标签0时，损失才是最低的。

它可以简化为：

$L (f (_{w, b} (x^{(i)}), y^{(i)}) = - y^{(i)} lo g (f_{w, b} (x^{(i)})) - (1 - y^{(i)}) lo g (1 - f_{w, b} (x^{(i)}))$

损失函数是在单个训练样本上考虑的，用 $L$ 表示；而代价函数是在整个训练集上考虑的，用 $J$ 表示：

$J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L (f (_{w, b} (x^{(i)}), y^{(i)})) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} lo g (f_{w, b} (x^{(i)})) + (1 - y^{(i)}) lo g (1 - f_{w, b} (x^{(i)}))]$

逻辑回归的梯度下降

梯度下降的方法还是和之前一样的：

虽然这个公式看起来和线性回归的一样，但是其实里面的 $f_{w, b} (x^{(i)})$ 是不同的。

和线性回归类似，这里的参数也是同时更新的，即更新时用的参数 $w_{1}, \dots, w_{n}, b$ 都是还没有更新时的参数，全部更新完之后再把参数替换成新的。

和线性回归一样，随着批梯度下降的迭代次数增加，代价函数的值应该是不断减小的。可以画出代价函数的值随迭代次数变化的图像来观察是否收敛。

同样，线性回归中的特征缩放、学习率选择等也在逻辑回归中适用。

（补充）多类别分类

对于有多种类别的分类问题，可以创建一个“伪”训练集，让其中一个类别标记为正样本，其他类别标记为负样本，然后训练得到一个逻辑回归函数 $f_{w, b}^{(1)} (x)$ ；类似地我们选择另一个类别标记为正样本，再将其他类别标记为负样本，依此类推可以得到若干个不同的函数，记作 $f_{w, b}^{(i)} (x) = p (y = i ∣ x; w, b)$ ，其中 $i = 1, 2, \dots$ 。在预测时，将所有的分类函数都计算一遍，选择概率最高的类别输出。

（补充）高级优化建议

有一些比梯度下降更复杂但是更快的算法，比如共轭梯度法、BFGS（变尺度法）和L-BFGS（限制变尺度法），这些算法的具体细节超出了本门课程的范畴，建议直接调用机器学习框架中的对应函数。

正则化

过拟合与欠拟合问题

在房价预测的例子中，假设房价的分布如下图所示：

如果我们用一条直线来拟合，从数据来看，随着房子面积的增加，房价趋于平稳，而该直线无法表示出这个趋势，也就是说该算法不能很好地拟合训练数据，用专业术语来说就是欠拟合(underfitting)，或者说有高偏差(high bias)。
如果我们用二次函数来拟合，就很好地拟合了训练数据，这样对不在模型里的数据也能做出很好的预测，用专业术语来说就是该模型有很好的泛化(generalization)能力。
如果我们用四阶多项式来拟合，这样可以使代价函数等于零，也就是五个训练样本的误差都是零，但是这样一条上下起伏的曲线并不能很好地做出预测，用专业术语来说就是过拟合(overfitting)了数据，或者说有高方差(high variance)。

这些问题在分类问题中同样存在。

过拟合的解决办法：

收集更多的训练数据；
减少特征数量；
利用正则化(Regularization)减小参数的大小。

当我们不想要某个特征的时候，可以在原有模型的基础上，把该特征对应的参数设置为0。而正则化更温和一点，它的思路把这些不需要的参数缩小到一个很小的值。由于不知道哪些参数需要缩小，正则化会尽可能地让算法缩小所有参数的值，这样就可以保留所有的特征，并防止权重过大。

线性回归的正则化

正则化的做法是，把特征对应的参数加入到代价函数中，让算法尽可能地减小参数的大小。以线性回归的代价函数为例：

$J (w, b) = \frac{1}{2 m} i = 1 \sum m (f_{w, b} (x^{(i)}) - y^{(i)})^{2} + \frac{λ}{2 m} j = 1 \sum n w_{j}^{2}$

其中 $λ$ 是正则化参数，和学习率 $α$ 类似，你也需要为 $λ$ 选择一个合适的数字。 $λ$ 的大小体现了在最小化代价函数时，公式的前后两部分的优化是如何取舍的。如果 $λ$ 过大会导致所有的 $w_{j}$ 都非常接近0，就会欠拟合；如果 $λ$ 过小就和没有正则化时一样容易过拟合。

通常我们只需要正则化 $w_{j}$ 就行了， $b$ 一般不需要进行正则化，它是否正则化对模型来说没有太大差别。

由于代价函数改变了，那么使用梯度下降进行参数更新的公式也会相应地改变：

$w_{j} := w_{j} - α \frac{\partial}{\partial w _{j}} J (w, b) = w_{j} - α [\frac{1}{m} \sum_{i = 1}^{m} [(f_{w, b} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}] + \frac{λ}{m} w_{j}] b := b - α \frac{\partial}{\partial b} J (w, b) = b - α \frac{1}{m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)})$

推导过程：

$\frac{\partial}{\partial w _{j}} J (w, b) = \frac{\partial}{\partial w _{j}} [\frac{1}{2 m} \sum_{i = 1}^{m} (f_{w, b} (x^{(i)}) - y^{(i)})^{2} + \frac{λ}{2 m} \sum_{j = 1}^{n} w_{j}^{2}] = \frac{1}{2 m} \sum_{i = 1}^{m} [(w \cdot x^{(i)} + b - y^{(i)}) 2 x_{j}^{(i)}] + \frac{λ}{2 m} 2 w_{j} = \frac{1}{m} \sum_{i = 1}^{m} [(f_{w, b} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}] + \frac{λ}{m} w_{j}$

如果将 $w_{j}$ 的更新公式重新排列一下，得到 $w_{j} := (1 - \frac{λ}{m}) w_{j} - α \frac{1}{m} \sum_{i = 1}^{m} [(f_{w, b} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}]$ ，可以看出 $(1 - \frac{λ}{m})$ 是一个略小于1的数，也就是说除了原来的梯度下降更新的部分， $w_{j}$ 每次还会乘以一个略小于1的数，因此正则化可以使得特征对应的这些参数减小。

逻辑回归的正则化

使用了正则化的逻辑回归的代价函数变为：

$J (w, b) = - \frac{1}{m} i = 1 \sum m [y^{(i)} lo g (f_{w, b} (x^{(i)})) + (1 - y^{(i)}) lo g (1 - f_{w, b} (x^{(i)}))] + \frac{λ}{2 m} j = 1 \sum n w_{j}^{2}$

使用梯度下降进行参数更新的公式也需相应改变：

神经网络

（这部分内容已经在深度学习的笔记中写过了，知识点基本上已经涵盖了。这里只把一些公式写出来用作查阅。）

激活函数：

线性激活函数： $g (z) = z$ ；
Sigmoid： $g (z) = \frac{1}{1 + e ^{- z}}$ ；
Relu： $g (z) = max (0, z)$ ；

多分类问题使用Softmax回归做输出层：

$z_{j} = w_{j} \cdot x + b_{j}$ ，其中 $j = 1, \dots, N$

$a_{j} = \frac{e ^{z_{j}}}{\sum _{k = 1}^{N} e ^{z_{k}}} = P (y = j ∣ x)$

且满足 $a_{1} + a_{2} + \dots + a_{N} = 1$ 。

机器学习实践建议

模型的选择

模型评估：比如把训练数据的70%用于训练模型，剩下的用于验证模型在这个测试集中的表现。分别计算测试集和训练集上的代价函数（不含正则化项），就可以知道算法学习得怎么样了。对于分类问题，可以不计算代价函数，而是改为计算错误率。

模型选择：

像多项式回归，我们想知道多项式的次（幂）数为多少合适，一种直观的做法是把训练数据分为训练集和测试集两部分，然后分别设计不同幂数的多项式去拟合训练集的数据，再选取在测试集中代价函数（不含正则化项）最小的那个模型。但是这样其实只是选取了一个适合测试集的模型，该模型在其他数据集中的泛化能力是不知道的。

我们可以把训练数据分为三部分，分别是训练集(training set)、交叉验证集（cross-validation set，有时也叫development set）、测试集(test set)，比如比例分别是60% / 20% / 20%，在训练集中训练模型，然后在交叉验证集计算各个模型的代价函数并选取代价函数最小的那个模型，然后在测试集中计算该模型的代价函数以此来观察该模型的泛化能力。

我们也可以把不含正则化项的代价函数的值叫做错误率。

方差偏差分析

方差偏差分析：引入前面的几个的集合后，我们分析过拟合欠拟合问题就不单单在训练集上分析了，而是在训练集和交叉验证集上一起分析：

训练集的错误率较小，而交叉验证集的错误率却较大，说明模型存在较大方差，可能出现了过拟合；
训练集和交叉验证集的错误率都较大，且两者相当，说明模型存在较大偏差，可能出现了欠拟合；
训练集错误率较大，且交叉验证集的错误率远较训练集大，说明方差和偏差都较大，模型很差；
训练集和交叉验证集的错误率都较小，且两者的相差也较小，说明方差和偏差都较小，这个模型效果比较好。

如下图，一般来说，使用越低次幂的多项式进行拟合，在训练集中的错误率就越大（欠拟合）；使用越高次幂的多项式进行拟合，在训练集中的错误率就越小，但在交叉验证集中的错误率就越大（过拟合）。因此我们需要选择幂数适中的多项式，幂数可以通过观察 $J_{c v}$ 和 $J_{t r ain}$ 随多项式的幂数变化的图像选出（ $J_{c v}$ 和 $J_{t r ain}$ 一般都是指不含正则项的代价函数）：

同理，正则化参数 $λ$ 也可以这样找出合适的值，如下图：

有时像语音识别，可能由于有噪音，导致算法无法准确识别，因此单看误差率无法得知误差是高还是低。判断训练误差的高低时，可以和人类水平相比，或者和别人的已经实现了的算法比，又或者基于经验。

学习曲线(Learning curves)可以用来判断某一个学习算法是否存在偏差、方差问题：

如上图，模型在训练样本数量较少的时候很容易拟合，因此 $J_{t r ain}$ 也小，但是在其他数据集（比如交叉验证集）中很容易欠拟合，因此 $J_{c v}$ 会很大，随着样本数量的增加， $J_{t r ain}$ 和 $J_{c v}$ 会越来越接近。高偏差时， $J_{t r ain}$ 和 $J_{c v}$ 虽然接近，但和人类水平相比仍有很大差距；高方差时， $J_{c v}$ 远高于 $J_{t r ain}$ ，且通常 $J_{t r ain}$ 会低于人类水平（即过拟合）。

高偏差和高方差的应对方法：

存在高偏差：

使用更高次幂的多项式；
增加特征数量；
减小正则化参数 $λ$ 的值。

存在高方差：

收集更多的训练数据；
减少特征数量；
加大正则化参数 $λ$ 的值。

神经网络如果在训练集上的表现不好（高偏差），就扩大网络规模；如果在训练集上表现良好但在交叉验证集上表现不好（高方差），就使用更多的训练数据再进行训练。

误差分析

误差分析过程(error analysis process)是指人工找出算法错误的预测，一般是从交叉验证集中找到一组算法错误分类的样本，并按照共有的主题/属性/特征等将它们分组，找出最有可能导致错误的类型，然后按需决定要做什么。比如，在训练集中加入更多这种类型的数据，再进行训练；或者在模型中加入一些新的特征，让模型能识别出这些错误分类的特点。

如果某种错误非常罕见，就不值得花那么多时间去修复了。

扩充数据集

有一种增加数据集的方法叫做数据增强(Data Augmentation)，它是用已有的训练样本来创建一个新的训练样本。比如对于文字识别，有一张手写字的图片，我们可以将它通过旋转、缩放、镜像、改变对比度、扭曲等方式变成一个新的图片，但仍能看出是原来的字，这样就得到了一个新的训练样本。对于语言识别，也可以用类似的方法，比如增加不同的背景音或者音效等。

你也可以通过数据合成(Data Synthesis)，从空白开始创造全新的例子。比如对文字应用不同的字体样式以及不同的颜色等，再进行截图，得到文字识别训练用的图片。

迁移学习

迁移学习(Transfer Learning)指将已训练好的神经网络模型的一部分网络结构以及参数应用到自己的模型中，只把输出层改成需要的形式，然后用自己的训练集来训练输出层的参数，而在训练的过程中其他层的参数有两种选择：一是不再更新，这种方法通常用于小训练集；二是使用训练好的模型的参数作为初始化值，更新所有参数，这种方法通常用于大训练集。

这种做法的直观理解是，对于相似类型的任务，比如都是图像识别，原来的模型前面的部分网络结构已经学习到了图像处理的一些合理的参数了，换到新的任务上，只需让模型再学习一点就可以了。

像这种先在大型数据集上进行训练，然后在较小的数据集上进一步参数调优（叫做微调，fine tuning），叫做监督预训练(supervised pretraining)。

误差指标

对于一些没法和人类水平对比而且训练样本较少的数据，比如罕见病识别，我们无法得知哪个算法最好，因为有时误差小的算法可能过拟合了。这时我们就需要有不同的误差指标，一个常见误差指标是精确度(Precision)和召回率(Recall)：

精确度： $\frac{预测为正类的正类数量}{预测为正类的数量} \times 100%$
召回率： $\frac{预测为正类的正类数量}{正类数量} \times 100%$

当精确度和召回率都比较高时，算法就是有用的。

在预测罕见病的例子中，如果患病的后果不那么严重，有时为了避免误判，会在非常确信的情况下才会认为是患病，比如用逻辑回归来预测，正常情况下输出的概率大于0.5会预测为1，假设1代表患病，那么可以将设定的阈值提高，比如0.7，那么只有当输出的概率大于0.7才会预测1，这样模型的精确度就会增加，但是召回率会下降。而有时不想漏掉太多病例，可以把阈值降低，比如0.3，这样当一定程度上怀疑患病就预测1，只有当非常确定疾病不存在时才预测0，这样模型的精确度就会下降，但是召回率会增加。

我们会用F1评分（F1 score）来获得精确度和召回率的最佳权衡，它也叫P和R的调和平均数(Harmonic Mean)：

$F1 score = \frac{1}{\frac{1}{2} ( \frac{1}{P} + \frac{1}{R} )} = \frac{2 PR}{P + R}$

其中P指精确度，R指召回率。为了强调P和R中较小的那个，先让它们分别取倒数，然后取平均，最后再倒回来。

决策树

决策树模型

如果我们知道动物的几个特征，比如耳朵形状、脸形、是否有胡子，这些特征都是一些离散的值（暂时假设只有两种可能的取值），要判断这是不是一直猫。那么我们可以画出一个类似二叉树的结构，先判断某个特征成不成立，然后再根据结果决定下一项要判断哪个特征，依此类推，最终就可以得知这是不是一只猫。

像上图右边这样的结构就是决策树模型(Decision Tree Model)。其中最顶端的叫做根节点(root node)，中间的椭圆形框叫做决策节点(decision node)，底部的矩形框叫做叶节点(leaf node)。

决策树更适合处理结构化的数据（比如表格），而神经网络结构化与非结构化的数据（比如图像、视频、音频、文本等）都适用。和神经网络相比，决策树的优点在于运行速度更快，并且对于小型的决策树，里面的逻辑可能可以被人类所理解；而神经网络的优点在于，可以使用迁移学习，且容易构建大型机器学习系统，以及容易同时训练多个神经网络。

我们可以根据同样的特征画出各种不同的决策树模型模型，决策树算法的要做的是在所有可能的决策树模型中找出最好的那个。决策树算法是一种基本的分类与回归方法，其主要包括特征选择、决策树的生成、决策树的修剪。

决策树算法选择的特征要能够尽量地提高决策树的纯度(purity)，纯度是指得到的分支应尽可能地都是同一类东西（比如都是猫，或者都不是猫）。

关于决策树算法何时停止，有几个选择：①当节点100%分类成功时；②当决策树模型达到允许的最大深度（深度从0开始算）；③当节点的纯度的提升低于某个阈值；④当一个节点的样本数低于某个阈值。

特征选择

选择的特征要能够尽量地提高决策树的纯度，而纯度的一种测量方式是计算熵(entropy)。

熵的公式为：

$H (X) = - i = 1 \sum n p_{i} lo g (p_{i})$

$p_{i}$ 指分支中第 $i$ 类的比例， $n$ 是总的种类数。这里我们定义 $0 lo g (0) = 0$ .

我们把 $p_{1}$ 定义为标签为1的那一类的比例，比如在识别猫的例子中，如果将猫的标签设置为1，那么不是猫的比例 $p_{0} = 1 - p_{1}$ 。这时熵的公式为：

$H (p_{1}) = - p_{1} lo g_{2} (p_{1}) - p_{0} lo g_{2} (p_{0}) = - p_{1} lo g_{2} (p_{1}) - (1 - p_{1}) lo g_{2} (1 - p_{1})$

如图，当分支都是猫或者都不是猫时，熵是最小的；当分支猫和不是猫各占一半时，熵是最大的。

这里用 $lo g_{2}$ 是因为要使峰值是1，实际上用 $lo g$ 的效果也是一样的，只是峰值不一样。

我们要做的是，尝试用每个特征进行决策，找出使熵最小的那个特征。由于每个特征都会有两个分支，要综合考虑左右分支的熵，可以用它们的加权平均值。又由于决策树停止分裂的标准之一就是熵的减少量低于某个阈值，因此实际应用中，一般是和没有划分的时候比，计算熵的减少量。

对于只有两个分支的节点，公式为（正样本指“是猫”）： $熵的减少量 = H (\frac{节点的正样本数量}{节点的总样本数量}) - (\frac{左分支分出来的样本数量}{节点的总样本数量} \times H (\frac{左分支中的正样本数量}{左分支分出来的样本数量}) + \frac{右分支分出来的样本数量}{节点的总样本数量} \times H (\frac{右分支中的正样本数量}{右分支分出来的样本数量}))$ .

熵的减少量又叫信息增益(information gain)。

比如：

对于识别猫的例子，要选择根节点，那么在全部的数据中，共有10只动物，其中5只是猫，根节点的熵为 $H (0.5)$ ；如果用耳朵形状来这个特征作为根节点，那么左分支分出来有5个，其中4个是猫，右分支分出来有5个，其中1个是猫，因此熵的减少量是 $H (0.5) - (\frac{5}{10} H (\frac{4}{5}) + \frac{5}{10} H (\frac{1}{5})) = 0.28$ ，其他的依此类推。

由于根据耳朵形状来分类信息增益最大，所以在这个例子中会选择耳朵形状作为根节点。

选好根节点的特征后，再分别选择两个子节点的特征，重复前面的过程，依此类推，直至达到指定的终止条件：

决策树的生成

前面的思路就是ID3算法，它的完整过程如下：

从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征；
由该特征的不同取值建立子节点，再对子节点递归地调用以上方法，构建决策树；
直至达到指定的终止条件才停止递归，终止条件可以是一个或多个，比如100%分类成功 / 达到最大深度 / 特征的信息增益小于某个阈值 / 节点的样本数低于某个阈值；
最后得到一个决策树。

深度越大，决策树模型就越大，过拟合的风险也就越大，这有点像使用多项式回归。

（补充）如果最后的分类结果中仍包含多种类别，那叶子节点输出的类别按数量最多的那个类别算。

（补充）我们也可以使用其他算法：

C4.5算法：选择信息增益比作为判断节点的指标。递归构建，等到遍历完所有数据集属性或者每个分支下的所有实例都具有相同的分类结束。

如果将信息增益简写成 $g (D, A) = H (D) - H (D ∣ A)$ ，那么信息增益比就是

$g_{R} (D, A) = \frac{g ( D , A )}{H ( D )}$
CART算法：取基尼指数最小的属性作为决策树的根节点属性。

假设有分类问题中 $K$ 类，样本点属于第 $k$ 类的概率为 $p_{k}$ ，那么基尼指数为：

$Gini (p) = k = 1 \sum K p_{k} (1 - p_{k}) = 1 - k = 1 \sum K p_{k}^{2}$

（补充）决策树算法很容易过拟合，剪枝算法就是用来防止决策树过拟合、提高泛化性能的方法。剪枝分为预剪枝与后剪枝。

其他情况的特征和预测值

多种离散取值的特征

前面的特征都只有两种可能的取值，如果多种可能的取值，可以使用多叉树结构，也可以用独热编码(one-hot encoding)。

独热编码的思路是，如果一个特征有多个不同的取值，那就给每个可能的取值都定义一个新的特征，这些新的特征的取值只有两种：“是”与“否”，分别对应标签1和标签0，显然，对于一个数据，同一个原特征的这些新特征只有一个为1，其他全是0。

这样就可以继续使用二叉树来构建决策树模型了。

连续取值的特征

前面的特征都是离散值，如果是连续取值的特征，我们可以设定一个值，把小于等于这个值的归为一类，把大于这个值的归为另一类，这样就可以按照离散的情况来处理了。这个设定的值可以多尝试几个，选出信息增益最大的那个。

比如，在识别猫的例子中，把体重考虑进来，它是连续值：

我们可以把体重的分布画出来，用不同的线去分割，分别计算每种分割方式的信息增益：

如图，绿色的线信息增益最大，因此我们以9磅为基准把体重分为两类。

连续取值的预测值

如果要预测一个连续的值，可以使用回归树(Regression Tree)。回归树的思路是，通过比较分支中样本的对应属性的方差减少量来构建决策树，然后计算叶节点的每个样本对应属性的均值，作为预测值。

比如，我们要根据动物的耳朵形状、脸型、有无胡子，来预测它的体重。

这时我们构建决策树的时候就不再计算信息增益了，而是改为计算分支中的样本的方差减少量。方差减少量的计算公式和信息增益类似，只不过把熵替换成方差。

如上图，由于根据耳朵形状来分类方差减少量最大，因此会选择耳朵形状作为根节点。然后用同样的方式，分别选择两个子节点的特征，依此类推。

最后可以得到一个决策树模型，然后计算每个叶节点中样本体重的均值，作为输出的预测值。

集成学习

集成树

决策树对数据的微小变化非常敏感，有时只改变训练集的一个数据，就可能会得到完全不同的一个决策树模型。让算法变得不那么敏感、更稳健的一个解决方案是，同时使用多个决策树，然后选取较多数的那个结果（分类任务）或取平均值（回归任务），我们称之为集成树(Tree Ensemble)。

集成树的一种构建方式是，训练集使用放回抽样的方式得到一个和原来样本数量一致的新集合，这个集合中可以有重复的元素，且不一定包含所有的原始训练样本，然后用这个新集合训练一颗决策树；重复上述过程，就得到若干个不同的决策树。这种创建集成树的方式又叫做袋装决策树(Bagged Decision Tree)。

事实证明，使用更多的决策树虽然不会显著地影响性能，但是在过了某个点后，收益会递减。

随机森林

使用随机森林(Random Forest)构建的集成树比袋装决策树更好。

即使抽样放回可以得到不同的决策，但是这样仍会有很多的决策树使用相同的根节点。随机森林的思路是，进一步尝试随机每一个节点的特征选择，让每颗决策树学习不同的特征。通常的做法是，假设共有 $n$ 个可用的特征，每个节点上都选取一个可用特征的子集，该子集的大小是 $k$ （即 $k < n$ ），然后在这 $k$ 个特征随机选择一个作为节点的特征。其中 $k$ 的典型选择是 $n$ 。

随机森林对具有大量特征的问题比较有效。

XGBoost

XGBoost（eXtreme Gradient Boosting）是一种增强决策树(Boosted Decision Tree)算法。XGBoost也是在袋装决策树的基础上进行修改的，它不再是等概率的放回抽样，而是改为之前错误分类的样本有更高的概率被抽到。生成第一颗决策树的时候，使用的集合是等概率的抽样放回得到的，而从生成第二颗决策树开始，对之前的所有决策树错误分类的样本就都有更高的概率被抽到了。

实际上XGBoost要比以上描述的复杂，建议直接调用机器学习框架函数而不是自己实现。

（补充）支持向量机

优化目标

支持向量机（Support Vector Machine，简称SVM）是从逻辑回归一点一点修改得到的。

前面在正规方程一节中我们了解到可以把回归模型中的 $w \cdot x + b$ 写成 $θ^{T} X$ ，对于逻辑回归也可以这样做，因此有 $f_{θ} (x) = \frac{1}{1 + e ^{- θ^{T} x}}$ ，相应地，代价函数也可以用向量化的形式给出 $J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} (y lo g (\frac{1}{1 + e ^{- θ^{T} x}}) + (1 - y) lo g (1 - \frac{1}{1 + e ^{- θ^{T} x}})) + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$ 。

分别画出 $y = 1$ 和 $y = 0$ 时的损失函数 $L_{θ}$ 的图像，然后用分段函数去近似，我们把这两个分段函数分别定义为 $cos t_{1} (θ^{T} x)$ 、 $cos t_{0} (θ^{T} x)$ ，如下图（图中 $z = θ^{T} x$ ）：

这时我们的优化目标就变成了 $θ min \frac{1}{m} \sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) (- lo g (f_{θ} (x^{(i)}))) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)}) (- lo g (1 - f_{θ} (x^{(i)}))) + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$

对于要优化的变量 $θ$ 来说，上式中的 $\frac{1}{m}$ 是一个常数，可以去掉；前面说过， $λ$ 是用于权衡前后两个优化目标如何取舍，因此我们可以换个表述方式，比如把 $A + λ B$ 变成 $C A + B$ ，这里的 $C$ 可以看作是 $\frac{1}{λ}$ ，效果是一样的。最后，可以得到SVM的优化目标：

$θ min C i = 1 \sum m [y^{(i)} cos t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) cos t_{0} (θ^{T} x^{(i)})] + \frac{1}{2} j = 1 \sum n θ_{j}^{2}$

和逻辑回归不同的是，SVM不输出概率，而是直接输出1或0：

$output = {1, 0, θ^{T} x \geq 0 θ^{T} x < 0$

大间距的直观理解

人们有时将支持向量机看作是大间距分类器。

如果画出 $cos t_{1} (θ^{T} x)$ 和 $cos t_{0} (θ^{T} x)$ 的图像，会发现其实当 $θ^{T} x \geq 1$ 时 $cos t_{1} (θ^{T} x)$ 才是0，当 $θ^{T} x \leq - 1$ 时 $cos t_{0} (θ^{T} x)$ 才是0；而根据前面的公式，想预测出1只需 $θ^{T} x \geq 0$ ，想预测出0只需 $θ^{T} x < 0$ 即可。也就是说SVM对数据有更高的要求，它相当于构建了一个安全间距。

如下图，要分割这两组数据，其他算法可能会得到图中绿色或者洋红色的线，虽然也能正确分割，但是并不是很好；而SVM会让这条线到两组数据之间留有一定的间距，即图中黑色的线。这也是“大间距分类器”的由来。

大间距分类器背后的数学原理

先了解向量内积的含义：

如上图，假设 $u$ 、 $v$ 都是二维向量，那么 $u^{T} v$ 相当于 $v$ 投影在 $u$ 方向上的向量 $p$ 的长度乘以 $u$ 的范数，即 $u^{T} v = p \cdot ∣∣ u ∣∣$ ，这其实和 $u_{1} v_{1} + u_{2} v_{2}$ 是相同的。其中 $∣∣ u ∣∣ = u_{1}^{2} + u_{2}^{2}$ ，要说明的是， $p$ 可以是负的，当 $v$ 与 $u$ 的夹角大于90度时它就是负的。

如上图，为了简化计算，假设 $θ_{0} = 0$ ，特征数 $n = 2$ 。只考虑正则化部分，优化目标就变成了 $θ min \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2} = \frac{1}{2} ∣∣ θ ∣ ∣^{2} = \frac{1}{2} (θ_{1}^{2} + θ_{2}^{2})$ 。根据前面向量内积的含义， $θ^{T} x^{(i)}$ 就相当于 $x^{(i)}$ 往 $θ$ 的方向上作投影得到 $p^{(i)}$ ，然后用 $p^{(i)}$ 的长度乘以 $θ$ 的范数，即 $θ^{T} x^{(i)} = p^{(i)} \cdot ∣∣ θ ∣∣ = θ_{1} x_{1}^{(i)} + θ_{2} x_{2}^{(i)}$

图中的决策边界（绿色线）其实是与 $θ$ （蓝色线）垂直的，其中由于我们令 $θ_{0} = 0$ ，所以 $θ$ 过原点。根据前面的分析，要使 $θ^{T} x = p^{(i)} \cdot ∣∣ θ ∣∣ \geq 1$ 才会预测出1，因此如果某个数据在 $θ$ 上的投影 $p^{(i)}$ 的长度特别小，就会要求 $∣∣ θ ∣∣$ 特别大；即使 $p$ 为负数（即预测出0时）也是如此。而我们的优化目标是 $θ min \frac{1}{2} ∣∣ θ ∣ ∣^{2}$ ，因此算法会让 $p^{(i)}$ 的长度尽可能大，而 $p^{(i)}$ 的长度正是 $x^{(i)}$ 到决策边界的距离。

核函数

前面说会根据 $f_{θ} (x) = {1, 0, θ^{T} x \geq 0 θ^{T} x < 0$ 来得到输出，其中 $θ^{T} x$ 可以是一个多项式 $θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1} x_{2} + θ_{4} x_{1}^{2} + θ_{5} x_{2}^{2} + \dots$ ，我们可以用一组新的特征来替换原来的特征，比如令 $f_{1} = x_{1}, f_{2} = x_{2}, f_{3} = x_{1} x_{2}, \dots$ ，那么就变成 $θ_{0} + θ_{1} f_{1} + θ_{2} f_{2} + θ_{3} f_{3} + \dots$ 。

有一种更好的选择特征的方式，在原来的各个特征中随机地选取地标(landmarks) $l^{(1)}, l^{(2)}, l^{(3)}, \dots$ ，然后用特征与地标的近似程度来选取新的特征 $f_{1}, f_{2}, f_{3}, \dots$ ，如下图（为了表示方便这里假设只有两个特征）：

比如，令 $f_{1} = similarity (x, l^{(1)}) = exp (- \frac{∣∣ x - l ^{(1)} ∣ ∣ ^{2}}{2 σ ^{2}})$ 。其中 $∣∣ x - l^{(1)} ∣ ∣^{2} = \sum_{j = 1}^{n} (x_{j} - l_{j}^{(1)})^{2}$ ，是样本 $x$ 中所有特征与地标 $l^{(1)}$ 之间的距离之和。类似地，可以令 $f_{2} = similarity (x, l^{(2)}) = exp (- \frac{∣∣ x - l ^{(2)} ∣ ∣ ^{2}}{2 σ ^{2}})$ ，…

这个 $similarity (x, l^{(i)})$ 就叫做核函数(Kernel)，记作 $k (x, l^{(i)})$ ，而这里用的是高斯核函数(Gaussian Kernel)。

当 $x \approx l^{(i)}$ 时， $f_{i} \approx 1$ ；当 $x$ 离 $l^{(i)}$ 很远时， $f_{i} \approx 0$ 。假设我们的训练样本有两个特征 $x_{1}, x_{2}$ ，选定地标 $l^{(1)}$ 后，改变 $σ$ 的值，可以得到不同的图像（如下图），容易看出只有当 $x$ 与 $l^{(1)}$ 重合时 $f_{1}$ 才有最大值。

下面举例说明核函数是怎样作出预测的：

如图，对于 $θ_{0} + θ_{1} f_{1} + θ_{2} f_{2} + θ_{3} f_{3}$ ，假设 $θ_{0} = - 0.5$ 、 $θ_{1} = 1$ 、 $θ_{2} = 1$ 、 $θ_{3} = 0$ ，如果我们要预测图中的洋红色点，那么由于 $x$ 离地标 $l^{(1)}$ 比较近，所以 $f_{1} \approx 1$ ，而 $f_{2} \approx 0$ 、 $f_{3} \approx 0$ ，代入公式中就会计算得到0.5，由于 $0.5 \geq 0$ ，所以预测出1。而如果要预测一个远离地标的点（图中蓝色的点），那么就会预测出0。

在SVM中使用核函数

从前面的例子可知，决策边界在地标附近一定范围内。因此我们一般会把地标放在样本的位置上（即使是负样本也可以用作地标）：

一般来说，如果训练集有 $m$ 个样本，那么就会设置 $m$ 个地标，并且 $l^{(1)} = x^{(1)}, l^{(2)} = x^{(2)}, \dots, l^{(m)} = x^{(m)}$ ，相应地，会有 $f_{1}^{(i)} = similarity (x^{(i)}, l^{(1)}), \dots$ ，特别地，我们定义 $f_{0}^{(i)} = 1$ ，则：

$f^{(i)} = f_{0}^{(i)} = 1 f_{1}^{(i)} = similarity (x^{(i)}, l^{(1)}) f_{2}^{(i)} = similarity (x^{(i)}, l^{(2)}) ⋮ f_{m}^{(i)} = similarity (x^{(i)}, l^{(m)})$

其中 $f_{i}^{(i)} = similarity (x^{(i)}, l^{(i)}) = e^{0} = 1$ .

现在我们修改支持向量机的算法为：

$output = {1, 0, θ^{T} f \geq 0 θ^{T} f < 0$

优化目标是：

$θ min C i = 1 \sum m [y^{(i)} cos t_{1} (θ^{T} f^{(i)}) + (1 - y^{(i)}) cos t_{0} (θ^{T} f^{(i)})] + \frac{1}{2} j = 1 \sum n = m θ_{j}^{2}$

其中优化目标的正则项还要作改动，要从 $\sum_{j = 1}^{n = m} θ_{j}^{2} = θ^{T} θ$ 改为 $θ^{T} Mθ$ ，其中 $M$ 是根据我们选择核函数不同的该改变的一个矩阵，这样做是可以简化计算。

理论上讲，我们也可以在逻辑回归中使用核函数，但是上面使用 $M$ 来简化计算的方法不适用与逻辑回归，因此计算将非常耗费时间。

另外，支持向量机也可以不使用核函数，不使用核函数又称为线性核函数(linear kernel)，当我们不采用非常复杂的函数，或者我们的训练集特征非常多而样本非常少的时候，可以采用这种不带核函数的支持向量机。

这里总结一下 $C$ 和 $σ$ 这两个参数对公式的影响，由前面的分析可知 $C = \frac{1}{λ}$ ，故：

$C$ 较大时，容易导致过拟合，即高方差；
$C$ 较小时，容易导致欠拟合，即高偏差；
$σ$ 较大时，容易导致低方差、高偏差；
$σ$ 较小时，容易导致低偏差、高方差。

而核函数的选择除了前面的高斯核函数、线性核函数以外，还可以有：

多项式核函数(Polynomial Kernel)；
字符串核函数(String kernel)；
卡方核函数(chi-square kernel)；
直方图交集核函数(histogram intersection kernel)；
…

这些核函数的目标也都是根据训练集和地标之间的距离来构建新特征，这些核函数需要满足Mercer’s定理，才能被支持向量机的优化软件正确处理。

关于何时使用逻辑回归，何时使用支持向量机：

如果相较于 $m$ 而言， $n$ 要大许多，即训练集数据量不够支持我们训练一个复杂的非线性模型，就应选用逻辑回归模型或者不带核函数的支持向量机；
如果 $n$ 较小，而 $m$ 大小中等，例如 $n$ 在1-1000之间，而 $m$ 在10-10000之间，使用高斯核函数的支持向量机。
如果 $n$ 较小，而 $m$ 较大，例如 $n$ 在1-1000之间，而 $m$ 大于50000，则使用支持向量机会非常慢，这时可以创造、增加更多的特征，然后使用逻辑回归或不带核函数的支持向量机。

值得一提的是，神经网络在以上三种情况下都可能会有较好的表现，但是训练神经网络可能非常慢，选择支持向量机的原因主要在于它的代价函数是凸函数，不存在局部最小值。

无监督学习

K-means

K-means介绍

聚类算法(Clustering Algorithm)是一种无监督学习方法，它把数据分成若干个簇(cluser)，有点像之前的分类，只不过它接受的是一个未标记的数据集（即只有 $x^{(i)}$ ，没有 $y^{(i)}$ ）。

K-means算法是一种常用的聚类算法，假设我们想要将数据聚类成 $n$ 个组，它的流程如下：

先随机选择 $K$ 个随机的点，这些点被称为簇质心（cluster centroids，又叫聚类中心）；
然后对于数据集中的每一个数据，按照与 $K$ 个中心点的距离，将其与距离最近的簇质心关联起来，与同一个簇质心关联的所有点聚成一类；特别地，如果有一个簇质心没有被分配到训练样本时，习惯上一般会消除该簇，当然，你也可以重新初始化该簇质心；
计算每一个组的平均位置（即该组的坐标向量的平均值），将该组所关联的簇质心移动到平均位置；
重复上述步骤，直至中心点不再变化。

优化目标

尽管K-means不需要用梯度下降，但实际上K-means一直在优化一个特定的代价函数。假设我们有 $K$ 个簇质心，这些簇质心用 $μ_{1}, μ_{2}, \dots, μ_{K}$ 表示，用 $c^{(i)}$ 表示离 $x^{(i)}$ 最近的那个簇质心的下标（ $1 \leq c^{(i)} \leq K$ ），那么我们的优化目标就是最小化所有的数据点与其所关联的簇质心之间的距离之和，这个“距离”我们一般用L2范数计算。即代价函数为：

$J (c^{(1)}, \dots, c^{(m)}, μ_{1}, \dots, μ_{K}) = \frac{1}{m} i = 1 \sum m ∣∣ x^{(i)} - μ_{c^{(i)}} ∣ ∣^{2}$

其中 $m$ 是样本数量， $∣∣ \cdot ∣∣$ 表示L2范数。这个K-means的代价函数又叫畸变函数(distortion function)。每次将簇质心移动到平均位置的过程，都会使这个代价函数减小。

随机初始化

选择簇质心数量的时候，使用太多的簇质心是没有意义的，应保证 $K < m$ .

实际上，簇质心的初始位置也不是完全随意选择的。一般来说，我们会在训练样本中随机选择 $K$ 个，并让 $K$ 个簇质心的位置分别落在这 $K$ 个随机选择的训练样本的位置上。

K-means的一个问题在于，它有可能会停留在一个局部最小值处，而这取决于初始化的情况。

为了解决这个问题，我们通常需要多次运行算法，每一次都重新进行随机初始化，最后再比较多次运行的结果，选择代价函数最小的结果。这种方法在 $K$ 较小的时候是可行的，但是如果 $K$ 较大，这么做可能也不会有明显地改善。

簇数K的选择

$K$ 没有最好的选择方法，通常是需要根据不同的问题，人工进行选择的，或者也可以用“肘部法则”(elbow method)作为参考。

“肘部法则”的思路是，不断改变 $K$ 的值来运行K-means，得到代价函数关于 $K$ 的值变化的图像，然后选择有明显弯曲的位置对应的 $K$ 值（如下图左）；但不是所有情况都有明显弯曲的，有时曲线只是平滑地下降，就没法使用这个方法（如下图右）。

需要说明的是，选择使代价函数 $J$ 最小的 $K$ 是行不通的，因为 $J$ 几乎总是会随着 $K$ 的增加而变小。

肘部法则其实并不建议使用。选择的簇数 $K$ 应尽量服务于我们的问题，比如要根据客户的身高体重来确定服饰的尺码应该分为哪几种，通常更多的尺码意味着更高的成本，可以尝试常见的3个（ $S$ 、 $M$ 、 $L$ ）以及5个（ $XS$ 、 $S$ 、 $M$ 、 $L$ 、 $X L$ ）尺码的方案，运行K-means，然后分析成本和合身要如何权衡。

异常检测

密度估计算法

异常检测(Anomaly Detection)算法通过观察正常事件的未标记数据集，从而学会在数据与平常有较大区别时发出危险信号。

进行异常检测的一种常见方法是密度估计(Density Estimation)，它的思路在有 $m$ 个正常样本的数据集 $X$ 中建立一个概率模型 $p (x)$ ，然后对于测试样本 $x_{t es t}$ ，如果它的概率 $p (x_{t es t})$ 低于某个阈值 $ε$ ，就认为可能出现了异常。

密度估计算法的具体做法是，对每个特征都计算均值和方差，即对于第 $j$ 个特征，有 $μ_{j} = \frac{1}{m} \sum_{i = 1}^{m} x_{j}^{(i)}$ 、 $σ_{j}^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x_{j}^{(i)} - μ_{j})^{2}$ ，然后对于一个新的数据 $x$ ，每个特征都根据高斯分布做出预测，然后全部乘起来，具体模型如下：

$p (x) = j = 1 \prod n p (x_{j}; μ_{j}, σ_{j}^{2}) = j = 1 \prod n \frac{1}{2 π σ _{j}} exp (- \frac{( x _{j} - μ _{j} ) ^{2}}{2 σ _{j}^{2}})$

其中 $m$ 是样本数， $n$ 是特征数。当 $p (x) < ε$ 时判断为异常。

高斯分布（Gaussian Distribution，又叫正态分布）：如果一个变量 $x$ 符合高斯分布，就写做 $x \sim N (μ, σ^{2})$ ，其概率密度函数为：

$p (x; μ, σ^{2}) = \frac{1}{2 π σ} e^{- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}$

其中 $μ$ 和 $σ^{2}$ 分别是均值和方差： $μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)}$ 、 $σ^{2} = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)} - μ)^{2}$ .

其实密度估计算法是在用已有数据的均值和方差来预测总体的均值和方差，并认为每个特征都是独立的，用联合概率做判断。

实数评估

关于密度估计算法中的 $ε$ ，可以通过实数评估得到。

假设有一组带有标记的数据，里面既有正常的数据（用 $y = 0$ 表示），又有异常的数据（用 $y = 1$ 表示），并且异常数据要比正常数据少得多。我们用无标注的正常数据作为训练集 $x^{(1)}, x^{(2)}, \dots, x^{(m)}$ （实际上如果有少量异常数据混进训练集中也是可以的），用剩下的正常和异常混合的有标注数据构成交叉检验集 $(x_{c v}^{(1)}, y_{c v}^{(2)}), \dots, (x_{c v}^{(m_{c v})}, y_{c v}^{(m_{c v})})$ 和测试集 $(x_{t es t}^{(1)}, y_{t es t}^{(2)}), \dots, (x_{t es t}^{(m_{t es t})}, y_{t es t}^{(m_{t es t})})$ ，然后使用实数评估，步骤如下：

根据训练集数据来得到密度估计模型 $p (x)$ ；
在交叉验证集中运行模型，选择合适的 $ε$ ，使得算法能够可靠地分出我们放进交叉验证集中的异常数据，而不会把太多的数据标记为异常（可以用前面学的精确度、召回率、F1 score等来评估）；单调整 $ε$ 不行的话，也可以调整模型的特征 $x_{j}$ ，得到新的模型后再尝试选出 $ε$ ；
在测试集上对模型进行评估。

如果你收集到的异常数据较少，也可以不用测试集，只执行步骤一和步骤二即可。

特征的选择

对于监督学习，可以通过正则化等方法自动调整特征的权重，但是对于异常检测，就需要我们仔细地选择特征了。

特征的处理

异常检测假设了特征符合高斯分布，如果数据的分布不是高斯分布，虽然异常检测算法也能工作，但是最好还是将数据转换成高斯分布。（Python中可以用plt.hist查看数据的直方图，而高斯分布一般是钟形）

常用的把数据转成高斯分布的方法有：

$x := lo g (x + c)$ ，其中 $c$ 为非负常数；（Python中通常用np.log1p，意思是 $lo g (x + 1)$ ，可以避免出现负的结果）
$x := x^{c}$ ，其中 $c$ 为一个0到1之间的分数；

特征的调整

如果异常检测算法在交叉验证集上表现不佳，比如，一些异常数据可能也会有较大的 $p (x)$ ，这时通常会分析这些 $p (x)$ 较大的异常数据样本，看看有没有新的特征能够将这些异常数据与正常数据区分开来，如果没有的话，可以尝试将一些相关的特征进行组合，来获得一些新的更好的特征，让异常数据的这些新特征能够与正常数据有较大区别。

异常检测与监督学习对比

异常检测	监督学习
需要大量的正常数据和非常少的异常数据。	需要同时有大量的正常数据和异常数据。
未来遇到的异常数据可以与已掌握的非常不同。	未来遇到的异常数据只能与训练集中的异常数据非常近似。
应用场景：欺诈行为检测、不及格产品检测、数据中心的计算机运行状况监测等。	应用场景：邮件过滤器、常见产品缺陷检测、天气预报、疾病分类。

（补充）多元高斯分布

假使我们有两个相关的特征，而且这两个特征的值域范围比较宽，这种情况下，一般的高斯分布模型可能不能很好地识别异常数据。其原因在于，一般的高斯分布模型尝试的是去同时抓住两个特征的偏差，因此会创造出一个比较大的判定边界。

如下图，有两个相关的特征，一般的高斯分布会均匀地划定判断边界（即图中的圆，可根据 $ε$ 的大小调整范围），而有时异常数据（图中绿色的X）的 $p (x)$ 会落到里面去。这时用多元高斯分布是一个更好的选择，它可以更好地捕捉特征间的相关性。

多元高斯分布的公式如下（这里用向量化的形式给出）：

$p (x) = \frac{1}{( 2 π ) ^{\frac{n}{2}} ∣Σ ∣ ^{\frac{1}{2}}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$

其中 $μ$ 是均值的向量形式， $μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)}$ ， $Σ$ 是协方差矩阵， $Σ = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)} - μ) (x^{(i)} - μ)^{T} = \frac{1}{m} (X - μ)^{T} (X - μ)$ ，注意和求和符号区分。 $∣Σ∣$ 指定矩阵， $Σ^{- 1}$ 指 $Σ$ 的逆。这里用向量化的方式给出了公式，需要说明的是，向量 $μ$ 中的每个元素都对应 $x$ 的各个特征的均值。

不同的协方差矩阵可以有不一样的图像：

（图1是一般的高斯分布，图2令特征1有较小偏差，图3令特征2有较大的偏差，图4在不改变特征原有偏差的基础上增加了两者的正相关性，图5在不改变特征原有偏差的基础上增加了两者的负相关性）

原高斯分布模型和多元高斯分布模型的比较：

原高斯分布模型	多元高斯分布模型
不能捕捉特征之间的相关性，但可以通过将特征进行组合的方法来解决	自动捕捉特征之间的相关性
计算代价低，能适应大规模的特征	计算代价较高，即使训练集较小也是
	必须要有 $m > n$ ，不然的话协方差矩阵 $Σ$ 不可逆的，通常需要 $m > 10 n$ 另外特征冗余也会导致协方差矩阵不可逆

原高斯分布模型被广泛使用着，如果特征之间在某种程度上存在相互关联的情况，我们可以通过构造新新特征的方法来捕捉这些相关性。

如果训练集不是太大，并且没有太多的特征，我们可以使用多元高斯分布模型。

（补充）降维

什么是降维

有时一些高维度的数据无法直观地画出图像，这就需要使用降维(Dimensionality Reduction)算法将它们降到二维或者三维，然后才能可视化。降维在其他地方也很实用，比如视频压缩，我们希望在画质损失尽可能小的情况下节省磁盘空间。下图是一个将一组二维的数据降到一维的例子。

主成分分析

主成分分析(PCA)是最常见的降维算法，它的思路是找到一个方向向量(Vector direction)，使得当我们把所有的数据都投射到该向量上时，投射误差(Projected Error)能尽可能地小。

如上图，投射误差是指数据点到方向向量（可以看作是一条直线）的距离，总的投射误差一般用平均均方误差来计算。

假设要将 $n$ 维数据降到 $k$ 维，需要找出 $k$ 个方向，主成分分析算法的步骤如下：

均值标准化（又叫去中心化）：先找出 $n$ 维数据的均值 $μ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)}$ ，然后 $x := x - μ$ ；如果不同的特征之间取值范围差别很大，可以适当地进行特征缩放；
计算协方差矩阵(covariance matrix)： $Σ = \frac{1}{m} \sum_{i = 1}^{n} (x^{(i)}) (x^{(i)})^{T}$ ；
计算协方差矩阵的特征向量(eigenvectors)：通常用奇异值分解(singular value decomposition)来计算，[U, S, V]= svd(Σ)；
对于一个 $n \times n$ 的矩阵，得到的 $U$ 是一个具有与数据之间最小投射误差的方向向量构成的 $n \times n$ 矩阵。如果我们希望将数据从 $n$ 维降到 $k$ 维，只需要从 $U$ 中选取前 $k$ 列（ $U$ 一般会按对应特征值的大小从小到大排列），得到一个一个 $n \times k$ 的矩阵，记为 $U_{reduce}$ ；
计算投影 $z^{(i)} = U_{reduce}^{T} \cdot x^{(i)}$ ，得到一个 $k \times 1$ 的向量，其中 $z^{(i)}$ 就是我们要的投影向量。

注，我们不对方差特征进行处理。

投射维数k的选择

我们希望在投射误差与训练集方差（ $\frac{1}{m} \sum_{i = 1}^{m} ∣∣ x^{(i)} ∣ ∣^{2}$ ，由于进行了去中心化，所以均值是0）的比例尽可能小的情况下选择尽可能小的 $k$ 值。

如果我们希望这个比例小于1%，就意味着原本数据的偏差有99%都保留下来了，一般来说选择保留95%的偏差便能非常显著地降低模型中特征的维度了。我们可以先令 $k = 1$ ，然后运行主成分分析，获得 $U_{reduce}$ 和 $z$ ，然后计算比例是否小于1%。如果不是的话再令 $k = 2$ ，依此类推，直到找到可以使得比例小于1%的最小 $k$ 值（原因是各个特征之间通常情况存在某种相关性）。

还有一些更好的方式来选择 $k$ ，比如在计算奇异值分解时会得到三个矩阵[U, S, V]= svd(Σ)，其中 $S$ 是一个 $n \times n$ 的对角阵，只有对角线上有值，其它位置都是0，我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例：

$\frac{\frac{1}{m} \sum _{i = 1}^{m} x ^{(i)} - x _{approx}^{(i)} ^{2}}{\frac{1}{m} \sum _{i = 1}^{m} x ^{(i)} ^{2}} = 1 - \frac{\sum _{i = 1}^{k} S _{ii}}{\sum _{i = 1}^{m} S _{ii}} \leq 1%$

在压缩过数据后，我们可以采用如下方法来近似地重建原始数据： $x_{approx}^{(i)} = U_{reduce} \cdot z^{(i)}$ ，其中 $x_{a pp ro x} \approx x$ .

强化学习

强化学习模型

强化学习(Reinforcement Learning)是基于环境的反馈而行动的，通过不断地与环境的交互、试错，最终完成特定目标或使得整体收益最大化。它的特点是，每一步行动都需要环境给予的反馈。

比如，想让程序控制火星车执行设定的指令，可以每秒获取若干次各个传感器的数据，然后通过强化学习来决定怎么做。我们把火星车的位置、方向、速度等统称为状态 $s$ ，任务是找到一个函数，将火星车的状态映射到状态 $a$ 。传统监督学习很难找到一个从状态 $x$ 到状态 $y$ 的动作集，而强化学习通过输入奖励或者说奖励函数，告诉火星车什么时候做得好，什么时候做得不好，来实现这个过程。

每次状态变换都要考虑当前状态(state) $s$ 、奖励/奖励函数(reward function) $R (s)$ 、动作(action) $a$ 、下一个状态 $s^{'}$ ，并且如果达到了终止状态(terminal state)就停止。

如上图，只有达成一个目标才能获得奖励（图中是找到不同的地形），如果不作限制，火星车可以在状态之间来回跳动（比如 $4 \to 5 \to 4 \to 3 \to 2 \to 3 \to \dots$ ）。为了让程序尽可能快地拿到奖励，可以设置一个折扣因子(discount factor) $γ$ ，让越往后面的动作获得的奖励就越少，这样也能让机器在更远的目标更高的奖励以及更近的目标更少的奖励之间做出权衡。如果使用了负的奖励，该算法就会让这些负的奖励尽可能地推迟到未来。回报(return)被定义为奖励的总和，公式是（其中 $R_{1}, R_{2}, \dots$ 是奖励）：

$Return = R_{1} + γ R_{2} + γ^{2} R_{3} + \dots (u n t i l t er mina l s t a t e)$

而强化学习中的动作，可以通过策略（policy，有时也叫控制器，controller）体现出来，比如总是去最近的奖励，或者总是往左/右，或者总是朝着更大/更小的奖励前进等。有了总回报的公式，就可以倒推出在当前状态下往不同方向走能获得的回报，并以此作为依据，根据不同的策略作出判断（倒推的数只用作判断，计算时还是用奖励算）：

我们的可以定义一个策略函数 $π$ ，输入任意的状态 $s$ ，然后映射到我们希望采取的某个动作 $a$ .

这种形式的强化学习应用有一个名字，叫马尔可夫决策（Markov Decision Process，简称MDP），它指未来仅取决于当前的状态，而不取决于在到达当前状态之前可能发生的任何事情。

状态-动作价值函数

状态-动作价值函数(state action value function)是关于可能所处的状态 $s$ 和做出的动作 $a$ 的函数，通常用字母 $Q$ 表示，因此又叫Q函数(Q-function)。 $Q (s, a)$ 的值表示尝试在状态 $s$ 采取动作 $a$ 一次，之后再按策略走，所能带来的回报。

虽然前面定义了策略，但是这个策略并不一定是最好的策略，要找到最佳策略，可以尝试从当前状态往不同的方向走一步，之后再按原策略走，计算出不同方向的 $Q$ 并进行对比， $Q$ 最大的方向就是最好的方向，依此类推，通过对原策略的不断优化，就能找到最佳策略了。

如上图，比如要计算 $Q (2, \to)$ ，那就是从状态2先往右走一步到状态3，然后再按照策略，从状态3往左走到状态2再往左走到状态1，这样得到的回报是 $12.5$ ，因此 $Q (2, \to) = 12.5$ 。而在终止状态中用的就是该终止状态对应的奖励。易知 $s$ 可能的最大回报就是 $a max Q (s, a)$ .

贝尔曼方程

贝尔曼方程(Bellman equation)提供了一种计算Q函数的方法。为了表示这个方程，我们用 $s$ 表示当前状态，用 $R (s)$ 表示当前状态的奖励，用 $a$ 表示当前动作，用 $s^{'}$ 表示从状态 $s$ 执行了动作 $a$ 后达到的新状态，用 $a^{'}$ 表示可能会在状态 $s^{'}$ 是采取的新动作。贝尔曼方程如下：

$Q (s, a) = R (s) + γ a^{'} max Q (s^{'}, a^{'})$

对于在终止状态，贝尔曼方程简化为 $Q (s, a) = R (s)$ 。

举例验证一下这条方程，如下图：

贝尔曼方程说明了 $Q (s, a)$ 分为两部分，第一部分是马上获得的奖励 $R (s)$ ，叫做即时奖励，第二部分是在状态 $s^{'}$ 下采取最佳动作后获得的最佳回报 $a^{'} max Q (s^{'}, a^{'})$ ，因此可以从另一个角度看这条方程： $Q (s, a) = R_{1} + γ (R_{2} + γ R_{3} + γ^{2} R_{4} + \dots)$ .

随机环境

在某些应用中，当你采取行动时，结果并不总是可靠的，比如让火星车往左走，可能会遇到岩石滑坡，或者打滑，就会走错方向。因此要模拟随机的环境(random/stochastic environment)，将发生意外的情况考虑进去。这种随机的强化学习应用叫随机马尔可夫决策（Stochastic Markov Decision Process，简称SMDP）。

在随机强化学习中，我们感兴趣的不是最大回报，因为那是一个随机数，我们感兴趣的是最大化回报的平均值：

$Return = Average (R_{1} + γ R_{2} + γ^{2} R_{3} + γ^{3} R_{4} + \dots) = E [R_{1} + γ R_{2} + γ^{2} R_{3} + γ^{3} R_{4} + \dots]$

这里的平均值指的是期望回报(expected return)，即运行若干次算法，可能会得到很多不同的回报值，然后取这些回报值的平均值。

这时的贝尔曼方程改为：

$Q (s, a) = R (s) + γ E [a^{'} max Q (s^{'}, a^{'})]$

比如我们从状态2往左走，成功的概率是0.9，而有0.1的概率会变成往右走，这时 $Q (2, \leftarrow) = R (2) + γ [0.9 R_{1} + 0.1 R_{3}]$ .

连续状态空间

介绍

前面的状态都是离散的值，而实际上状态可能是连续的，连续状态的强化学习问题，叫做连续状态马尔可夫决策(Continuous State Markov Decision Process)。下面通过一个案例来说明。

上图是一个简化版的登月器，它的状态有坐标 $x, y$ 、水平移动速度 $\overset{x}{˙}$ 、垂直移动速度 $\overset{y}{˙}$ 、左倾斜角度 $θ$ 、右倾斜角度 $\dot{θ}$ 、左脚是否着地 $l$ 、右脚是否着地 $r$ ，其中 $x, y, \overset{x}{˙}, \overset{y}{˙}, θ, \dot{θ}$ 都是数字，是连续的，而 $l, r$ 只有0或1两种取值：

$s = x y \overset{x}{˙} \overset{y}{˙} θ \dot{θ} l r$

它有左推进器、主推进器（即底部引擎）、右推进器可以控制，比如打开左推进器就会使登月器向右移动。这里定义动作nothing表示什么也不做，left表示启动左推进器、main表示启动底部引擎、right表示启动右推进器。

奖励函数定义如下：

成功着陆会得到100到140之间的奖励，取决于着陆点对准着陆台中心的程度，并且如果远离着陆台，奖励为负；
撞坏了奖励-100；
安全着陆奖励+100；
左/右脚接触到着陆台，每只教奖励+10；
为了节省燃料，每次启动主推进器奖励-0.3，每次启动左推进器/右推进器奖励-0.03。

目标是学习一个策略 $π$ ，当给定一个状态 $s$ 时，采取动作 $a = π (s)$ ，以最大化回报。一般情况下会用很接近1的折扣因子，这里 $γ = 0.985$

学习Q函数

这里的 $Q (s, a)$ 使用神经网络来训练，我们把状态 $s$ 和动作 $a$ 组合成在一起作为 $x$ 输入到神经网络中，其中 $a$ 使用one-hot编码，而 $Q (s, a)$ 就是神经网络的输出 $y$ ：

这样如果能够训练出合适的神经网络参数，就可以把 $Q (s, n o t hin g)$ 、 $Q (s, l e f t)$ 、 $Q (s, main)$ 、 $Q (s, r i g h t)$ 全部都输入到神经网络中，然后找出 $Q$ 最高的那个动作。

训练这个神经网络的步骤如下（叫做DQN算法）：

先随机初始化神经网络的参数；
然后可以在登月模拟器中对登月器使用随机的方式得到若干组 $(s^{(i)}, a^{(i)}, R (s^{(i)}), s^{' (i)})$ ，令 $x = (s^{(i)}, a^{(i)})$ ，而 $y$ 可以通过贝尔曼方程 $Q (x s, a) = y R (s) + γ a^{'} max Q (s^{'}, a^{'})$ 计算得到，这样就得到了一个包含大量 $x$ 、 $y$ 样本对的训练集；

对于一个状态 $s^{'}$ ，需要计算所有可能的动作，才能得到 $a^{'} max Q (s^{'}, a^{'})$ .

其中 $Q (s^{'}, a^{'})$ 是通过我们的神经网络计算得到的，虽然一开始我们是随机初始化的，但是随着一次次迭代，就能得到准确的 $Q$ 。
通过训练集的数据训练神经网络得到 $Q_{n e w}$ ，再用 $Q_{n e w}$ 替换原来的 $Q$ ，重复步骤2、3。

神经网络的代价函数可以使用平方误差代价函数。

算法的改进

改进1：神经网络的结构

前面的神经网络只输出 $Q (s, a)$ ，那么对于一个状态 $s$ ，需要计算所有可能的动作才能得知哪个是最佳的。我们可以让神经网络同时输出所有动作的值，以减少计算量：

这样在计算 $a^{'} max Q (s^{'}, a^{'})$ 时也可以一次性完成。

改进2：ε-Greedy

我们可以使用ε贪婪策略(ε-Greedy policy)，这样在还没计算出准确的 $Q (s, a)$ 时也能有一个很好的估计。它的思路如下：在比如说0.95的概率下选取使 $Q (s, a)$ 最大化的动作 $a$ ，在0.05的概率下选取随机动作。这个采取随机动作的概率是可以设置的超参数，用 $ε$ 表示。

这样做的原因是，完全随机的策略（即神经网络初始化时完全随机）通常会得到一些不好的判断，比如认为启动主推进器是一个不好的选择，因此 $Q (s, main)$ 总是很低，由于每次只会选取使 $Q (s, a)$ 最大的动作，所以总是不会尝试启动主推进器，神经网络就无法得知启动主推进器是否是一个更好的选择。而如果使用ε贪婪策略，每一步都有小概率尝试不同的动作，使得计算出来的最大值带有一定的随机性，这样神经网络就能克服先入为主的印象。

这种随机选取动作的想法有时被称为探索(Exploration)。通常一开始会将 $ε$ 设置得很大，这样一开始就有很大概率采取随机动作，然后随着迭代次数的增加，逐渐把 $ε$ 减少。

改进3：mini-batch

mini-batch的思路是，对一个很大的数据集，每次更新数据的时候，不需要全部数据同时运算，而是每次选取其中一小部分进行运算，分多次完成计算。

下图是算法的mini-batch版本：

改进4：soft updates

在神经网络迭代完成后会用 $Q_{n e w}$ 替换原来的 $Q$ ，但是算出来的 $Q_{n e w}$ 可能会比原来的差，使用软更新(soft updates)可以避免这种情况。

假设原来的 $Q$ 中神经网络的参数为 $W$ 和 $B$ ， $Q_{n e w}$ 在神经网络的参数为 $W_{n e w}$ 和 $B_{n e w}$ ，那么软更新的思路就是在更新参数时，比如令 $W := 0.01 W_{n e w} + 0.99 W$ 、 $B := 0.01 B_{n e w} + 0.99 B$ ，也就是只用1%的新值，用99%的旧值，每次只更新一点点。这个百分比是可以设置的超参数。

结果表明，使用软更新可以使强化学习更可靠地收敛，可以降低强化学习算法振荡或不收敛或具有其他不良性质的可能性。

监督学习

单变量线性回归

课程介绍

线性回归模型

代价函数

梯度下降

梯度下降的介绍

梯度下降的公式

梯度下降的直观理解

多元线性回归

多元线性回归模型

多元线性回归的梯度下降

特征缩放

学习率的选择

特征的选择

多项式回归

（补充）正规方程

逻辑回归

逻辑回归

决策边界

逻辑回归的代价函数

逻辑回归的梯度下降

（补充）多类别分类

（补充）高级优化建议

正则化

过拟合与欠拟合问题

线性回归的正则化

逻辑回归的正则化

神经网络

机器学习实践建议

模型的选择

方差偏差分析

误差分析

扩充数据集

迁移学习

误差指标

决策树

决策树模型

特征选择

决策树的生成

其他情况的特征和预测值

多种离散取值的特征

连续取值的特征

连续取值的预测值

集成学习

集成树

随机森林

XGBoost

（补充）支持向量机

优化目标

大间距的直观理解

大间距分类器背后的数学原理

核函数

在SVM中使用核函数

无监督学习

K-means

K-means介绍

优化目标

随机初始化

簇数K的选择

异常检测

密度估计算法

实数评估

特征的选择

异常检测与监督学习对比

（补充）多元高斯分布

（补充）降维

什么是降维

主成分分析

投射维数k的选择

推荐系统

基于内容的推荐系统

协同过滤

协同过滤算法

二值标签

改进：均值归一化

内容过滤

如何进行推荐

强化学习

强化学习模型