CS229 机器学习 Notes 1

it2023-02-10 144

Part 1.线性回归

为了让我们的房屋示例更有趣，让我们考虑一个稍微丰富的数据集，其中我们还知道每个房子的卧室数量：

这里， $x$ 是 $\mathbb{R}^2$ 中的二维向量。例如， $x_1^{(i)}$ 是训练集中第 $i$ 个房屋的生活区域， $x_2^{(i)}$ 是其卧室数。作为初始选择，假设我们决定将 $y$ 近似为 $x$ 的线性函数： $h_{\theta}(x)=\theta_0 +\theta_1 x_1+\theta_2x_2 \tag{1}$ 这里， $\theta_i$ 是参数（也称为权重），它们参数化从 $\mathcal{X}$ 到 $\mathcal{Y}$ 的线性映射的空间。当没有混淆的风险时，我们不写 $h_{\theta}(x)$ 的下标，并将其简写为 $h (x)$ 。为了简化我们的符号，我们还引入了让 $x_0=1$ （这是截距项）的约定，所以: $h(x)=\sum_{i=0}^n \theta_i x_i=\theta^T x \tag{2}$ 定义价值函数为： $J(\theta) =\frac 1 2 \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2 \tag{3}$

1. LMS 算法 least mean square

对于价值函数 $J(\theta)$ ，梯度下降法更新规则为

$\theta_j := \theta_j -\alpha \frac{\partial}{\partial \theta_j} J(\theta) \tag{4}$

对 $J(\theta)$ 关于 $\theta$ 偏导为： $\begin{aligned} \frac \partial {\partial\theta_j}J(\theta) & = \frac \partial {\partial\theta_j} \frac 12(h_\theta(x)-y)^2\\ & = 2 \cdot\frac 12(h_\theta(x)-y)\cdot \frac \partial {\partial\theta_j} (h_\theta(x)-y) \\ & = (h_\theta(x)-y)\cdot \frac \partial {\partial\theta_j}(\sum^n_{i=0} \theta_ix_i-y) \\ & = (h_\theta(x)-y) x_j \end{aligned} \tag{5}$ 对于单一训练样本，其更新规则为： $\theta_j := \theta_j + \alpha (y^{(i)}-h_\theta (x^{(i)}))x_j^{(i)}$ 当只有一个训练样本的时候，我们推导出了 LMS 规则。当一个训练集有超过一个训练样本的时候，有两种对这个规则的修改方法。第一种就是下面这个算法： $\quad {\theta_j := \theta_j +\alpha \sum_{i=1}^m\big(y^{(i)}-h_{\theta}(x^{(i)})\big). x_j^{(i)}\quad(对每一个j)}\tag{6}$

2. 正规方程

1. 矩阵求导

假如有一个函数 $f:\mathbb{R}^{m\times n} → \mathbb{R}$ 从 $m\times n$ 大小的矩阵映射到实数域，我们定义对于矩阵为 $A$ ， $f$ 的导数是： $\nabla_A f(A)=\begin{bmatrix} \frac {\partial f}{\partial A_{11}} & \dots & \frac {\partial f}{\partial A_{1n}} \\ \vdots & \ddots & \vdots \\ \frac {\partial f}{\partial A_{m1}} & \dots & \frac {\partial f}{\partial A_{mn}} \\ \end{bmatrix}\tag{7}$ 因此，这个梯度 $\nabla_A f(A)$ 本身也是一个 $m\times n$ 的矩阵，其中的第 $(i, j)$ 个元素是 $\frac {\partial f}{\partial A_{ij}}$ 。

例如 $=\begin{bmatrix} A_{11} & A_{12} \\ A_{21} & A_{22} \\ \end{bmatrix}$ 是一个 $2\times 2$ 矩阵，然后给定的函数 $f:R^{2\times 2} → R$ 为:

$\frac 32A_{11}+5A^2_{12}+A_{21}A_{22}$

这里面的 $A_{ij}$ 表示的意思是矩阵 $A$ 的第 $(i, j)$ 个元素。然后就有了梯度：

$\nabla _A f(A) =\begin{bmatrix} \frac 32 & 10A_{12} \\ A_{22} & A_{21} \\ \end{bmatrix}$

然后咱们还要引入 trace迹运算，简写为 $" t r . "$ 。对于一个给定的 $n\times n$ 方形矩阵 $A$ ，它的迹定义为对角元素之和：

$\sum^n_{i=1} A_{ii}\tag{8}$

假如 $a$ 是一个实数，实际上 $a$ 就可以看做是一个 $1\times 1$ 的矩阵，那么就有 $a$ 的迹 $t r a = a$ 。

如果有两个矩阵 $A$ 和 $B$ ，能够满足 $A B$ 为方阵， $t r a c e$ 求迹运算就有一个特殊的性质： $t r A B = t r B A$ 。 $\begin{aligned} &对于A, B， AB为方阵；不妨设： A \in \mathbb{R}^{m \times n},B \in \mathbb{R}^{n \times m}, 那么: \\ & \operatorname{tr}(A B)=\sum_{i=1}^{m}(A B)_{i i}=\sum_{i=1}^{m} \sum_{j=1}^{n} a_{i j} b_{j i}=\sum_{i=1}^{m} \sum_{j=1}^{n} b_{j i} a_{i j}=\sum_{i=1}^{n}(B A)_{i i}=\operatorname{tr}(B A) \end{aligned}\tag{9}$ 在此基础上进行推论，就能得到类似下面这样的等式关系： $\\ trABCD=trDABC=trCDAB=trBCDA$

下面这些和求迹运算相关的等量关系也很容易证明。其中 $A$ 和 $B$ 都是方形矩阵， $a$ 是一个实数：

$trA=trA^T \\ tr(A+B)=trA+trB \\ tr a A=a trA \tag{10}$

接下来咱们就来在不进行证明的情况下提出一些矩阵导数（其中的一些直到本节末尾才用得上）。另外要注意等式 $(4)$ 中的 $A$ 必须是非奇异方阵（non-singular square matrices），而 $∣ A ∣$ 表示的是矩阵 $A$ 的行列式。那么我们就有下面这些等量关系：

$\begin{aligned} \nabla_A tr AB & = B^T & \text{(1)}\\ \nabla_{A^T} f(A) & = (\nabla_{A} f(A))^T &\text{(2)}\\ \nabla_A tr ABA^TC& = CAB+C^TAB^T &\text{(3)}\\ \nabla_A|A| & = |A|(A^{-1})^T &\text{(4)}\\ \end{aligned} \tag{11}$ 为了让矩阵运算记号更加具体，我们就详细解释一下这些等式中的第一个。假如我们有一个确定的矩阵 $\in R^{n\times m}$ （注意顺序，是 $n\times m$ ，这里的意思也就是 $B$ 的元素都是实数， $B$ 的形状是 $n\times m$ 的一个矩阵），那么接下来就可以定义一个函数 $R^{m\times n} → R$ ，对应这里的就是 $f (A) = t r A B$ 。这里要注意，这个矩阵是有意义的，因为如果 $\in R^{m\times n}$ ，那么 $A B$ 就是一个方阵，是方阵就可以应用 $t r a c e$ 求迹运算；因此，实际上 $f$ 映射的是从 $R^{m\times n}$ 到实数域 $R$ 。这样接下来就可以使用矩阵导数来找到 $\nabla_Af(A)$ ，这个导函数本身也是一个 $\times n$ 的矩阵。上面的等式 $(1)$ 表明了这个导数矩阵的第 $(i, j)$ 个元素等同于 $B^T$ （ $B$ 的转置）的第 $(i, j)$ 个元素，或者更直接表示成 $B_{ji}$ 。

上面等式 $(1 - 3)$ 都很简单，证明就都留给读者做练习了。等式 $(4)$ 需要用逆矩阵的伴随矩阵来推导出。 $^3$

3 假如咱们定义一个矩阵 $A^{'}$ ，它的第 $(i, j)$ 个元素是$ (−1)^{i+j}$ 与矩阵 $A $移除第 $i$ 行和第 $j$ 列之后的行列式的乘积，则可以证明有 $A^{−1} = (A')^T /|A|$ 。（你可以检查一下，比如在 $A$ 是一个 $2\times 2$ 矩阵的情况下看看 $A^{-1}$ 是什么样的，然后以此类推。如果你想看看对于这一类结果的证明，可以参考一本中级或者高级的线性代数教材，比如Charles Curtis, 1991, Linear Algebra, Springer。）这也就意味着 $A' = |A|(A^{−1})^T$ 。此外，一个矩阵 $A$ 的行列式也可以写成 $\sum_j A_{ij}A'_{ij}$ 。因为 $A')_{ij}$ 不依赖 $A_{ij}$ （通过定义也能看出来），这也就意味着 $(\frac \partial {\partial A_{ij}})|A| = A'_{ij}$ ，综合起来也就得到上面的这个结果了。

矩阵求导

机器学习和深度学习矩阵求导总结

2. 正规方程求解

公式总结： $\begin{aligned} trA&=trA^T &\text{(1)}\\ tr(A+B)&=trA+trB &\text{(2)} \\ tr\ a A&=a tr \ A &\text{(3)} \\ \nabla_A tr AB & = B^T & \text{(4)}\\ \nabla_{A^T} f(A) & = (\nabla_{A} f(A))^T &\text{(5)}\\ \nabla_A tr ABA^TC& = CAB+C^TAB^T &\text{(6)}\\ \nabla_A|A| & = |A|(A^{-1})^T &\text{(7)}\\ \end{aligned} \tag{12}$ 矩阵 $X$ 为 $\times n$ （ $实际上为m \times (n + 1)包含了截距项$ : $\left[ \begin{matrix} — (x^{(1)})^T— \\ — (x^{(2)})^T— \\ \vdots\\ — (x^{(m)})^T— \end{matrix} \right] \tag{13}$ 然后，咱们设 $\vec{y}$ 是一个 $m$ 维向量（m-dimensional vector），其中包含了训练集中的所有目标值： $\vec y = \left[ \begin{matrix} y^{(1)} \\ y^{(2)} \\ \vdots\\ y^{(m)} \end{matrix} \right] \tag{14}$ 那么， $\begin{aligned} X \theta -\vec y &= \left[ \begin{matrix} (x^{(1)})^T\theta \\ \vdots\\ (x^{(m)})^T\theta \end{matrix} \right] -\left[ \begin{matrix} y^{(1)} \\ \vdots\\ y^{(m)} \end{matrix} \right] \\ \\ &= \left[ \begin{matrix} (x^{(1)})^T\theta-y^{(1)} \\ \vdots\\ (x^{(m)})^T\theta -y^{(m)} \end{matrix} \right] \end{aligned}\tag{15}$ 因为 $h(x)=\theta^Tx$ ,定义损失函数为： $\begin{aligned} \frac 1 2(X \theta -\vec y )^T(X \theta -\vec y ) &= \frac 1 2 \sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2\\ &= J(\theta) \end{aligned} \tag{16}$ 其对 $\theta$ 梯度为: $\begin{aligned} \nabla_{\theta}J(\theta) &=\nabla_{\theta}\frac 1 2(X \theta -\vec y )^T(X \theta -\vec y )\\ &=\frac 1 2\nabla_{\theta} \big( \theta^T X^T X\theta - \theta^T X^T \vec y -\vec y^TX \theta + \vec y ^T\vec y \big)\\ &=\frac 1 2 \nabla_{\theta} \big(\theta^T X^T X\theta - 2\theta^T X^T \vec y)\\ &= \frac 1 2 \big( 2X^T X\theta - 2X^T \vec y \big) \\ &= X^T X\theta -X^T \vec y \end{aligned}\tag{17}$ 式17第3行是因为，$\theta^T X^T \vec y \ , \ \vec y^TX \theta $都是标量那么 $(\theta^T X^T \vec y)^T = \vec y^T \theta X\tag{18}$ 第4行因为 $\begin{aligned} \nabla_{\theta} (\theta^T A \theta) &= (A+A^T)\theta \\ \nabla_{\theta}(\theta^T x) &= x \end{aligned}\tag{19}$ 令式17，为0.得到正规方程为： $X^T X\theta =X^T \vec y\tag{20}$ 如果 $X^TX$ 可逆，那么： $\theta =(X^T X)^{-1}X^T \vec y \tag{21}$

3. 概率解释

假设目标变量和输入间存在如下等式: $y^{(i)}=\theta^T x^{(i)}+ \epsilon ^{(i)} \tag{1}$

其中 $\epsilon^{(i)}$ 是误差项，进一步假设其i.i.d，且服从均值为0，方差为 $\sigma^{2}$ 高斯分布。将其写作 $\epsilon ^{(i)} ∼ N (0, \sigma ^2)$ ,其概率密度函数为： $p(\epsilon ^{(i)} )= \frac 1{\sqrt{2\pi}\sigma} exp (- \frac {(\epsilon ^{(i)} )^2}{2\sigma^2}) \tag{2}$ 由式1，式2可以推出： $^{(i)} |x^{(i)}; \theta)= \frac 1{\sqrt{2\pi}\sigma} exp (- \frac {(y^{(i)} -\theta^T x ^{(i)} )^2}{2\sigma^2}) \tag{3}$ 其中 $^{(i)} |x^{(i)}; \theta)”$ 表示给定 $x ^{(i)}$ ， $y ^{(i)}$ 的分布由参数 $\theta$ 控制。(给定输入值，参数 $\theta$ 控制着目标值的分布)。注意 $\theta$ 不是随机变量，而是一个要求的值。如果把式3看做 $\theta$ 的函数时，就得到其似然函数: $L(\theta) =L(\theta;X,\vec{y})=p(\vec{y}|X;\theta) \tag{4}$ 继续假设 $x ^{(i)}$ ， $y ^{(i)}$ i.i.d,那么有： $\begin{aligned} L(\theta) &=\prod ^m _{i=1}p(y^{(i)}|x^{(i)};\theta)\\ &=\prod ^m _{i=1} \frac 1{\sqrt{2\pi}\sigma} exp(- \frac {(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2})\\ \end{aligned} \tag{5}$ 最大似然估计就是说应该选择 $\theta$ 来使得数据集的可能性最大(给定数据集，如何估计 $\theta$ 来使其可能性最大)。即最大化式5，取对数将求积变求和，简化计算就得到了对数似然 $l(\theta)$ 。 $\begin{aligned} l(\theta) &=\log L(\theta)\\ &=\log \prod ^m _{i=1} \frac 1{\sqrt{2\pi}\sigma} exp(- \frac {(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2})\\ &= \sum ^m _{i=1}log \frac 1{\sqrt{2\pi}\sigma} exp(- \frac {(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2})\\ &= m \log \frac 1{\sqrt{2\pi}\sigma} - \sum^m_{i=1} \log exp(- \frac {(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2})\\ &= m \log \frac 1{\sqrt{2\pi}\sigma}- \frac 1{\sigma^2}\cdot \frac 12 \sum^m_{i=1} (y^{(i)}-\theta^Tx^{(i)})^2\\ \end{aligned} \tag{6}$ 最大化式6就是最小化下式： $\frac 12 \sum^m _{i=1} (y^{(i)}-\theta^Tx^{(i)})^2 \tag{7}$ 式7就是最原始的最小二乘代价函数original least-squares cost function。

总结：在对数据集进行概率假设的前提下，最小二乘回归就是找到 $\theta$ 的最大似然估计。前提是最小二乘回归正好做最大似然估计。另外， $\theta$ 的选择不依赖 $\sigma^2$ , 上述过程中不知道 $\sigma^2$ 就得到了 $\theta$ 。

4. 局部加权线性回归 Locally weighted linear regression

图1

如果拿一条直线 $\theta_0 + \theta_1x$ 来拟合图中的点，发现点的趋势不是一条直线，而像一条曲线。那么我们增加一个二次项，变成了 $\theta_0 + \theta_1x +\theta_2x^2$

拟合现象就变成如下图2

图2

从图2我们看出越多特征加入，拟合现象似乎越好。当添加5次项时，我们似乎完美拟合了数据，如图3。

图3

实际上，

图1是underfitting。

图3是overfitting。

本节简要地讲一下局部加权线性回归（locally weighted linear regression ，缩写为LWR），这个方法是假设有足够多的训练数据，对不太重要的特征进行一些筛选。局部加权线性回归算法流程如下：

对参数

\theta

进行拟合，让

\sum_i w^{(i)}(y^{(i)} − \theta^T x^{(i)} )^2

最小；输出

\theta^T x

。

式子中的 $w^{(i)}$ 是非负的权值。

比较标准的 $w^{(i)}$ 用下式来选择： $w^{(i)} = exp(- \frac {(x^{(i)}-x)^2}{2\tau^2}) \tag{8}$

如果 $w^{(i)}$ 是向量，式8可以推广为 $w^{(i)} = exp(− \frac {(x^{(i)}-x)^T(x^{(i)}-x)}{2\tau^2})\\$ 或 $w^{(i)} = exp(− \frac {(x^{(i)}-x)^T\Sigma ^{-1}(x^{(i)}-x)}{2})$ 理解为标量 $X$ 推广到向量相乘就写成 $X^TX$ 。

参数 $\tau$ 控制了这个降低的速度， $\tau$ 也叫做带宽参数

Part 2 Classification and logistic regression

分类问题可以看作 $y ^{(i)}$ 为几个离散值的回归问题。Binary classification problem 二分类 $y ^{(i)}$ 取 $(0 ， 1)$ 。其中 $0$ 也被称作negative class， $1$ 称作positive class。给定 $x^{(i)}$ 其对应 $y ^{(i)}$ 也称作训练样本的标签label。

5. Logistic regression

忽略掉 $y ^{(i)}$ 是离散值，使用上面提到的就得线性回个算法来实现分类问题，即给定 $x$ 预测 $y$ 。

为了让 $\in {0, 1}$ ；我们引入logistic函数或者sigmoid函数(图4为其函数图像)： $\frac 1 {1+e^{-z}} \tag{9}$

图4

那么假设 $h_{\theta(x)}$ 变成： $h_\theta(x) = g(\theta^T x) = \frac 1{1+e^{-\theta^Tx}} \tag{10}$ sigmoid 函数的导数为: $\begin{aligned} g'(z) & = \frac d{dz}\frac 1{1+e^{-z}}\\ & = \frac 1{(1+e^{-z})^2}(e^{-z})\\ & = \frac 1{(1+e^{-z})} \cdot (1- \frac 1{(1+e^{-z})})\\ & = g(z)(1-g(z))\\ \end{aligned} \tag{11}$ 有了假设 $h_{\theta(x)}$ 式子10之后，可以用极大似然估计来确定参数。首先，我们可以得到如下表达： $\begin{aligned} P(y=1|x;\theta)&=h_{\theta}(x)\\ P(y=0|x;\theta)&=1- h_{\theta}(x)\\ \end{aligned}\tag{12}$ 简化式12有： $p(y|x;\theta)=(h_\theta (x))^y(1- h_\theta (x))^{1-y}\tag{13}$ 假设 $m$ 个训练样本都是各自独立生成的，那么就可以按如下的方式来写参数的似然函数： $\begin{aligned} L(\theta) &= p(\vec{y}| X; \theta)\\ &= \prod^m_{i=1} p(y^{(i)}| x^{(i)}; \theta)\\ &= \prod^m_{i=1} (h_\theta (x^{(i)}))^{y^{(i)}}(1-h_\theta (x^{(i)}))^{1-y^{(i)}} \\ \end{aligned} \tag{14}$ 对数似然为： $\begin{aligned}l(\theta) &=\log L(\theta) \\&= \sum^m_{i=1} y^{(i)} \log h(x^{(i)})+(1-y^{(i)})\log (1-h(x^{(i)}))4\end{aligned} \tag{15}$ 由梯度上升法 $\theta := \theta +\alpha \nabla _\theta l(\theta)$

注意：这里是 $+$ 而不是 $-$ 是因为要求最大值 (是ascent 不是descent)。

对于一组样本 $(x, y)$ 来说，式15就没有了 $\sum^m_{i=1}$ 和样本编号 $i$ ,式15结合式10前半部分可以写作: $\begin{aligned}l(\theta) &=\log L(\theta) \\&= y \log h(x)+(1-y)\log (1-h(x))\\ &= y \log(g(\theta^T x)) + (1-y)log(1-g(\theta^T x) )\end{aligned} \tag{16}$ 对式16求导结合式11有： $\begin{aligned} \frac {\partial}{\partial \theta_j} l(\theta) &=(y\frac 1 {g(\theta ^T x)} - (1-y)\frac 1 {1- g(\theta ^T x)} )\frac {\partial}{\partial \theta_j}g(\theta ^Tx) \\ &= (y\frac 1 {g(\theta ^T x)} - (1-y)\frac 1 {1- g(\theta ^T x)} ) g(\theta^Tx)(1-g(\theta^Tx)) \frac {\partial}{\partial \theta_j}\theta ^Tx \\ &= (y(1-g(\theta^Tx) ) -(1-y) g(\theta^Tx)) x_j\\ &= (y-h_\theta(x))x_j \end{aligned} \tag{17}$ 因此,随机梯度上升规则为: $\theta_j := \theta_j + \alpha (y^{(i)}-h_\theta (x^{(i)}))x_j^{(i)} \tag{18}$

6. 感知机

如果式9 $g (z)$ 改为下式： $\begin{cases} 1 & if\quad z \geq 0 \\ 0 & if\quad z < 0 \end{cases} \tag{19}$ $h_\theta(x) = g(\theta^T x)$ ,那么更新规则为： $\theta_j := \theta_j +\alpha(y^{(i)}-h_\theta (x^{(i)}))x_j^{(i)}\tag{20}$ 这就是感知机算法。

7 .最大化 $l(\theta)$ 的另一个算法

牛顿法求函数零点。

从实数到实数的函数 $\to R$ ，然后要找到一个 $\theta$ ，来满足 $f(\theta)=0$ ，其中 $\theta\in R$ 是一个实数。牛顿法就是对 $\theta$ 进行如下的更新： $\theta := \theta - \frac {f(\theta)}{f'(\theta)} \tag{21}$ 理解：用一条直线逼近函数 $f$ 进行逼近，这条直线是 $f$ 的切线，而猜测值是 $\theta$ ，解就是直线方程等于零的点，把这一个零点作为 $\theta$ 设置给下一次猜测，然后以此类推。

图4

直线 $f$ 就是沿着 $y = 0$ 的一条直线。这时候是想要找一个 $\theta$ 来让 $f(\theta)=0$ 。这时候发现这个 $\theta$ 值大概在 $1.3$ 左右。加入咱们猜测的初始值设定为 $\theta=4.5$ 。牛顿法就是在 $\theta=4.5$ 这个位置画一条切线（中间的图）。这样就给出了下一个 $\theta$ 猜测值的位置，也就是这个切线的零点，大概是 $2.8$ 。最右面的图中的是再运行一次这个迭代产生的结果，这时候 $\theta$ 大概是 $1.8$ 。就这样几次迭代之后，很快就能接近 $\theta=1.3$ 。

初始值为 $\theta=4.5$ ，其在曲线上对应点做切线，如中间图，与 $y = 0$ 交点大概在2.8。曲线对应2.8处再做切线得到下一个 $\theta大概为1.8$ .反复迭代可求得曲线的0点。其实，上图中 $\text{tan}\alpha = f'(\theta) = \frac{m}{n} \tag{22}$ 而不严谨地有 $f(\theta)=m$ ，那么 $n$ 左边一段就是 $\theta'$ 且等于 $\theta-n=\theta- \frac {f(\theta)}{f'(\theta)}$ 易得式21

牛顿法是求零点的方法，那么求$l(\theta) $最大值怎么用呢?

$l(\theta) $最大值在其导数为 0 处取得 (不严谨地) ，若让$ f(\theta) = l’(\theta)$,我们有如下更新规则: $\theta := \theta - \frac {l'(\theta)}{l''(\theta)} \tag{23}$ 牛顿法拓展到多维情况就是Newton-Raphson method： $\theta := \theta - H^{-1}\nabla_\theta l(\theta)\tag{24}$ 其中 $H$ 是Hessian矩阵。

用牛顿法来最大化logistic 回归的似然函数 $l(\theta)$ ，这个结果方法也叫Fisher scoring 。

Part3. 广义线性模型 GLMs

8. 指数簇 The exponential family

指数簇分布就是能写成如下形式： $p(y;\eta) =b(y)exp(\eta^TT(y)-a(\eta))\tag{25}$ 其中：

$\eta$ : 自然参数(natural parameter，也叫正则参数 canonical parameter)

$T (y)$ : 充分统计量（sufficient statistic）,经常使用 $T (y) = y$ 。

$a(\eta)$ 是一个对数配分函数（log partition function）。

$e^{−a(\eta)}$ 本质上扮演了归一化常数（normalization constant）的角色，也就是确保 $\eta)$ 的和或者积分等于 $1$ 。

如果给定 $T (y) ， a, b$ 那么就定义了被参数 $\eta$ 控制的一个分布簇(或者集)。改变 $\eta$ ，我们能得到这簇中的不同分布。

伯努利分布按照式25可以写成: $\begin{aligned} p(y;\phi) & = \phi ^y(1-\phi)^{1-y}\\ & = exp(y \log \phi + (1-y)\log(1-\phi))\\ & = exp( (log (\frac {\phi}{1-\phi}))y+\log (1-\phi) )\\ \end{aligned} \tag{26}$

其中： $\eta = log (\frac \phi {1 − \phi})\tag{27}$ 把 $\eta$ 看作已知数可以解得：(这就是sigmoid函数) $\phi = 1/ (1 + e^{−\eta} )\tag{28}$ 跟式25对比得到：

b(\eta) = 1

T (y) = y

\eta) = - \log (1- \phi) = \log {(1+ e^ \eta)}

高斯分布簇

在推导线性回归的时候， $\sigma^2$ 的值对我们最终选择的 $\theta$ 和 $h_\theta(x)$ 都没有影响。所以我们可以给 $\sigma^2$ 取一个任意值。为了简化推导过程，就令 $\sigma^2 = 1$ 。 $^6$ 然后就有了下面的等式： $\begin{aligned} p(y;\mu) &= \frac 1{\sqrt{2\pi}} exp (- \frac 12 (y-\mu)^2) \\ & = \frac 1{\sqrt{2\pi}} exp (- \frac 12 y^2) \cdot exp (\mu y -\frac 12 \mu^2) \\ \end{aligned} \tag{29}$ 如果要写成式25形式那么 $\begin{aligned} \eta & = \mu \\ T(y) & = y \\ a(\eta) & = \mu ^2 /2\\ & = \eta ^2 /2\\ b(y) & = (1/ \sqrt {2\pi })exp(-y^2/2) \end{aligned} \tag{30}$ 如果 $\sigma^2$ 是一个变量，高斯分布也是指数分布簇。一维高斯分布证明如下， $\begin{aligned} p(x \mid \theta)&=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)\\ &=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}\left(x^{2}-2 \mu x+\mu^{2}\right)\right) \\ &=\exp \left(\log \left(2 \pi \sigma^{2}\right)^{-1 / 2}\right) \exp \left(-\frac{1}{2 \sigma^{2}}(-2 \mu \quad 1)\left(\begin{array}{c} x \\ x^{2} \end{array}\right)-\frac{\mu^{2}}{2 \sigma^{2}}\right)\\ &=\exp \left(\left(\begin{array}{ll} \frac{\mu}{\sigma^2} & \frac{\mu^{2}}{2 \sigma^{2}} \end{array}\right) \left(\begin{array}{l} x \\ x^{2} \end{array}\right)-(\frac{\mu^2}{2\sigma^2} + \frac{1}{2}log2\pi\sigma^2)\right) \end{aligned} \tag{31}$ 其中， $\left(\begin{array}{ll} -2 \mu & 1 \end{array}\right)\left(\begin{array}{l} x \\ x^{2} \end{array}\right) \tag{32}$ 为点乘形式。式31跟式25比较得到 $\begin{aligned} \eta^T &= \left(\begin{array}{ll} \frac{\mu}{\sigma^2} & \frac{\mu^{2}}{2 \sigma^{2}} \end{array}\right)\\ T(x) &= \left(\begin{array}{l} x \\ x^{2} \end{array}\right)\\ a(\eta) &= \left(\frac{\mu^2}{2\sigma^2} + \frac{1}{2}log2\pi\sigma^2)\right) \end{aligned}$ 即： $\eta=\left(\begin{array}{c} \frac{\mu}{\sigma^{2}} \\ -\frac{1}{2 \sigma^{2}} \end{array}\right)=\left(\begin{array}{l} \eta_{1} \\ \eta_{2} \end{array}\right)\tag{33}$ 由式33得： $\begin{aligned} \sigma^2 &= -\frac{1}{2\eta_{2}}\\ \\ \mu &= \eta_{1}\sigma^2=\frac{\eta_1}{-2\eta_2} \\ \end{aligned}$ 还有 $\frac{\mu^2}{2\sigma^2} + \frac{1}{2}log2\pi\sigma^2 = -\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}log(-\frac{\pi}{\eta_2})\tag{34}$ 所以式31可以写作： $\begin{aligned} p(x \mid \theta)&=\exp \left(\left(\begin{array}{ll} \eta_1 & \eta_2 \end{array}\right) \left(\begin{array}{l} x \\ x^{2} \end{array}\right)-(-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}log(-\frac{\pi}{\eta_2}))\right)\\ &=\exp\left(\eta^TT(x) -a(\eta) \right) \end{aligned}\tag{34}$

9.构建广义线性模型GLMs

一个分类或者回归问题，要预测作为 $x$ 的一个函数的随机变量 $y$ 的值。要推导适用于这个问题的广义线性模型，我们将作出给定 $x$ ， $y$ 的条件分布三个假设：

\theta ∼ Exponential Family(\eta)

，即给定

x

和

\theta, y

的分布服从关于参数

\eta

的指数簇。——假设1给定

x

，对于给定的x，我们的目标是求出对于条件

x

下

T (y)

的的期望，即

E [T (y) ∣ x]

。我们大部分例子都有

T (y) = y

，这意味着我们希望通过学到的假设

h

的预测

h (x)

满足

h (x) = E [y ∣ x]

。（需要注意的是，这个假设不论是在逻辑回归还是线性回归的

h_θ(x)

的选择中都是成立的。例如，在逻辑回归中，我们有

h_\theta (x) = [p (y = 1|x; \theta)] =[ 0 \cdot p (y = 0|x; \theta)+1\cdot p(y = 1|x;\theta)] = E[y|x;\theta]

——假设2自然参数

\eta

和输入值

x

是线性相关的，

\eta = \theta^T x

，或者如果

\eta

是向量，则有

\eta_i = \theta_i^T x

。——假设3

9.构建广义线性模型GLMs

\theta ∼ Exponential Family(\eta)

，即给定

x

和

\theta, y

的分布服从关于参数

\eta

的指数簇。——假设1给定

x

，对于给定的x，我们的目标是求出对于条件

x

下

T (y)

的的期望，即

E [T (y) ∣ x]

。我们大部分例子都有

T (y) = y

，这意味着我们希望通过学到的假设

h

的预测

h (x)

满足

h (x) = E [y ∣ x]

。（需要注意的是，这个假设不论是在逻辑回归还是线性回归的

h_θ(x)

的选择中都是成立的。例如，在逻辑回归中，我们有

h_\theta (x) = [p (y = 1|x; \theta)] =[ 0 \cdot p (y = 0|x; \theta)+1\cdot p(y = 1|x;\theta)] = E[y|x;\theta]

——假设2自然参数

\eta

和输入值

x

是线性相关的，

\eta = \theta^T x

，或者如果

\eta

是向量，则有

\eta_i = \theta_i^T x

。——假设3

9.1 普通最小二乘

为了证明普通最小二乘是GLM中的特例，把目标变量 $y$ (在GLM术语中又叫响应变量response variable)看作是连续的，我们用高斯分布建立定 $x$ 下 $y$ 的条件分布概率模型。( $\mu$ 可能依赖与 $x$ )。高斯分布是指数簇，且有 $\mu =\eta$ 。因此，我们有(第一行是假设2，第三行是假设1，最后一行是假设3): $\begin{aligned} h_\theta(x)& = E[y|x;\theta] \\ & = \mu \\ & = \eta \\ & = \theta^Tx\\ \end{aligned} \tag{36}$

9.2 Logistic Regression

我们用伯努利簇分布来对给定 $x$ 下 $y\in{0， 1}$ 的分布进行建模,因为伯努利分布是指数簇分布，那么有式28 $\phi = 1/ (1 + e^{−\eta} )$ ，并且如果有 $\theta ∼ Bernoulli(\phi)$ ，那么 $\theta] = \phi$ 。跟普通最小二乘一样我们可以得到: $\begin{aligned} h_\theta(x)& = E[y|x;\theta] \\ & = \phi \\ & = 1/(1+ e^{-\eta}) \\ & = 1/(1+ e^{-\theta^Tx})\\ \end{aligned} \tag{37}$ 最后一行用假设3.

关于自然参数 $\eta$ 的函数 $g$ 给出分布均值 $g(\eta) = E[T(y); \eta]$ ，这个函数 $g$ 称作正则响应函数(canonical response function)，其逆称作正则关联函数(canonical link function)。

我们有一个关于自然参数η的函数g给出了分布均值()时，我们可以把这个函数称作正则响应函数(canonical response function)，其逆称作正则关联函数(canonical link function)。对于高斯分布，正则响应函数就是identify function;对于伯努利分布就是逻辑函数（很多教材将 $g$ 作为连接函数link function，而用 $g^{−1}$ 来表示正则响应函数，但我们在这里的表示法沿用以往的机器学习课程，并将在后面的课程中继续使用这种记法。）

9.3 Softmax Regression

如果在分类问题中，响应变量 $y$ 可以取 $k$ 个值, $\in{1, 2, \ldots, k}$ 。这时候我们就要使用多项分布multinomial distribution 来建模。

要想建立这类问题的广义线性模型，我们首先需要将多项分布表达成指数分布簇的形式。

为了参数化 $k$ 可能取值的对象分布，我们使用 $k$ 参数，用来表示每个可能取值发生的概率。但是这样设置关于造成冗余,其实，这些参数是线性相关的。(对于任意一个 $\phi_ i$ 中的值来说，只要知道其中的 $k - 1$ 个 $\phi_i$ 值，就能知道这最后一个了，因为必须满足 $\sum^k_{i=1} \phi_i = 1$ ）。所以我们用 $k - 1$ 个参数 $\phi_1,...,\phi_ {k-1}$ 来参数化多项分布，其中 $\phi_i = p (y = i; \phi)，p (y = k; \phi) = 1 −\sum ^{k−1}_{i=1}\phi_ i$ 。为了记号方便，让 $\phi_k = 1 − \sum_{i=1}^{k−1} \phi_i$ ，但一定要注意，这个并它不是一个参数，而是完全由其他的 $k - 1$ 个参数来确定的。

要把一个多项式表达成指数簇分布，定义 $\in R^{k−1}$ :

$\begin{bmatrix} 1\\ 0\\ 0\\ \vdots \\ 0\\ \end{bmatrix}, T(2)= \begin{bmatrix} 0\\ 1\\ 0\\ \vdots \\ 0\\ \end{bmatrix}, T(3)= \begin{bmatrix} 0\\ 0\\ 1\\ \vdots \\ 0\\ \end{bmatrix}, T(k-1)= \begin{bmatrix} 0\\ 0\\ 0\\ \vdots \\ 1\\ \end{bmatrix}, T(k)= \begin{bmatrix} 0\\ 0\\ 0\\ \vdots \\ 0\\ \end{bmatrix}, \tag{38}$

注意:不像之前，不再有 $T (y) = y$ ,标签 $T (y)$ 是 $k - 1$ 维向量，不是实数。记 $T(y))_i$ 为向量 $T (y)$ 第 $i$ 个元素。

接下来，介绍指示函数indicator function。

如果参数值为真就返回1；反之返回0。( $1\{True\} = 1, 1\{False\} = 0$ ）

例如， $1\{2 = 3\} = 0$ , 而 $1\{3 = 5 − 2\} = 1$ 。

所以，我们可以吧 $T (y)$ 和 $y$ 之间关系记为 $T(y))_i = 1\{y = i\}$ 。(理解为 $y$ 的取值和 $i$ 相同，取到 $T (y)$ 向量的第 $y$ 个值时就是参数为真，指示函数才会输出1)。

并且有: $E[(T(y))_i] = P (y = i) = \phi_i\tag{39}$ 现在，证明多项分布是指数簇一员，有： $\begin{aligned} p(y;\phi) &=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}\dots \phi_k^{1\{y=k\}} \\ &=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}\dots \phi_k^{1-\sum_{i=1}^{k-1}1\{y=i\}} \\ &=\phi_1^{(T(y))_1}\phi_2^{(T(y))_2}\dots \phi_k^{1-\sum_{i=1}^{k-1}(T(y))_i } \\ &=\exp \left((T(y))_1 log(\phi_1)+(T(y))_2 log(\phi_2)+\dots+(1-\sum_{i=1}^{k-1}(T(y))_i)log(\phi_k) \right) \\ &= \exp \left(((T(y))_1 log(\frac{\phi_1}{\phi_k})+(T(y))_2 log(\frac{\phi_2}{\phi_k})+\dots+(T(y))_{k-1}log(\frac{\phi_{k-1}}{\phi_k})+log(\phi_k))\right) \\ &=b(y)exp(\eta^T T(y)-a(\eta)) \end{aligned}\tag{40}$ 比较有： $\begin{aligned} &\eta = \begin{bmatrix} \log (\phi _1/\phi _k)\\ \log (\phi _2/\phi _k)\\ \vdots \\ \log (\phi _{k-1}/\phi _k)\\ \end{bmatrix}, \\ \\ &a(\eta) = -\log (\phi _k)\\ &b(y) = 1\\ \end{aligned} \tag{41}$ 这就证明了多项分布是指数簇一员。正则连接函数(参数 $η$ 关于期望 $Φ$ 的函数)给定为: $\eta_i =\log \frac {\phi_i}{\phi_k} \tag{42}$ link function一些说明。

为了方便,我们定义 $\eta_k = \log (\phi_k/\phi_k) = 0$ 。把link function 转变为响应函数(反函数),可以看作激活函数。我们有 $\begin{aligned} e^{\eta_i} &= \frac {\phi_i}{\phi_k}\\ \phi_k e^{\eta_i} &= \phi_i \qquad\text{(**)}\\ \phi_k \sum^k_{i=1} e^{\eta_i}&= \sum^k_{i=1}\phi_i= 1 \qquad\text{(*)}\\ \end{aligned} \tag{43}$ 式*可以得到 $\phi_k = \frac 1 {\sum^k_{i=1} e^{\eta_i}}$ ，再回代入式可以得到响应函数: $\phi_i = \frac { e^{\eta_i} }{ \sum^k_{j=1} e^{\eta_j}} \tag{44}$ 这个函数把 $\eta$ 映射到 $\phi$ 叫作softmax函数**。

softmax regression model

利用假设3， $\eta_i$ 与 $x$ 线性相关,因此有: $\eta_i= \theta_i^Tx (for\quad i = 1, ..., k − 1)$ ，其中的 $\theta_1, ..., \theta_{k−1} \in R^{n+1}$ 就是我们模型的参数。还定义 $\theta_k = 0$ ，这样就有 $\eta_k = \theta_k^T x = 0$ ，跟前面原因一样，因此，我们的模型就表示在条件 $x$ 已知的情况下求 $y$ 的分布(结合式43)： $\begin{aligned} p(y=i|x;\theta) &= \phi_i \\ &= \frac {e^{\eta_i}}{\sum^k_{j=1}e^{\eta_j}}\\ &=\frac {e^{\theta_i^Tx}}{\sum^k_{j=1}e^{\theta_j^Tx}}\\ \end{aligned}\tag{45}$ 这个模型应用到 $\in {1, 2, \ldots, k}$ 分类问题时，被称作softmax regression。这就是logistic regression一般形式。

接着，我们的输出为(结合式39)： $\begin{aligned} h_\theta (x) &= E[T(y)|x;\theta]\\ &= E \left[ \begin{array}{cc|c} 1(y=1)\\ 1(y=2)\\ \vdots \\ 1(y=k-1)\\ \end{array}x;\theta \right]\\ \\ &= \left[ \begin{array}{c} \phi_1\\ \phi_2\\ \vdots \\ \phi_{k-1}\\ \end{array} \right]\\ \\ &= \left[ \begin{array}{ccc} \frac {exp(\theta_1^Tx)}{\sum^k_{j=1}exp(\theta_j^Tx)} \\ \frac {exp(\theta_2^Tx)}{\sum^k_{j=1}exp(\theta_j^Tx)} \\ \vdots \\ \frac {exp(\theta_{k-1}^Tx)}{\sum^k_{j=1}exp(\theta_j^Tx)} \\ \end{array} \right]\\ \end{aligned} \tag{46}$ 换句话说，我们的假设将对每一个 $\ldots, k.$ 值输出概率估计 $\theta)$ 。( 尽管 $h_\theta(x)$ 定义在 $k - 1$ 维，但显而易见， $\theta)$ 可以通过 $\sum^{k-1}_{i=1}\phi_i$ 得到。)

最后，讨论下参数拟合。

跟前面原始最小二乘法一样，如果训练集中有 $m$ 个训练样本，想通过学习算法得到，则需要同以前一样，先写出似然函数： $\begin{aligned} L(\theta) &=\prod_{i=1}^{m} p\left(y^{(i)} \mid x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m}\left(\phi_{1}^{1\left\{y^{(i)}=1\right\}} \phi_{2}^{1\left\{y^{(i)}=2\right\}} \ldots \phi_{k}^{1\left\{y^{(i)}=k\right\}}\right) \\ &=\prod_{i=1}^{m}\left(\prod_{l=1}^{k}\left(\frac{\exp \left(\theta_{l}^{T} x^{(i)}\right)}{\sum_{j=1}^{k} \exp \left(\theta_{j}^{T} x^{(j)}\right)}\right)^{1\left\{y^{(i)}=l\right\}}\right) \end{aligned} \tag{47}$ 对数似然为： $\begin{aligned} l(\theta)& =\sum^m_{i=1} \log p(y^{(i)}|x^{(i)};\theta)\\ &= \sum^m_{i=1}log\prod ^k_{l=1}(\frac {e^{\theta_l^Tx^{(i)}}}{\sum^k_{j=1} e^{\theta_j^T x^{(i)}}})^{1(y^{(i)}=l)}\\ \end{aligned}\tag{48}$ 使用了式45得到第二行，我们可以用梯度上升法和牛顿法来得到参数 $\theta$ 的似然函数 $l(\theta)$ 最大似然估计。

最新回复(0)

CS229 机器学习 Notes 1

Part 1.线性回归

1. LMS 算法 least mean square

2. 正规方程

1. 矩阵求导

2. 正规方程求解

3. 概率解释

4. 局部加权线性回归 Locally weighted linear regression

Part 2 Classification and logistic regression

5. Logistic regression

6. 感知机

7 .最大化 l ( θ ) l(\theta) l(θ) 的另一个算法

Part3. 广义线性模型 GLMs

8. 指数簇 The exponential family

高斯分布簇

9.构建广义线性模型GLMs

9.构建广义线性模型GLMs

9.1 普通最小二乘

9.2 Logistic Regression

9.3 Softmax Regression

softmax regression model

7 .最大化 $l(\theta)$ 的另一个算法