ISLR读书笔记十七：支持向量分类器（Support Vector Classifier）

it2023-01-25 117

上一篇讲到的最大边际分类器存在两个问题：

无法解决线性不可分的情况，即如果不存在分离平面，那么最大边际分类器就失效了。

鲁棒性较差。如果添加一个观测数据，可能会导致最大边际超平面产生较大变化。

针对这两个问题，引入支持向量分类器（Support Vector Classifier）。其大致思想是：以小范围的错误，换取更大范围的正确。即边际未必完美地将数据分离成两类，允许犯错，允许一些数据错误地划分到边际的一边，甚至允许一些数据错误地划分到超平面的一边，以牺牲小部分分类错误为代价，建立一个更加健壮的模型。所以支持向量分类器，又称为软边际分类器（soft margin classifier）

具体细节如下： $\begin{array}{l} \underset{\beta_{0}, \beta_{1}, \ldots, \beta_{p}, \epsilon_{1}, \ldots, \epsilon_{n}}{\operatorname{maximize}} \quad M \\ \text { subject to } \sum_{j=1}^{p} \beta_{j}^{2}=1 \\ y_{i}\left(\beta_{0}+\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\ldots+\beta_{p} x_{i p}\right) \geq M\left(1-\epsilon_{i}\right) \\ \epsilon_{i} \geq 0, \quad \sum_{i=1}^{n} \epsilon_{i} \leq C \end{array}$

这里 $C$ 是一个非负的调节参数， $M$ 是边际的宽度， $\epsilon_1,\cdots,\epsilon_n$ 是松弛变量（slack variables）。

$\epsilon_i$ 表示了第 $i$ 个数据的位置。如果 $\epsilon_i=0$ ，那么第 $i$ 个数据在边际正确的一边，如果 $\epsilon_i>0$ ，那么第 $i$ 个数据在边际错误的一边，称第 $i$ 个数据违越了（violate）边际。如果 $\epsilon_i>1$ ，那么第 $i$ 个数据在超平面错误的一边。

$C$ 决定了违越边际的数据个数与严重程度。如果 $C = 0$ ，那么 $\epsilon_1=\cdots=\epsilon_n=0$ ，没有数据违越边际，此时支持向量分类器退化为了最大边际分类器。如果 $C > 0$ ，那么在超平面错误一边的数据个数不超过 $C$ 。实际问题中， $C$ 由交叉验证法确定。 $C$ 小，意味着违越数小，边际小，预测结果低偏差但是高方差；反之， $C$ 大，意味着违越数大，边际大，预测结果低方差但是高偏差。

支持向量分类器中，起支持作用的向量，是那些恰好在边际上的向量或者违越边际的向量。 $C$ 大，支持向量就多； $C$ 小，支持向量就少。

最新回复(0)