PRML-分类器设计准则、模式相似性测度、贝叶斯决策

it2023-09-03  67

PRML

课题组汇报

Topic:《模式识别与机器学习》课程基础内容

文档内容有很多是我自己理解写的,若有错误感谢各位先行者批评指出。

分类器设计准则

模式识别问题就是根据 X X X 的 n 个特征来判别模式 X X X 属于 w 1 , w 2 , . . . , w M w_{1}, w_{2}, ..., w_{M} w1,w2,...,wM 中的哪一类。

更细节的说。

模式识别算法的设计都是强调“最佳”和“最优”的,也就是希望算法的性能表现最优,这种最优是指对某一种设计原则讲的,常用的准则有:最小错误率准则、最小风险准则、近邻准则、Fisher 准则、均方误差最小准则、感知准则等。

设计准则,并使该准则达到最优,这就是模式识别系统最基本的方法。分类器使用什么准则会影响到分类器的效果。不同的决策准则反映了分类器设计者不同的考虑与权衡。

本次汇报会有最小错误率准则和最小风险准则。

下面是我对其它几个准则的概念上的了解。

近邻准则:同类物体具有相似的性质,它们在特征空间中会有聚类的现象。例如,对于一个未知样品,先求出它到各已知类的平均距离(相似性测度),判断离谁近就属于谁。

Fisher 准则:根据两类样品一般类内密集、类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样品在该方向上的投影满足类内尽可能密集、类间尽可能的分开。如何找到这个最好的直线方向,以及如何实现向最好方向投影变换,这就是 Fisher 算法解决的问题。

感知准则:以使错分类样品到分界面距离之和最小为准则。利用错误提供信息实现迭代修正的学习原理,即利用错分类提供的信息修正错误。(机器学习)

模式相似性测度

判断样品之间的相似性常采用近邻准则,即将待分类样品与标准模版进行比较,看跟哪个模版匹配程度更好一些,从而确定待测试样品的分类。

计算模式相似性测度有:欧式距离、马氏距离、夹角余弦距离等多种距离算法。

马氏距离的特点: 量纲无关,排除变量之间的相关性的干扰;马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;

马式距离的推导我放到主成分分析(PCA)那里。

欧式距离和马氏距离计算实例。

判别函数

设计判别函数的形式主要有两种方法:基于概率统计的分类法(贝叶斯决策)和几何法。

基于概率统计的分类器主要有:基于最小错误率的贝叶斯决策、基于最小风险的贝叶斯决策。(后面单独说这两个)

无论是应用概率统计的分类法还是应用几何分类法,最终都转换为判别函数形式。

判别函数分类法

由于一个模式通过某种变化映射为一个特征向量后,该特征向量可以理解为特征空间的一个点,在特征空间中,属于一个类的点集,在某种程度上与属于另一类的点集相分离,各个类之间确定可分的。因此如果找到一个判别函数(线性或非线性函数),把不同类的点集分开,则分类任务就完成了。

判别分类器不依赖于条件概率密度的知识,可以理解为通过几何的方法,把特征空间分解为对应于不同类别的子空间。线性的判别函数可以使计算简化。判别函数可以分为线性判别函数和非线性判别函数。

1、基于二维特征两类分类问题的线性判别函数形式

对于简单两类的情况,将 X X X 进行分类。假定判别函数 $$x 是 X X X 的线性函数: d ( X ) = W T X + W 0 ​ d(X) = W^{T}X + W_{0}​ d(X)=WTX+W0

在二维模式空间中存在一线性判别函数:

d ( X ) = w 1 x 1 + w 2 x 2 + w 3 = 0 d(X) = w_{1}x_{1} + w_{2}x_{2} + w_{3} = 0 d(X)=w1x1+w2x2+w3=0

2、基于 n 维特征两类分类问题的线性判别函数形式

X = ( x 1 , x 2 , . . . , x n ) n X = (x_{1}, x_{2}, ..., x_{n})^{n} X=(x1,x2,...,xn)n 来表示模式,一般的线性判别函数形式为:

d ( X ) = w 1 x 1 + w 2 x 2 + . . . + w n x n + w n + 1 = W 0 T X + w n + 1 d(X)=w_{1}x_{1}+w_{2}x_{2}+ ... + w_{n}x_{n} + w_{n+1} = W^{T}_{0}X + w_{n+1} d(X)=w1x1+w2x2+...+wnxn+wn+1=W0TX+wn+1

式中 W 0 = ( w 1 , w 2 , w 3 , . . . , w n ) T W_{0} = (w_{1}, w_{2}, w_{3}, ..., w_{n})^{T} W0=(w1,w2,w3,...,wn)T 称为权/参数。如果在所有输入 X X X 的最末元素后再附加元素 1(增广,回忆后面感知机迭代的例子),则:

d ( X ) = W T X d(X) = W^{T}X d(X)=WTX

W = ( w 1 , w 2 , . . . , w n , w n + 1 ) W = (w_{1}, w_{2}, ..., w_{n}, w_{n+1}) W=(w1,w2,...,wn,wn+1)

3、基于 n 维特征多类分类问题的线性判别函数形式

多类别问题,假设有 M 类 w 1 , w 2 , . . . w M w_{1}, w_{2}, ... w_{M} w1,w2,...wM,对于 n 维空间中的 M 个类别,就要给出 M 个判别函数: d 1 ( X ) , d 2 ( X ) , . . . , d M ( X ) d_{1}(X), d_{2}(X), ..., d_{M}(X) d1(X),d2(X),...,dM(X) 。如果 X X X 属于第 i i i 类,则有:

d i ( X ) > d j ( X ) j = 1 , 2 , . . . , M , i ≠ j d_{i}(X) > d_{j}(X) \qquad j = 1, 2, ..., M, i \neq j di(X)>dj(X)j=1,2,...,M,i=j

对于线性情况,判别函数为:

d ( X ) = w 1 x 1 + w 2 x 2 + . . . + w n x n + w n + 1 = W 0 T X + w n + 1 = W T X d(X) = w_{1}x_{1} + w_{2}x_{2} + ... + w_{n}x_{n} + w_{n+1} = W^{T}_{0}X + w_{n+1} = W^{T}X d(X)=w1x1+w2x2+...+wnxn+wn+1=W0TX+wn+1=WTX

其中: X = ( x 1 , x 2 , . . . , x n , 1 ) X = (x_{1}, x_{2}, ..., x_{n}, 1) X=(x1,x2,...,xn,1) W = ( w 1 , w 2 , . . . , w n + 1 ) T W = (w_{1}, w_{2}, ..., w_{n+1})^{T} W=(w1,w2,...,wn+1)T

对于非线性情况,判别函数为:

d ( X ) = w 1 f 1 ( x ) + w 2 f 2 ( x ) + . . . + w n f n ( x ) + w n + 1 d(X) = w_{1}f_{1}(x) + w_{2}f_{2}(x) +...+w_{n}f_{n}(x) + w_{n+1} d(X)=w1f1(x)+w2f2(x)+...+wnfn(x)+wn+1

f ( x ) f(x) f(x) 就是深度学习中的激活函数(Activation Function)。

贝叶斯决策

贝叶斯决策所讨论的问题

分类器参数的选择或者学习过程得到的结果取决于设计者选择什么样的准则函数,不同的准则函数的最优解对应不同的学习结果,得到性能不同的分类器。当待分类样本出现模凌两可的情况时,任何决策都存在判错的可能性。

错分类难以避免,这种可能性可以使用 P ( w i ∣ X ) P(w_{i}|X) P(wiX) 来表示。如何做出合理的判决就是贝叶斯决策所讨论的问题。

贝叶斯公式

已知共有 M M M 样本,各类别 w i , i = 1 , 2 , . . . , M w_{i}, i = 1, 2, ..., M wi,i=1,2,...,M 的先验概率 P ( w i ) P(w_{i}) P(wi) 以及类条件概率密度函数 P ( X ∣ w i ) P(X|w_{i}) P(Xwi) ,对于给定的待分类样本,贝叶斯公式可以计算出该样本分属各类别的概率。即将后验概率作为识别对象归属的依据。

P ( w i ∣ X ) = P ( X ∣ w i ) P ( w i ) ∑ j = 1 M P ( X ∣ w i ) P ( w i ) P(w_{i}|X)=\frac{P(X|w_{i})P(w_{i})}{\sum^{M}_{j=1}P(X|w_{i})P(w_{i})} P(wiX)=j=1MP(Xwi)P(wi)P(Xwi)P(wi)

类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。贝叶斯公式体现了先验概率、类条件概率密度函数、后验概率三者的关系。

先验概率 P ( w i ) P(w_{i}) P(wi)

例如,某一药品总数为 N N N,其中正常药品数为 N 1 N_{1} N1,异常药品数为 N 2 N_{2} N2,则:

P ( w 1 ) = N 1 N P(w_{1}) = \frac{N_{1}}{N} P(w1)=NN1 P ( w 2 ) = N 2 N P(w_{2}) = \frac{N_{2}}{N} P(w2)=NN2

P ( w 1 ) , P ( w 2 ) P(w_{1}) , P(w_{2}) P(w1),P(w2) 为先验概率,一般情况下, P ( w 1 ) > P ( w 2 ) P(w_{1}) > P(w_{2}) P(w1)>P(w2),如果按先验概率决策,就会把所有药品都归为正常。先验概率所提供的信息太少,不能直接用于分类决策。

类条件概率密度函数 P ( X ∣ w i ) P(X|w_{i}) P(Xwi)

类条件概率密度函数 P ( X ∣ w i ) P(X|w_{i}) P(Xwi) 是指在已知类别的特征空间中,出现特征 X X X 的概率密度,即第 w i w_{i} wi 类样品其特征属性 X X X 是如何分布的。

在工程上的许多问题中,统计数据往往满足正态分布规律。类条件密度可以采用多维变量的正态密度函数来模拟,此时正态分布的贝叶斯分类器判别函数为:

h i ( X ) = P ( X ∣ w i ) P ( w i ) = 1 ( 2 π ) n / 2 ∣ S i ∣ 1 / 2 e [ − 1 2 ( X − X w i ˉ ) S i − 1 ( X − X w i ˉ ) ] P ( w i ) h_{i}(X) = P(X|w_{i})P(w_{i}) = \frac{1}{(2\pi)^{n/2}|S_{i}|^{1/2}}e^{[-\frac{1}{2}(X-\bar{X^{w_{i}}})S^{-1}_{i} (X-\bar{X^{w_{i}}})]}P(w_{i}) hi(X)=P(Xwi)P(wi)=(2π)n/2Si1/21e[21(XXwiˉ)Si1(XXwiˉ)]P(wi)

使用对数函数进行简化,得:

H i ( X ) = − 1 2 ( X − X w i ˉ ) T S i − 1 ( X − X w i ˉ ) − n 2 l n 2 π − 1 2 ∣ S i ∣ + l n P ( w i ) H_{i}(X) = -\frac{1}{2}(X - \bar{X^{w_i}})^TS^{-1}_{i}(X - \bar{X^{w_i}})-\frac{n}{2}ln2\pi-\frac{1}{2}|S_{i}|+lnP(w_i) Hi(X)=21(XXwiˉ)TSi1(XXwiˉ)2nln2π21Si+lnP(wi)

这个函数的推导过程如下:

基于最小错误率的贝叶斯决策

基于最小错误率的贝叶斯决策就是按后验概率的大小判决的。先验概率容易求出,在多数情况下,类条件密度可以采用多维变量的正态密度函数来模拟,就得到正态分布的贝叶斯分类器判别函数。

判别函数最大值所对应类别即为待测样本的类别。

基于两类问题最小错误率的贝叶斯判别函数形式

若每个样本属于 w 1 , w 2 w_{1}, w_{2} w1,w2 类中的一类,已知先验概率分别为 P ( w 1 ) , P ( w 2 ) P(w_{1}), P(w_{2}) P(w1),P(w2),类条件概率密度为 P ( X ∣ w 1 ) , P ( X ∣ w 2 ) P(X|w_{1}), P(X|w_{2}) P(Xw1),P(Xw2)。则给定一 X X X,判断 X X X 的类别。

贝叶斯公式:

P ( w 1 ∣ X ) = P ( X ∣ w 1 ) P ( w 1 ) / P ( X ) P(w_{1}|X) = P(X|w_{1})P(w_{1})/P(X) P(w1X)=P(Xw1)P(w1)/P(X)

P ( w 2 ∣ X ) = P ( X ∣ w 2 ) P ( w 2 ) / P ( X ) P(w_{2}|X) = P(X|w_{2})P(w_{2})/P(X) P(w2X)=P(Xw2)P(w2)/P(X)

P ( X ) = P ( X ∣ w 1 ) P ( w 1 ) + P ( X ∣ w 2 ) P ( w 2 ) P(X) = P(X|w_{1})P(w_{1}) + P(X|w_{2})P(w_{2}) P(X)=P(Xw1)P(w1)+P(Xw2)P(w2)

用后验概率来直接判断类别:

{ P ( w 1 ∣ X ) > P ( w 2 ∣ X ) ⇒ X ∈ w 1 P ( w 1 ∣ X ) < P ( w 2 ∣ X ) ⇒ X ∈ w 2 \begin{cases}P(w_{1}|X) > P(w_{2}|X) \qquad \Rightarrow X\in w_{1}&\\P(w_{1}|X) < P(w_{2}|X) \qquad \Rightarrow X\in w_{2}&\end{cases} {P(w1X)>P(w2X)Xw1P(w1X)<P(w2X)Xw2

若两类样本都满足正态分布,最小错误率的贝叶斯分类器可化为:

h ( X ) = 1 2 ( X − X w 1 ˉ ) T S 1 − 1 ( X − X w 1 ˉ ) − 1 2 ( X − X w 2 ˉ ) T S 2 − 1 ( X − X ( w 2 ) ˉ ) + 1 2 l n ∣ S 1 ∣ ∣ S 2 ∣ − l n P ( w 1 ) P ( w 2 ) h(X) = \frac{1}{2}(X - \bar{X^{w_{1}}})^TS^{-1}_{1} (X - \bar{X^{w_{1}}}) - \frac{1}{2}(X - \bar{X^{w_{2}}})^TS^{-1}_2(X - \bar{X^{(w_{2})}})+\frac{1}{2}ln\frac{|S_{1}|}{|S_{2}|}- ln\frac{P(w_{1})}{P(w_{2})} h(X)=21(XXw1ˉ)TS11(XXw1ˉ)21(XXw2ˉ)TS21(XX(w2)ˉ)+21lnS2S1lnP(w2)P(w1)

{ H ( X ) < 0 ⇒ X ∈ w 1 H ( X ) > 0 ⇒ X ∈ w 2 \begin{cases}H(X) < 0 \qquad \Rightarrow X\in w_{1}&\\H(X) > 0 \qquad \Rightarrow X\in w_{2}&\end{cases} {H(X)<0Xw1H(X)>0Xw2

基于多类问题最小错误率的贝叶斯判别函数形式

基于最小风险的贝叶斯决策

直线 B 比直线 A 有更大的错误率,会给企业带来一些损失(浪费了一些好药);直线 A 虽然使错误分类最小,但是会使得患者因错误的治疗而遭到极大的损失(吃到假药)。

基于最小风险的贝叶斯决策宁可扩大一些总的错误率,也要使得总的损失减少。将风险表示为后验概率加权和的形式。

R i ( X ) = ∑ j = 1 M λ ( a i , j ) P ( w j ∣ X ) R_{i}(X) = \sum^{M}_{j = 1}\lambda(a_{i}, j) P(w_{j}|X) Ri(X)=j=1Mλ(ai,j)P(wjX)

其中, λ ( a i , j ) \lambda(a_{i}, j) λ(ai,j) 表示待分类样本 X X X 实属于 w j w_{j} wj ,但是由于采用了 a i a_{i} ai 决策而被误判为 w i w_{i} wi 时的损失。

以正常和异常药品分类为例。

λ ( a 1 , 2 ) \lambda(a_{1}, 2) λ(a1,2) X X X 确实是异常药品,但采取了决策 a 1 a_{1} a1 被判定为正常( w 1 w_{1} w1 λ ( a 2 , 1 ) \lambda(a_{2}, 1) λ(a2,1) X X X 确实是正常药品,但采取了决策 a 2 a_{2} a2 被判别为异常( w 2 w_{2} w2

此时做出哪一种决策,就要看 R 1 ( X ) R_{1}(X) R1(X) R 2 ( X ) R_{2}(X) R2(X) 哪个小了,选出最小的总风险 R ( X ) R(X) R(X),就是基于最小风险的贝叶斯决策。

如果希望尽可能避免将某种状态 w i w_{i} wi 错判为 w j w_{j} wj ,则可以将相应的 λ ( a j , i ) \lambda(a_{j}, i) λ(aj,i) 值设得大一些,以表明损失的严重性。如 λ ( a 1 , 2 ) > λ ( a 2 , 1 ) \lambda(a_{1}, 2) > \lambda(a_{2}, 1) λ(a1,2)>λ(a2,1) ,说明吃到让患者吃到假药要比企业损失点钱这个事要严重得多。

基于多类问题最小风险贝叶斯决策规则判别函数形式

已知先验概率 P ( w i ) P(w_{i}) P(wi) 、类条件概率密度 P ( X ∣ w i ) , i = 1 , 2 , . . . , M P(X|w_{i}), i = 1, 2, ..., M P(Xwi),i=1,2,...,M 。对于待分类样本 X X X

(1) 先根据贝叶斯公式计算后验概率

P ( w i ∣ X ) = P ( X ∣ w i ) P ( w i ) ∑ j = 1 M P ( X ∣ w i ) P ( w i ) , j = 1 , 2 , . . . , M P(w_{i}|X)=\frac{P(X|w_{i})P(w_{i})}{\sum^{M}_{j=1}P(X|w_{i})P(w_{i})}, \qquad j = 1, 2, ..., M P(wiX)=j=1MP(Xwi)P(wi)P(Xwi)P(wi),j=1,2,...,M

(2)利用后验概率和损失函数 λ ( α i , j ) \lambda(\alpha_{i}, j) λ(αi,j) ,按照下式计算出采取决策 α i , i = 1 , 2 , . . . , M \alpha_{i}, i = 1, 2, ..., M αi,i=1,2,...,M 的条件风险

R ( α i ∣ X ) = ∑ j = 1 M λ ( α i , j ) P ( w j ∣ W ) , i = 1 , 2 , . . . , M R(\alpha_{i}|X) = \sum^{M}_{j = 1}\lambda(\alpha_{i}, j)P(w_{j}|W), \qquad i =1, 2, ..., M R(αiX)=j=1Mλ(αi,j)P(wjW),i=1,2,...,M

(3)对(2)中计算得到 M 和风险进行比较,选出使得风险最小的决策 α k \alpha_{k} αk α k \alpha_{k} αk 就是贝叶斯最小风险决策, w k w_{k} wk 就是待分类样本的类别。

R ( a k ∣ X ) = min ⁡ i = 1 , 2 , . . . , M R ( α i ∣ X ) R(a_{k}|X) = \min_{i = 1, 2, ..., M} R(\alpha_{i}|X) R(akX)=mini=1,2,...,MR(αiX)

最小风险贝叶斯决策与最小错误率贝叶斯决策之间的关系

设损失函数为 0-1 损失函数:

λ ( a i , w j ) = { 0 , i = j 1 , i ≠ j i , j = 1 , 2 , . . . , M \lambda(a_{i}, w_{j}) = \begin{cases}0, \qquad i = j&\\1, \qquad i \not=j &\end{cases} i, j = 1, 2, ..., M λ(ai,wj)={0,i=j1,i=ji,j=1,2,...,M

总结:在 0-1 损失函数情况下,基于最小风险的贝叶斯决策结果,等于基于最小错误率的贝叶斯决策结果。


PS:本文档 PPT 分享在公众号。欢迎关注我的公众号「蓝本本」,和我一起学习、进修和放纵好奇心。

参考

《模式识别与智能计算》
最新回复(0)