混淆矩阵、召回率、精确率、正确率、F1、真阳性率、假阳性率、ROC、AUC

it2025-02-07  7

C o n f u s i o n M a t r i x : Confusion Matrix: ConfusionMatrix:

真实 1 0 预测 1 TP(命中) FP(虚报) 0 FN(漏报) TN(正确拒绝)

召回率 R e c a l l = T P T P + F N Recall = \dfrac{TP}{TP + FN} Recall=TP+FNTP,关注真实情况,关注positive。“好瓜被挑出来的概率”

精确率 P r e c i s i o n = T P T P + F P Precision = \dfrac{TP}{TP + FP} Precision=TP+FPTP,关注预测情况,关注positive。“挑出来的瓜有多少真的是好瓜”

正确率 A c c u r a c y = T P + T N T P + F N + F P + T N Accuracy = \dfrac{TP + TN}{TP + FN + FP + TN}\quad Accuracy=TP+FN+FP+TNTP+TN,positive与negative预测的准确性

F F F值: β 2 + 1 F = β 2 R + 1 P \dfrac{\beta^2 +1}{F} = \dfrac{\beta^2}{R} + \dfrac{1}{P} Fβ2+1=Rβ2+P1

β 2 = 1 \beta^2 = 1 β2=1时,对于 F F F R R R P P P 影响权重相同,即常用的 F 1 F_1 F1 β 2 > 1 \beta^2 > 1 β2>1时,对于 F F F R R R相比于 P P P影响权重大,当重视召回率R时可以选择 β 2 > 1 \beta^2>1 β2>1 β 2 < 1 \beta^2 < 1 β2<1时,对于 F F F R R R相比于 P P P影响权重小,当重视精确率P时可以选择 β 2 < 1 \beta^2<1 β2<1

真阳性率TPR,关注真实情况,关注positive, T P R = T P T P + F N TPR = \dfrac{TP}{TP + FN} TPR=TP+FNTP

假阳性率FPR,关注真实情况,关注negative, F P R = F P F P + T N FPR = \dfrac{FP}{FP + TN} FPR=FP+TNFP

当选择不同的threshold时, T P R 、 F P R TPR、FPR TPRFPR值会随之变化,遍历所有的threshold后,会得到一系列的 T P R 、 F P R TPR、FPR TPRFPR,用 T P R TPR TPR作为 Y Y Y轴,用 F P R FPR FPR作为 X X X轴,即得到 R O C ROC ROC

R O C ROC ROC主要作用:

ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。

有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。

可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。

AUC就是ROC曲线下的面积,衡量学习器优劣的一种性能指标。

KS

在风控中,我们常用KS指标来评估模型的区分度(discrimination)

K S = max ⁡ ( ∣ T P R − F P R ∣ ) KS = \max(|TPR-FPR|) KS=max(TPRFPR) 即ROC曲线切线位置。

《风控模型—区分度评估指标(KS)深入理解应用》

最新回复(0)