为什么high bias对应欠拟合 high variance对应过拟合? 假设模型 f f f,输入 X X X,输出 y ^ \hat{y} y^,ground truth y y y
bias的定义: B i a s y ( y ^ ) = E x ∣ y ^ [ y ^ ] − y Bias_{y}(\hat{y})=E_{x|\hat{y}}[\hat{y}]-y Biasy(y^)=Ex∣y^[y^]−y 白话来说,是prediction和ground truth的均值差距。 显然(在训练阶段,)prediction越偏离ground truth,其越欠拟合。variance的定义(也就是方差,这里给广义方差): V a r ( y ^ ) = E x ∣ y ^ [ ( y ^ − E [ y ^ ] ) 2 ] Var(\hat{y})=E_{x|\hat{y}}[(\hat{y}-E[\hat{y}])^2] Var(y^)=Ex∣y^[(y^−E[y^])2] 白话来说,high variance是prediction对于ground truth的离散程度太高了。MSE: M S E ( y ^ ) = V a r ( y ^ ) + B i a s y ( y ^ ) MSE(\hat{y})=Var(\hat{y})+Bias_{y}(\hat{y}) MSE(y^)=Var(y^)+Biasy(y^)举个例子: 对于一个判别任务,假设label、prediction都服从正态分布,想要“好的训练结果”,显然需要prediction分布的 μ \mu μ和 σ \sigma σ都要符合label的分布才算训练好。 而训练的不好的原因往往是 μ \mu μ, σ \sigma σ都没有到位,也就是双高。high bias突出表现在均值偏离太大;high variance突出表现在离散程度太大。
参考资源: variance定义和bias定义,https://www.bilibili.com/video/BV1sb411s7eQ?p=3,18分23秒。
