/Chapter3/basis/regularized_least_squares.md

https://github.com/mqshen/prml · Markdown · 58 lines · 37 code · 21 blank · 0 comment · 0 complexity · 1b95102a5e98862de70b8564a6a9c036 MD5 · raw file

  1. 在1.1节中我们介绍了通过添加一个正则项来防止误差函数过拟的想法得到的需要最小化的总误差函数的形式为
  2. $$
  3. E_D(w) + \lambda E_W(w) \tag{3.24}
  4. $$
  5. 其中$$ \lambda $$是控制数据依赖误差$$ E_D(w) $$和正则项$$ E_W(w) $$的相对重要性的正则化参数一个最简单的正则化项是加权向量元素的平方和
  6. $$
  7. E_W(w) = \frac{1}{2}w^Tw \tag{3.25}
  8. $$
  9. 如果我们考虑由
  10. $$
  11. E(w) = \frac{1}{2}\sum\limits_{n=1}^N\{t_n-w^T\phi(x_n)\}^2 \tag{3.26}
  12. $$
  13. 给出的平方和误差函数那么我们的总误差函数为
  14. $$
  15. \frac{1}{2}\sum\limits_{n=1}^N\{t_n-w^T\phi(x_n)\}^2 + \frac{\lambda}{2}w^Tw \tag{3.27}
  16. $$
  17. 由于顺序学习算法除非有数据支持不然它倾向于让权值向零的方向衰减所以这种正则项的选择在机器学习的文献中被称为加权衰减weight decay在统计学中由于它使参数向0收缩所以它是参数收缩parameter shrinkage方法的一个例子这种方法的优点是误差函数是$$ w $$的二次函数因此精确的最小值有解析解具体来说令式3.27关于$$ w $$的梯度等于零并求出$$ w $$得到
  18. $$
  19. w = (\lambda I + \Phi^T\Phi)^{-1}\Phi^Tt \tag{3.28}
  20. $$
  21. 这是最小二乘解3.15的一个简单扩展
  22. 有时会使用一种正则化误差形式为
  23. $$
  24. \frac{1}{2}\sum\limits_{n=1}^N{t_n - w^T\phi(x_n)}^2 + \frac{\lambda}{2}\sum\limits_{j=1}^M\|w_j\|^q \tag{3.29}
  25. $$
  26. 的更加一般的正则化项其中$$ q=2 $$对应二次正则项3.27图3.3给出了不同$$ q $$值下的正则化函数的等高线
  27. ![ 3-3](images/regularized.png)
  28. 3.3 不同$$ q $$值下的正则化函数
  29. $$ q=1 $$在统计文献中被称为lassoTibshirani, 1996它具有如果$$ \lambda $$充分大那么某些系数$$ w_j $$会变为零从而得到一个使得对应的基函数不起作用的稀疏模型为了证明这点首先注意到最小化式3.29等价于最小化满足限制
  30. $$
  31. \sum\limits_{j=1}^M\|w_j\|^q \leq \eta \tag{3.30}
  32. $$
  33. 的未正则化的平方和误差3.12这样这两种方法通过拉格朗日乘数法被联系到了一起从图3.4可以知道稀疏性的来源在限制条件3.30下误差函数的最小值随着$$ \lambda $$的增大越来越多的参数会变为零
  34. ![ 3-4](images/lasso.png)
  35. 3.4 lasso模型
  36. 正则化方法通过限制有效模型的复杂度使得复杂的模型能够在有限大小的数据集上进行训练而不产生严重的过拟然而这就使确定最优的模型复杂度的问题从确定合适的基函数的数量问题转移到了确定合适的正则化系数$$ \lambda $$的问题上在本章的后面还会回到这个模型复杂度的问题上
  37. 对于本章的其余部分由于实际应用中的重要性和分析可追溯性我们将把注意力放在二次正则化项3.27