最大似然估计和最小二乘法怎么理解?

关注者
2,703
被浏览
287,923

有些答案纯属盲人摸象,并未触及本质。


从概率论的角度:

  1. Least Square 的解析解可以用 Gaussian 分布以及最大似然估计求得
  2. Ridge 回归可以用 Gaussian 分布和最大后验估计解释
  3. LASSO 回归可以用 Laplace 分布和最大后验估计解释

-------------------------------------------------------------------

下面贴一下我以前的推导给大家参考,相信会有启发。如有错误还望指正 -_-

注意:

  1. 假设你已经懂得:高斯分布、拉普拉斯分布、最大似然估计,最大后验估计(MAP)。
  2. 按照李航博士的观点,机器学习三要素为:模型策略算法。一种模型可以有多种求解策略,每一种求解策略可能最终又有多种计算方法。以下只讲模型策略,不讲算法。(具体怎么算,convex or non-convex, 程序怎么写,那是数值分析问题)

-------------------------------------------------------------------


首先假设线性回归模型具有如下形式:

f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon

其中\mathbf x \in \mathbb R^{1 \times d}\mathbf w \in \mathbb R^{1 \times d}误差\epsilon \in \mathbb R

当前已知\mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d}\mathbf y \in \mathbb R^{n \times 1},怎样求\mathbf w呢?


策略1. 假设\epsilon_i \sim \mathcal{N}(0, \sigma^2),也就是说\mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2),那么用最大似然估计推导:

 \begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - n \ln \sigma \sqrt{2\pi} \end{align*} \text{arg\,min}_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}_2^2

这不就是最小二乘么。


策略2. 假设\epsilon_i \sim \mathcal{N}(0, \sigma^2)\mathbf w_i \sim \mathcal{N}(0, \tau^2),那么用最大后验估计推导:

\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2) \cdot \prod_{j=1}^d \frac{1}{\tau \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf w_j}{\tau})^2)\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - \frac{1}{2\tau^2} \sum_{j=1}^d \mathbf w_j^2 - n \ln \sigma \sqrt{2\pi} - d \ln \tau \sqrt{2\pi} \end{align*}\begin{align*} \text{arg\,min}_{\mathbf w} f(\mathbf w) &= \sum_{i=1}^n (\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 + \lambda \sum_{j=1}^d \mathbf w_j^2 \\ &= {\left\lVert\mathbf y - \mathbf X \mathbf w^\intercal\right\rVert}_2^2 + \lambda {\left\lVert\mathbf w\right\rVert}_2^2 \end{align*}

这不就是 Ridge 回归么?


策略3. 假设\epsilon_i \sim \mathcal{N}(0, \sigma^2)\mathbf w_i \sim \text{Laplace}(0, b),同样用最大后验估计推导:

\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2} (\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2) \cdot \prod_{j=1}^d \frac{1}{2b} \exp(-\frac{|\mathbf w_j|}{b}) \\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - \frac{1}{2\tau^2} \sum_{j=1}^d |\mathbf w_j| - n \ln \sigma \sqrt{2\pi} - d \ln \tau \sqrt{2\pi} \end{align*}\begin{align*} \text{arg\,min}_{\mathbf w} f(\mathbf w) &= \sum_{i=1}^n (\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 + \lambda \sum_{j=1}^d |\mathbf w_j| \\ &= {\left\lVert\mathbf y - \mathbf X \mathbf w^\intercal\right\rVert}_2^2 + \lambda {\left\lVert\mathbf w\right\rVert}_1 \end{align*}

这不就是 LASSO 么?


不知大家看懂没,简直是完美统一啊。


作业:)

  1. 策略1和2最终的目标函数都是常规的极值问题,试求出解析解。
  2. 有一种常见的回归通篇没有提到,也可以纳入上述体系,试找出策略4并推导之。

参考文献:

[1] Machine Learning

[2] The Elements of Statistical Learning

-------------------------------------------------------------------

小广告:求一份初级的机器学习/数据挖掘相关工作职位。