線形回帰モデルの最尤推定

事前分布を定数と仮定してMAP推定を行なうと、最尤推定になる。

事後分布の計算

正規分布に従うノイズを仮定した線形回帰モデルの尤度関数は次式で与えられる。

\begin{aligned} p(\bm y | \bm X, \bm w) = \mathcal N_d(\bm y | \bm X \bm w, \sigma^2 \bm I_d) \end{aligned}

事前分布が定数であるような場合、事後分布は事前分布の定数倍になる。このことに注意して事後分布を導出する。

\begin{aligned} & \hspace{-1pc} p(\bm w | \bm X, \bm y) \\ \propto{}& p(\bm y | \bm X, \bm w) p(\bm w) \\ \propto{}& p(\bm y | \bm X, \bm w) \\ ={}& \mathcal N_d(\bm y | \bm X \bm w, \sigma^2 \bm I_d) \\ ={}& \exp \left( -\frac{1}{2\sigma^2} \| \bm y - \bm X \bm w \|_2^2 \right) \\ ={}& \exp \left( -\frac{1}{2} \underbrace{\frac{1}{\sigma^2} \| \bm y - \bm X \bm w \|_2^2 }_{ (1) } \right) \\ &\left| \begin{aligned} (1) ={}& \frac{1}{\sigma^2} \| \bm y - \bm X \bm w \|^2 \\ ={}& \bm w^\mathsf{T} \underbrace{ \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm X }_{ \bm V_d^{-1} } \bm w - 2 \bm w^\mathsf{T} \underbrace{ \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm y }_{ \bm V_d^{-1} \bm m_d } + \mathrm{const.} \\ ={}& \bm w^\mathsf{T} \bm V_d^{-1} \bm w - 2 \bm w^\mathsf{T} \bm V_d^{-1} \bm m_d + \mathrm{const.} \\ ={}& (\bm w - \bm m_d)^\mathsf{T} \bm V^{-1} (\bm w - \bm m_d) + \mathrm{const.} \end{aligned} \right. \\ \propto{}& \exp \left( -\frac{1}{2} (\bm w - \bm m_d)^\mathsf{T} \bm V_d^{-1} (\bm w - \bm m_d) \right) \\ \propto{}& \mathcal N_n (\bm w | \bm m_d, \bm V_d) \end{aligned}

よって事後分布は次のようになる。

p(\bm w | \bm X, \bm y) = \mathcal N_n(\bm w | \bm m_d, \bm V_d)

\left\lbrace\begin{aligned} \bm m_d &= (\bm X^\mathsf{T} \bm X)^{-1} \bm X^\mathsf{T} \bm y \\ \bm V_d^{-1} &= \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm X \end{aligned}\right.

最尤法

事後分布が最大となるのは、 $\bm w$ が平均ベクトル $\bm m_d$ に一致する場合である。よって $\bm w$ のMAP推定量は $\bm m_d$ である。

\begin{aligned} \hat{\bm w} &= \argmax_{\bm w} \mathcal N_n(\bm w | \bm m_d, \bm V_d) \\ &= \bm m_d \\ &= (\bm X^\mathsf{T} \bm X)^{-1} \bm X^\mathsf{T} \bm y \end{aligned}

今回の場合は事後分布が尤度関数の定数倍であるから、この推定量は尤度関数を最大化するものに一致する。

\begin{aligned} \hat{\bm w} &= \argmax_{\bm w} \mathcal N_d(\bm y | \bm X \bm w, \sigma^2 \bm I_d) \\ \end{aligned}

このような尤度関数を最大化する推定量を最尤推定量といい、最尤推定量を推定量とするようなパラメータの推定方法を最尤推定 (maximun likelihood estimation; MLE) という。

最小二乗法

最尤推定量は次式で表すこともできる。

\begin{aligned} \hat{\bm w} &= \argmax_{\bm w} \mathcal N_d(\bm y | \bm X \bm w, \sigma^2 \bm I_d) \\ &= \argmin_{\bm w} \|\bm y - \bm X \bm w\|_2^2 \\ &= \argmin_{\bm w} \sum_{i=1}^d \left( y_i - \bm x_i^\mathsf{T} \bm w \right)^2 \end{aligned}

これは、残差平方和 (residual sum of squares; RSS) を最小化するフィッティング方法、すなわち最小二乗法 (least squares method) による回帰と等価である。

一般に、データ $\mathcal D$ が各回独立な試行から得られたと仮定し、ノイズとして正規分布に独立同分布で従う確率変数 $\varepsilon \sim \mathcal N(\varepsilon | 0, \sigma^2)$ を仮定して最尤推定を行なうことは、次式で表される最小二乗法と等価になる。

\begin{aligned} &\underset{\bm w}{\text{minimize}} && \sum_{i=1}^d \left( y_i - \bm x_i^\mathsf{T} \bm w \right)^2 \end{aligned}