手帳と試行

学んだことをアウトプットしていきます。 日々、ノートあるのみ。

線形回帰モデルと正規事前分布

線形回帰モデルに対して、MAP推定ではなく、事後分布を計算することによるパラメータの推定を考える。

多変量正規事前分布を仮定

正規分布に従う残差を仮定した場合の線形回帰モデル

p(yX,w)=Nd(yXw,σ2Id)\begin{aligned} p(\bm y | \bm X, \bm w) = \mathcal N_d(\bm y | \bm X \bm w, \sigma^2 \bm I_d) \end{aligned}

に対し、パラメータ w\bm w の事前分布として多変量正規分布を仮定する。

p(w)=Nn(wm0,V0)exp(12(wm0)TV01(wm0))\begin{aligned} p(\bm w) &= \mathcal N_n(\bm w | \bm m_0, \bm V_0) \\ &\propto \exp \left( -\frac{1}{2} (\bm w - \bm m_0)^\mathsf{T} \bm V_0^{-1} (\bm w - \bm m_0) \right) \end{aligned}

このときの事後分布を計算してみよう。

p(wX,y)p(yX,w)p(w)=Nd(yXw,Id)Nn(wm0,V0)exp(12σ2yXw22)exp(12(wm0)TV01(wm0))=exp(12(1σ2yXw22+(wm0)TV01(wm0))(1))(1)=1σ2yXw22+(wm0)TV01(wm0)=wT1σ2XTXw+wT1σ2V01w2wT1σ2XTy2wTV01m0+const.=wT(1σ2XTX+V01)Vd1w2wT(1σ2XTy+V01m0)Vd1md+const.=wTVd1w2wTVd1md+const.=(wmd)TVd1(wmd)+const.exp(12(wmd)TVd1(wmd))Nn(wmd,Vd)\begin{aligned}p(\bm w | \bm X, \bm y)\propto{}&p(\bm y | \bm X, \bm w) p(\bm w)\\={}&\mathcal N_d(\bm y | \bm X \bm w, \bm I_d)\mathcal N_n(\bm w | \bm m_0, \bm V_0) \\\propto{}&\exp \left( -\frac{1}{2\sigma^2} \|\bm y - \bm X \bm w\|_2^2 \right)\exp \left( -\frac{1}{2} (\bm w - \bm m_0)^\mathsf{T} \bm V_0^{-1} (\bm w - \bm m_0) \right) \\={}& \exp \left( - \frac{1}{2} \underbrace{\left( \frac{1}{\sigma^2} \|\bm y - \bm X \bm w\|_2^2 + (\bm w - \bm m_0)^\mathsf{T} \bm V_0^{-1} (\bm w - \bm m_0) \right)}_{(1)} \right) \\&\left|\small\quad\begin{aligned} (1) ={}& \frac{1}{\sigma^2} \|\bm y - \bm X \bm w\|_2^2 + (\bm w - \bm m_0)^\mathsf{T} \bm V_0^{-1} (\bm w - \bm m_0) \\ ={}& \bm w^\mathsf{T} \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm X \bm w + \bm w^\mathsf{T} \frac{1}{\sigma^2} \bm V_0^{-1} \bm w - 2 \bm w^\mathsf{T} \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm y - 2 \bm w^\mathsf{T} \bm V_0^{-1} \bm m_0 + \mathrm{const.} \\ ={}& \bm w^\mathsf{T} \underbrace{\left( \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm X + \bm V_0^{-1} \right)}_{\bm V_d^{-1}} \bm w - 2 \bm w^\mathsf{T} \underbrace{\left( \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm y + \bm V_0^{-1} \bm m_0 \right)}_{\bm V_d^{-1} \bm m_d} + \mathrm{const.} \\ ={}& \bm w^\mathsf{T} \bm V_d^{-1} \bm w - 2 \bm w^\mathsf{T} \bm V_d^{-1} \bm m_d + \mathrm{const.} \\ ={}& (\bm w - \bm m_d)^\mathsf{T} \bm V_d^{-1} (\bm w - \bm m_d) + \mathrm{const.}\end{aligned}\right. \\\propto{}&\exp \left( -\frac{1}{2} (\bm w - \bm m_d)^\mathsf{T} \bm V_d^{-1} (\bm w - \bm m_d) \right)\\\propto{}& \mathcal N_n (\bm w | \bm m_d, \bm V_d)\end{aligned}

よって事後分布は次のようになる。

p(wX,y)=Nn(wmd,Vd)p(\bm w | \bm X, \bm y) = \mathcal N_n(\bm w | \bm m_d, \bm V_d)
{md=Vd(1σ2XTy+V01m0)Vd1=1σ2XTX+V01\left\lbrace\begin{aligned} \bm m_d &= \bm V_d \left( \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm y + \bm V_0^{-1} \bm m_0 \right) \\ \bm V_d^{-1} &= \frac{1}{\sigma^2} \bm X^\mathsf{T} \bm X + \bm V_0^{-1} \end{aligned}\right.

共役事前分布

このように、正規分布を尤度関数として採用し、事前分布として多変量正規分布を使用した場合、事後分布もまた多変量正規分布となる。

一般に、尤度関数 p(Dw)p(\mathcal D | w) に対して事前分布 p(w)p(w) と事後分布 p(wD)p(w | \mathcal D) が同じ形である場合、事前分布 p(w)p(w) を尤度関数 p(Dw)p(\mathcal D | w)共役事前分布 (conjugate prior) という。特に、尤度関数、事前分布、事後分布ともに同じ分布族 (family) に属す場合、自然共役 (natural conjugate) であるといわれる。

今回の場合は、正規分布 (事前分布) は正規分布 (尤度関数) の自然共役事前分布であるという事実に由来する。

分布 分布族
p(w)p(w) 正規分布 指数分布族
p(Dw)p(\mathcal D | w) 正規分布 指数分布族
p(wD)p(w|\mathcal D) 正規分布 指数分布族