手帳と試行

学んだことをアウトプットしていきます。 日々、ノートあるのみ。

線形回帰モデルの最大事後確率推定

線形回帰モデルに対するMAP推定を取り扱う。

線形回帰モデルの尤度関数

線形回帰モデル y=xTw+εy = \bm x^\mathsf{T} \bm w + \varepsilon に対して、正規分布に従う残差 εN(ε0,σ2)\varepsilon \sim \mathcal N(\varepsilon | 0, \sigma^2) を仮定すると、尤度関数は次のように表現できる。

p(yX,w)=Nd(yXw,σ2Id)\begin{aligned} p(\bm y | \bm X, \bm w) = \mathcal N_d(\bm y | \bm X \bm w, \sigma^2 \bm I_d) \end{aligned}

ベイズの定理

ベイズの定理によれば、次式が成り立つ。

p(wX,y)=p(yX,w)p(w)p(yX)\begin{aligned} p(\bm w | \bm X, \bm y) = \frac{p(\bm y | \bm X, \bm w) p(\bm w)}{p(\bm y | \bm X)} \end{aligned}

左辺の p(wX,y)p(\bm w | \bm X, \bm y) を「データ X,y\bm X, \bm y を得た後 (事後) のパラメータ w\bm w はどのような値を取りそうか」を表す確率分布という意味で事後分布 (posterior distriburion) または事後確率 (a posteriori) という。

p(wX,y)=posteriorp(\bm w | \bm X, \bm y) = \text{posterior}

一方、右辺の p(w)p(\bm w) は「データを得る前 (事前) のパラメータの分布」という意味で事前分布 (prior distribution) という。また、事前分布の値を事前確率 (a priori) という。事前分布はデータ X,y\bm X, \bm y に基づいて自動計算されるものではなく、人間がデータの特性を見て設計することが多いため、信念 (belief) とも呼ばれる。

p(w)=priorp(\bm w) = \text{prior}

確率分布 p(yX)p(\bm y | \bm X) は、「尤度関数 p(yX,w)p(\bm y | \bm X, \bm w) に対して w\bm w を周辺化したもの」という意味で周辺尤度 (marginal likelihood) という。周辺尤度はモデルのよさを測る指標として用いられる場合もあるため、「事前分布と尤度関数の仮定のよさ」という意味で、エビデンス (evidence) とも呼ばれる。

p(yX)=evidencep(\bm y | \bm X) = \text{evidence}

まとめると次のとおりである。

p(w):priora prioribeliefp(wX,y):posteriora posteriorip(yX,w):likelihoodmodelp(yX):marginal likelihoodevidence\begin{darray}{lclll} p(\bm w) &:& \text{prior} & \text{a priori} & \text{belief} \\ p(\bm w | \bm X, \bm y) &:& \text{posterior} & \text{a posteriori} \\ p(\bm y | \bm X, \bm w) &:& \text{likelihood} & & \text{model}\\ p(\bm y | \bm X) &:& \text{marginal likelihood} & & \text{evidence} \end{darray}

なお周辺尤度 p(yX)p(\bm y | \bm X)w\bm w に依存しないので、基本的には定数として扱われることが多い。よって実用上は次式が用いられることが多い。

p(wX,y)p(w)p(yX,w)\begin{aligned} p(\bm w | \bm X, \bm y) \propto p(\bm w) p(\bm y | \bm X, \bm w) \end{aligned}

最大事後確率推定

事後確率が最大になるように w\bm w を推定することを考える。これを最大事後確率推定 (maximum a posteriori estimation; MAP estimation) という。

w^arg maxwp(wX,y)\begin{aligned} \hat{\bm w} \coloneqq \argmax_{\bm w} p(\bm w | \bm X, \bm y) \end{aligned}

最尤推定

事前分布 p(w)p(\bm w) について、次のようなものを考える。これは一様分布を実数全体に拡張したものであり、任意の実数を同確率で取りうることを意味する。

p(w)1\begin{aligned} p(\bm w) \propto 1 \end{aligned}

すると事後分布はベイズの定理により次のように書ける。

p(wX,y)=1Zp(yX,w)\begin{aligned} p(\bm w | \bm X, \bm y) = \frac{1}{Z} p(\bm y | \bm X, \bm w) \end{aligned}

これに対するMAP推定は尤度関数を最大化するような推定方法、すなわち最尤推定 (maximum likelihood estimation; ML estimation) に一致する。

w^=arg maxwp(yX,w)\begin{aligned} \hat{\bm w} = \argmax_{\bm w} p(\bm y | \bm X, \bm w) \end{aligned}