事前分布に独立な正規分布を仮定してMAP推定を行なうと、L2正則化の効果が出現する。
過学習
線形回帰モデル p(y∣X,w)=Nd(y∣Xw,σ2Id)に対する w の最尤推定量は次式で与えられる。
w^=(XTX)−1XTy
このとき、与えられたデータが少なすぎたり、あまりにも偏った値が集められている場合に最尤推定を行なうと、その偏った値にモデルが吸い寄せられて、本来の入出力関係をうまく表現できなくなることがある。これを過学習 (overfitting; 過剰適合) という。
データが少ない / 偏っている⟹overfitting
数式の上では、過学習は「逆行列 (XTX)−1 の計算が不安定になる」という形で出現する。特に、極端にデータがスカスカな (スパースな) 場合、行列 XTX に逆行列が存在しないような状況も発生しうる。
w^=unstable(XTX)−1XTy
このような問題の対処方法の1つは、事前分布 p(w) として定数ではなく何らかの意味を持つ確率分布を仮定してMAP推定を行なうことである。
独立正規事前分布を仮定
パラメータ w の事前分布として、次のような独立な正規分布を考える。
p(w)=Nn(w∣0,τ2In)
ベイズの定理により事後分布を計算してみる。
∝=∝=∝∝p(w∣X,y)p(y∣X,w)p(w)Nd(y∣Xw,σ2Id)Nn(w∣0,τ2In)exp(−2σ21∥y−Xw∥22)exp(−2τ21∥w∥22)exp−21(1)(σ21∥y−Xw∥22+τ21∥w∥22)(1)=====σ21∥y−Xw∥22+τ21∥w∥22wTσ21XTXw+wTσ21λτ2σ2Inw−2wTσ21XTy+const.wTVd−1σ21(XTX+λIn)w−2wTVd−1mdσ21XTy+const.wTVd−1w−2wTVd−1md+const.(w−md)TVd−1(w−md)+const.exp(−21(w−md)TVd−1(w−md))Nn(w∣md,Vd)
よって事後分布は次のようになる。
p(w∣X,y)=Nn(w∣md,Vd) ⎩⎨⎧mdVd−1=σ21VdXTy=σ21(XTX+λIn)
Ridge回帰
事前分布として独立同分布な正規分布を仮定したMAP推定は、次式で表されるRidge回帰 (Ridge regression) と等価になる。
w^=wargmin(21∥y−Xw∥22+21λ∥w∥22)=wargmin(21i=1∑d(yi−wTxi)+21λ∥w∥22)
これは、次のようなL2ノルム罰金項を含む最小化問題と等価でもある。
wminimizei=1∑d(yi−wTxi)+λj=1∑nwj2
L2正則化
最小二乗法による推定とRidge回帰による推定を比較すると、Ridge回帰は行列 XTX の対角項に定数 λ が加算された形となっていることがわかる。
p(w∣X,y)∝Nn(w∣md,Vd),p(w∣X,y)∝Nn(w∣md,Vd),↓⎩⎨⎧mdVd−1=σ21VdXTy=σ21XTX⎩⎨⎧mdVd−1=σ21VdXTy=σ21(XTX+λIn)
これによって次の2つの効果が期待できる:
-
行列 XTX が逆行列をもたない行列 (特異行列; singular matrix) である場合に、逆行列をもつ行列 (正則行列; regular matrix) に変換する
-
逆行列 (XTX)−1 の各要素の値が極端に大きくなることを防ぐ
すなわち、逆行列 (XTX)−1 の計算を安定化させるという効果が期待できるのである。
ML:MAP:mdmd=unstable(XTX)−1XTy=stable(XTX+λIn)−1XTy
特異行列を正則行列に変換するということを強調するために、Ridge回帰はしばしばL2正則化を伴う線形回帰などと呼ばれる。
一般のL2正則化
L2正則化は、事前分布として独立な正規分布を設定したことで、目的関数にL2ノルムの項が追加されたことに由来する。このことの類推から、一般に回帰問題において目的関数にL2ノルム罰金項を追加することをL2正則化 (L2 regularization) と呼ぶ。
wminimizewminimizef(w)↓regularizationf(w)+λ∥w∥22
線形回帰モデルの場合と同様に、L2正則化はデータが少ない場合に過学習を防ぐという効果を持つ。ただし、これは行列を正則行列化しているのではなく、パラメータの値の二乗和をできるだけ小さくすることにより、特定のパラメータの値が極端に大きくなることを防いでいるという説明が適しているだろう。「正則化」という言葉がもつ本来の意味を消失し、まったく別の意味に変化しているのは特筆に値する。