カーネル法を用いた事後予測分布を、さらに別の角度から解釈する。
ガウス過程
関数 f:X→R について、その出力 fi=f(xi) を任意の個数だけ纏めたベクトル f∈Rd が多変量正規分布
f∼Nd(f∣m,K)
に従い、その平均ベクトル m および共分散行列 K がそれぞれ
m=K=[m(xi)]i[k(xi,xj)]ij∈Rd,∈Rd×d
で表されるとする。このようなとき、関数 f はガウス過程 (Gaussian process) に従うといい、
f∼GP(m,k)
と表す。m を平均関数 (mean function)、k を分散関数 (variance function) などという。
平均がゼロの場合
この特別な場合として、平均関数が 0 である場合を考えよう。
i.e.f∼GP(0,k)f∼Nd(y∣0,Vy)
関数 f の任意個数の出力がこの分布に従うということから、f に更に d∗ 個の出力値 f∗ を追加しても、分布は同じ形になる。
p(f∗,f∣X∗,X)=N([ff∗][00],[KK∗TK∗K∗∗])
このとき、条件付き正規分布の性質により、f が得られたという条件のもとで f∗ が従う分布は次のように書ける。
p(f∗∣X∗,X,f)=N(y∗∣mf∗∣f′,Vf∗∣f′) mf∗∣f=Vf∗∣f=K∗TK−1yK∗∗−K∗TK−1K∗
ただし行列 K,K∗,K∗∗ は次のとおりである。
K=K∗=K∗∗=[kij]ij[kij∗]ij[ki∗j∗]ij∈Rd×d∈Rd×d∗∈Rd∗×d∗ kij=k(xi,xj)
観測ノイズの仮定
観測値 y は、関数の出力値 f に観測ノイズ ε∼Nd(ε∣0,σ2Id) を追加したものと考える。すると次のように書ける。
p(y∗,y∣X∗,X)=N([yy∗][00],[KK∗TK∗K∗∗]+σ2Id+d∗)
このとき、y が得られたのち y∗ が従う分布は
p(y∗∣X∗,X,y)=N(y∗∣my∗∣y′,Vy∗∣y′) my∗∣y=Vy∗∣y=K∗T(K+σ2Id)−1yK∗∗+σ2Id∗−K∗T(K+σ2Id)−1K∗
と書ける。
事後予測分布との比較
面白いことに、このような設定で計算された my∗∣y と Vy∗∣y はそれぞれ、
📄
事後予測分布とWoodburyの公式
で計算された my∗∣y と Vy∗∣y とまったく同じ形となる。
p(y∗∣X∗,X,y)=Nd∗(y∗∣my,Vy) my∗∣y=Vy∗∣y=K∗T(K+σ2Id)−1yK∗∗+σ2Id∗−K∗T(K+σ2Id)−1K∗ ⎩⎨⎧K=K∗=K∗∗=XV0XTXV0X∗TX∗V0X∗T
この理屈から、ガウス過程を用いた回帰モデルはきわめて表現力の高いモデルとして注目されており、ガウス過程回帰モデル (Gaussian process regressor) と呼ばれている。
ガウス過程回帰モデルは、欠損データの内挿のための回帰モデルや、ベイズ最適化の代理モデルに用いられることが多い。