線形回帰とカーネル法

線形回帰に「カーネル法」を導入する。

尤度関数の書き換え

特徴量へのマッピングを伴う線形回帰モデルの尤度関数は次のようなものであった。

\begin{aligned} p(\bm y | \bm X, \bm v) &= \mathcal N_d (\bm y | \bm \Phi \bm v, \sigma^2 \bm I_d) \\ &\propto \exp \left( -\frac{1}{2 \sigma^2} \|\bm y - \bm \Phi \bm v \|_2^2 \right) \end{aligned}

このときのパラメータ $\bm v \in \mathbb R^p$ を、 $\bm y$ と同じ形状のベクトル $\bm u \in \mathbb R^d$ を用いて、次のように書き換えてみよう。

\begin{aligned} \bm v = \bm \Phi^\mathsf{T} \bm u \in \mathbb R^p \end{aligned}

すると尤度関数は次式に変化する。

\begin{aligned} p(\bm y | \bm X, \bm u) &= \mathcal N_d (\bm y | \bm \Phi \bm \Phi^\mathsf{T} \bm u, \sigma^2 \bm I_d) \\ &\propto \exp \left( -\frac{1}{2 \sigma^2} \|\bm y - \bm \Phi \bm \Phi^\mathsf{T} \bm u \|_2^2 \right) \end{aligned}

新たに出現した行列 $\bm \Phi \bm \Phi^\mathsf{T}$ は、 $(i,j)$ 成分が $\bm \phi_i$ と $\bm \phi_j$ の内積であるような行列であり、 $\bm \Phi$ のグラム行列 (Gram matrix) と呼ばれる。

\begin{gathered} & \bm \Phi \bm \Phi^\mathsf{T} = \begin{bmatrix} \bm \phi_1^\mathsf{T} \\ \bm \phi_2^\mathsf{T} \\ \vdots \\ \bm \phi_d^\mathsf{T} \end{bmatrix} \begin{bmatrix} \bm \phi_1 & \bm \phi_2 & \cdots & \bm \phi_d \end{bmatrix} \in \mathbb R^{d \times d} \\ \therefore& [\bm \Phi \bm \Phi^\mathsf{T}]_{ij} = \bm \phi_i^\mathsf{T} \bm \phi_j \end{gathered}

カーネル関数の導入

この $\bm \phi_i$ や $\bm \phi_j$ は、入力データ $\bm x_i$ と $\bm x_j$ を特徴量にマッピングしたものである。

\begin{aligned} \bm \phi_i &\coloneqq \bm \phi(\bm x_i) \\ \bm \phi_j &\coloneqq \bm \phi(\bm x_j) \\ \end{aligned}

したがって、内積 $\bm \phi_i \bm \phi_j$ は $\bm x_i$ と $\bm x_j$ を入力とする関数とみなすことができる。これを $k(\bm x_i, \bm x_j)$ と書くと、行列 $\bm \Phi \bm \Phi^\mathsf{T}$ の $(i,j)$ 成分は次のように書ける。

\begin{aligned} [\bm \Phi \bm \Phi^\mathsf{T}]_{ij} = \bm \phi_i^\mathsf{T} \bm \phi_j = k(\bm x_i, \bm x_j) \end{aligned}

ここで思い切ったことをする。

関数 $k: \mathbb R^d \times \mathbb R^d \to \mathbb R$ として、特徴量同士の内積のみならず、もっと一般に $\bm x_i$ と $\bm x_j$ を入力とする関数を許すのである。これにより、わざわざ特徴量へのマッピングを経て内積計算を行なうことなく、非常に表現力の高い回帰モデルを作成できる。

この関数 $k$ をカーネル関数 (kernel function) という。

カーネル行列

カーネル関数 $k(\bm x_i, \bm x_j)$ を $(i,j)$ 成分に持つ行列は、もはや内積を成分に持つという意味のグラム行列ではない。そこで $\bm \Phi \bm \Phi^\mathsf{T}$ の代わりに $\bm K$ と書き、カーネル行列 (kernel matrix) という。

\begin{aligned} [\bm K]_{ij} = k(\bm x_i, \bm x_j) \end{aligned}

どのような関数でもカーネル関数として許されるわけではなく、カーネル行列 $\bm K$ が半正定値行列 (semi-definite matrix) であるような関数でなくてはならない。

$\bm K^\mathsf{T} = \bm K$
$\bm u^\mathsf{T} \bm K \bm u \ge 0 \quad {}^\forall \bm u \in \mathbb R$

これを満たすような関数 $k: \mathbb R^d \times \mathbb R^d \to \mathbb R$ を半正定値関数 (positive semi-definite function) という。すなわちカーネル関数は半正定値関数でなくてはならない。

パラメータの推定

カーネル行列を用いると、尤度関数は次式のように書ける。

\begin{aligned} p(\bm y | \bm X, \bm u) ={}& \mathcal N_d (\bm y | \bm K \bm u, \sigma^2 \bm I_d) \\ \propto{}& \exp \left( -\frac{1}{2 \sigma^2} \|\bm y - \bm K \bm u \|_2^2 \right) \end{aligned}

ここにおいてパラメータは $\bm u \in \R^d$ であり、あとはこれを何らかの方法で推定するのが問題となる。