線形回帰モデルを非線形関数の線形結合とみなすために「特徴量」と呼ばれる概念を導入する。
特徴量の導入
これまで、線形回帰モデルは次のようなものを考えてきた。
y=i=1∑nwixi=xTw
このような線形回帰モデルは y が x の各要素 x1,x2,…,xn の線形結合により表されることを仮定している。なので、このままでは非線形な関数が表現できない。
が、ちょっと工夫を施すだけでこの問題は回避できる。
たとえば次式で表される2次多項式モデルを考えてみよう。
y=w0+i=1∑nwixi+i,j:i<j∑wijxixj
このモデルは x に関しては2次である。
しかし、次のような関数 ϕ=ϕ(x) と係数 w を持ち出すと、事情が変わって見える。
ϕ=1x1x2⋮xnx1x2x1x3⋮xn−1xn∈Rp,v=w0w1w2⋮wnw12w13⋮w(n−1)n∈Rp,p=1+n+(2n)
ただし (2n) は二項係数である。
これらを用いると、上記の2次多項式モデルは
y=w0+i=1∑nwixi+i,j:i<j∑wijxixj=i=1∑pϕiwi=ϕTv
という内積の形に書き落とすことができる。
このようにすることで、たとえ入出力関係が単純に y=xTw とは表せないような場合にも、適切な非線形関数を追加しておくことで回帰が可能になるのである。
以上のような考え方により中間に挟み込まれた ϕ(x) という量を特徴量 (a feature) という。
特徴量の履歴
データセット Dd に含まれる x1,x2,…,xd を
X:=x1Tx2T⋮xdT=x11x21⋮xd1x12x22⋮xd2⋯⋯⋱⋯x1nx2n⋮xdn∈Rd×n
とまとめるのと同様に、それらに対応する ϕi=ϕ(xi) を次のようにまとめることを考えよう。
Φ:=ϕ1Tϕ2T⋮ϕdT=ϕ11ϕ21⋮ϕd1ϕ12ϕ22⋮ϕd2⋯⋯⋱⋯ϕ1pϕ2p⋮ϕdp∈Rd×p
以上を用いると、尤度関数は次のように表現できる。
p(y∣X,v)=Nd(y∣Φv,σ2Id)
これは特徴量へのマッピングを介さずに直接線形回帰を行う場合の尤度関数
p(y∣X,w)=Nd(y∣Xw,σ2Id)
における X∈Rd×n を Φ∈Rd×p に、w∈Rd を v∈Rp に置き換えた形をしている。
線形回帰モデルと特徴量
線形回帰モデルの本質は、Φv や Xw など、出力を並べたベクトルがパラメータの線形変換により得られるという部分にある。
つまり出力がパラメータの線形変換ならばすべて線形回帰モデルとして取り扱えるのである。