「母数」と「標本統計量」という量を導入する。
状況設定
ある値 x を得る実験を同じ条件のもとで N 回行ない、N 個のデータを得たとする。
{xi}i=1N={x1,x2,…,xN}
各 xi には誤差が含まれる。そこで、以下では各 xi はある未知の確率分布 p(x) に従う確率変数 x から独立同分布サンプルされた値として取り扱う。
xii.i.d.∼p(x)
確率密度関数
「xi が確率分布 p(x) に従う」というとき、ここでは次のようなことを意味するとする。
実現値 xi を N 個集める。N をどんどん大きくしていき、得られた実現値についてのヒストグラムを描くと、あるなめらかなグラフに漸近していく。このグラフを表す関数が p(x) である。
とくに実数 r1<r2 について、実現値 xi が r1≤xi≤r2 となる確率は
Pr[r1≤xi≤r2]=∫r1r2dxp(x)
で表され、p(x) はある種の密度関数として取り扱われることから、p(x) を確率密度関数 (probability density function; pdf) と呼ぶ。
母数
確率分布 p(x) の α まわりの n 次モーメント (n-th moment) を次式で定義する。
⟨(x−α)n⟩:=∫dxxnp(x)
特に0まわりの1次モーメントを期待値 (expected value) または平均 (mean) といい、E[x] と表す。また期待値まわりの2次モーメントを分散 (variance) といい、V[x] と表す。さらに分散の正の平方根を母集団の標準偏差 (standard deviation) という。
expected valuevariancestandard deviationE[x]V[x]V[x]:=⟨x⟩:=⟨(x−⟨x⟩)2⟩=⟨x2⟩−⟨x⟩2
これらはしばしば次のように記号が付けられる。
expected valuevariancestandard deviationμxσx2σx=E[x]=V[x]=V[x]
期待値や分散のように、確率分布 p(x) を特徴づける値のことを母数 (parameter; パラメータ) という。
標本統計量
ある N 回の実験によって得られた実現値の集合 {xi}i=1N を標本 (sample; サンプル) といい、N を標本サイズという。標本 {xi}i=1N の標本平均 (sample mean) 、標本分散 (sample variance) 、ならびに標本の標準偏差 (standard deviation) を次式で定義する。
sample meansample variancestandard deviationxsx2sx:=N1i=1∑Nxi:=(x−x)2=x2−x2:=sx2
標本平均や標本分散のように、標本 {xi}i=1N を特徴づける値のことを標本統計量 (sample statistic) または単に統計量 (statistic) という。