手帳と試行

学んだことをアウトプットしていきます。 日々、ノートあるのみ。

標本統計量

「母数」と「標本統計量」という量を導入する。

状況設定

ある値 xx を得る実験を同じ条件のもとで NN 回行ない、NN 個のデータを得たとする。

{xi}i=1N={x1,x2,,xN}\begin{aligned} \lbrace x_i \rbrace_{i=1}^N = \{ x_1, x_2, \dots, x_N \} \end{aligned}

xix_i には誤差が含まれる。そこで、以下では各 xix_i はある未知の確率分布 p(x)p(x) に従う確率変数 xx から独立同分布サンプルされた値として取り扱う。

xii.i.d.p(x)\begin{aligned} x_i \underset{\text{i.i.d.}}{\sim} p(x) \end{aligned}

確率密度関数

xix_i が確率分布 p(x)p(x) に従う」というとき、ここでは次のようなことを意味するとする。

実現値 xix_iNN 個集める。NN をどんどん大きくしていき、得られた実現値についてのヒストグラムを描くと、あるなめらかなグラフに漸近していく。このグラフを表す関数が p(x)p(x) である。

とくに実数 r1<r2r_1 \lt r_2 について、実現値 xix_ir1xir2r_1 \le x_i \le r_2 となる確率は

Pr[r1xir2]=r1r2dxp(x)\begin{aligned} \operatorname{Pr}[r_1 \le x_i \le r_2] = \int_{r_1}^{r_2} dx p(x) \end{aligned}

で表され、p(x)p(x) はある種の密度関数として取り扱われることから、p(x)p(x)確率密度関数 (probability density function; pdf) と呼ぶ。

母数

確率分布 p(x)p(x)α\alpha まわりの nn 次モーメント (nn-th moment) を次式で定義する。

(xα)ndxxnp(x)\begin{aligned} \left\langle (x - \alpha)^n \right\rangle \coloneqq \int dx x^n p(x) \end{aligned}

特に0まわりの1次モーメントを期待値 (expected value) または平均 (mean) といい、E[x]\mathrm E[x] と表す。また期待値まわりの2次モーメントを分散 (variance) といい、V[x]\mathrm V[x] と表す。さらに分散の正の平方根を母集団の標準偏差 (standard deviation) という。

expected valueE[x]xvarianceV[x](xx)2=x2x2standard deviationV[x]\begin{aligned} & \text{expected value} & \mathrm E[x] &\coloneqq \left\langle x \right\rangle \\ & \text{variance} & \mathrm V[x] &\coloneqq \left\langle (x - \left\langle x \right\rangle )^2 \right\rangle = \left\langle x^2 \right\rangle - \left\langle x \right\rangle^2 \\ & \text{standard deviation} & \sqrt{\mathrm V[x]} \end{aligned}

これらはしばしば次のように記号が付けられる。

expected valueμx=E[x]varianceσx2=V[x]standard deviationσx=V[x]\begin{aligned} & \text{expected value} & \mu_x &= \mathrm E[x] \\ & \text{variance} & \sigma_x^2 &= \mathrm V[x] \\ & \text{standard deviation} & \sigma_x &= \sqrt{\mathrm V[x]} \end{aligned}

期待値や分散のように、確率分布 p(x)p(x) を特徴づける値のことを母数 (parameter; パラメータ) という。

標本統計量

ある NN 回の実験によって得られた実現値の集合 {xi}i=1N\lbrace x_i \rbrace_{i=1}^{N}標本 (sample; サンプル) といい、NN を標本サイズという。標本 {xi}i=1N\lbrace x_i \rbrace_{i=1}^N標本平均 (sample mean)標本分散 (sample variance) 、ならびに標本の標準偏差 (standard deviation) を次式で定義する。

sample meanx1Ni=1Nxisample variancesx2(xx)2=x2x2standard deviationsxsx2\begin{aligned} & \text{sample mean} & \overline x &\coloneqq \frac{1}{N} \sum_{i=1}^N x_{i} \\ & \text{sample variance} & s_x^2 &\coloneqq \overline{(x - \overline x)^2} = \overline{x^2} - \overline{x}^2 \\ & \text{standard deviation} & s_x &\coloneqq \sqrt{s_x^2} \end{aligned}

標本平均や標本分散のように、標本 {xi}i=1N\lbrace x_i \rbrace_{i=1}^N を特徴づける値のことを標本統計量 (sample statistic) または単に統計量 (statistic) という。