統計学の基礎をすぐに思い出せるような、まとめチートシートを作成しました。
「確率分布編」「推定・検定編」「線形回帰編」「その他の話題(理工学分野)」の4部構成です。本ページは「確率分布編」です。
注意
あくまで個人用のメモであり、誤植や不正確な情報が含まれている可能性があります。適宜更新していきます。
1 確率
高校で習うような確率についての基礎的な性質は、ここでは全て省略する。なお、ここでは確率について数学的に厳密な定義はしない。
自然数全体の集合 $\mathbb{N}$ は $0$ を含むものとし、正の整数は $\mathbb{N}^+ = \{1,2,3,\ldots\}$ と表す。
Bayes の定理
事象の列 $(A_i)_{i\in \mathbb{N}^+}$ があり、これによって事象 $B$ が引き起こされる場合を考えよう。たとえば、製品に不良があった($B$)ときに、その原因がいくつか($A_1,\ A_2\ , \cdots$ )考えられる場合である。ただし、各 $A_i$ は排反で、かつ全 $A_i$ の和集合は全事象 $\Omega$ に等しいとする。
事象 $B$ が起こったときに、 $A_i$ が原因である確率 $ P(A_i|B) $ を求めたい。これを求めるのが Bayes の定理である。
Bayes の定理の簡単な具体例(モンティ・ホール問題)は、こちらのページを参照のこと。
2 確率分布と期待値
確率変数
$\Omega$ を全事象とする。試行 $\omega \in \Omega$ に対して、実数値 $x \in \mathbb{R}$ を対応させるような関数 $X:\Omega \to \mathbb{R}$ を定義する。このような関数 $X(\omega)$ を確率変数という。
実際には実験や測定、アンケート調査などをすると、(確率変数ではなく)試行 $\omega \in \Omega$ が実現することになる。このとき、これに対応する $X$ の値 $X(\omega)=x$ は実現値という。実現値全ての集合を標本空間といい、$\chi$ と表す。
確率変数は、範囲(または値)を指定することで、わざわざ事象を明示しなくても確率を求められるので便利である。例えば、確率変数が $x$ 以下となる確率は、次のように書ける。
\begin{align} P(X \leq x) &= P(\{ \omega \in \Omega \mid X(\omega) \leq x \}) \end{align}上の値は分布関数、または累積分布関数と呼ばれ、$F_X(x)$ で書く。分布関数 $F_X(x)$ は必ず存在することに注意しよう。一方で、次に説明する確率密度関数 $f_X(x)$ は必ずしも存在するとは限らない。
確率密度関数
分布関数 $F_X(x)$ の微分が存在する場合には、確率密度関数 $f_X(x)$ が得られる。
\begin{align} f_X(x) &= \frac{\mathrm{d}}{\mathrm{d}x}F_X(x) \end{align}$F_X(x)$ は必ず存在する一方で、 $f_X(x)$ は必ずしも存在するとは限らない。しかし以下ではそのような極限的な場合は考えず、 $f_X(x)$ は問題なく定義できるものとして扱う。以下、特に言及のない限り、 $X, Y$ はそれぞれ確率密度関数 $f_X(x), f_Y(x)$ をもつ連続型確率変数とする。
なお、標本空間が離散型 $\chi \subset \mathbb{Z}$ の場合には、以下のように確率関数 $f_X(x)$ を定義することも多い。
\begin{align} f_X(x) &= P(X=x) \end{align}上の定義では、 $f_X(x)$ はちゃんと定義できるので安全である。連続型の確率密度関数と同じ記号 $f_X(x)$ を用いているが、このページでは文脈に応じて「連続型なら確率密度関数、離散型なら確率関数」と読むことにする。
特性関数
確率変数 $X$ の特性関数 $\varphi_X(t)$ は、確率密度関数 $f_X(x)$ の Fourier 変換によって定義される。
特性関数は、平均や分散など、確率分布の重要な特性を「内蔵した」便利な関数である。
たとえば、特性関数を用いると、( $0$ 周りの)$k$ 次モーメントを以下のように簡単に求めることができる。
とくに、標準化された(平均 $0$ 、分散 $1$ の)確率変数 $Z$ の特性関数は、$t=0$ 付近で $2$ 次までの展開が自動的に定まる。
\begin{align} \varphi_Z(t) = 1 - \frac{1}{2}t^2 + o(t^2) \end{align}この事実は、のちに述べる中心極限定理の証明に深く関係している。
上の式で $o(t^2)$ はランダウの記号で、ここでは $t=0$ 付近で高々 $t^2$ 程度未満の大きさであることを示す。
余談だが、ランダウの記号は $t\to 0$ 、 $t\to \infty$ で大きく意味が変わるので、使用する場合は「$t=0$ 付近で」「$t\to 0$ のとき」などという補記を添えて使うべきである。
確率母関数
標本空間が $\mathbb{N}^+= \{1,2,3,\ldots\}$ の場合、確率母関数 $G_X(t)$ を用いるほうが便利なこともある。これは以下で定義される。
これを適切に微分で「叩けば」、もとの $f_X(k)$ だけでなく、階乗モーメント $E[X(X-1)\cdots(X-k+1)]$ もその場で求められることは明らかであろう。
歪度、尖度
統計検定 $1$ 級の問題では、歪度(わいど、skewness)や尖度(せんど、kurtosis)の計算を聞かれることがよくある。これらは確率分布の形状を表す指標であり、以下のように定義される。
\begin{align} {\rm skewness} &= \frac{E[(X-\mu)^3]}{\sigma^3}\\ {\rm kurtosis} &= \frac{E[(X-\mu)^4]}{\sigma^4} \end{align}直感的には歪度や尖度は、分布の形を特徴づけている。たとえば、右に裾が長い分布(より雑に言えば、中心が左に寄っている分布)は正の歪度を持ち、逆に左に裾が長い分布は負の歪度を持つ。
一方で、尖度はよく「分布のとがり具合」と説明されるが、これは誤解である。より正確には、平均から大きく外れた値がどれくらい出やすいかを表し、裾が重い、外れ値が多い分布ほど高い尖度を持つ(これは、尖度が平均周りの「$4$ 乗」を計算していることからも明らかだろう)。なお、正規分布は(平均、分散によらずどの正規分布も)尖度は $3$ なので、これと比較するとさらに分かりやすい。
3 多変数確率分布
独立
確率変数 $X,Y$ が独立であるとは、$X,Y$ の同時分布関数が、それぞれの分布関数の積の形で表されることである。
\begin{align} f_{X,Y}(x,y) = f_X(x)f_Y(y) \end{align}特にこれは、任意の(適当な)関数 $f, g$ に対して、以下の式が成り立つことと同値である。
(こっちの方がよく使う。)
無相関
確率変数 $X,Y$ について、(これらが独立でなくても)$E[XY] = E[X]E[Y]$ が成り立つことがある。このとき、以下の共分散の値は $0$ になる。
このとき $X,Y$ は無相関であるという。
引き戻し・取り出し定理
「引き戻し・取り出し定理」という名前は一般的ではなく、あくまで個人的な通称である。いずれも慣れてしまえば当たり前の定理なのだが、ちょっとした計算で重宝し便利なので、ここで定理として紹介しておこう。
確率変数 $X$ の関数 $Y=g(X)$ を考える。このとき、(適切な)関数 $h(Y)$ のもとで、以下が成り立つ。
言い換えれば、適切な引き戻しのもとで、期待値は $X, Y$ いずれの確率変数で計算しても同じである。
同様に、(適切な)関数 $g(X),h(X,Y)$ のもとで、以下が成り立つ。
言い換えれば、確率変数 $X$ を固定した条件付き期待値のもとでは、 $X$ の関数 $g(X)$ は期待値の外へ取り出せる。
最後に、確率変数 $X_1,\ldots,X_n$ の線形結合の分散は、以下のように計算できる。
特に今後の議論では、$X_1,\ldots,X_n$ は独立同分布に従うことが多く、このような場合は愚直に計算するよりもはるかに早い。
最後に上の式で、$X_1,\ldots,X_n$ は独立同分布、かつ $a_i=1/n$ となる場合を考えよう。このときこれは「標本平均に対する分散」を計算していることになり、
となる。分母に $n$ が追加されていることに注目しよう。標本が多いほど、平均のぶれは小さくなることが期待されるわけである。
変数変換①
確率変数 $X$ の関数 $Y=g(X)$ を考える。このとき、$Y$ の分布は、Dirac のデルタ関数 $\delta(\cdot)$ を用いて以下のように計算できる。
これとデルタ関数の以下の性質を用いれば、連続関数の場合は完璧に計算できる。
\begin{align} \delta(g(x)) = \sum_{x_0} \frac{1}{|g'(x_0)|} \delta(x-x_0) \end{align}ただし上記の和は、すべての $0$ 点(つまり $g(x_0)=0$ となる点)に対して取られる。
変数変換②
離散的な確率変数 $X$ に対して、関数 $Y=g(X)$ による変数変換は、次のように計算できる。固定した $y$ に対して、$g(x)=y$ となる $x$ を全て考えれば良い。
ただし上記の和は、固定した $y$ に対して、$g(x_0)=y$ となるすべての $x_0$ について足しあげる。
変数変換③
連続な多変数確率変数の場合を考えよう。
$ \boldsymbol X=(X_1,\ldots,X_n)$ が同時確率密度関数 $f_X$ を持つ連続型確率変数であるとする。また、$\boldsymbol Y=g(\boldsymbol X)$ によって
\begin{align} Y_j &= g_j(X_1,\ldots,X_n), \quad j=1,\ldots,n \end{align}を定義する。
このとき、 $\boldsymbol Y$ の同時分布を計算する方法を $2$ つ紹介しよう。まずは、先ほどと同様にデルタ関数を用いて一挙に計算してしまう方法である。$Y_j$ の分布は、$X_i$ の分布を用いて以下のように計算できる。
先ほどと同様に、デルタ関数 $\prod_{j=1}^{n} \delta\!\left(y_j-g_j(x_1,\ldots,x_n)\right)$ によって「条件を満たす部分だけ」を拾っているようなイメージである。あるいは、$Y_j$ だけの分布を拾いたければ、同様にデルタ関数を用いて「欲しい条件」を付けてあげれば良い。
もう一つの方法は、ヤコビアンを用いて計算する方法である。これは、 $g$ が可逆で、逆写像 $x=g^{-1}(y)$ が存在する時に使える。このとき、$Y=(Y_1,\ldots,Y_n)$ の同時確率密度関数は、ヤコビアンを用いて以下のように表される。
上の式変形の意味は、両辺に $\mathrm{d}y_1\cdots \mathrm{d}y_n$ を付け加えることで明らかであろう。
変数変換④
最後に裏ワザとして、特性関数を用いることで簡潔に計算できる場合がある。ここでは代表的な例をいくつか紹介しよう。$X,Y$ が独立で、$Z=X\pm Y$ とすると、
である。これを用いると、例えば次節で述べる正規分布について、独立性のもとで
\begin{align} \mathcal{N}(\mu_1,\sigma_1^2)\pm \mathcal{N}(\mu_2,\sigma_2^2)=\mathcal{N}(\mu_1\pm \mu_2,\sigma_1^2+\sigma_2^2) \end{align}などがすぐに分かる(密度関数から計算すると、これはやや大変である)。さらに一般に、独立な $X_i \sim \mathcal{N}(\mu_i,\sigma_i^2)$ に対して、これらの線形結合も正規分布に従う。
\begin{align} \sum_i a_i X_i \sim \mathcal{N}\left(\sum_ia_i\mu_i,\sum_i a_i^2\sigma_i^2\right) \end{align}また、$X,Y$ が独立な連続型確率変数で、$Z=XY$ とおくと、特性関数は
である。ただし $\varphi_Y(tX)=E\left[e^{itXY} | X\right]$ などと書いている。
4 代表的な確率分布
基本的な確率分布
代表的な確率分布について下表にまとめる。導出などはすべて省略する。
| 分布 | $f_X(x)$ | 特性関数 $\varphi_X(t)$ | 平均 $E[X]$ | 分散 $V[X]$ |
|---|---|---|---|---|
| Bernoulli 分布 $\mathrm{Bern}(p)$ |
$p^x(1-p)^{1-x}$ $(x=0,1)$ |
$1-p+pe^{it}$ | $p$ | $p(1-p)$ |
| 二項分布 $\mathrm{Bin}(n,p)$ |
${}_n C_x p^x(1-p)^{n-x}$ $(x=0,\ldots,n)$ |
$(1-p+pe^{it})^n$ | $np$ | $np(1-p)$ |
| Poisson 分布 $\mathrm{Po}(\lambda)$ |
$e^{-\lambda}\dfrac{\lambda^x}{x!}$ $(x=0,1,\ldots)$ |
$\exp\{\lambda(e^{it}-1)\}$ | $\lambda$ | $\lambda$ |
| 幾何分布 $\mathrm{Geo}(p)$ |
$(1-p)^{x-1}p$ $(x=1,2,\ldots)$ |
$\dfrac{pe^{it}}{1-(1-p)e^{it}}$ | $\dfrac{1}{p}$ | $\dfrac{1-p}{p^2}$ |
| 一様分布 $U(a,b)$ |
$\dfrac{1}{b-a}$ $(a \leq x \leq b)$ |
$\dfrac{e^{itb}-e^{ita}}{it(b-a)}$ | $\dfrac{a+b}{2}$ | $\dfrac{(b-a)^2}{12}$ |
| 指数分布 $\mathrm{Exp}(\lambda)$ |
$\lambda e^{-\lambda x}$ $(x \geq 0)$ |
$\dfrac{\lambda}{\lambda-it}$ | $\dfrac{1}{\lambda}$ | $\dfrac{1}{\lambda^2}$ |
| 正規分布 $\mathcal{N}(\mu,\sigma^2)$ |
$\dfrac{1}{\sqrt{2\pi\sigma^2}}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\}$ | $\exp\left\{i\mu t-\dfrac{\sigma^2t^2}{2}\right\}$ | $\mu$ | $\sigma^2$ |
| ガンマ分布 $\mathrm{Ga}(\alpha,\beta)$ |
$\dfrac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}$ $(x \geq 0)$ |
$\left(\dfrac{\beta}{\beta-it}\right)^\alpha$ | $\dfrac{\alpha}{\beta}$ | $\dfrac{\alpha}{\beta^2}$ |
| ベータ分布 $\mathrm{Beta}(\alpha,\beta)$ |
$\dfrac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}$ $(0 \leq x \leq 1)$ |
${}_1F_1(\alpha;\alpha+\beta;it)$ | $\dfrac{\alpha}{\alpha+\beta}$ | $\dfrac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$ |
| カイ二乗分布 $\chi^2_n$ |
$\dfrac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}$ $(x \geq 0)$ |
$(1-2it)^{-n/2}$ | $n$ | $2n$ |
また、標準正規分布 $Z \sim \mathcal{N}(0,1)$ については、$n$ が偶数のときの以下の性質を暗記しておいて損はない。
一般の分布 $X \sim \mathcal{N}(\mu,\sigma^2)$ についても、引き戻し定理より $ E[X^n] = E[(\sigma Z +\mu )^n]$ を計算すれば良い。
多変量正規分布
$n$ 次元確率ベクトル $\boldsymbol X=(X_1,\ldots,X_n)^\top$ が平均ベクトル $\boldsymbol \mu$、分散共分散行列 $\Sigma$ の多変量正規分布に従うとき、$\boldsymbol X \sim \mathcal{N}_n(\boldsymbol \mu,\Sigma)$ と書く。$\Sigma$ が正則である場合、その確率密度関数は、
である。また、$\boldsymbol t=(t_1,\ldots,t_n)^\top$ に対する特性関数は、
である。ここから、各成分のモーメントや混合モーメントは偏微分で求められる。たとえば、
である。
また、多変量正規分布では、任意の部分ベクトルを取り出しても再び多変量正規分布に従う。特に各成分については、
である。
さらに、$\Sigma$ は対称行列なので、直交行列 $\Lambda$ を用いて対角化できる。すなわち、
\begin{align} \Lambda^\top\Sigma\Lambda = \mathrm{diag}(\lambda_1,\ldots,\lambda_n) \end{align}とできる。このとき、$ \boldsymbol Y = \Lambda^\top(\boldsymbol X-\boldsymbol \mu) $ とおけば、線形変換された $\boldsymbol Y$ も多変量正規分布に従い、
となる。多変量正規分布では共分散が $0$ の成分は独立であるから、$Y_1,\ldots,Y_n$ は互いに独立である。
カイ二乗分布
カイ二乗分布は、$Z_1, \ldots, Z_n \overset{\mathrm{i.i.d.}}{\sim} \mathcal{N}(0,1)$ を用いて、以下で定義される。
$X \sim \chi^2_n$ について、非負実数 $\nu$ に対して以下が成り立つ。
t 分布
自由度 $n$ の $t$ 分布は、$Z \sim \mathcal{N}(0,1)$ と独立な $U \sim \chi^2_n$ を用いて、以下で定義される。
$t$ 分布は対称な分布で、標準正規分布に一見似ているが、標準正規分布よりも裾の厚い分布である。特に $n=1$ のときはCauchy分布と呼ばれ、裾が厚すぎて平均・分散が定義できない。
その分外れ値に左右されやすいので、標本数が少ないときは慎重な取り扱いが必要である。これは直感的には、 $t$ 分布の定義で分母にある「分散」 $U/n$ が、標本数の少ない段階ではたまたま小さく出ることがあり、その場合に $T$ が極端に大きな値になりやすいことに起因する。
t 分布の性質
$n\to\infty$ のとき、$t$ 分布がどのような分布に近づくか考えてみよう。まずは、分母の $\sqrt{U/n}$ が $n\to\infty$ でどうなるかを調べてみる。
$U\sim\chi^2_n$ は、標準正規分布に従う独立な確率変数 $Z_1,\ldots,Z_n$ を用いて $U=Z_1^2+\cdots+Z_n^2$ と書けるのだった。よって $U/n$ は、確率変数 $Z_i^2$ を $n$ 個並べて、その標本平均を取ったものとみなせる。よって(のちに述べる大数の法則より)
\begin{align} \frac{U}{n} = \frac{Z_1^2+\cdots+Z_n^2}{n} \ \to_p \ E[Z_1^2] = 1 \end{align}となる。なお、$\to_p$ は確率収束を表し、この後で詳しく説明する。今は「 $n\to\infty$ のとき、分母の $\sqrt{U/n}$ も $1$ に近づく」と理解しておけば良い。
よって、 $T=Z/\sqrt{U/n}$ と構成すれば、極限では分母がほとんど $1$ になる。
まとめると、自由度が十分に大きい $t$ 分布は、標準正規分布とほぼ同じ形になる。
F分布
自由度 $(m,n)$ の $F$ 分布は、$U \sim \chi^2_m$ と独立な $V \sim \chi^2_n$ を用いて、以下で定義される。
さて、統計学における $F$ 分布表では、たいてい上側 $100\alpha$ 点のみが書かれている。しかし、下側 $100\alpha$ 点が知りたい場合は、どうすればよいのだろうか?(定義からわかるように $F$ 分布は左右対称ではないので、たんに上側 $100\alpha$ 点にマイナスを付けるという手法は通用しない。そもそも、常に $F>0$ である。)
まず、$F\sim F_{m,n}$ のとき、
\begin{align} \frac{1}{F} = \frac{V/n}{U/m} \sim F_{n,m} \end{align}は明らかであろう。この関係を使うと、$F_{m,n}$ 分布の上側 $100\alpha$ 点 $f_{m,n}(\alpha)$ が満たす式
\begin{align} P(f_{m,n}(\alpha) \leq F)=\alpha \end{align}は、以下のように書き換えられる。
\begin{align} P\left(\frac{1}{F} \leq \frac{1}{f_{m,n}(\alpha)}\right) = \alpha \end{align}まとめると、$F_{n,m}$ 分布の下側 $100\alpha$ 点を求めたければ、$F_{m,n}$ 分布の上側 $100\alpha$ 点 $f_{m,n}(\alpha)$ を調べ、その逆数を取ればよい。理屈を知っておけば、わざわざこの事実は覚えるまでもないだろう。
正規母集団に関する性質
正規母集団 $X_1, \ldots, X_n \overset{\mathrm{i.i.d.}}{\sim} \mathcal{N}(\mu,\sigma^2)$ に関しては、以下の性質が成り立つ。
標本平均を $\overline{X}$、不偏分散を $V^2$ とすると、 $\overline{X}, V^2$ は独立で、それぞれ以下が成り立つ。
証明はHermart行列を用いる方法が最もわかりやすいが、やや技巧的なのでここでは省略する。この結果は非常によく使うので必ず暗記しておく。
5 標本分布とその近似
確率収束・Chebyshev の不等式
確率変数の列 $(X_n)_{n\in\mathbb{N}}$ が定数または確率変数 $X$ に確率収束するとは、任意の $\varepsilon>0$ に対して、以下が成り立つことである。
このとき、$X_n \to_p X$ と書く。確率収束では、$X_n$ と $X$ が各 $\omega$ ごとに必ず近づくことまでは要求しない。要求しているのは、$X_n$ が $X$ から一定以上離れる事象の確率が、$n$ とともに消えていくことである。特に $X=\theta$ が定数の場合、$X_n \to_p \theta$ は、推定量が真の母数の近くに確率的に集中していくことを表す。
確率収束を示すときによく使うのがChebyshev の不等式である。平均 $\mu$、分散 $\sigma^2$ を持つ確率変数 $X$ に対して、任意の $\varepsilon>0$ について以下が成り立つ。
この不等式は、分散が小さい確率変数は平均から大きく外れにくい、という事実を粗く評価している。たとえば $X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}(\mu,\sigma^2)$ とし、標本平均を $\overline{X}_n$ とおくと、
\begin{align} E[\overline{X}_n] &= \mu,\\ \mathrm{Var}(\overline{X}_n) &= \frac{\sigma^2}{n} \end{align}である。したがってChebyshev の不等式より、任意の $\varepsilon>0$ に対して、
\begin{align} P(|\overline{X}_n-\mu|\geq \varepsilon) \leq \frac{\sigma^2}{n\varepsilon^2} \end{align}であり、右辺は $n\to\infty$ で $0$ に収束する。すなわち、
となるので、$\overline{X}_n \to_p \mu$ が分かる。これは大数の法則の最も基本的な証明であり、「標本平均が母平均に近づく」ことを分散の縮小から直接確認している。
分布収束
確率変数の列 $(X_n)_{n\in\mathbb{N}}$ が確率変数 $X$ に分布収束するとは、$X_n$ の累積分布関数を $F_n$、$X$ の累積分布関数を $F$ としたとき、$F$ が連続である任意の点 $x$ で以下が成り立つことである。
このとき、$X_n \to_d X$ と書く。分布収束は、同じ確率空間上で個々の実現値が近いことではなく、$X_n$ の分布そのものが極限分布に近づくことを表す。したがって、中心極限定理のように「正規分布に近づく」と言うときには、通常この分布収束を用いる。
確率収束と分布収束の関係として、$X_n \to_p X$ ならば $X_n \to_d X$ が成り立つ。逆は一般には成り立たない。ただし極限が定数 $\theta$ の場合には、$X_n \to_d \theta$ ならば $X_n \to_p \theta$ も成り立つ。つまり、極限が定数である場合には、分布収束と確率収束の距離感がかなり近くなる。
分布収束を示すときには、分布関数を直接調べる代わりに、連続性定理を使うことも多い。$X_n$ の特性関数を $\varphi_n(t)$、$X$ の特性関数を $\varphi(t)$ とする。このとき、任意の $t\in\mathbb{R}$ について
が成り立てば、$X_n \to_d X$ である。逆に、$X_n \to_d X$ ならば上の特性関数の各点収束も成り立つ。このような意味で、分布収束と特性関数の収束は同値である。
ちなみに、この定理が「連続性定理」と呼ばれるのは、分布と特性関数の対応が極限操作でも相性よく保たれるからである。分布を少しずつ変えていった極限と、対応する特性関数を少しずつ変えていった極限がきちんと対応する、というイメージである。
中心極限定理
$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}(\mu,\sigma^2)$ とするとき、$n$ が大きいときの標本平均 $\overline{X}_n$ の分布を考えよう。
まず、$Z_i= (X_i - \mu )/\sigma$ とおくと、$Z_i$ は標準化されている(平均 $0$ 、分散 $1$)ので、特性関数の $t=0$ 付近の展開が $2$ 次まで自動的に定まる。
\begin{align} \varphi_{Z_i}(t) = 1 - \frac{1}{2}t^2 + o(t^2) \end{align}ここでやや天下り的だが、 $W$ を以下のように置いてみよう。
このとき、$W$ の特性関数は
\begin{align} \varphi_{W}(t) = \left\{\varphi_{Z_1}\left(\frac{t}{\sqrt{n}}\right)\right\}^{n} \end{align}とまとめられる。以上より、代入して($n\to\infty$ のとき)
\begin{align} \varphi_{W}(t) = \left\{ 1-\frac{t^2}{2n}+o\left(\frac{1}{n}\right) \right\}^{n} \to \exp\left(-\frac{t^2}{2}\right) \end{align}となり、標準正規分布 $\mathcal{N}(0,1)$ の特性関数 $\exp(-t^2/2)$ が得られる。したがって連続性定理より、以下が分かる。
同じことを近似式として書けば、十分大きな $n$ に対して、
である。このとき $\sigma/\sqrt{n}$ は標準誤差である。母集団そのもののばらつきが $\sigma$ であるのに対して、標本平均のばらつきは $\sigma/\sqrt{n}$ まで小さくなる。統計的推定や検定で $\sqrt{n}$ が頻繁に現れるのは、この縮尺で標本平均が非自明な極限分布を持つからである。
中心極限定理の例
中心極限定理を用いると、二項分布の極限が正規分布になるという有名な事実がすぐに分かる。$Y_n\sim\mathrm{Bin}(n,p)$ とする。二項分布は、独立な Bernoulli 分布の和として
\begin{align} Y_n=\sum_{i=1}^{n}X_i, \quad X_i\overset{\mathrm{i.i.d.}}{\sim}\mathrm{Bern}(p) \end{align}と書ける。ここで $E[X_i]=p$、$\mathrm{Var}(X_i)=p(1-p)$ であるから、中心極限定理より、
\begin{align} \frac{Y_n-np}{\sqrt{np(1-p)}} = \frac{\sqrt{n}(\overline{X}_n-p)}{\sqrt{p(1-p)}} \to_d \mathcal{N}(0,1) \end{align}が成り立つ。言い換えれば、$n$ が十分に大きいとき、二項分布は
で近似できる。これは二項分布に対する正規近似としてよく使う。
余談だが、すべての二項分布が正規分布で近似できるわけではないことに注意しよう。特に重要なのは、$n$ が十分大きいにも関わらず、期待値 $np$ が小さすぎる(それだけ $p$ が小さい)ときである。このとき分布は左右対称ではなく、正規分布で近似できない。
このような場合は二項分布はポアソン分布で近似できることが知られている。具体的には $np = \lambda$ とおき、$n \to \infty$ の極限を取ると、確率関数は
\begin{align} \frac{n!}{x!(n-x)!}p^x(1-p)^{n-x} &= \frac{n!}{x!(n-x)!}\left(\frac{\lambda}{n}\right)^x\left(1-\frac{\lambda}{n}\right)^{n-x}\\ &= \frac{n!}{n^x(n-x)!}\frac{\lambda^x}{x!}\left(1-\frac{\lambda}{n}\right)^{n}\left(1-\frac{\lambda}{n}\right)^{-x} \to \frac{\lambda^x e^{-\lambda}}{x!} \end{align}となる。ただしここで $n \to \infty$ のとき
\begin{align} \frac{n!}{n^x(n-x)!} = 1\cdot \left(1-\frac{1}{n}\right)\cdots \left(1-\frac{x-1}{n}\right) \to 1 \end{align}を用いた。これより、分布収束の意味で以下が成り立つ。
Slutsky の定理
本題に入る前に、確率収束と演算の関係について簡単に触れておこう。$U_n\to_p U$、$V_n\to_p V$ ならば、連続な関数 $g$ に対して
が成り立つ。たとえば和、積については $U_n+V_n\to_p U+V$、$U_nV_n\to_p UV$ などが言える。
上記と同様のことは、分布収束では必ずしも成り立たず、同時収束 $(U_n,V_n) \to_d (U,V)$ が条件として必要である。また、収束先 $g(U,V)$ の分布を求める計算が面倒なことも多い(確率収束のときは定数収束が多く、この場合は分布を求める計算は不要である)。
統計検定1級では「分布収束」で上の演算まで必要な場面はほぼない。基本的には次のスラツキーの定理を押さえておけば十分である。
同様に、分布収束の場合によく使うのが、Slutsky の定理である。確率変数列 $X_n,Y_n$ と確率変数 $X$、定数 $c$ について、
\begin{align} X_n\to_d X, \quad Y_n\to_p c \end{align}が成り立つとする。このとき、和、積、商について次が成り立つ。
直感的には、定数に確率収束する部分 $Y_n$ は極限では定数 $c$ と同じように扱ってよい、という定理である。たとえば、母分散 $\sigma^2$ が未知のときに、$\sigma$ の代わりに一致推定量を代入しても極限分布が保たれる、という議論でよく使う。
デルタ法
確率変数 $U$、確率変数の列 $(U_n)_{n\in \mathbb{N}}$、定数 $\theta$、正の数列 $(a_n)_{n\in \mathbb{N}}$ に対して、以下が成り立つとする。
- $\displaystyle \lim_{n \to \infty}a_n=\infty$
- $a_n(U_n-\theta) \to_d U$
- $g(\cdot)$ は $\theta$ の近傍で微分可能で、$g'(\theta)\neq 0$
このとき、$g(U_n)$ の極限分布は、$g$ を $\theta$ のまわりで一次近似することで求められる。Taylor 展開で書けば、
である。ただし剰余項 $R_n$ は $(U_n-\theta)^2$ 以上のオーダーで、$a_nR_n \to 0$ となる。
したがって、極限分布を決める主項は $g'(\theta)(U_n-\theta)$ だけであり、
が成り立つ。つまり、推定量 $U_n$ の極限分布が分かっていれば、その滑らかな変換 $g(U_n)$ の極限分布も、微分係数 $g'(\theta)$ を掛けるだけで得られる。非線形変換を、真値の近傍では線形変換として扱う方法である。
デルタ法の具体例
たとえば、$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}(\mu,\sigma^2)$ とする。中心極限定理より、
\begin{align} \sqrt{n}(\overline{X}_n-\mu) \to_d \mathcal{N}(0,\sigma^2) \end{align}である。ここで $g$ が $\mu$ の近傍で微分可能で $g'(\mu)\neq 0$ なら、デルタ法より、
となる。たとえば $g(x)=\log x$ とし、$\mu>0$ とする。このとき $g'(\mu)=1/\mu$ なので、
が得られる。直接 $\log\overline{X}_n$ の分布を求めるのは面倒だが、極限分布だけなら $\log x$ の一次微分を見るだけでよい。実務上は、比率、対数、指数、逆数など、推定量に非線形変換をかけた後の標準誤差を近似的に求めるときによく使う。
問題を解く際のヒント
統計検定1級などでは、実際に確率収束・分布収束を計算する問題が出る。このような問題に対するヒントを簡単にまとめておこう。基本的には、「定義からそのまま示す方法」「定理を使用する方法」の二つに大分される。
たとえば確率収束の場合には、チェビシェフの不等式を使って定義から収束を示すのが最も王道である。あるいは、何かの「平均」の確率収束を求める場合には、大数の法則を使っても良い。
ところが、これらの方法を使っても確率収束が簡単に求められない場合もある。その場合は、極限を求める確率変数 $X_n$ を、いくつかの和の形に分解してみよう。
\begin{align} X_n = U_n + V_n \end{align}$X_n$ の確率収束がよく分からなくても、例えば $U_n \to_p a,\ V_n \to_p 0$ という形に分解できれば、$X_n \to_p a$ とすぐに示せる。
同様のことは、分布収束についても言える。もちろん分布収束にもいくつか王道はあって、分布関数や特性関数を一致させる方法、中心極限定理やデルタ法などの「定理」に頼る方法をまず考えるのが良い。ただし、これらの方法を使っても分布収束が簡単に求められない場合は、上と同様、いくつかの和の形に分解してスラツキーの定理を用いることを考えると良いだろう。
順序統計量①(離散型)
$X_1,\ldots,X_n$ を小さい順に並べたものを
と書き、これを順序統計量という。ただし同じ値が複数回出ることがあるので、順序統計量は「値を重複込みで並べたもの」として理解する。
$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}F$ とし、累積分布関数を $F(x)=P(X\leq x)$ とする。このとき、$k$ 番目に小さい値 $X_{(k)}$ について、 $P(X_{(k)} \leq x)$ を求める方法を考えよう。
$X_{(k)}\leq x$ は、$n$ 個の標本のうち $k$ 個以上が $x$ 以下であることと(確率的には)同じである。これと、各標本が $x$ 以下になる確率が $F(x)=P(X\leq x)$ であることを組み合わせると、二項定理により
である。確率関数を直接求めたい場合は、$P(X_{(k)}=x)=P(X_{(k)}\leq x)-P(X_{(k)}\leq x-1)$ のように、累積分布関数の差を取ればよい。離散型ではこのように、累積分布関数から値ごとの確率を戻すのが扱いやすい。
順序統計量②(連続型)
連続型の場合も基本的な発想は同じである。$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}F$ とし、分布関数 $F$、確率密度関数 $f$ を持つとき、$k$ 番目の順序統計量 $X_{(k)}$ の確率密度関数は以下で与えられる。
この式は、$x$ の左側に $k-1$ 個、右側に $n-k$ 個、そして $x$ に $1$ 個の観測値があると考えると自然に出る。係数は、どの標本が左側・中央・右側に入るかの並べ方を数えている。
特に最大値と最小値は頻出である。最大値 $X_{(n)}$ については、全ての標本が $x$ 以下であればよいので、
である。一方、最小値 $X_{(1)}$ については、全ての標本が $x$ より大きい確率を引けばよいので、
となる。その他、$n=2m+1$ のときの中央値の密度関数 $P(X_{(m)} = x)$ や $P(X_{(2)}\leq x)$ なども同様に計算できる。
\begin{align} P(X_{(m)} = x) &= \frac{n!}{m!1!m!}F(x)^{m}f(x)\{1-F(x)\}^{m}\\ P(X_{(2)}\leq x) &= 1 - \{ 1-F(x) \}^n - \frac{n!}{1!0!(n-1)!}F(x)\{1-F(x)\}^{n-1} \end{align}