統計学の基礎事項まとめ推定・検定編

統計学の基礎をすぐに思い出せるような、まとめチートシートを作成しました。

「確率分布編」「推定・検定編」「線形回帰編」「その他の話題（理工学分野）」の４部構成です。本ページは「推定・検定編」です。

注意

あくまで個人用のメモであり、誤植や不正確な情報が含まれている可能性があります。適宜更新していきます。

6 統計的推定

十分統計量

標本を $\boldsymbol X=(X_1,\ldots,X_n)$ とする。統計量 $T(\boldsymbol X)$ が母数 $\theta$ に関して十分統計量であるとは、$T(\boldsymbol X)$ を条件として与えたときの標本 $\boldsymbol X$ の条件付き分布が $\theta$ に依存しないことである。つまり、任意の可測集合 $A$ について、

\begin{align} P_\theta(\boldsymbol X\in A \mid T(\boldsymbol X)=t) \end{align}

が $\theta$ に依存しない、ということである。連続型の場合は、厳密には条件付き密度または正則条件付き分布の意味で読む。

この定義の意味は、標本全体 $\boldsymbol X$ を見なくても、$T(\boldsymbol X)$ さえ見れば、$\theta$ に関する情報はすでに拾い切れているということである。もう少し具体的に言えば、$T(\boldsymbol X)=t$ で標本を固定した後、同じ $t$ を与える標本の細かい違い、すなわち $\{\boldsymbol{x}:T(\boldsymbol{x})=t\}$ の中でどの $\boldsymbol{x}$ が実現したかは、$\theta$ によって偏らない。したがって、その残りの違いを見ても、$\theta$ の推定を更新する情報にはならない。

実用上は、次の因子分解定理で判定することが多い。標本 $\boldsymbol{x}=(x_1,\ldots,x_n)$ の同時確率密度関数または同時確率関数が、

\begin{align} f_\theta(\boldsymbol{x}) = a_\theta(T(\boldsymbol{x}))b(\boldsymbol{x}) \end{align}

の形に分解できるなら、$T(\boldsymbol X)$ は $\theta$ に関する十分統計量である。ここで $a_\theta(T(\boldsymbol{x}))$ は $\boldsymbol{x}$ への依存を $T(\boldsymbol{x})$ を通じてしか持たず、$b(\boldsymbol{x})$ は $\theta$ に依存しない部分である。

したがって、十分統計量は標本全体を、母数推定に必要な情報を落とさずに圧縮したものと見なせる。たとえば正規分布で分散が既知なら、母平均 $\mu$ に関する十分統計量は標本和 $\sum_i X_i$ であり、標本の並び方や個別値の細部は、$\mu$ に関しては本質的な追加情報を持たない。

十分統計量の例

十分統計量の最も簡単な例として、ベルヌーイ分布と二項分布の関係を見ておこう。$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}\mathrm{Ber}(p)$ とすると、十分統計量 $T(\boldsymbol X)=\sum_{i=1}^n X_i$ は二項分布に従う。

\begin{align} T(\boldsymbol X) \sim \mathrm{Bin}(n,p) \end{align}

これは、二項分布が「独立なベルヌーイ試行の成功回数 $T(\boldsymbol X)$ の分布」であることに対応する。この「成功回数」という統計量が、実際に$p$ に関する十分統計量になっていることを因子分解定理で確認しよう。標本 $\boldsymbol{x}=(x_1,\ldots,x_n)$ の同時確率関数は、

\begin{align} f_p(\boldsymbol{x}) &= p^{\sum_{i=1}^n x_i} (1-p)^{n-\sum_{i=1}^n x_i} \\ &= \underbrace{p^{T(\boldsymbol{x})}(1-p)^{n-T(\boldsymbol{x})}}_{a_p(T(\boldsymbol{x}))} \underbrace{1}_{b(\boldsymbol{x})} \end{align}

と書ける。標本 $\boldsymbol{x}$ が $p$ に関係するのは、個々の並び方ではなく成功回数 $T(\boldsymbol{x})$ を通じてだけである。したがって、因子分解定理より $T(\boldsymbol X)=\sum_i X_i$ は $p$ に関する十分統計量である。

もちろんこれは、因子分解定理を使わずに、直接確認することもできる。$T(\boldsymbol X)=t$ と固定し、$\sum_i x_i=t$ を満たす標本 $\boldsymbol{x}$ を一つ取る。このとき、

\begin{align} P_p(\boldsymbol X=\boldsymbol{x}\mid T(\boldsymbol X)=t) &= \frac{P_p(\boldsymbol X=\boldsymbol{x})}{P_p(T(\boldsymbol X)=t)} \\ &= \frac{p^t(1-p)^{n-t}}{\binom{n}{t}p^t(1-p)^{n-t}} = \frac{1}{\binom{n}{t}} \end{align}

となり、右辺は $p$ に依存しない。つまり、成功回数 $t$ が分かった後では、その $t$ 個の成功がどの位置に並んだかは $p$ に関する追加情報を持たない。

指数型分布族

指数型分布族とは、確率密度関数または確率関数が次の形で書ける分布族である。

\begin{align} f_\theta(x) = h(x)\exp\left\{\boldsymbol{\eta}(\theta)^\top \boldsymbol{T}(x)-A(\theta)\right\} \end{align}

ここで $\boldsymbol{\eta}(\theta)$ は自然母数、$\boldsymbol{T}(x)$ は十分統計量に対応する量、$A(\theta)$ は正規化のための項である。$A(\theta)$ は単なる飾りではなく、密度を積分して $1$ にするために必要な項であり、モーメントやFisher 情報量とも深く関係する。

正規分布、Poisson 分布、二項分布、ガンマ分布など、多くの基本的な分布は指数型分布族に入る。指数型分布族が重要なのは、十分統計量、最尤推定、共役事前分布などがきれいな形で現れ、推定・検定の計算がかなり整理されるからである。

最尤法

最尤法とは、観測されたデータが最も出やすくなるように母数 $\theta$ を選ぶ方法である。より詳しく言えば、得られたデータ $\mathcal{D}=(x_1,\ldots,x_n)$ を固定した上で、$\theta$ の関数として尤度を見て、その値を最大化する $\theta$ を推定値として採用する。

たとえば $X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim} f_\theta$ から得られた標本が $\mathcal{D}=(x_1,\ldots,x_n)$ であるとする。このとき、尤度関数は次で定義される。

\begin{align} L(\theta|\mathcal{D}) = \prod_{i=1}^{n} f_\theta(x_i) \end{align}

ここで注意すべきなのは、$f_\theta(x_i)$ を「$x_i$ の関数」としてではなく、観測値 $x_i$ を固定した後の「$\theta$ の関数」として見ている点である。確率密度関数としての $f_\theta(x)$ は $x$ を動かして積分すれば $1$ になるが、尤度 $L(\theta|\mathcal{D})$ は $\theta$ について積分して $1$ になる必要はない。

最尤推定量 $\hat{\theta}_{\mathrm{MLE}}$ は、

\begin{align} \hat{\theta}_{\mathrm{MLE}} \in \arg\max_{\theta\in\Theta} L(\theta|\mathcal{D}) \end{align}

として定義される。実際の計算では積を扱うより和を扱うほうが楽なので、対数尤度

\begin{align} \ell(\theta|\mathcal{D}) = \log L(\theta|\mathcal{D}) = \sum_{i=1}^{n}\log f_\theta(x_i) \end{align}

を最大化することが多い。対数は単調増加関数なので、$L(\theta|\mathcal{D})$ を最大化することと $\ell(\theta|\mathcal{D})$ を最大化することは同値である。

最尤推定量は有限標本で不偏とは限らない。しかし、正則条件のもとでは一致性や漸近正規性を持ち、さらに漸近的には効率のよい推定量になることが多い。このため、最尤法は「尤度を最大化する」という単純な原理でありながら、漸近理論と非常に相性がよい。

Bayes 法

これまで我々は確率を「ランダムな繰り返し試行によって、$X$ が取りうる値の頻度」と考えてきた。そこでは、確率モデルにおいて母数 $\theta$ はあらかじめ決まっていて、これによって $X$ の分布が決まるという形であった。

一方でBayes的な考え方では、モデルパラメータ $\theta$ は決まっていない。むしろパラメータ $\theta$ 自身にも不確実性があって、この不確実性をも確率分布できちんと表現しようと考えるのである。このような場合、$X$ だけでなく $\theta$ も確率変数とみなされることになる。

いま、観測データの集合 $\mathcal{D}=\boldsymbol x $ が与えられているとする。ただし、「観測データ」であることを明記するため、以下では実現値 $\boldsymbol x$ の代わりに $\mathcal{D}$ と書くことにする。また、データ $\mathcal{D}$ のもとで推定される $\theta$ の分布を $\pi(\theta|\mathcal{D}) $ と書くことにする。

$\pi(\theta|\mathcal{D}) $ の分布はこれだけではよく分からないが、Bayesの定理

\begin{align} \pi(\theta|\mathcal{D}) = \frac{\pi(\mathcal{D}|\theta)\pi(\theta)} {\pi(\mathcal{D})} \end{align}

を用いると見通しが良くなる。ここで $\pi(\mathcal{D}|\theta)$ は「パラメータ $\theta$ のとき観測データ $\mathcal{D}$ が得られる確率密度または確率」であり、これを $\theta$ の関数と見たものが尤度に他ならない。

一方、$\pi(\theta)$ は観測データ $\mathcal{D}$ が得られる前に考える $\theta$ の分布であり、事前分布と呼ばれる。これに対応して、データ $\mathcal{D}$ が得られた後の分布 $\pi(\theta|\mathcal{D}) $ は、事後分布と呼ばれる。$\pi(\mathcal{D})$ はかなり抽象的な定数だが、いったんは分子の規格化定数と考えておけばよく、今回の主役ではない。

Bayes 法では、事後分布 $\pi(\theta|\mathcal{D})$ を用いて $\theta$ を推定する。特に事後分布を求めるために計算上覚えておくべきは

\begin{align} \pi(\theta|\mathcal{D}) \propto \pi(\mathcal{D}|\theta)\pi(\theta) \end{align}

という式で、これさえ押さえておけば定数分は規格化条件によって自動的に決まる。

Bayes 的な見方からすると、最尤推定は $\pi(\theta|\mathcal{D})$ と $\pi(\mathcal{D}|\theta)$ を同一視するような「粗い」推定とみなすこともできるだろう。一方で Bayes 推定では、事前分布 $\pi(\theta)$ をどのように決めるのかという新たな問題が生じる。多くの場合、これは尤度関数を見て数学的に便宜な関数が選ばれることが多く、これは共役事前分布と呼ばれる。多くの場合、共役事前分布にはきちんと現実的な意味づけが与えられることも多く、その点は興味深い。

不偏性

不偏性とは、推定量の期待値が真の母数に一致することである。標本を $\boldsymbol X=(X_1,\ldots,X_n)$ とし、推定量を $\hat{\theta}(\boldsymbol X)$ と書く。任意の $\theta\in\Theta$ に対して

\begin{align} E_\theta[\hat{\theta}(\boldsymbol X)]=\theta \end{align}

が成り立つとき、$\hat{\theta}(\boldsymbol X)$ は不偏推定量であるという。ここで $E_\theta$ は、母数が $\theta$ である分布のもとで期待値を取ることを表す。

より一般に、推定量のバイアスは以下で定義される。

\begin{align} \mathrm{Bias}_\theta(\hat{\theta}) = E_\theta[\hat{\theta}(\boldsymbol X)]-\theta \end{align}

したがって、不偏性とは $\mathrm{Bias}_\theta(\hat{\theta})=0$ が任意の $\theta$ で成り立つことだと言える。不偏性は、同じ標本抽出を何度も繰り返したとき、推定量の平均が真の値に一致するという性質である。ただし、不偏だからといって一回一回の推定値が真の値に近いとは限らない。大きな分散を持つ不偏推定量は、平均的には正しくても、実際の推定ではかなり不安定になりうる。

推定量の良さを見るときは、不偏性だけでなく、分散なども見る必要がある。平均二乗誤差（MSE）は、推定量と真の値の二乗誤差の期待値として定義される。$\hat{\theta} = \hat{\theta}(\boldsymbol X)$ とおくと、

\begin{align} \mathrm{MSE}_\theta(\hat{\theta}) &= E_\theta[(\hat{\theta}-\theta)^2]\\ &= E_\theta\big[\{ (\hat{\theta}-E_\theta[\hat{\theta}]) + (E_\theta[\hat{\theta}]-\theta)\}^2\big] \end{align}

これの $2$ 行目を展開すると、交差項は $0$ になるので、以下の式を得る。

\begin{align} \mathrm{MSE}_\theta(\hat{\theta}) = \mathrm{Var}_\theta(\hat{\theta}) + \mathrm{Bias}_\theta(\hat{\theta})^2 \end{align}

したがって、わずかにバイアスがあっても分散が大きく下がるなら、MSE の意味ではそちらの推定量のほうが優れていることもある。

Fisher 情報量

Fisher 情報量は、データが母数 $\theta$ についてどれくらい鋭い情報を持っているかを表す量である。確率密度関数または確率関数 $f_\theta(x)$ に対して、スコア関数を

\begin{align} S_\theta(X) = \frac{\partial}{\partial\theta} \log f_\theta(X) \end{align}

とおくと、1標本あたりのFisher 情報量は

\begin{align} I_1(\theta) = E_\theta[S_\theta(X)^2] = E_\theta\left[ \left( \frac{\partial}{\partial\theta} \log f_\theta(X) \right)^2 \right] \end{align}

で定義される。正則条件のもとでは、以下の形でも書ける。

\begin{align} I_1(\theta) = - E_\theta\left[ \frac{\partial^2}{\partial\theta^2} \log f_\theta(X) \right] \end{align}

スコア関数は、$\theta$ を少し動かしたときに対数尤度がどれくらい変化するかを表している。したがってFisher 情報量が大きいとは、分布が $\theta$ の変化に敏感であり、データから $\theta$ を識別しやすいことを意味する。

$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim} f_\theta$ の場合、情報量は加法的に増える。すなわち、$n$ 標本全体のFisher 情報量は

\begin{align} I_n(\theta)=nI_1(\theta) \end{align}

である。この性質が、推定量の分散が $1/n$ のオーダーで小さくなることと対応している。

また、正則条件のもとで、任意の不偏推定量 $\hat{\theta} = \hat{\theta}(\boldsymbol X)$ について次のCramér-Rao 不等式が成り立つ。

\begin{align} \mathrm{Var}_\theta(\hat{\theta}) \geq \frac{1}{I_n(\theta)} = \frac{1}{nI_1(\theta)} \end{align}

つまり、不偏推定量の分散はFisher 情報量の逆数より小さくできない。Fisher 情報量が「推定のしやすさ」を表すと言われるのは、この下限と直接結びついているからである。

一致性、漸近有効性

推定量 $\hat{\theta}_n(\boldsymbol X)$ が真の母数 $\theta$ に一致性を持つとは、

\begin{align} \hat{\theta}_n(\boldsymbol X) \to_p \theta \end{align}

が成り立つことである。これは、標本数を増やすと推定量が真の値の近くに確率的に集中することを意味する。有限標本で多少ずれていても、$n\to\infty$ で真の母数を回収できるなら、その推定量は一致的である。

さらに、推定量が次のような漸近正規性を持つとする。

\begin{align} \sqrt{n}(\hat{\theta}_n(\boldsymbol X)-\theta) \to_d \mathcal{N}(0,V(\theta)) \end{align}

この $V(\theta)$ は、$\sqrt{n}$ スケールで見たときの漸近分散である。正則な推定問題では、任意のよい推定量の漸近分散には下限があり、1標本あたりのFisher 情報量 $I_1(\theta)$ を用いておおむね $I_1(\theta)^{-1}$ が基準になる。

\begin{align} V(\theta) \geq I_1(\theta)^{-1} \end{align}

この下限に到達する推定量は漸近有効であるという。このとき、$\hat{\theta}_n(\boldsymbol X)$ の分散は漸近的に $1/\{nI_1(\theta)\}$ 程度まで小さくなる。一致性が「標本数を増やせば真の値に寄っていく」という性質であるのに対して、漸近有効性は「その寄り方が漸近的に最も無駄が少ない」という性質である。

7 統計的仮説検定

考え方

統計的仮説検定では、まず帰無仮説 $H_0$ と対立仮説 $H_1$ を置く。基本的には、$H_0$ が正しいと仮定したときに、観測されたデータがどれくらい起こりにくいかを調べ、その起こりにくさが十分に大きければ $H_0$ を棄却する。

ただし、「データがどれくらい極端か」を見るためには、先に検定統計量を決める必要がある。検定統計量とは、標本 $\boldsymbol X=(X_1,\ldots,X_n)$ を一つの量に要約し、帰無仮説からのズレを測るための統計量である。

\begin{align} T &= T(\boldsymbol X) \end{align}

検定統計量の決め方は一意ではない。平均の差を見たいなら標本平均を標準化した統計量を使い、分散の比を見たいなら $F$ 統計量を使い、モデル全体の当てはまりを比べたいなら尤度比統計量を使う、というように、対立仮説に対してどの方向のズレを検出したいかによって自然な選び方が変わる。

一度 $T$ を決めると、次に見るべきものは、$H_0$ のもとでの $T$ の分布である。これを帰無分布という。観測データを $\boldsymbol{x}_{\mathrm{obs}}$ とすれば、実際に観測された検定統計量は

\begin{align} t_{\mathrm{obs}} &= T(\boldsymbol{x}_{\mathrm{obs}}) \end{align}

である。この $t_{\mathrm{obs}}$ が、帰無分布のもとで十分に端にあるなら、$H_0$ のもとでは説明しにくいデータが得られたと判断する。

たとえば、$T$ が大きいほど $H_0$ に反する検定を考える。このとき、有意水準 $\alpha$ の検定では、帰無仮説の範囲 $\Theta_0$ にある任意の $\theta$ に対して、

\begin{align} \sup_{\theta\in\Theta_0}P_\theta(T(\boldsymbol X)\geq c_\alpha) \leq \alpha \end{align}

となるように臨界値 $c_\alpha$ を選ぶ。そして $t_{\mathrm{obs}}\geq c_\alpha$ なら $H_0$ を棄却し、そうでなければ棄却しない。この意味で、検定は「検定統計量を決める」「その帰無分布を求める」「有意水準に対応する棄却域を作る」という順番で組み立てられる。

標本空間上の棄却域として書けば、

\begin{align} R = \{\boldsymbol{x} \mid T(\boldsymbol{x})\geq c_\alpha\} \end{align}

である。観測データ $\boldsymbol{x}_{\mathrm{obs}}$ が $R$ に入れば $H_0$ を棄却し、入らなければ棄却しない。

t 検定（1標本）

$t$ 検定は、正規母集団の平均について検定したいが、母分散が未知であるときによく使う。たとえば、$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu,\sigma^2)$ に対して、$H_0:\mu=\mu_0$ を検定する場合を考える。

このときまず、帰無仮説のもとで平均と分散は

\begin{align} \overline X \sim \mathcal{N}\left(\mu_0,\frac{\sigma^2}{n} \right), \quad \hat{\sigma}^2 \sim \frac{\sigma^2}{n-1}\chi^2_{n-1} \end{align}

である。よって、上の式から $\overline X$ を標準化したあと、未知の $\sigma$ を $\hat{\sigma}$ で置き換えたものを検定統計量 $T$ とすることで

\begin{align} T= \frac{\overline{X}-\mu_0}{\hat{\sigma}/\sqrt{n}} \sim t_{n-1} \end{align}

が成り立つ。母分散 $\sigma^2$ が分かっていれば標準正規分布で標準化できるが、未知の $\sigma^2$ を $\hat{\sigma}^2$ で置き換えるため、分母にも確率的な揺らぎが入る。その結果、標準正規分布ではなく自由度 $n-1$ の $t$ 分布が現れる。

t 検定（2標本）

2つの正規母集団の平均を比較する場合にも、母分散が未知で共通と仮定できるなら $t$ 検定を用いる。独立な標本

\begin{align} X_1,\cdots,X_m &\overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu_1,\sigma^2)\\ Y_1,\cdots,Y_n &\overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu_2,\sigma^2) \end{align}

について、帰無仮説 $H_0:\mu_1=\mu_2$ を考える。この共通平均を $\mu$ と書く。共通分散の推定量として

\begin{align} \hat{\sigma}^2 = \frac{1}{m+n-2}\left\{\sum_{i=1}^{m}(X_i-\overline X)^2 + \sum_{j=1}^{n}(Y_j-\overline Y)^2 \right\}\sim \frac{\sigma^2}{m+n-2}\chi^2_{m+n-2} \end{align}

を用いる。分布の形状は、$\chi^2_{m-1}+\chi^2_{n-1}=\chi^2_{m+n-2}$ から明らかだろう。

一方、帰無仮説のもとでは、$\overline X\sim \mathcal{N} (\mu,\sigma^2/m), \overline Y\sim \mathcal{N} (\mu,\sigma^2/n)$ より

\begin{align} \overline X-\overline Y \sim \mathcal{N}\left( 0, \sigma^2\left(\frac{1}{m}+\frac{1}{n}\right) \right) \end{align}

である。したがって、上の式から $\overline X-\overline Y$ を標準化して、未知の $\sigma$ を $\hat{\sigma}$ で置き換えたものを検定統計量 $T$ とすることで

\begin{align} T = \frac{\overline{X}-\overline{Y}} {\hat{\sigma}\sqrt{\frac{1}{m}+\frac{1}{n}}} \sim t_{m+n-2} \end{align}

が成り立つ。これは、2つの母分散が等しいという仮定のもとで、分散情報をまとめて使う検定である。

F検定

$F$ 検定は、分散の比や、分散分析における平方和の比を調べるときに使う。基本にあるのは、独立なカイ二乗分布の比が $F$ 分布に従うという事実である。

たとえば、独立な標本 $X_1,\cdots,X_m \overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu_1,\sigma_1^2)$、$Y_1,\cdots,Y_n \overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu_2,\sigma_2^2)$ について、2つの正規母集団の分散が等しいかどうかを調べる場合を考える。それぞれの標本分散を $\hat{\sigma}_1^2,\hat{\sigma}_2^2$ とすると、

\begin{align} \hat{\sigma}_1^2 \sim \frac{\sigma_1^2}{m-1}\chi^2_{m-1},\quad \hat{\sigma}_2^2 \sim \frac{\sigma_2^2}{n-1}\chi^2_{n-1} \end{align}

である。したがって、帰無仮説 $H_0:\sigma_1^2=\sigma_2^2$ のもとで

\begin{align} F= \frac{\hat{\sigma}_1^2}{\hat{\sigma}_2^2} \sim F_{m-1,n-1} \end{align}

を用いる。

$F$ 検定は正規性の仮定に比較的敏感である。したがって、分散の等質性だけを機械的に確認する道具というより、正規モデルのもとで分散比を検定する方法として理解したほうがよい。

尤度比検定

尤度比検定は、帰無仮説のもとで許されるパラメータ空間 $\Theta_0$ における最良の当てはまりと、制約を外した全体のパラメータ空間 $\Theta$ における最良の当てはまりを比べる検定である。検定統計量は下記で与えられる。

\begin{align} \lambda(\boldsymbol X) = \frac{\sup_{\theta\in\Theta_0}L(\theta | \boldsymbol X)} {\sup_{\theta\in\Theta}L(\theta | \boldsymbol X)} \end{align}

$\lambda = \lambda(\boldsymbol X)$ は $[0,1]$ の範囲を動き、これは直感的には帰無仮説 $\Theta_0$ を課すことで、どれだけモデルの説明力が落ちるかを比（無次元量）で表したものである。$\lambda$ が小さいほど、帰無仮説の制約を入れると「説明力」が大きく悪化するため、$H_0$ を棄却する方向に働く。一方、$\lambda$ が $1$ に近ければ、帰無仮説の制約を課しても、制約なしの場合と比べて当てはまりが悪化していないことを示す。

正則条件のもとでは、Wilks の定理により、制約の数を $r$ として次の近似が成り立つ。

\begin{align} -2\log\lambda \to_d \chi^2_r \end{align}

したがって、大標本では $-2\log\lambda$ をカイ二乗分布の上側確率で評価すればよい。多くの一般化線形モデルやネストしたモデル比較で、この形がそのまま使われる。

尤度比 $\lambda$ は $1$ より小さい値ほど帰無仮説から遠かったので、 $-2\log\lambda$ は値が大きいほど帰無仮説から遠いことになる。ゆえに、棄却域は

\begin{align} R = \left\{ \boldsymbol X \mid -2\log\lambda(\boldsymbol X) > C \right\} \end{align}

と取ればよい。

尤度比検定の例

$X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu,\sigma^2)$ とし、$\mu, \sigma^2$ は未知とする。ここで、 \begin{align} H_0:\mu \leq \mu_0 \quad \mathrm{v.s.} \quad H_1:\mu_0 < \mu \end{align} を尤度比検定したい。

まず、母数空間全体でのMLEは \begin{align} \hat \mu = \overline X, \quad \hat \sigma^2 = \frac{1}{n} \sum_{i=1}^n (X_i-\overline X)^2 \end{align} である。一方で、$H_0:\mu \leq \mu_0$ のもとで、MLEは \begin{align} \hat \mu_0 = \min(\overline X, \mu_0), \quad \hat \sigma_0^2 = \frac{1}{n} \sum_{i=1}^n (X_i-\hat \mu_0)^2 \end{align} である。これより、尤度比は次のようになる。

\begin{align} \lambda(\boldsymbol X) = \begin{cases} 1 & (\overline X \leq \mu_0)\\[4pt] \left( \dfrac{\hat \sigma^2 } {\hat \sigma_0^2 } \right)^{n/2} & (\overline X > \mu_0) \end{cases} \label{yudo_rei} \end{align}

$\overline X \leq \mu_0$ の場合は $\lambda=1$ であり、棄却する理由はない。一方、$\overline X>\mu_0$ の場合について進めよう。分母の $\hat \sigma_0^2$ を \begin{align} \hat \sigma_0^2=\hat \sigma^2 + (\overline X-\mu_0)^2 \end{align} を用いてバラし、不偏標本分散を $S^2=\dfrac{1}{n-1}\sum_i(X_i-\overline X)^2$ とし、通常の $t$ 統計量

\begin{align} T = \frac{\overline X-\mu_0}{S/\sqrt n} \end{align}

を使うと、$\overline X>\mu_0$ のとき $\rm (\ref{yudo_rei})$ 式は

\begin{align} \lambda(\boldsymbol X) = \left( 1+\frac{T^2}{n-1} \right)^{-n/2} \end{align}

と書ける。上の $\lambda(\boldsymbol X)$ が小さいほど帰無仮説から遠ざかるので、$T^2$ が大きいときに帰無仮説から遠ざかる。ただし今回は片側 $t$ 検定なので、$T$ が大きいときのみ棄却すれば十分である。このような棄却域は

\begin{align} R = \left\{ \boldsymbol X \mid T > t_{\alpha,n-1} \right\} \end{align}

で書ける。実際に、（次節で詳しく述べる）検出力を $\beta(\mu)=P_\mu(\boldsymbol X \in R)$ で定義すると、$\mu\leq\mu_0$ に対して

\begin{align} \beta (\mu) \leq \alpha \end{align}

であり、等号成立は $\mu = \mu_0$ のときであることがすぐに示せる。

カイ二乗適合度検定

ある草むらでは $K$ 種類のドラゴン $k=1,\cdots ,K$ が出現すると言われている。それぞれのドラゴンが出る確率 $p_1,\cdots,p_K$ は、帰無仮説にて

\begin{align} H_0: p_1=\pi_1,\ \cdots,\ p_K=\pi_K \end{align}

であると考えられている。ただし、$\pi_k>0$ かつ $\sum_{k=1}^K\pi_k=1$ とする。今、$n$ 匹のドラゴンを捕まえたときの、各ドラゴンの出現回数が $X_1, \cdots, X_K$ であったとき、帰無仮説 $H_0$ を検定することを考えよう。このように、観測度数が理論上の確率分布に適合しているかを調べる検定をカイ二乗適合度検定という。

ここでは、検定統計量 $Q$ を次のように定義する。

\begin{align} Q = \sum_{k=1}^K \frac{(X_k - n\pi_k)^2}{n\pi_k} \end{align}

$Q$ は、観測された出現回数 $X_k$ と、帰無仮説のもとでの期待値 $n\pi_k$ のズレを二乗して期待値で割ったものを、全てのドラゴンについて足し合わせたものである。単に差 $X_k-n\pi_k$ を足すと正負が打ち消し合ってしまうので二乗し、さらに期待値 $n\pi_k$ で割ることで、出現しやすいドラゴンと出現しにくいドラゴンのズレを同じ尺度で比べている。

各期待度数 $n\pi_k$ が十分大きいとき、帰無仮説が正しければ、$Q$ は近似的に自由度 $K-1$ のカイ二乗分布に従う。

\begin{align} Q \ \to_d \ \chi^2_{K-1} \end{align}

したがって、$Q$ が十分に大きいときに帰無仮説を棄却すればよい。

カイ二乗独立性検定

次に、2つのカテゴリ変数が独立かどうかを調べる問題を考えよう。たとえば、以前捕まえたドラゴンについて（捕まえた記録をランダム標本とみなし）、ドラゴンの「種類 $i$」と「捕まえた草むら $j$」に関係があるかを調べたいとする。以下、ドラゴンの種類を $i=1,\cdots,I$、草むらを $j=1,\cdots,J$ とし、種類 $i$ のドラゴンを草むら $j$ で捕まえる真の確率を $p_{ij}$ と書く。

帰無仮説は

\begin{align} H_0:p_{ij}=p_{i\cdot}p_{\cdot j}\quad(\text{for all}\ i,j) \end{align}

である。ただし、$p_{i\cdot}=\sum_{j=1}^Jp_{ij}$、$p_{\cdot j}=\sum_{i=1}^Ip_{ij}$ である。これはドラゴンの「種類」と「捕まえた草むら」が独立である、という仮説である。$n$ 匹のドラゴンを調べたとき、種類 $i$ のドラゴンを草むら $j$ で捕まえた回数を $X_{ij}$ と書く。行和、列和、全体の合計をそれぞれ

\begin{align} X_{i\cdot}=\sum_{j=1}^J X_{ij},\quad X_{\cdot j}=\sum_{i=1}^I X_{ij},\quad n=\sum_{i=1}^I\sum_{j=1}^J X_{ij} \end{align}

と書く。もしドラゴンの種類と草むらが独立なら、「種類 $i$ である割合」と「草むら $j$ で捕まえた割合」を掛ければ、種類 $i$ かつ草むら $j$ で捕まえた割合になるはずである。したがって、独立性のもとでの期待度数は

\begin{align} E_{ij} = \frac{X_{i\cdot}X_{\cdot j}}{n} \end{align}

で推定される。そこで、観測度数 $X_{ij}$ と期待度数 $E_{ij}$ のズレを、適合度検定と同じ形で足し合わせる。

\begin{align} Q = \sum_{i=1}^I\sum_{j=1}^J \frac{(X_{ij}-E_{ij})^2}{E_{ij}} \end{align}

これがカイ二乗独立性検定の検定統計量である。各期待度数 $E_{ij}$ が十分大きいとき、帰無仮説が正しければ、$Q$ は近似的に自由度 $(I-1)(J-1)$ のカイ二乗分布に従う。

\begin{align} Q \ \to_d \ \chi^2_{(I-1)(J-1)} \end{align}

したがって、$Q$ が十分に大きいとき、ドラゴンの種類と捕まえた草むらは独立ではないと判断して、帰無仮説を棄却する。

自由度が $(I-1)(J-1)$ になる理由はこうである。独立性のもとでは、行方向の確率 $p_{i\cdot}$ と列方向の確率 $p_{\cdot j}$ だけで全体の確率が決まる。行方向には和が $1$ になる制約があるので自由に決められるのは $I-1$ 個、列方向も同様に $J-1$ 個である。独立でない一般の分布では $IJ-1$ 個の自由度があるため、その差

\begin{align} (IJ-1)-\{(I-1)+(J-1)\} = (I-1)(J-1) \end{align}

が、独立性からのズレを測る自由度になる。

適合度検定では理論上の確率 $\pi_k$ があらかじめ与えられていたが、独立性検定では行和と列和から、独立だった場合の期待度数をデータから作る点が異なる点に注意しよう。

検出力関数

検定では、帰無仮説を棄却するかどうかを決めるので、判断を誤る可能性がある。この誤りには次の2種類がある。

第一種の過誤：本当は $H_0$ が正しいのに棄却してしまうこと
第二種の過誤：本当は $H_1$ が正しいのに $H_0$ を棄却できないこと

検出力関数とは、母数が $\theta$ のときに、検定が帰無仮説を棄却する確率である。棄却域を $R$ とすると、

\begin{align} \beta(\theta)=P_\theta(\boldsymbol X\in R) \end{align}

と書ける。与えられた $\theta\in\Theta_0$ に対して、$\beta(\theta)$ は第一種の過誤確率に対応する。一方、$\theta\in\Theta_1$ のとき、第二種の過誤確率は $1-\beta(\theta)$ で与えられる。特に単純仮説 $H_0:\theta=\theta_0$ と $H_1:\theta=\theta_1$ の比較では、第一種の過誤確率は $\beta(\theta_0)$ であり、第二種の過誤確率は $1-\beta(\theta_1)$ である。

第一種の過誤確率の最大値 $\sup_{\theta \in \Theta_0} \beta(\theta)$ をサイズと言う。統計学では伝統的に「よい検定」を、サイズを $\alpha$ 以下に抑えた上で、第二種の過誤確率 $1-\beta(\theta)$ をできるだけ小さくする検定と考える。 $1-\beta(\theta)$ が小さいことと、$\beta(\theta)$ が大きいことは同値であることに注意しよう。このような $\beta(\theta)$ を検出力と呼ぶ。

まとめると、サイズが $\sup_{\theta \in \Theta_0} \beta(\theta) \leq \alpha$ である検定全体の中で、任意の $\theta\in\Theta_1$ に対してつねに検出力 $\beta(\theta)$ が最大になる検定があれば、それを一様最強力検定と呼ぶ。ただし、そのような検定が常に存在するわけではない。

確率化検定

ここまでの検定では、標本 $\boldsymbol X$ が棄却域 $R$ に入れば $H_0$ を棄却し、入らなければ棄却しないと考えてきた。このような検定は、標本空間の各点 $\boldsymbol x$ に対して「棄却する／しない」を $0,1$ で決める検定である。

しかし、とくに離散分布を扱うときには、有意水準 $\alpha$ とサイズをちょうど一致させられないことがある。たとえば、棄却域を $1$ つ広げるとサイズが $\alpha$ を超えてしまい、 $1$ つ狭めるとサイズが $\alpha$ より小さくなってしまう、という状況が起こる。これは確率が点ごとにまとまって乗っているためである。

このような場合に、境界上の標本についてだけ「一定の確率で棄却する」ことを許すと、サイズをちょうど $\alpha$ に調整できる。これを確率化検定という。

確率化検定は、棄却域そのものではなく、次のような検定関数で表す。

\begin{align} \phi(\boldsymbol x) = \begin{cases} 1 & (\boldsymbol x\ \style{font-family:inherit;}{\text{ で必ず棄却する}}),\\ 0 & (\boldsymbol x\ \style{font-family:inherit;}{\text{ で棄却しない}}),\\ \gamma & (\boldsymbol x\ \style{font-family:inherit;}{\text{ で確率 }}\gamma\style{font-family:inherit;}{\text{ で棄却する}}) \end{cases} \end{align}

一般には $0\leq\phi(\boldsymbol x)\leq 1$ とし、$\phi(\boldsymbol x)$ を「観測値 $\boldsymbol x$ が出たときに $H_0$ を棄却する確率」と解釈する。通常の検定は、$\phi$ が $0$ または $1$ の値しか取らない特別な場合である。

このとき、母数が $\theta$ のときの棄却確率、すなわち検出力関数は

\begin{align} \beta_\phi(\theta) = E_\theta[\phi(\boldsymbol X)] \end{align}

で定義される。したがって、確率化検定のサイズは以下で書ける。

\begin{align} \sup_{\theta\in\Theta_0} E_\theta[\phi(\boldsymbol X)] \end{align}

離散分布では、通常の棄却域だけではサイズを $\alpha$ にぴったり合わせられないことがあるが、検定関数を使って境界上で確率化すれば、サイズを $\alpha$ に調整できる。確率化によってサイズを $\alpha$ ぴったりに合わせると、その分だけ検出力を高め、より強力な検定にできることが期待できる。

Neyman-Pearson の補題

単純仮説同士（$H_0:\theta=\theta_0\ \mathrm{v.s.}\ H_1:\theta=\theta_1$）の比較では、Neyman-Pearson の補題により、尤度比

\begin{align} \frac{f_{\theta_1}(\boldsymbol X)} {f_{\theta_0}(\boldsymbol X)} \end{align}

が大きいときに $H_0$ を棄却する検定が、有意水準 $\alpha$ の最強力検定である。つまり、観測データが「$H_0$ のもとで出やすい」よりも「$H_1$ のもとで出やすい」と強く言えるほど、$H_0$ を棄却する。

P値

ある人が「この辺では、はぐれメタルが $50\%$ の確率で出る」と考えたとする。しかし、実際にその場所で100匹捕まえてみたら、3匹しかはぐれメタルが出なかった。実際の出現確率は $3\%$ だったのだから、帰無仮説が本当に正しいならば、これはかなり珍しい現象だったということになる。このレア度をきちんと定量化したのが $P$ 値である。

$P$ 値は、ざっくり言えば、帰無仮説 $H_0$ を正しいと仮定したときの、観測結果のレア度である。

例えば、$P$ 値が $0.02$ であれば、帰無仮説のもとで同じように実験したときに、今回観測された結果以上に極端な結果が出る確率が $2\%$ であることを意味する。もちろんこれは、棄却域が $\alpha = 0.05$ であれば棄却されるような結果である（しかし、$P$ 値を測定してから棄却域を定めるような実験方法は倫理上推奨できるものではない）。

$P$ 値は、観測データそのものを丸ごと評価するのではなく、あらかじめ決めた検定統計量 $T=T(\boldsymbol X)$ を通じて評価する。

観測データを $\boldsymbol{x}_{\mathrm{obs}}$、観測された検定統計量を

\begin{align} t_{\mathrm{obs}} &= T(\boldsymbol{x}_{\mathrm{obs}}) \end{align}

とする。たとえば $T$ が大きいほど $H_0$ に反する検定なら、$P$ 値は

\begin{align} p = P_{H_0}\left(T(\boldsymbol X)\geq t_{\mathrm{obs}}\right) \end{align}

で定義される。これは、$H_0$ のもとで同じ実験をしたときに、今回観測された $t_{\mathrm{obs}}$ 以上に $H_0$ に反する値が出る確率である。したがって、$p$ が小さいほど、今回の観測値は帰無分布の端にあり、$H_0$ のもとでは珍しいデータだったと解釈される。

両側検定の場合は、「大きいほど反する」という片側の順序ではなく、帰無仮説からのズレの大きさを両側で見る。たとえば $T$ が $0$ を中心に対称な帰無分布を持ち、$|T|$ が大きいほど $H_0$ に反するなら、典型的には

\begin{align} p = P_{H_0}\left(|T(\boldsymbol X)|\geq |t_{\mathrm{obs}}|\right) \end{align}

と書ける。より一般には、どの方向を「より極端」とみなすかは、検定統計量と対立仮説の取り方によって決まる。

有意水準 $\alpha$ に対して $p\leq\alpha$ なら、観測された検定統計量は有意水準 $\alpha$ の棄却域に入っているので、$H_0$ を棄却する。つまり、$P$ 値による判定と棄却域による判定は同じ内容を、臨界値ではなく確率の尺度で言い換えている。

8 統計的区間推定

考え方

信頼区間は、点推定値だけでは分からない推定の不確実性を、区間の幅として表す方法である。点推定では $\hat{\theta}$ という一つの値だけを出すが、標本を取り直せば $\hat{\theta}$ も変わる。そこで区間推定では、標本変動を考慮して、データから母数 $\theta$ の候補範囲を作る。

母数 $\theta$ に対して、データから作った区間 $[L(\boldsymbol X),U(\boldsymbol X)]$ が任意の $\theta$ について

\begin{align} P_\theta\left(L(\boldsymbol X)\leq \theta \leq U(\boldsymbol X)\right)=1-\alpha \end{align}

を満たすとき、$[L(\boldsymbol X),U(\boldsymbol X)]$ を信頼係数 $1-\alpha$ の $\theta$ の信頼区間という。ここで確率がかかっているのは、母数 $\theta$ ではなく、データから作られる下端 $L(\boldsymbol X)$ と上端 $U(\boldsymbol X)$ のほうである。

したがって、データを観測した後に得られた特定の区間について、「この区間に母数が入る確率が $1-\alpha$」と読むのは頻度論的には正確ではない。正しくは、同じ方法で信頼区間を何度も作れば、そのうち割合 $1-\alpha$ が真の母数を含む、という被覆確率の主張である。

信頼区間の作り方

信頼区間は、検定の受容域を反転させて作ることができる。母数の候補値を $\theta_0$ とし、各 $\theta_0$ について検定問題

\begin{align} H_0:\theta=\theta_0 \quad \mathrm{v.s.} \quad H_1:\theta\neq\theta_0 \end{align}

を有意水準 $\alpha$ で考える。ここで帰無仮説を単純仮説で置いていることに注意しよう。一方、対立仮説については、両側の信頼区間を作りたいなら両側検定を、片側信頼区間を作りたいなら片側検定を用いる。

この検定で棄却しない標本の集合を受容域 $A(\theta_0)$ と書く。つまり、観測データ $\boldsymbol{x}_{\mathrm{obs}}$ が $A(\theta_0)$ に入れば、$H_0:\theta=\theta_0$ を棄却しない。そこで、観測データ $\boldsymbol{x}_{\mathrm{obs}}$ を固定し、棄却されなかった $\theta_0$ をすべて集める。

\begin{align} \left\{\theta_0 \mid \boldsymbol{x}_{\mathrm{obs}}\in A(\theta_0)\right\} = [L(\boldsymbol{x}_{\mathrm{obs}}),U(\boldsymbol{x}_{\mathrm{obs}})] \end{align}

この操作を観測値ごとに行う対応として見ると、信頼区間 $[L(\boldsymbol X),U(\boldsymbol X)]$ が得られる。受容域が

\begin{align} P_\theta(\boldsymbol X\in A(\theta))\geq 1-\alpha \end{align}

を満たすように作られているので、その反転で得られる区間も信頼係数 $1-\alpha$ を持つ。

信頼区間の例

例として、$ X_1,\ldots,X_n \overset{\mathrm{i.i.d.}}{\sim}\mathcal{N}(\mu,\sigma^2) $ で、$\mu,\sigma^2$ が未知のとき、$\mu$ の $1-\alpha$ 信頼区間を求めよう。各候補値 $\mu_0$ について検定

\begin{align} H_0:\mu=\mu_0 \quad \mathrm{v.s.} \quad H_1:\mu\neq\mu_0 \end{align}

を尤度比検定する。まず、母数空間全体での MLE は \begin{align} \hat \mu = \overline X, \quad \hat \sigma^2 = \frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2 \end{align} である。一方、$H_0:\mu=\mu_0$ のもとでの MLE は \begin{align} \hat \mu_0 = \mu_0, \quad \hat \sigma_0^2 = \frac{1}{n}\sum_{i=1}^n(X_i-\mu_0)^2 \end{align} である。したがって、尤度比は次のようになる。

\begin{align} \lambda(\boldsymbol X;\mu_0) = \left( \frac{\hat \sigma^2}{\hat \sigma_0^2} \right)^{n/2} \end{align}

ここで $ \hat \sigma_0^2 = \hat \sigma^2+(\overline X-\mu_0)^2 $ を代入し、不偏分散を $S^2=\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2$ として

\begin{align} T = \frac{\overline X-\mu_0}{S/\sqrt n}\sim t_{n-1} \end{align}

とおくと、尤度比は

\begin{align} \lambda(\boldsymbol X;\mu_0) = \left( 1+\frac{T^2}{n-1} \right)^{-n/2} \end{align}

と書き換えられる。$\lambda(\boldsymbol X;\mu_0)$ が小さいほど帰無仮説から遠ざかるので、尤度比検定は $T^2$ が大きいときに $H_0$ を棄却する検定になる。これより受容域は

\begin{align} A(\mu_0) = \left\{ \boldsymbol X \mid |T| \leq t_{\alpha/2,n-1} \right\} \end{align}

である。ただし $t_{n-1}$ 分布の上側 $\alpha/2$ 点を $t_{\alpha/2,n-1}$ としている。これを $\boldsymbol X$ について反転させると、

\begin{align} \left\{ \mu_0 \mid \boldsymbol X\in A(\mu_0) \right\} &= \left\{ \mu_0 \mid -t_{\alpha/2,n-1} \leq \frac{\overline X-\mu_0}{S/\sqrt n} \leq t_{\alpha/2,n-1} \right\}\\ &= \left[ \overline X-t_{\alpha/2,n-1}\frac{S}{\sqrt n}, \overline X+t_{\alpha/2,n-1}\frac{S}{\sqrt n} \right] \end{align}

となり、信頼区間が求まった。