
統計学を学ぶ時、この中心極限定理の理解が一つの大きなポイントとなると感じています。これは数学的にも高級な定理であり、数式で理解するのも数Ⅲレベル以上の知識を必要とするため、僕も理解に苦しみました。しかし、母集団の推定の「区間推定」の範囲以降はこの中心極限定理の理解が必要になってきます。また、医学部学士編入試験においては、その中心極限定理の証明を問われることはほぼゼロに近いです。ですので、この定理の意味を理解して使えるようにしておけば良いです。ここでは、図も交えながらしっかりとイメージを持って理解できるよう、わかりやすく伝えられるように努めました。
中心極限定理1
【仮定】\(X_1 , X_2 , \cdots , X_n\) が平均 \(μ\)、分散\(σ^2\) の同じ分布に従う、互いに独立な確率変数であるならば、
【結論】\(n \to \infty\) のとき、
その和 \(X_1 + X_2 + \cdots + X_n\) の分布は正規分布に収束する!!
これだけ言われても、なんのことだかよくわからないと思いますが、これは言い換えれば以下のようになります↓
中心極限定理2 (定理1の言い換え)
互いに独立であり、かつ同一分布に従う確率変数 \(X_1 , X_2 , \cdots , X_n\) が \(E[X_i]=μ\)、\(V[X_i]=σ^2\) であるとき、n が十分大きければ、その和 \(X_1 + X_2 + \cdots + X_n\) の分布は、正規分布 \(N( nμ , nσ^2)\) で近似できる!!
解説
ポイントは、確率変数の独立性と同一分布性だけであって、元の分布は任意であること!なんかよくわからないけどスゴイ!(ノ゚ρ゚)ノノヌオォォォ
この確率変数の総和 \(X_1 + X_2 + \cdots + X_n\) の期待値と分散は、以下の計算で求められます。\(E[X_i]=μ , V[X_i]=σ^2\) (i=1,2,…n)であることに注意すると、
\[\scriptsize
\begin{align}
E[ X_1 + X_2 + \cdots + X_n ] &= E[X_1] +\cdots+ E[X_n]\\
&= μ +\cdots+ μ\\
&= nμ
\end{align}
\]\[\scriptsize
\begin{align}
V[ X_1 + X_2 + \cdots + X_n ] &= V[X_1] +\cdots+ V[X_n]\\
&= σ^2 +\cdots+ σ^2\\
&= nσ^2
\end{align}
\]
よって、n が十分に大きいとき、確率変数の総和 \(X_1 + X_2 + \cdots + X_n\) の分布が正規分布に近似できるので、
$$\\\\\\X_1 + X_2 + \cdots + X_n 〜 N( nμ、nσ^2)$$
のように書けるということです。
中心極限定理3 (定理2の言い換え)
互いに独立であり、かつ同一分布に従う確率変数 \(X_1 , X_2 , \cdots , X_n\) が \(E[X_i]=μ\)、\(V[X_i]=σ^2\) (i=1,2,…,n)であるとき、n が十分大きければ、その標本平均 \(\overline{X}=\frac{X_1 + X_2 + \cdots + X_n}{n}\) の分布は、正規分布 \(N( μ , \frac{σ^2}{n})\) で近似できる!!
解説
感覚的にはこちらの方が理解しやすいかもしれません。これは、確率変数を \(\overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}\) とおくと、n が十分大きい場合は、 \(\overline{X} 〜 N( μ、\frac{σ^2}{n})\) のように書けるということです。ここでも期待値と分散は、以下の計算で求められます。
\[\small
\begin{align}
E[\overline{X}] &= E[ \frac{X_1 + X_2 + \cdots + X_n}{n} ]\\
&=\frac{1}{n}(E[X_1] + E[X_2] +\cdots+ E[X_n])\\
&=\frac{1}{n}\cdot nμ\\
&= μ
\end{align}
\]\[\small
\begin{align}
V[\overline{X}] &= V[ \frac{X_1 + X_2 + \cdots + X_n}{n} ]\\
&=\frac{1}{n^2}(V[X_1] + V[X_2] +\cdots+ V[X_n])\\
&=\frac{1}{n^2}\cdot nσ^2\\
&= \frac{σ^2}{n}
\end{align}
\]よって、n が十分に大きいとき、確率変数の標本平均 \(\overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}\) の分布が正規分布に近似できるので、
$$\\\\\\\overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n} 〜 N( μ、\frac{σ^2}{n})$$
のように書けるということである。
中心極限定理の直感的理解
この中心極限定理を直感的に理解するためには、上記の定理3で考えてみるとわかりやすい。例えば、
サイコロを n 回投げたとき、i 回目の出目を確率変数 \(\overline{X_i}\) とおくとする。この時の出目の平均は \(\overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}\) となる。ここで例えば、サイコロを2回投げたときを考えると、n = 2であり\(\overline{X} = \frac{X_1 + X_2}{2}\) となる場合を考えてみる。このとき、各確率変数、出目、確率をすべて書き出してみると以下の表のようになる。
上記の表を元にグラフを描いてみると、\(\overline{X}\) の分布は以下のようになる。
この上記のグラフは正規分布には程遠い形をしていますね。ですので、さらにサイコロを投げる回数を増やし、n = 3 のときを考えてみると、どんどん分布が綺麗な正規分布に近づいて行くのがわかります。

上記の分布の形をみると、n = 3 でもうすでに綺麗な正規分布の形ですよね。さすがに、n = 4 以上は計算するのが厳しいのですが、要するに n をどんどん大きくしていくことによって、標本平均の分布は正規分布に近づいていくということがわかると思います。
まとめ
このように具体的に視覚化してみることによって、中心極限定理は理解できると思います。別の記事では、この中心極限定理を実際にどのように使っていくか、具体例を示しながら解説していきたいと思います。もう一度繰り返しますが、中心極限定理は、確率変数の同一分布性と独立性がポイントです。
【中心極限定理】
互いに独立であり、かつ同一分布に従う確率変数 \(X_1 , X_2 , \cdots , X_n\) が \(E[X_i]=μ\)、\(V[X_i]=σ^2\) (i=1,2,…,n)であるとき、n が十分大きければ、その標本平均 \(\overline{X}=\frac{X_1 + X_2 + \cdots + X_n}{n}\) の分布は、正規分布 \(N( μ , \frac{σ^2}{n})\) で近似できる!!
統計学 参考書
以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。
独習 統計学24講: 医療データの見方・使い方
式での計算過程は少し足りないと思いますが、文章で丁寧に説明されており理解が進みました。
スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!
計算でゴリゴリ証明してくれているので、根底から理解できます。
統計学入門 (基礎統計学Ⅰ)
東京医科歯科大学の教養時代はこの教科書を用いて勉強していました。