
ここでは、二項分布の知識について学んでいきます。二項分布はベルヌーイ試行とも呼ばれ、統計学の分野でも非常に重要な確率分布の一つです。また、n が十分に大きいとき、中心極限定理を用いて正規分布へ近似することにより区間推定を行なうこともできますし、確率変数を各確率変数の和へ分解して考えることで、母比率の区間推定や、母比率の検定の分野での理解が進みます。そのため、この二項分布はしっかりと学んでおく必要があります。基本から確認していきましょう。
ベルヌーイ試行(独立試行)とは?
以下の3条件を満たすものをベルヌーイ試行(独立試行)と呼ぶ。
② 各試行において、\(P(A)= p\) は一定値をとる。
③ 各試行は互いに独立である。
このことを踏まえて、以下の二項分布を定義します↓
二項分布の定義
$$P(X=k) = {}_n \mathrm{ C }_kp^k(1ーp)^{n-k}$$となる。この形で表現される、離散型確率分布を二項分布 (Biominal distribution) とよび、\(B(n,p)\) と書く。そして確率変数 \(X\) が二項分布に従うとき
$$X〜B(n,p)$$とかく。
このときの$$X〜B(n,p)$$ の \(n\) は n 回の試行を行なうこと、\(p\) は 成功 (A) の確率が p であることを意味しています。
二項分布の確率変数を各確率変数の和へ分解する!
二項分布の確率変数を、各確率変数の和へと分解することができます!これは、ベルヌーイ試行のなせる技であり、このことで二項分布の期待値、分散を一瞬で計算することが可能になります。
\[
X_i = \begin{cases}
1 & (確率\,p) \\
0 & (確率\,1-p)
\end{cases}
\]と書ける。このとき、二項分布 \(B(n,p)\) に従う確率変数 \(X\) は、 \(B(1,p)\) に従う互いに独立な確率変数 \(X_1、X_2、\cdots 、X_n\) の総和とみなすことができる。すなわち、$$X = X_1 + X_2 + \dots + X_n$$と書ける。
\(X_1、X_2、\cdots、X_n\) が各々 \(1\) か \(0\) の値を取るので、その合計が全体 n 回の試行において、 \(A\) が起こる回数になるというわけです。
二項分布の期待値と分散の計算
上記の確率変数の分解を行えば、二項分布の期待値と分散の計算が一瞬で可能になります。実際に、細かく計算を行なっていくことでも求められますので、それは別記事を参照してください。
\left\{ \begin{array}{ll}
E[X_i] &= 1\cdot p + 0\cdot(1-p) = p\\
V[X_i] &= (1-p)^2\cdot p + (0-p)^2\cdot(1-p) = p(1-p)
\end{array} \right.
\]したがって、期待値と分散の加法性より、\[
\left\{ \begin{array}{ll}
E[X]= nE[X_i] = np\\
V[X]= nV[X_i]= np(1-p)
\end{array} \right.
\]
このように一瞬で計算できます。この計算で注意してもらいたいのは、分散に関しては、各確率変数が互いに独立であることから加法性が成り立つことです。期待値に関しては、各確率変数が独立でなくても加法性は成立します。
二項分布の期待値と分散を定義から直接計算して導出する方法については、以下の記事を参照してください↓
まとめ
今回は二項分布に関する、基本的な知識を学びました。個人的には、確率変数を、各確率変数の総和に分けて考えることがポイントであると考えます。この考え方は、母比率の区間推定、母比率の検定の際に、非常に威力を発揮します↓
統計学 参考書
以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。
独習 統計学24講: 医療データの見方・使い方
式での計算過程は少し足りないと思いますが、文章で丁寧に説明されており理解が進みました。
スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!
計算でゴリゴリ証明してくれているので、根底から理解できます。
統計学入門 (基礎統計学Ⅰ)
東京医科歯科大学の教養時代はこの教科書を用いて勉強していました。