
ここでは、カイ二乗検定を用いるもう一つの検定である『 独立性の検定 』について解説しています。
独立性の検定とは
独立性の検定を定義すると以下のように説明できます。
独立性の検定とは、2種類の属性が独立であるかどうかの検定のこと。
使用する分布に関しては、適合度検定と同じカイ二乗分布を用います。
『 2種類の属性 』とは?
属性っていうのは、例えば『 髪の色 』と『 眼の色 』のようなものを指します。このような、2つの属性があった場合
『 髪の色 』には『 金色、茶色、黒色 』などがあって、
『 眼の色 』には『 青色、灰色、茶色 』などがあります。
計算の手順
そして、ここでもやることは適合度検定のときと同じように、食い違い度 を計算します。
【手順】
① クロス表 ( 分割表 ) を作成するんだ!
②『 独立である 』の仮説に基づいて、期待度数を計算
(↑この段階が帰無仮説に当たる!)
③ 下の定理 3 に基づいて仮説を検定する!
( 自由度の計算だけ適合度検定の場合と異なるので注意!)
【定理3】総度数 n が十分大きいとき、r 行 c 列 のクロス表における 食い違い度 である次式
χ02 = Σ{(観測度数 - 期待度数)2 / (期待度数)}
は近似的に自由度 ( r - 1 )( c - 1 ) のχ2 分布に従う。
有意水準 α のとき、χ2 分布 の上側 100α % 点であるχ2 ( ( r - 1 )( c - 1 ), α ) と χ02 の値を比較する。
では、これもよくある問題で練習してみましょう。
例題
【問題】
『 髪の色 』と『 瞳の色 』という2つの属性に関連があるかどうかを調べたい。日本人100人について調査を行い、クロス表を作成したところ以下のようになった。
瞳の色 \ 髪の色 | 茶色 | 黒色 | 合計 |
茶色 | 20 | 30 | 50 |
黒色 | 15 | 25 | 40 |
灰色 | 5 | 5 | 10 |
合計 | 40 | 60 | 100 |
帰無仮説 H0:瞳の色と髪の色には関連はない ( 2つの属性は独立である )
対立仮説 H1:瞳の色と髪の色には関連はある ( 2つの属性は独立でない )
上記のように帰無仮説を定め、有意水準α = 0.05 で統計学的に検定せよ。必要があれば、以下のカイ二乗分布表を用いよ。
注意
観測度数はすでにクロス表に与えられていますので、期待度数の求め方の注意ですが、『2つの属性が互いに独立である 』とは、
属性 A に関する事象 Ai
属性 B に関する事象 Bj が常に独立であること
であり、それは以下と同値である。
P( Ai ∩ Bj ) = P( Ai ) × P( Bj ) ← ∩ は『 かつ 』の意味です。
が全ての i と j の組み合わせで成立すること
です。これを使って期待度数を計算していきます。
【解答】
例えば、瞳の色、髪の色がともに茶色の場合について期待度数を計算する。帰無仮説である、2つの属性が独立であるとすると、独立の定義より、
P ( 瞳が茶色 ∩ 髪が茶色 ) = P ( 瞳が茶色 ) × P ( 髪が茶色 )
となるから、全体の人数が100 ( = N とおく ) であることを考えると、瞳の色、髪の色がともに茶色である場合の期待度数は、
期待度数 = N × P ( 瞳が茶色 ∩ 髪が茶色 )
= N × P ( 瞳が茶色 ) × P ( 髪が茶色 ) ← 独立性を使った!
= N × \(\frac{50}{N}\) × \(\frac{40}{N}\)
同様に、
P ( 瞳が茶色 ) = 50/N P ( 瞳が黒色 ) = 40/N P(瞳が灰色) = 10/N
P ( 髪が茶色 ) = 40/N P ( 髪が黒色 ) = 60/N
であることから、クロス表の( )内に期待度数を記載すると以下のようになる。
瞳の色 \ 髪の色 | 茶色 | 黒色 | 合計 |
茶色 | 20 ( 50 × 40/100 = 20 ) | 30 ( 50 × 60/100 = 30 ) | 50 |
黒色 | 15 ( 40 × 40/100 = 16 ) | 25 ( 40 × 60/100 = 24 ) | 40 |
灰色 | 5 ( 10 × 40/100 = 4 ) | 5 ( 10 × 60/100 = 6 ) | 10 |
合計 | 40 | 60 | 100 |
上記のクロス表より 食い違い度 を計算すると以下のようになる。
χ02 = \(\frac{(20 -20)^2}{20}+ \cdots +\frac{(5 -6)^2}{6}=\frac{25}{48}= 0.5208...\) である。
この 食い違い度 χ02 は近似的に自由度 ( 3 - 1 )( 2 - 1 ) = 2 のχ2 分布に従う。自由度 2 のχ2 分布の上側 5%点は以下の表より
χ2 (2, 0.05) = 5.99
であるから、
χ02 = 0.52 < 11.1
であり、棄却されない。(食い違い度がこの値になる可能性が、確率5%以下ではない、すなわち有り得る現象)
つまり、偏りがあるとは言えない。
(解答おわり)
注意1
一般的に、クロス表の中の期待度数に『 1未満 』の値が存在する場合や、『 5 未満 』のマス目全体の20% を占める場合などは、χ2 分布への近似を悪化させないための配慮として、隣の同じ属性同士のセルを結合することが推奨されています。(それができない場合は、Fisher の正確確率検定を行います。)期待度が小さいときは、食い違い度に与える影響が大きいことが知られています。
例えば、以下のような場合で新しく検討してみましょう。数字は全体的に大きく変えてあります。
瞳の色 \ 髪の色 | 茶色 | 黒色 | 合計 |
茶色 | 27 ( 40 × 40/100 = 16 ) | 13 ( 40 × 60/100 = 24 ) | 40 |
黒色 | 2 ( 5 × 40/100 = 2 ) | 3 ( 5 × 60/100 = 3 ) | 5 |
灰色 | 11 ( 55 × 40/100 = 22 ) | 44 ( 55 × 60/100 = 33 ) | 55 |
合計 | 40 | 60 | 100 |
このとき、同様に計算してみると
χ02 = \(\frac{(27 - 16)^2}{16}+ \cdots +\frac{(44 -33)^2}{33}=21.711\) である。
この 食い違い度 χ02 は近似的に自由度 ( 3 - 1 )( 2 - 1 ) = 2 のχ2 分布に従う。自由度 2 のχ2 分布の上側 5%点は以下の表より
χ2 (2, 0.05) = 5.99
であるから、
χ02 = 21.711 > 5.99
であり、今度は棄却されます。(食い違い度がこの値になる可能性が、確率5%以下ではない、すなわち有り得る現象)
つまり、偏りがあるとはいえます。
しかし、注意にあるように、クロス表に『 5 未満 』のマス目全体の20% を占める場合などは、χ2 分布への近似を悪化させないための配慮として、隣の同じ属性同士のセルを結合することが推奨されているため、以下のようにセルを結合してみます。
瞳の色 \ 髪の色 | 茶色 | 黒色 | 合計 |
茶色 または 黒色 | 27 + 2 ( 16 + 2 ) | 13 + 3 ( 24 + 3 ) | 40 + 5 |
灰色 | 11 ( 55 × 40/100 = 22 ) | 44 ( 55 × 60/100 = 33 ) | 55 |
合計 | 40 | 60 | 100 |
このとき、同様に計算してみると
χ02 = \(\frac{(29 - 18)^2}{18}+ \cdots +\frac{(44 -33)^2}{33}=18.2...\) である。
この 食い違い度 χ02 は近似的に自由度 ( 2 - 1 )( 2 - 1 ) = 1 のχ2 分布に従う。自由度 1 のχ2 分布の上側 5%点は以下の表より
χ2 (1, 0.05) = 3.84
であるから、
χ02 = 18.2... > 3.84
よってこの場合も棄却されます。すなわち、この場合も二つの属性は独立でないといえます。しかし、一般的にはセルの結合によって検定結果が変わってくる可能性もありますので、注意が必要です。
注意2
クロス表がもともと、2×2の場合は、
イエーツの補正
もしくは、上述した
フィッシャーの正確確率検定 ( Fisher’s exact test )
を用います。
まとめ
今回の独立性の検定もなんとなく掴めたでしょうか。
この分野は、生命科学の問題と関連づけて出題されたりしますので、練習をしておくと良いと思います。