ここではカイ二乗検定の、独立性の検定についての演習をします。医学部学士編入試験でも頻出の範囲だから、しっかり練習しておきましょう。
カイ二乗分布については、適合度検定についても復習しておくと良いと思います。
独立性の検定について
独立性の検定の基礎については、以下の記事を参照してください。
問題1
【問題1】
X 小学校の6年生男子300人中、168人が肥満であった。Y 小学校の6年生男子200人中、132人が肥満であった。両群の肥満割合に差があるといえるか? 必要があれば、下のカイ二乗分布表を用いて良い。
![]()
( 旭川医科大学 2017 )
【解答例】
帰無仮説:H0 = 「 X 小学校と Y 小学校の男子の肥満割合は互いに独立である 」
対立仮説:H1 = 「 X 小学校と Y 小学校の男子の肥満割合は互いに独立であるとはいえない 」
上記のように仮説を立てる。
① H0 の仮説の下で以下のクロス表を作り、観測度数を記入する。
|
肥満男子 |
非肥満男子 |
合計 |
X 小学校 |
168 |
132 |
300 |
Y 小学校 |
132 |
68 |
200 |
合計 |
300 |
200 |
500 |
② 次式により期待度数を求める。
X 小学校であり、かつ肥満男子 の期待度数 = \(\frac{300 \times 300}{500} = 180\)
同様の計算で各期待度数を求め、( )内に埋めていく。
|
肥満男子 |
非肥満男子 |
合計 |
X 小学校 |
168(180) |
132(120) |
300 |
Y 小学校 |
132(120) |
68(80) |
200 |
合計 |
300 |
200 |
500 |
③ 統計検定量である 食い違い度 を求めて棄却域と比較する。
$$\sum\frac{(O - E)^2}{E} = \frac{(168 - 180)^2}{180} + \frac{(132 - 120)^2}{120} + \frac{(132 - 120)^2}{120} + \frac{(68 - 80)^2}{80} = 5 > 3.8415$$
(この検定統計量は、自由度 ( 2 - 1 )( 2 - 1 ) = 1 のカイ二乗分布に従うので、有意水準 0.05 とするとカイ二乗値は 3.84となる)
棄却域に入っているので帰無仮説 H0 は棄却される。
(すなわち、X小学校とY小学校の男子の肥満割合は互いに独立であるとはいえない。)
【ポイント】
記事3でも扱いましたが、一応復習しておきましょう。この独立性の検定では、帰無仮説を「 ◯◯ と △△ は互いに独立である」と仮定するところからはじまる。この仮定をすることによって事象 A と事象 B が独立であることの定義
$$「事象 A と事象 B が独立である」 \Leftrightarrow P(A \land B) = P(A)P(B)$$
が使えることになります。この式が使えると、問題1において、
事象 A:X 小学校の生徒である生徒数を a、事象 B:肥満である生徒数を b、全体の人数を N
とおくと、
$$ P(A \land B) = P(A)P(B) = \frac{a}{N} \times \frac{b}{N} $$
と書けることになり、
$$期待度数 E = N \times P(A \land B) = N \times \frac{a}{N} \times \frac{b}{N} $$
よって、
$$期待度数 E = \frac{a \times b}{N}$$
となります。
問題2
【問題2】
ある日本の男女のアンケート調査により、米国において銃規制は行うべきか否か、という意識が男女で異なるかどうかを調べた。銃規制をするべき ( 男15人:女5人 )、どちらでも良い ( 男10人:女5人 )、銃規制をするべきではない ( 男5人:女10人 ) の3通りで回答を得た。銃規制に対する考え方と性別は無関係であるといえるか? 必要があれば、下のカイ二乗分布表を用いて良い。
【 カイ二乗分布表 】
![]()
( 創作問題 )
【解答例】
帰無仮説:H0 = 「 銃規制に対する考え方と性別は独立である 」( 銃規制に対する考え方と性別は無関係である )
対立仮説:H1 = 「 銃規制に対する考え方と性別は独立であるとはいえない 」
観測度数 O と( )内に期待度数 E を求めると以下のようになる。
観測度数O
(期待度数E) |
銃規制するべき |
どちらでも良い |
銃規制するべきでない |
合計 |
男 |
15 (12) |
10(9) |
5(9) |
30 |
女 |
5 (8) |
5(6) |
10 (6) |
20 |
合計 |
20 |
15 |
15 |
50 |
次に、統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O - E)^2}{E} = \frac{(15 - 12)^2}{12} + \frac{(10 - 9)^2}{9} + \frac{(5 - 9)^2}{9} + \frac{(5 - 8)^2}{8} $$
$$ + \frac{(5 - 6)^2}{6} + \frac{(10 - 6)^2}{6} = 6.6 > 5.9915 ( 自由度 2×1 有意水準 0.05 )$$
この値は、χ2 分布における上側 5 %点 5.99 と比較すると大きく、棄却域に入っている。よって、帰無仮説 H0 は棄却される。
( 銃規制に対する考え方と性別は独立であるとは言えない、つまり無関係ではないとなる )
【ポイント】
帰無仮説を「 二つの事象は独立である 」と仮定することがポイント。検定統計量である 食い違い度 の計算はこれまでと同じ。自由度に関しては、( 項目数 - 1 ) × ( 項目数 - 1 ) であることに注意。
問題3
【問題3】
アフリカにはヒトの赤血球に寄生する熱帯熱マラリア原虫が常在している。ウガンダのある部族で5歳以下の子供達290名を対象に鎌状型赤血球とマラリア感染の関係を調査したところ、次のような観測度数が得られた。赤血球の鎌状型とマラリア感染は関係があるといえるか?統計学的に推察せよ。 必要があれば、下のカイ二乗分布表を用いて良い。
( 旭川医科大 改題 )
|
マラリア感染 ( + ) |
マラリア感染 ( - ) |
合計 |
鎌状型赤血球 |
12 |
31 |
43 |
正常型赤血球 |
113 |
134 |
247 |
合計 |
125 |
165 |
290 |
【 カイ二乗分布表 】
![]()
【解答例】
帰無仮説:H0 = 「 赤血球が鎌状型であることとマラリアに感染していることは独立である 」( 関係が無い )
対立仮説:H1 = 「 赤血球が鎌状型であることとマラリアに感染していることは独立であるとはいえない 」
観測度数と( )内に期待度数を求め、クロス表を完成させる。
|
マラリア感染 ( + ) |
マラリア感染 ( - ) |
合計 |
鎌状型赤血球 |
12 (18.53) |
31 (24.47) |
43 |
正常型赤血球 |
113 (106.47) |
134 (140.53) |
247 |
合計 |
125 |
165 |
290 |
次に、統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O - E)^2}{E} = \frac{(12 - 18.53)^2}{18.53} + \frac{(31 - 24.47)^2}{24.47} + \frac{(113 - 106.47)^2}{106.47} + \frac{(134 - 140.53)^2}{140.53} $$
$$ = 4.75 > 3.84$$
自由度 1 × 1 有意水準 0.05
よって、棄却域に入っているので帰無仮説 H0 は棄却される。
( 赤血球が鎌状型であることとマラリアに感染していることは独立であるとはいえない、つまり関係がある )
問題4
【問題4】
ヒト常染色体上のメンデル遺伝様式を示す遺伝子 ABC には、A、T、G の3つの対立遺伝子が存在する。日本人250名から任意にサンプルを採取し、その遺伝子型を調べたところ、表1の結果を得た。この時、各遺伝子 A、T、G の遺伝子頻度はいくらか?また、これらの観測度数がハーディーワインバーグの法則が成立を仮定した場合の期待度数と適合しているかどうかを統計学的に推察せよ。 必要があれば、下のカイ二乗分布表を用いて良い。
表1 日本人250名における遺伝子 ABC の遺伝子型数
遺伝子型 |
A |
T |
G |
A |
57 |
78 |
45 |
T |
- |
28 |
30 |
G |
- |
- |
12 |
【 カイ二乗分布表 】
![]()
【解答例】
まず遺伝子頻度を求める。
$$遺伝子Aの遺伝子頻度 = \frac{AA \times 2 + AT + AG}{AA \times 2 + AT \times 2 +AG \times 2 + TT \times 2 + TG \times 2 + GG \times 2 } $$
$$ = \frac{57 \times 2 + 78 + 45}{250 \times 2 } = 0.474 (=p) (遺伝子型AAのAの乗ってるアレルは2本ある)$$
分子の ×2、分母の各×2 は忘れないこと!
同様に計算すると
$$遺伝子Tの遺伝子頻度 = \frac{TT \times 2 + AT + TG}{250 \times 2 } = \frac{28 \times 2 + 78 + 30}{250 \times 2 } = 0.328 (=q) $$
$$遺伝子Gの遺伝子頻度 = \frac{GG \times 2 + AG + TG}{250 \times 2 } = \frac{12 \times 2 + 45 + 30}{250 \times 2 } = 0.198 (=r) $$
$$ここで p + q + r = 1 となることに注意しておく。$$
次に、ハーディーワインバーグ法則が成立すると仮定すると、
$$遺伝子型AAの遺伝子頻度 = 250 \times p^2 = 56.169$$
$$遺伝子型ATの遺伝子頻度 = 250 \times 2pq = 77.736$$
(父がAかつ母がT、または父がTかつ母がAの2通りあるため ×2を忘れない!)
$$遺伝子型AGの遺伝子頻度 = 250 \times 2pr = 46.962$$
$$遺伝子型TTの遺伝子頻度 = 250 \times q^2 = 26.896$$
$$遺伝子型TGの遺伝子頻度 = 250 \times 2qr = 32.472$$
$$遺伝子型GGの遺伝子頻度 = 250 \times r^2 = 9.801$$
そして、次の仮定を行い、H0 の仮定のもとχ2 分布を用いた適合度検定を行う。
帰無仮説:H0 = 「 日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がない 」
対立仮説:H1 = 「 日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がないとはいえない 」
表1の観測度数に加えて( )内に期待度数を記入する。
遺伝子型 |
A |
T |
G |
A |
57 (56.169) |
78 (77.736) |
45 (46.962) |
T |
- |
28 (26.896) |
30 (32.472) |
G |
- |
- |
12 (9.801) |
次に、統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O - E)^2}{E} = \frac{(57 - 56.169)^2}{56.196} + \frac{(78 - 77.736)^2}{77.736} + \frac{(45 - 46.962)^2}{46.962} $$
$$+ \frac{(28 - 26.896)^2}{26.896} + \frac{(30 - 32.472)^2}{32.472} + \frac{(12 - 9.801)^2}{9.801} = 0.8220 $$
$$ < 11.0705 (自由度5 有意水準0.05)$$
棄却域に入っていないので帰無仮説 H0 は棄却されない。
( 日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がない、つまり。ハーディーワインバーグの法則が成立していると言える)
【ポイント】
遺伝子頻度の計算は頻出なので必ずできるようにしておくこと。特に、間違えやすいのは遺伝子型が AA の時、遺伝子 A の乗っているアレルは2本あるので、A の遺伝子頻度は ×2 を忘れないこと。
( 補足 )
今回の問題は日本人全体からサンプルを抽出したが、これがもし仮にある小さな村5000人をサンプルにした場合、ハーディーワインバーグの法則は成立しなくなる。これは、ハーディーワインバーグ成立条件の一つである「遺伝的浮動が起こらない」という条件を満たしていないからである。母集団の構成数が少ないため、遺伝的浮動の効果が大きくなってしまう。
ハーディーワインバーグの法則についてはコチラ↓
[blogcard url="http://igakubugakushi.com/hardy-weinberg"]