【統計学】カイ二乗検定

医学部学士編入

医学部学士編入生命科学試験では、統計学の分野が比較的出題されます。特にこのχ2検定に関しては、比較的多くの受験校でも出題されています。対策ができていない受験生は全く解けませんので、少し対策しておくだけで非常に有利になると考えています。実際、2017年入試では鹿児島大、旭川医科大と出題されました。このページでは、χ2検定に関する頻出問題を提示してありますので参考にして頂ければ幸いです。


スポンサーリンク

【χ2検定】

χ2検定には主に大きく分けて2種類ある。

  1. 適合度検定・・・観測された度数分布が理論分布と同じかどうかを検定
  2. 独立性検定・・・2つ以上の分類のクロス集計表において、その分類の関連性があるかどうかを検定

この2つがあることを覚えておく。例題を解きながら二つの検定を見てゆこう。

 

【適合度検定】

【問題1 サイコロの歪みを調べる】
 サイコロを210回振るとする。出た目がそれぞれ、1の目25回、2の目30回、3の目35回、4の目40回、5の目35回、6の目45回出たとする。このサイコロは歪んでいるといえるか?(頻出問題)
【解答例】

帰無仮説:H0 = 「サイコロの出目に差はない」(サイコロは歪んでいない)

対立仮説:H1 = 「サイコロの出目に差はないとはいえない」
上記のように仮説を立てる。
 ①H0の仮説の下で以下の表を作る。
出目 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
1      
2  
3
4  
5  
6
②観測度数Oに出た目の数を記入する。
③出る目の期待確率は、H0の仮定のもとではサイコロに歪みが無いので各々1/6である。
④期待度数は210回サイコロを振ったら、全ての出目は1/6の確率で出る。
⑤次式を計算する。
$$\frac{(O – E)^2}{E} $$を計算する。
出目 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
1  25 1/6  35 (=210/6)  -10  100  100/35
2  30 1/6  35 (=210/6)  -5  25  25/35
3  35 1/6  35 (=210/6)  0  0  0/35
4  40 1/6  35 (=210/6)  5  25  25/35
5  35 1/6  35 (=210/6)  0  0  0/35
6  45 1/6  35 (=210/6)  10  100  100/35
ここで 検定量 ( χ2と呼ぶ)を計算する。
$$\sum\frac{(O – E)^2}{E} = \frac{250}{35} = 7.14285… $$
⑦自由度は(項目数-1)で与えられるので、自由度 = 5 となる。
⑧自由度5、有意水準 0.05 (危険率 5%)でχ2分布表から値を調べる。→ 11.0705
⑨最後に
検定統計量= 7.14285…< 11.0705
であるから検定統計量は棄却域に無い。
よって、帰無仮説は棄却されない。
すなわち、「サイコロに歪みは無い」といえる。
【ポイント】
上記の手順を踏めば必ず解けるので、しっかりと計算したい。
棄却域に関しては、この問題では自由度5、有意水準 0.05 (危険率 5%)で与えられた値 7.14285…は言い換えると、
自由度5、χ2値7.14285…で与えられる帰無仮説 H0が起こる確率は5%である
ということ。このχ2値が、7.14285…を超える値の時、その時の確率は5%より小さいことになり、最初に行ったH0が起こる可能性が5%より小さいということになる。つまり、これはほぼ起こらないからこの仮説が正しいとは言えない!となる。

スポンサーリンク

問題1はサイコロの歪みが無い、という結論になった。(確かに出目も均等っぽいのでそうかも) 次は、出目を少し変えてみて歪んだサイコロであると結論づける問題にしてみる。

【問題2】
問題1で出目を1の目55回、2の目10回、3の目25回、4の目20回、5の目35回、6の目65回出たとする。このサイコロは歪んでいるといえるか?
これだとパッと見で出目が偏っている様に見える。実際に計算で確かめてみよう。
【解答例】

 問題1と比べて変化した値を赤数字にしてある。

出目 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
1  55 1/6  35 (=210/6)  20  400  400/35
2  10 1/6  35 (=210/6)  -25  625  625/35
3  25 1/6  35 (=210/6)  -10  100  100/35
4  20 1/6  35 (=210/6)  -15  625  625/35
5  35 1/6  35 (=210/6)  0  0  0/35
6  65 1/6  35 (=210/6)  30  900  900/35

χ2を計算すると、

Σ (O – E)^2/E = (400+625+100+625+0+900)/35 = 2650/35 = 75.714… > 11.0705 (自由度5、有意水準0.05)

この場合、検定量 χ2 値が11.075を上回っており棄却域に存在する。つまり、この仮説が起こる確率は5%より小さいことがわかる。よって、この仮説が起こることはほとんど無くて正しくは無い、と結論付ける。対立仮説 H1が採用され、

対立仮説 :H1 = 「サイコロに歪みは無いとはいえない」

となる。


スポンサーリンク

【問題3】
無作為に300人標本を選んだつもりであったが、男女比が 3:7 となっていた。これは無作為に標本を選んだといえるか?(頻出問題) 
今回の自由度は項目数が男女の2であるから、-1を行なって自由度は1となる。
【解答例】

帰無仮説:H0 = 「標本の男女比に差は無い」

対立仮説:H1 = 「標本の男女比に差は無いとはいえない」
標本 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
 90  1/2  150 (300/2)  -60  360  360/150
 210  1/2  150 (300/2)  60  360  360/150
χ2値 = (360+360)/150 = 720/150 = 4.8 > 3.8415 (自由度1、有意水準0.05)
棄却域に入っているので帰無仮説は棄却され、対立仮説H1が採用される。
(つまり、この帰無仮説が起こる確率は5%より低いので、帰無仮説は正しいとはいえず、標本の男女比に差がないとはいえない。)

 

 

【問題4】
日本人のABO式血液型の分布は、A型40%,O型30%,B型20%,AB型10%とされている。ある町で200人の献血を行ったところA型45%,O型15%,B型25%,AB型15%データを得た。この町の住人の血液型分布は,日本人全体の血液型分布とほぼ同じと見なしてよいか?(頻出問題)
【解答例】

帰無仮説:H0 = 「標本のABO比と日本人全体のそれに差は無い」

対立仮説:H1 = 「標本のABO比と日本人全体のそれに差は無いとはいえない」
血液型 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
A型  90  4/10  80 (200×4/10)  10  100  100/80
O型  30  3/10  60 (200×4/10)  -30  900  900/60
B型  50  2/10  40 (200×4/10)  10  100  100/40
AB型  30  1/10  20 (200×4/10)  10  100  100/20
自由度は項目数が4なので、自由度3
χ2 = 100/80 + 900/60 + 100/40 + 100/20 =  = 1.25 + 15 + 2.5 + 5 = 35 > 7.8147 (自由度3、有意水準0.05)
よって棄却域にあるため、帰無仮説は棄却され対立仮説を採用する。
この町の住人の血液型分布は日本人全体の血液型分布と差がないとはいえない。(日本人全体の分布とは異なる)

スポンサーリンク

【問題5】
学生Aはこれまでの模擬単語テストでは、10問のうち7問程度の正解率であったが、粉骨砕身猛烈な試験勉強の末に、今回の本番の単語テストでは、100問のうち85問の正解率であった。このことから学生Aの実力が上がったと判断して良いか? (秋田大 改)

正解と不正解の数を問題3の「男女」比のように扱ってゆくと解ける。項目数は2なので自由度は1 

【解答例】

帰無仮説:H0 = 「試験前後の学生Aの学力に差は無い」

対立仮説:H1 = 「試験前後の学生Aの学力に差は無いとはいえない」
標本 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
正解  85  7/10  70 (100×7/10)  15 225 225/70
不正解 15 3/10 30 (100×3/10) -15 225 225/30
χ2 = 225/70 + 225/30 = 10.714…> 3.8415 (自由度1、有意水準0.05)
となる。
棄却域に入っているので帰無仮説は棄却され、対立仮説H1が採用される。
(つまり、この帰無仮説が起こる確率は5%より低いので、帰無仮説は正しいとはいえず、成績が向上したといえる。)

 

(補足1)

因みに秋田大学の問題では、模擬テストでは3問中2問正解していたが、本番では8問中7問正解したとなっていた。この場合、上と同様の計算を行うと、χ2= 1.5625 < 3.8415 (標準正規分布の有意水準0.05の基準値 1.960を二乗したもの)  であるから、帰無仮説は棄却されない。つまり、成績は向上したとはいえない。

(補足2)

加えて、秋田大学の問題では、「次回の模擬テストの問題でも、これと同程度以上の好成績を上げたとしたら成績が向上したと言えるか?」という問題が続いていた。この場合、模擬テストでの正解率2/3はそのままにして、「本番では16問中14問正解した」と考える。そのまま同様の計算を行うと、χ2= 3.125 < 3.8415 であるから、帰無仮説は棄却されない。つまり、成績が向上したとはいえない。

 

【ポイント】

秋田大学の問題では、χ2値の表が与えられておらず、以下のような記載があった。

「判断基準が必要とされる場合には、危険率5%を用いること。また、標準正規分布に従う変量 z については、P(|z|> 2.576) = 0.01、P(|z|> 2.326) = 0.02、P(|z|> 1.960) = 0.05、P(|z|> 1.645) = 0.10、であることがわかっている。」

この場合、χ2検定の基準値は 1.9602 = 3.8415 を用いる。

これができるのは、X が標準正規分布N(0,1)に従う確率変数とすると、Z = Xの従う分布を自由度1のχ2分布と言うからである。なので、「標準正規分布に従う変量 zの有意水準0.05の基準値は1.960であるので、χ2分布の有意水準0.05の基準値は1.9602 = 3.8415である」と書いて3.8415を用いる。

数学的証明はこちら→コチラ


スポンサーリンク

【問題6】
ある養鶏場でニワトリが産む卵の数を数えたところ月曜日22個、火曜日30個、水曜日25個、木曜日29個、金曜日32個、土曜日33個、日曜日19個であった。この養鶏場のニワトリは曜日によって産む卵の数に違いがあるといえるか?
【解答例】

帰無仮説:H0 = 「養鶏場のニワトリは曜日によって産む卵の数に差は無い」

対立仮説:H1 = 「養鶏場のニワトリは曜日によって産む卵の数に差は無いとはいえない」
曜日 O観測度数 期待確率 E期待度数 O – E (O – E)2 (O – E)2/E
 22 1/7  27 (100×7/10)  -5 25 25/27
30 1/7 27 (100×7/10) 3 9 9/27
25 1/7 27 (100×7/10) -2 4 4/27
29 1/7 27 (100×7/10) 2 4 4/27
32 1/7 27 (100×7/10) 5 25 25/27
33 1/7 27 (100×7/10) 6 36 36/27
18 1/7 27 (100×7/10) -9 81 81/27
合計 189 194 194/27
χ2 = (25 + 9 + 4 +4+ 25 + 36 + 81) / 27 = 194/27 = 7.1851…< 12.591… (自由度6、有意水準0.05)
となる。
棄却域に入っていないので帰無仮説H0は棄却されない。
(つまり、養鶏場のニワトリは曜日によって産む卵の数に差は無い)

スポンサーリンク

【独立性検定】

【問題1】
X小学校の6年生男子300人中、168人が肥満であった。Y小学校の6年生男子200人中、132人が肥満であった。両群の肥満割合に差があるといえるか?(旭川医科大学 2017)
【解答例】

帰無仮説:H0 = 「X小学校とY小学校の男子の肥満割合は互いに独立である」

対立仮説:H1 = 「X小学校とY小学校の男子の肥満割合は互いに独立であるとはいえない」
上記のように仮説を立てる。
 ①H0の仮説の下で以下の表を作る。(観測度数)
 O観測度数 肥満男子 非肥満男子 合計
X小学校  168 132 300
Y小学校 132 68 200
合計 300  200 500
②次式により期待度数を求める。
$$X小学校で肥満男子の期待度数 = \frac{300 \times 300}{500} = 180$$

同様の計算で各期待度数を求め以下の表を埋める。

 E期待度数 肥満男子 非肥満男子
X小学校  180 120
Y小学校 120 80
③統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O – E)^2}{E} = \frac{(168 – 180)^2}{180} + \frac{(132 – 120)^2}{120} + \frac{(132 – 120)^2}{120} + \frac{(68 – 80)^2}{80} = 5 > 3.8415$$
(この検定統計量は、自由度 (2 – 1)(2 – 1) = 1 のカイ二乗分布に従うので、有意水準0.05とするとカイ二乗値は 3.8415となる)
棄却域に入っているので帰無仮説H0は棄却される。
(すなわち、X小学校とY小学校の男子の肥満割合は互いに独立であるとはいえない。)

【ポイント】

この独立性検定では、帰無仮説を「◯◯と△△は互いに独立である」と仮定するところからはじまる。この仮定をすることによって事象Aと事象Bが独立であることの定義

$$「事象Aと事象Bが独立である」 \Leftrightarrow  P(A \land B) = P(A)P(B)$$

が使えることになる。この式が使えると、問題1において、

事象A:X小学校の生徒である生徒数をa、事象B:肥満である生徒数をb、全体の人数をN

とおくと、

$$ P(A \land B) = P(A)P(B) = \frac{a}{N} \times \frac{b}{N} $$

と書けることになり、

$$期待度数 E = N \times P(A \land B) = N \times \frac{a}{N} \times \frac{b}{N} $$

よって、

$$期待度数 E = \frac{a \times b}{N}$$

となる。


スポンサーリンク

【問題2】
ある日本の男女のアンケート調査により、米国において銃規制は行うべきか否かという意識が男女で異なるかどうかを調べた。銃規制をするべき(男15人:女5人)どちらでも良い(男10人:女5人)銃規制をするべきではない(男5人:女10人)の3通りで回答を得た。銃規制に対する考え方と性別は無関係であるといえるか?(創作問題)
【解答例】

帰無仮説:H0 = 「銃規制に対する考え方と性別は独立である」(銃規制に対する考え方と性別は無関係である)

対立仮説:H1 = 「銃規制に対する考え方と性別は独立であるとはいえない」
観測度数Oと期待度数Eを求めると以下のようになる。
観測度数O

(期待度数E)

 銃規制するべき どちらでも良い 銃規制するべきでない 合計
15 (12) 10 (9) 5 (9) 30
5 (8) 5 (6) 10 (6) 20
合計 20 15 15 50
 次に、統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O – E)^2}{E} = \frac{(15 – 12)^2}{12} + \frac{(10 – 9)^2}{9} + \frac{(5 – 9)^2}{9} + \frac{(5 – 8)^2}{8} $$
$$ + \frac{(5 – 6)^2}{6} + \frac{(10 – 6)^2}{6} = 6.6 > 5.9915  (自由度2×1  有意水準0.05)$$
この値は、χ2分布における上側5%点 5.9915 と比較すると大きく、棄却域に入っている。よって、帰無仮説H0は棄却される。
(銃規制に対する考え方と性別は独立であるとは言えない、つまり無関係ではないとなる)

【ポイント】

帰無仮説を「二つの事象は独立である」と仮定することがポイント。検定統計量の計算はこれまでと同じ。自由度に関しては、(項目数 – 1) × (項目数 – 1) であることに注意。


スポンサーリンク

【問題3】

 アフリカにはヒトの赤血球に寄生する熱帯熱マラリア原虫が常在している。ウガンダのある部族で5歳以下の子供達290名を対象に鎌状赤血球質とマラリア感染の関係を調査したところ、次のような観測度数が得られた。赤血球の鎌状型とマラリア感染は関係あるといえるか?統計学的に推察せよ。(旭川医科大 改題)

観測度数O

(期待度数E)

マラリア感染 (+) マラリア感染 (-) 合計
鎌状型赤血球  12 31  43
正常型赤血球 113 134 247
合計 125 165 290
【解答例】

帰無仮説:H0 = 「赤血球が鎌状型であることマラリアに感染していることは独立である」(関係が無い)

対立仮説:H1 = 「赤血球が鎌状型であることとマラリアに感染していることは独立であるとはいえない」
 期待度数を計算する。
観測度数O

(期待度数E)

マラリア感染 (+) マラリア感染 (-) 合計
鎌状型赤血球  12 (18.53) 31 (24.47)  43
正常型赤血球 113 (106.47) 134 (140.53) 247
合計 125 165 290
 次に、統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O – E)^2}{E} = \frac{(12 – 18.53)^2}{18.53} + \frac{(31 – 24.47)^2}{24.47} + \frac{(113 – 106.47)^2}{106.47} + \frac{(134 – 140.53)^2}{140.53} $$
$$ = 4.75 > 3.8415  (自由度1×1  有意水準0.05)$$
よって、棄却域に入っているので帰無仮説H0は棄却される。
(赤血球が鎌状型であることとマラリアに感染していることは独立であるとはいえない、つまり関係がある)
 補足:実際の出題では観測度数とχ2値は与えられていた。

スポンサーリンク

【問題4】

ヒト常染色体上のメンデル遺伝様式を示す遺伝子ABCには、A、T、Gの3つの対立遺伝子が存在する。日本人250名から任意にサンプルを採取し、その遺伝子型を調べたところ、表1の結果を得た。この時、各遺伝子A、T、Gの遺伝子頻度はいくらか?また、これらの観測度数がハーディーワインバーグの法則が成立を仮定した場合の期待度数と適合しているかどうかを統計学的に推察せよ。

 表1 日本人250名における遺伝子ABCの遺伝子型数
遺伝子型 A T G
A  57 78  45
T 28 30
G 12

 

【解答例】

まず遺伝子頻度を求める。

$$遺伝子Aの遺伝子頻度 = \frac{AA \times 2 + AT + AG}{AA \times 2 + AT \times 2 +AG \times 2 + TT \times 2 + TG \times 2 + GG \times 2 } $$
$$ = \frac{57 \times 2 + 78 + 45}{250 \times 2 } = 0.474  (=p)  (遺伝子型AAのAの乗ってるアレルは2本ある)$$
分子の ×2、分母の各×2 は忘れないこと!
同様に計算すると
$$遺伝子Tの遺伝子頻度 = \frac{TT \times 2 + AT + TG}{250 \times 2 } = \frac{28 \times 2 + 78 + 30}{250 \times 2 } = 0.328   (=q) $$
$$遺伝子Gの遺伝子頻度 = \frac{GG \times 2 + AG + TG}{250 \times 2 } = \frac{12 \times 2 + 45 + 30}{250 \times 2 } = 0.198   (=r) $$
$$ここで p + q + r = 1 となることに注意しておく。$$
次に、ハーディーワインバーグ法則が成立すると仮定すると、
$$遺伝子型AAの遺伝子頻度 = 250 \times p^2 = 56.169$$
$$遺伝子型ATの遺伝子頻度 = 250 \times 2pq = 77.736$$
(父がAかつ母がT、または父がTかつ母がAの2通りあるため ×2を忘れない!)
$$遺伝子型AGの遺伝子頻度 = 250 \times 2pr = 46.962$$
$$遺伝子型TTの遺伝子頻度 = 250 \times q^2 = 26.896$$
$$遺伝子型TGの遺伝子頻度 = 250 \times 2qr = 32.472$$
$$遺伝子型GGの遺伝子頻度 = 250 \times r^2 = 9.801$$
そして、次の仮定を行い、Hの仮定のもとχ2分布を用いた適合度検定を行う。
帰無仮説:H0 = 「日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がない」
対立仮説:H1 = 「日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がないとはいえない」
表1の観測度数に加えて( )内に期待度数を記入する。
遺伝子型 A T G
A  57 (56.169) 78 (77.736)  45 (46.962)
T 28 (26.896) 30 (32.472)
G 12 (9.801)
 次に、統計検定量を求めて棄却域と比較する。
$$\sum\frac{(O – E)^2}{E} = \frac{(57 – 56.169)^2}{56.196} + \frac{(78 – 77.736)^2}{77.736} + \frac{(45 – 46.962)^2}{46.962} $$
$$+ \frac{(28 – 26.896)^2}{26.896} + \frac{(30 – 32.472)^2}{32.472} + \frac{(12 – 9.801)^2}{9.801} = 0.8220 $$
$$ < 11.0705   (自由度5  有意水準0.05)$$
棄却域に入っていないので帰無仮説H0は棄却されない。
(日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がない、つまり。ハーディーワインバーグの法則が成立している、と言える)

【ポイント】

遺伝子頻度の計算は頻出なので必ずできるようにしておくこと。特に、間違えやすいのは遺伝子型がAAの時、遺伝子Aの乗っているアレルは2本あるので、Aの遺伝子頻度は ×2 を忘れないこと。

(補足)

今回の問題は日本人全体からサンプルを抽出したが、これがもし仮にある小さな村5000人をサンプルにした場合、ハーディーワインバーグの法則は成立しなくなる。これは、ハーディーワインバーグ成立条件の一つである「遺伝的浮動が起こらない」という条件を満たしていないからである。母集団の構成数が少ないため、遺伝的浮動の効果が大きくなってしまう。

ハーディーワインバーグの法則についてはコチラ↓


スポンサーリンク