【統計学】カイ二乗検定2 適合度検定 ( 演習編 )
スポンサーリンク
今回は適合度検定の演習編です。医学部学士編入試験で出題された実際の問題や、類題たくさん用意しましたので、全問題を解いて練習してみてください。

適合度検定について

適合度検定の基本事項については、以下の記事を参照してください。

問題1

【問題1】

サイコロを 210 回振るとする。出た目がそれぞれ、1 の目 25 回、2 の目 30 回、3 の目 35 回、4 の目 40 回、5 の目 35 回、6 の目 45 回出たとする。このサイコロは歪んでいるといえるか? 必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

【解答例】

帰無仮説:H0 = 「 サイコロの出目に差はない 」( サイコロは歪んでいない )

対立仮説:H1 = 「 サイコロの出目に差はないとはいえない 」
上記のように仮説を立てる。
 ① Hの仮説の下で以下の表を埋める。
出目 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
1  25 1/6
2  30 1/6
3  35 1/6
4  40 1/6
5  35 1/6
6  45 1/6
② 観測度数 に出た目の数を記入する。
③ 出る目の期待確率は、Hの仮定のもとではサイコロに歪みが無いので各々 1/6 である。
④ 期待度数は 210 回サイコロを振ったら、全ての出目は 1/6 の確率で出る。
⑤ 次式を計算する。
$$\frac{(O - E)^2}{E} $$ を計算する。
出目 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
1  25 1/6  35 (=210/6)  -10  100  100/35
2  30 1/6  35 (=210/6)  -5  25  25/35
3  35 1/6  35 (=210/6)  0  0  0/35
4  40 1/6  35 (=210/6)  5  25  25/35
5  35 1/6  35 (=210/6)  0  0  0/35
6  45 1/6  35 (=210/6)  10  100  100/35
ここで、食い違い度 χを計算する。
$$\sum\frac{(O - E)^2}{E} = \frac{250}{35} = 7.14285... $$
⑦自由度は ( カテゴリー数 - 1 ) で与えられるので、自由度 = 5 となる。
⑧自由度 5、有意水準 0.05 ( 危険率 5% ) でカイ二乗分布表から値を調べる。→ 11.07
⑨最後に
検定統計量= 7.14285...< 11.07
であるから検定統計量は棄却域に無い。
よって、帰無仮説は棄却されない。
すなわち、「 サイコロに歪みは無い 」といえる。
【ポイント】
上記の手順を踏めば必ず解けるので、しっかりと計算しましょう。
棄却域に関しては、この問題では自由度 5、有意水準 0.05 ( 危険率 5 % とも言う ) で与えられた値 7.14285... は言い換えると、
自由度 5、χ02  の値が 7.14285...で与えられる帰無仮説 Hが起こる確率は 5 % より大きい
ということ。このχ02 値が、もし仮に 11.07 を超える値をとるならば、その確率は 5 % より小さいことになる。つまり、最初に行った Hが起こる可能性が 5 % より小さいということであり、その場合はこれはほぼ起こらないからこの仮説が正しいとは言えない、となる。

問題2

問題1はサイコロの歪みが無い、という結論になった。( 確かに出目も均等っぽいのでそうかも ) 次は、出目を少し変えてみて歪んだサイコロであると結論付ける問題を解いてみましょう。

【問題2】

問題1で出目を 1 の目 55 回、2 の目 10 回、3 の目 25 回、4 の目 20 回、5 の目 35 回、6 の目 65 回出たとする。このサイコロは歪んでいるといえるか?必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

これだとパッと見で出目が偏っている様に見える。実際に計算で確かめてみよう。
【解答例】

 問題1と比べて変化した値を赤数字にしてある。

出目 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
1 55 1/6  35 (=210/6)  20  400  400/35
2 10 1/6  35 (=210/6)  -25  625  625/35
3 25 1/6  35 (=210/6)  -10  100  100/35
4 20 1/6  35 (=210/6)  -15  625  625/35
5  35 1/6  35 (=210/6)  0  0  0/35
6 65 1/6  35 (=210/6)  30  900  900/35

χ0を計算すると、

Σ (O - E)^2/E = (400+625+100+625+0+900)/35 = 2650/35 = 75.714... >11.07 ( 自由度 5、有意水準 0.05 )

この場合、検定量 χ2 値が 11.07 を上回っており棄却域に存在する。つまり、この仮説が起こる確率は 5 % より小さいことがわかる。よって、この仮説が起こることはほとんど無くて正しくは無い、と結論付ける。対立仮説 Hが採用され、

対立仮説 :H1 = 「 サイコロに歪みは無いとはいえない 」

となる。

問題3

【問題3】

無作為に 300 人標本を選んだつもりであったが、男女比が 3 : 7 となっていた。これは無作為に標本を選んだといえるか? 必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

( 頻出問題 )

今回の自由度はカテゴリー数が男女の 2 であるから、-1 を行なって自由度は 1 となる。
【解答例】

帰無仮説:H0 = 「 標本の男女比に差は無い 」

対立仮説:H1 = 「 標本の男女比に差は無いとはいえない 」
標本 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
 90  1/2  150 (300/2)  -60  360  360/150
 210  1/2  150 (300/2)  60  360  360/150
χ02  = (360+360)/150 = 720/150 = 4.8 > 3.84 (自由度 1、有意水準 0.05 )
棄却域に入っているので帰無仮説は棄却され、対立仮説 Hが採用される。
(つまり、この帰無仮説が起こる確率は5%より低いので、帰無仮説は正しいとはいえず、標本の男女比に差がないとはいえない。)

 

 

問題4

【問題4】

日本人の ABO 式血液型の分布は、A 型 40 %,O 型 30 %,B 型 20 %, AB 型 10 %とされている。ある町で 200 人の献血を行ったところA 型 45 %,O 型 15 %,B 型 2 5%,AB 型 15 %データを得た。この町の住人の血液型分布は,日本人全体の血液型分布とほぼ同じと見なしてよいか? 必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

( 頻出問題 )

【解答例】

帰無仮説:H0 = 「 標本のABO比と日本人全体のそれに差は無い 」

対立仮説:H1 = 「 標本のABO比と日本人全体のそれに差は無いとはいえない 」
血液型 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
A 型  90  4/10  80 (200×4/10)  10  100  100/80
O 型  30  3/10  60 (200×4/10)  -30  900  900/60
B 型  50  2/10  40 (200×4/10)  10  100  100/40
AB 型  30  1/10  20 (200×4/10)  10  100  100/20
自由度は項目数が4なので、自由度3
χ02 = 100/80 + 900/60 + 100/40 + 100/20 =  = 1.25 + 15 + 2.5 + 5 = 35 > 7.82 ( 自由度 3 、有意水準 0.05 )
よって棄却域にあるため、帰無仮説は棄却され対立仮説を採用する。
この町の住人の血液型分布は日本人全体の血液型分布と差がないとはいえない。(日本人全体の分布とは異なる)

問題5

【問題5】

学生 A はこれまでの模擬単語テストでは、10 問のうち 7 問程度の正解率であったが、粉骨砕身猛烈な試験勉強の末に、今回の本番の単語テストでは、100 問のうち 85 問の正解率であった。このことから学生 A の実力が上がったと判断して良いか? 必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

( 秋田大 改 )

正解と不正解の数を問題 3 の「男女」比のように扱ってゆくと解ける。項目数は 2 なので自由度は 1 

【解答例】

帰無仮説:H0 = 「 試験前後の学生 A の学力に差は無い 」

対立仮説:H1 = 「 試験前後の学生 A の学力に差は無いとはいえない 」
標本 観測度数 期待確率 期待度数 O - E ( O - E ) 2 (O - E) 2/E
正解  85  7/10  70 (100×7/10)  15 225 225/70
不正解 15 3/10 30 (100×3/10) -15 225 225/30
χ02 = 225/70 + 225/30 = 10.714...> 3.84 ( 自由度 1 、有意水準 0.05 )
となる。
棄却域に入っているので帰無仮説は棄却され、対立仮説 Hが採用される。
(つまり、この帰無仮説が起こる確率は 5 % より低いので、帰無仮説は正しいとはいえず、成績が向上したといえる。)

 

(補足1)

因みに秋田大学の問題では、模擬テストでは 3 問中 2 問正解していたが、本番では 8 問中 7 問正解した となっていた。この場合、上と同様の計算を行うと、χ0=  1.5625  < 3.8415 ( 標準正規分布の有意水準 0.05 の基準値 1.960 を二乗したもの )  であるから、帰無仮説は棄却されない。つまり、成績は向上したとはいえない。

(補足2)

加えて、秋田大学の問題では、「 次回の模擬テストの問題でも、これと同程度以上の好成績を上げたとしたら成績が向上したと言えるか? 」という問題が続いていました。この場合、前回の模擬テストでの正解率 2/3 はそのままにして、「 本番では 16 問中 14 問正解した 」と考える。そのまま同様の計算を行うと、χ2= 3.125 < 3.8415 であるから、帰無仮説は棄却されない。つまり、成績が向上したとはいえない。

 

【ポイント】

秋田大学の問題では、χ値の表が与えられていないため、本来であればカイ二乗検定ではなく、母比率の検定として解答するべきでした。しかし、上記のようにも解くことができます。原文では以下のような記載がありました。

『 判断基準が必要とされる場合には、危険率5%を用いること。また、標準正規分布に従う変量 z については、P(|z|> 2.576) = 0.01、P(|z|> 2.326) = 0.02、P(|z|> 1.960) = 0.05、P(|z|> 1.645) = 0.10、であることがわかっている 』

 

問題6

【問題6】

ある養鶏場でニワトリが産む卵の数を数えたところ月曜日 22 個、火曜日 30 個、水曜日 25 個、木曜日 29 個、金曜日 32 個、土曜日 33 個、日曜日 19 個であった。この養鶏場のニワトリは曜日によって産む卵の数に違いがあるといえるか?必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

【解答例】

帰無仮説:H0 = 「 養鶏場のニワトリは曜日によって産む卵の数に差は無い 」

対立仮説:H1 = 「 養鶏場のニワトリは曜日によって産む卵の数に差は無いとはいえない 」
曜日 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
 22 1/7  27 (189×1/7)  -5 25 25/27
30 1/7 27 (189×1/7) 3 9 9/27
25 1/7 27 (189×1/7) -2 4 4/27
29 1/7 27 (189×1/7) 2 4 4/27
32 1/7 27 (189×1/7) 5 25 25/27
33 1/7 27 (189×1/7) 6 36 36/27
18 1/7 27 (189×1/7) -9 81 81/27
合計 189 194 194/27
χ02 = (25 + 9 + 4 +4+ 25 + 36 + 81) / 27 = 194/27 = 7.1851...< 12.59 ( 自由度 6 、有意水準 0.05 )
となる。
棄却域に入っていないので帰無仮説 Hは棄却されない。
(つまり、養鶏場のニワトリは曜日によって産む卵の数に差は無い)

 

問題7

【問題7】

エンドウマメの交配実験を行うと、メンデルの法則により「黄色・丸」「黄色・しわ」「緑色・丸」「緑色・しわ」の4種類の形質のマメが9:3:3:1の割合で現れることが分かっている。エンドウマメの交配実験を行った結果、上記の形質を持ったエンドウマメが 445:133:156:32の割合で出現した。この場合、メンデルの法則が成立しているかどうかについて、有意水準 5 % で検定せよ。必要があれば、下のカイ二乗分布表を用いて良い。

【 カイ二乗分布表 】

( 鹿児島大学 改 )

【解答例】

帰無仮説:H0 = 「 エンドウマメの形質は9:3:3:1である 」

対立仮説:H1 = H0 の否定
形質 観測度数 期待確率 期待度数 O - E ( O - E ) 2 ( O - E ) 2/E
黄・丸  445 9/16  784×9/16 4 16 25/27
黄・しわ 133 3/16 784×3/16 -14 196 9/27
緑・丸 156 3/16 784×3/16 9 81 4/27
緑・しわ 32 1/16 784×1/16 -17 289 4/27
合計 784
χ02 = ... = 3436/441 = 7.7913...< 7.82 ( 自由度 3 、有意水準 0.05 )
となる。
棄却域に入っていないので帰無仮説 Hは棄却されない。
( エンドウマメの表現型はメンデルの法則が成り立っている )

問題8

【問題8】

ヒト常染色体上のメンデル遺伝様式を示す遺伝子 ABC には、A、T、G の3つの対立遺伝子が存在する。日本人250名から任意にサンプルを採取し、その遺伝子型を調べたところ、表1の結果を得た。この時、各遺伝子 A、T、G の遺伝子頻度はいくらか?また、これらの観測度数がハーディーワインバーグの法則が成立を仮定した場合の期待度数と適合しているかどうかを統計学的に推察せよ。 必要があれば、下のカイ二乗分布表を用いて良い。

 表1 日本人250名における遺伝子 ABC の遺伝子型数
遺伝子型 A T G
A  57 78  45
T - 28 30
G - - 12

 

【 カイ二乗分布表 】

( Wikipedia を参考に創作 )

 

【解答例】

まず遺伝子頻度を求める。

$$遺伝子Aの遺伝子頻度 = \frac{AA \times 2 + AT + AG}{AA \times 2 + AT \times 2 +AG \times 2 + TT \times 2 + TG \times 2 + GG \times 2 } $$
$$ = \frac{57 \times 2 + 78 + 45}{250 \times 2 } = 0.474  (=p)  (遺伝子型AAのAの乗ってるアレルは2本ある)$$
分子の × 2、分母の各 × 2 は忘れないこと!
同様に計算すると
$$遺伝子Tの遺伝子頻度 = \frac{TT \times 2 + AT + TG}{250 \times 2 } = \frac{28 \times 2 + 78 + 30}{250 \times 2 } = 0.328   (=q) $$
$$遺伝子Gの遺伝子頻度 = \frac{GG \times 2 + AG + TG}{250 \times 2 } = \frac{12 \times 2 + 45 + 30}{250 \times 2 } = 0.198   (=r) $$
$$ここで p + q + r = 1 となることに注意しておく。$$
次に、ハーディーワインバーグ法則が成立すると仮定すると、
$$遺伝子型AAの遺伝子頻度 = 250 \times p^2 = 56.169$$
$$遺伝子型ATの遺伝子頻度 = 250 \times 2pq = 77.736$$
(父がAかつ母がT、または父がTかつ母がAの2通りあるため × 2 を忘れない!)
$$遺伝子型AGの遺伝子頻度 = 250 \times 2pr = 46.962$$
$$遺伝子型TTの遺伝子頻度 = 250 \times q^2 = 26.896$$
$$遺伝子型TGの遺伝子頻度 = 250 \times 2qr = 32.472$$
$$遺伝子型GGの遺伝子頻度 = 250 \times r^2 = 9.801$$
そして、次の仮定を行い、Hの仮定のもとχ分布を用いた適合度検定を行う。
帰無仮説:H0 = 「 日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がない 」
対立仮説:H1 = 「 日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がないとはいえない 」
表1の観測度数に加えて ( )内に期待度数を記入する。
遺伝子型 A T G
A  57 (56.169) 78 (77.736)  45 (46.962)
T - 28 (26.896) 30 (32.472)
G - - 12 (9.801)
 次に、統計検定量である 食い違い度 を求めて棄却域と比較する。
$$\sum\frac{(O - E)^2}{E} = \frac{(57 - 56.169)^2}{56.196} + \frac{(78 - 77.736)^2}{77.736} + \frac{(45 - 46.962)^2}{46.962} $$
$$+ \frac{(28 - 26.896)^2}{26.896} + \frac{(30 - 32.472)^2}{32.472} + \frac{(12 - 9.801)^2}{9.801} = 0.8220 $$
$$ < 11.0705   (自由度5  有意水準0.05)$$
棄却域に入っていないので帰無仮説 Hは棄却されない。
日本人250人の遺伝子頻度は、ハーディーワインバーグの法則による遺伝子頻度と差がない、つまり。ハーディーワインバーグの法則が成立していると言える)

【ポイント】

遺伝子頻度の計算は頻出なので必ずできるようにしておくこと。特に、間違えやすいのは遺伝子型が AA の時、遺伝子 A の乗っているアレルは2本あるので、A の遺伝子頻度は × 2 を忘れないこと。

( 補足 )

今回の問題は日本人全体からサンプルを抽出したが、これがもし仮にある小さな村5000人をサンプルにした場合、ハーディーワインバーグの法則は成立しなくなる。これは、ハーディーワインバーグ成立条件の一つである「 遺伝的浮動が起こらない 」という条件を満たしていないからである。母集団の構成数が少ないため、遺伝的浮動の効果が大きくなってしまう。

ハーディーワインバーグの法則についてはコチラ↓

 

 

おすすめの記事