【統計学】母比率の検定をわかりやすく解説!!
スポンサーリンク

ここでは、母比率の検定の分野を扱います。母比率の区間推定は別の記事を参照してください↓

母比率の検定

  ここからは母比率の検定についてです。母比率の検定の計算方法は、母比率の区間推定が理解できていれば、非常に簡単です。同様の計算手順で検定統計量 ( 標準化変数 ) まで求めたのち、母比率 \(p\) がある値と等しいことを仮定する ( 帰無仮説 ) 。この仮定の元で検定統計量を計算し、有意水準 \(α\) でその値が棄却域に入っているか、いないかを調べる。検定の場合は帰無仮説の母比率がそのまま使えるので、母比率の区間推定のときのように、ルート内の母比率を標本比率で近似する必要はありません。
また、二項分布の考え方が理解できていない場合や、中心極限定理が理解できていない場合は、以下の記事を参考にしてください↓

解法手順

① 母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う

$$Xn \sim  B(1, p)$$

② 確率変数の和 \(X_1+\cdots+X_n \) が \(B(1, p)\) に従うことを言う。

$$X_1+\cdots+X_n \sim B(n, p)$$

③ \(B(1, p)\) を中心極限定理により \(N(np, np(1-p))\) へ近似する。

$$X_1+\cdots+X_n \sim  N \bigl(np, np(1-p)\bigr)$$

④ 確率変数の和をサンプル数 \(n\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim  N\bigl (p, \frac{p(1-p)}{n}\bigr)$$

⑤ 検定統計量は標準正規分布に従う。

$$Z = \frac{\hat{ p }\,\ - p}{\sqrt{\frac{p(1-p)}{n}} } \sim  N(0, 1)$$

————— ここまでは区間推定と同じ手順です!! ————-

⑥ 帰無仮説、対立仮説を設定して有意水準 \(α\) で検定する。

$$帰無仮説 H_0 : p=p^{\prime}$$

$$対立仮説 H_1 : p\neq p^{\prime}$$

この帰無仮説の元で検定統計量が棄却域の内外どちらかであるかを調べる流れになります。母平均の検定と同じ流れですので、下の記事も併せて確認してみてください。

 

それでは、実際に出題された問題を通して練習していきましょう。まずは、2017 旭川医科大学で出題された問題を見ていきましょう!

問題1

 全国平均の死亡率が 50% の手術 B において、S 病院では 1年間で 100人に手術を行い、58人が死亡した。病院 S では手術の成功率が全国平均と比べ差があるかどうかを統計学的に推察せよ。また、両側検定による p 値を求めよ。必要があれば、標準正規分布表を用いて良い。
( 2017 旭川医科大 改)

解答

① S 病院での手術 B の死亡確率を \(p\)、病院 S におけるこの一年間における手術 B の死亡確率 ( 標本平均確率 ) を \(p'\) とする。確率変数 \(X\) を手術 B で死亡すれば \(1\)、手術 B で死亡しなければ \(0\) のように考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

 

② 手術回数を \(100\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が 0 か 1 であり、100 人のうち手術 B が失敗した件数を表す。

 

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

 

④ 確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p'  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

 

⑤ 検定統計量は標準正規分布に従う。

$$Z = \frac{p' - p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

 

⑥ 次に、帰無仮説、対立仮説を設定して有意水準 α = 0.05 で検定する。

$$帰無仮説 H_0 : p=0.5$$

$$対立仮説 H_1 : p\neq 0.5$$

この帰無仮説の元で検定統計量が棄却域の内外どちらかであるかを調べる。標本確率より \(p' = 0.58\) であるから

\begin{eqnarray} Z &=& \frac{p' - p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{0.58 - 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = 1.6 \lt  1.96\end{eqnarray}

 標準正規分布表より、両側検定において、横軸の値 1.6 を与える p 値 ( 面積 ) は下の正規分布表より \(0.5 - 0.4452 = 0.0548\) である ( 注1 ) 。また、片側の面積 \(0.025\) を与える値は \(1.96\) である為、帰無仮説は棄却されない。

結論:すなわち、病院 S の手術 B の死亡率は見かけ上は 58 % となってはいるが、統計学的には 50 % と差がないと言って矛盾はない。

【ポイント】

母比率の検定の場合は、帰無仮説を仮定することで \(p = 0.5\) を使うことができることに注意。この問題が基本なので、この流れをマスターすれば他の問題も同様に対応できます。やはり、ポイントは中心極限定理によって、n → ∞ とした時に二項分布を正規分布へ近似することができるという点です。そして、標準化によって標準正規分布を用いることができます。

標準正規分布表の見方については、以下の記事を参照してください。

 

問題2

 あるサイコロを 3000回振ったところ、1の目が 550回出た。このサイコロは歪みがないサイコロと言えるか統計学的に推察せよ。必要があれば、以下の標準正規分布表を用いて良い。
( 頻出問題 )

解答

① このサイコロの各目の出る確率を各々 \(p\) とする。このサイコロで \(1\) の目が出れば \(1\)、\(1\) の目が出なければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

 

② サイコロを投げる回数を \(100\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\) に従う。

$$X_1+\cdots+X_{3000} \sim B(3000, p)$$

左辺は各々が 0 か 1 であり、3000 人のうち 1 の目が出た回数を表す。

 

③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{3000} \sim  N \bigl(3000p, 3000p(1-p)\bigr)$$

 

④ 確率変数の和をサンプル数 \(3000\) で割り標本比率 \(p'\) を求める。

$$ p'  = \frac{X_1+\cdots+X_{3000}}{3000} \sim  N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$

 

⑤ 検定統計量は標準正規分布に従う。

$$Z = \frac{p' - p}{\sqrt{\frac{p(1-p)}{3000}} } \sim  N(0, 1)$$

 

⑥ 次に、帰無仮説、対立仮説を設定して有意水準 α = 0.05 で検定する。

$$帰無仮説 H_0 : p=\frac{1}{6} = \frac{10}{60} $$

$$対立仮説 H_1 : p\neq \frac{1}{6}$$

この帰無仮説の元で検定統計量が棄却域の内外どちらかであるかを調べる。標本確率より\(\frac{550}{3000} = \frac{11}{60} \) であるから

\begin{eqnarray} Z &=& \frac{p' - p}{\sqrt{\frac{p(1-p)}{3000}} } \\  &=& \frac{\frac{11}{60} - \frac{10}{60} }{\sqrt{\frac{\frac{10}{60} \times \frac{50}{60} }{3000}}} = \sqrt{6}  \gt  1.96\end{eqnarray}

よって帰無仮説は棄却される。

結論:サイコロに歪みがないとは言えない。(サイコロは歪んでいる)

 

【ポイント】

サイコロの歪みを調べる問題では、各出目の出た回数が全て与えられている場合は、カイ二乗検定の適合度検定を行います。別の記事で書いてありますので是非参考にしてください。

 

問題3

 学生 A はこれまでの模擬単語テストでは、3問のうち2問程度の正解率であったが、粉骨砕身猛烈な試験勉強の末に、今回の本番の単語テストでは、8問のうち 7問の正解率であった。このことから学生 A の実力が上がったと判断して良いか?
(秋田大)

解答

① 学生 A の問題の正解率を \(p\) とする。問題に正解すれば \(1\)、正解しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布  \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

 

② 問題数を \(8\) 問で考えると、確率変数の和 \(X_1+\cdots+X_8 \) は \(B(8, p)\) に従う。

$$X_1+\cdots+X_8 \sim B(8, p)$$

左辺は各々が 0 か 1 であり、8 問のうち正解した問題数を表す。

 

③ \(B(8, p)\) は中心極限定理により \(N(8p, 8p(1-p))\) へ近似できる。

$$X_1+\cdots+X_8 \sim  N \bigl(8p, 8p(1-p)\bigr)$$

 

④ 確率変数の和をサンプル数 \(8\) で割り標本比率を求める。

$$ p'  = \frac{X_1+\cdots+X_8}{8} \sim  N\bigl (p, \frac{p(1-p)}{8}\bigr)$$

 

⑤ 検定統計量は標準正規分布に従う。

$$Z = \frac{p' - p}{\sqrt{\frac{p(1-p)}{8}} } \sim  N(0, 1)$$

 

⑥ 次に、帰無仮説、対立仮説を設定して有意水準 α = 0.05 で検定する。

$$帰無仮説 H_0 : p=\frac{2}{3}$$

$$対立仮説 H_1 : p\neq \frac{2}{3}$$

この帰無仮説の元で、すなわち " 試験勉強をしても成績に差がなかった " と仮定し、検定統計量が棄却域の内外どちらかであるかを調べる。標本確率より \(p' = \frac{7}{8}\) であるから

\begin{eqnarray} Z &=& \frac{p' - p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{ \frac{7}{8}- \frac{2}{3}}{\sqrt{\frac{\frac{2}{3} \times \frac{1}{3}}{8}}} = \frac{5}{4} \lt  1.96\end{eqnarray}

よって帰無仮説は棄却されない。

結論:学生 A の成績は見かけ上は \(\frac{2}{3} \lt \frac{7}{8} \) となってはいるが、統計学的には差がない、つまり成績は向上してるとは言えない。

【ポイント】

この問題は、正解数と不正解数を書き出すことで、カイ二乗検定でも検定することが可能です。別の記事で書いてありますので是非参照してください。

補足

加えて、秋田大学の問題では、「 次回の模擬テストの問題でも、これと同程度以上の好成績を上げたとしたら成績が向上したと言えるか? 」という問題が続いていました。この場合、前回の模擬テストでの正解率 2/3 はそのままにして、『 同程度以上の好成績を上げた 』= 『 本番では 16問中14問正解した 』と考えて同様に計算すると解けます。

問題4

 ある手術の成功率が従来 50% であったが、手術法の改良により新しい手術方法では 100回の手術のうち 59回が成功した。新しい手術の成功率は従来の方法より成功率が向上したか。有意水準5%で検定せよ。検定方法は自分で選択せよ。( 類題 東京医科歯科大 ) 

解答

① 新しい手術の成功確率を \(p\) とする。手術に成功すれば \(1\)、成功しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

 

② 手術回数を \(100\) 回で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が 0 か 1 であり、100 回の手術のうち成功した数を表す。

 

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

 

④ 確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p'  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

 

⑤ 検定統計量は標準正規分布に従う。

$$Z = \frac{p' - p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

 

⑥ 次に、帰無仮説、対立仮説を設定して有意水準 α = 0.05 で片側検定する。

$$帰無仮説 H_0 : p=0.5$$

$$対立仮説 H_1 : p \gt  0.5$$

上記のように対立仮説を設定すれば、帰無仮説が棄却された時、新しい手術方法成功確率が上昇したと言えることになる。この帰無仮説の元で、すなわち " 新しい手術方法は従来の方法と成功率に差がない " と仮定し、検定統計量が棄却域の内外どちらかであるかを調べる。標本成功確率より \(p' = 0.59\) であるから

\begin{eqnarray} Z &=& \frac{p' - p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{0.59 - 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = 1.8 \gt 1.64\end{eqnarray}

よって帰無仮説は棄却される。

結論:すなわち、従来の手術方法に比べて、新しい手術方法の成功率は上昇したと言える。

 

【ポイント】

この問題では、片側検定しているのがポイントです。これを有意水準5% で両側検定してしまうと、棄却域が 1.96以上となり、検定統計量として求めた 1.8 は棄却域に入らないため、帰無仮説は棄却されない。すなわち「 新しい手術方法は従来の手術方法より成功率が向上した 」とは言えなくなってしまう。よって上記のように片側検定で半ば強引に棄却域にねじ込んでいるのである。これはなんだかズルイやり方かもしれないが、データとして新しい手術方法は 100回中 59回成功しており、成功率が向上した述べたい時には、このように両側検定ではなく片側検定を行うことによって、直感の意味付けを行うことができます。

 

統計学 参考書

考え方は少しややこしいかもしれませんが、やっていることは完全にパターン作業です。ある母集団で得られたデータから、標本平均を求めて、そこから全体の母集団の平均を推定するという時には、上記のように計算すれば良いわけです。95 % の確率ではありますが、それができてしまうのは統計学のすごいところですよね。以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。

 

日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]

統計学検定問題集は結構使えます。レベル的には 2 級の問題集が、医学部学士編入試験としてはあっていると思います。

 

統計学がわかる (ファーストブック)

主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。

 

統計学入門 (基礎統計学Ⅰ)

東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。

 

 

 

 

おすすめの記事