【統計学】母比率の検定

医学部学士編入

ここでは、母比率の検定の分野を扱います。母比率の区間推定は別の記事を参照してください。

母比率の検定

  ここからは母比率の検定についてです。母比率の検定の計算方法は、母比率の区間推定とほぼ同じです。母比率の区間推定については別記事を参照頂けますと幸いです。同様の計算手順で標準化変数まで求めたのち、母比率\(p\)がある値(問題文中に与えられる)と差がないことを仮定する(帰無仮説)。この仮定の元で標準化変数を計算し、有意水準\(α\)でその標準化変数が棄却域に入っているか、いないかを調べる。検定の場合は帰無仮説の母比率がそのまま使える(正しいと仮定するため)ので、ルート内の母比率を標本比率で近似する必要はない。

解法手順

①母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う

$$Xn \sim  B(1, p)$$

②確率変数の和 \(X_1+\cdots+X_n \) が \(B(1, p)\) に従うことを言う。

$$X_1+\cdots+X_n \sim B(n, p)$$

\(B(1, p)\) を中心極限定理により \(N(np, np(1-p))\) へ近似する。

$$X_1+\cdots+X_n \sim  N \bigl(np, np(1-p)\bigr)$$

④確率変数の和をサンプル数 \(n\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim  N\bigl (p, \frac{p(1-p)}{n}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \sim  N(0, 1)$$

~~~~~ここまでは区間推定と同じ手順になる~~~~~

⑥帰無仮説、対立仮説を設定して有意水準\(α\)で検定する。

$$帰無仮説 H_0 : p=p^{\prime}$$

$$対立仮説 H_1 : p\neq p^{\prime}$$

この帰無仮説の元で標準化変数が棄却域の内外どちらかであるかを調べるという流れになります。これだけではイメージが掴めないとおもいますので、実際に出題された問題を通して練習していきましょう。まずは、2017旭川医科大学で出題された問題を見ていきたいと思います。

問題1

 全国平均の死亡率が50%の手術Bにおいて、S病院では1年間で100人に手術を行い、58人が死亡した。病院Sでは手術の成功率が全国平均と比べ差があるかどうかを統計学的に推察せよ。また、両側検定によるp値を求めよ。(2017 旭川医科大 改)

解答

S病院での手術Bの死亡確率を \(p\)、病院Sにおけるこの一年間における手術Bの死亡確率(標本平均確率)を \(p’\) とする。手術Bで死亡すれば \(1\)、手術Bで死亡しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

 

$$X_1 \sim  B(1, p)$$

②手術回数を\(100\)人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が0か1であり、100人のうち手術Bが失敗した件数を表す。

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で検定する。

$$帰無仮説 H_0 : p=0.5$$

$$対立仮説 H_1 : p\neq 0.5$$

この帰無仮説の元で標準化変数が棄却域の内外どちらかであるかを調べる。標本確率より\(p’ = 0.58\) であるから

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{0.58 – 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = 1.6 \lt  1.96\end{eqnarray}

標準正規分布表より、両側検定において、横軸の値 1.6を与える p値 (面積)は下の正規分布表より \(0.5 – 0.4452 = 0.0548\) である(注1)。また、片側の面積 \(0.025\) を与える値は \(1.96\) である為、帰無仮説は棄却されない。

結論:すなわち、病院Sの手術Bの死亡率は見かけ上は58%となってはいるが、統計学的には 50%と差がないと言って矛盾はない。

【ポイント】

母比率の検定の場合は、帰無仮説を仮定することで \(p = 0.5\) を使うことができることに注意。この問題が基本なので、この流れをマスターすれば他の問題も同様に対応できます。やはり、ポイントは中心極限定理によって、n→∞とした時に二項分布を標準正規分布に近似できることです。

中心極限定理によりn→∞の時、二項分布が標準正規分布へ近似できることの証明は省略します。

問題2

 あるサイコロを3000回振ったところ、1の目が550回出た。このサイコロは歪みがないサイコロと言えるか統計学的に推察せよ。(頻出問題)

解答

このサイコロの各目の出る確率を各々 \(p\)とする。このサイコロで\(1\)の目が出れば \(1\)、\(1\)の目が出なければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②サイコロを投げる回数を\(100\)人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\) に従う。

$$X_1+\cdots+X_{3000} \sim B(3000, p)$$

左辺は各々が0か1であり、3000人のうち1の目が出た回数を表す。

③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{3000} \sim  N \bigl(3000p, 3000p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(3000\) で割り標本比率\(p’\)を求める。

$$ p’  = \frac{X_1+\cdots+X_{3000}}{3000} \sim  N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{3000}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で検定する。

$$帰無仮説 H_0 : p=\frac{1}{6} = \frac{10}{60} $$

$$対立仮説 H_1 : p\neq \frac{1}{6}$$

この帰無仮説の元で標準化変数が棄却域の内外どちらかであるかを調べる。標本確率より\(\frac{550}{3000} = \frac{11}{60} \) であるから

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{3000}} } \\  &=& \frac{\frac{11}{60} – \frac{10}{60} }{\sqrt{\frac{\frac{10}{60} \times \frac{50}{60} }{3000}}} = \sqrt{6}  \gt  1.96\end{eqnarray}

よって帰無仮説は棄却される。

結論:サイコロに歪みがないとは言えない。(サイコロは歪んでいる。)

【ポイント】

サイコロの歪みを調べる問題では、各出目の出た回数が全て与えられている場合は、カイ二乗検定の適合度検定を行います。別の記事で書いてありますので是非参考にしてください。

【統計学】カイ二乗検定
医学部学士編入生命科学試験では、統計学の分野が比較的出題され...

問題3

 学生Aはこれまでの模擬単語テストでは、3問のうち2問程度の正解率であったが、粉骨砕身猛烈な試験勉強の末に、今回の本番の単語テストでは、8問のうち7問の正解率であった。このことから学生Aの実力が上がったと判断して良いか? (秋田大)

解答

学生Aの問題の正解率を \(p\)とする。問題に正解すれば \(1\)、正解しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②問題数を\(8\)問で考えると、確率変数の和 \(X_1+\cdots+X_8 \) は \(B(8, p)\) に従う。

$$X_1+\cdots+X_8 \sim B(8, p)$$

左辺は各々が0か1であり、8問のうち正解した問題数を表す。

③ \(B(8, p)\) は中心極限定理により \(N(8p, 8p(1-p))\) へ近似できる。

$$X_1+\cdots+X_8 \sim  N \bigl(8p, 8p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(8\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_8}{8} \sim  N\bigl (p, \frac{p(1-p)}{8}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{8}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で検定する。

$$帰無仮説 H_0 : p=\frac{2}{3}$$

$$対立仮説 H_1 : p\neq \frac{2}{3}$$

この帰無仮説の元で、すなわち”試験勉強をしても成績に差がなかった”と仮定し、標準化変数が棄却域の内外どちらかであるかを調べる。標本確率より \(p’ = \frac{7}{8}\) であるから

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{ \frac{7}{8}- \frac{2}{3}}{\sqrt{\frac{\frac{2}{3} \times \frac{1}{3}}{8}}} = \frac{5}{4} \lt  1.96\end{eqnarray}

よって帰無仮説は棄却されない。

結論:学生Aの成績は見かけ上は\(\frac{2}{3} \lt \frac{7}{8} \)となってはいるが、統計学的には差がない、つまり成績は向上してるとは言えない。

【ポイント】

この問題は、正解数と不正解数を書き出すことで、カイ二乗検定でも検定することが可能です。別の記事で書いてありますので是非参照してください。

【統計学】カイ二乗検定
医学部学士編入生命科学試験では、統計学の分野が比較的出題され...

問題4

 ある手術の成功率が従来50%であったが、手術法の改良により新しい手術方法では100回の手術のうち59回が成功した。新しい手術の成功率は従来の方法より成功率が向上したか。有意水準5%で検定せよ。検定方法は自分で選択せよ。(類題 東京医科歯科大)

解答

新しい手術の成功確率を \(p\)とする。手術に成功すれば \(1\)、成功しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②手術回数を\(100\)回で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が0か1であり、100回の手術のうち成功した数を表す。

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で片側検定する。

$$帰無仮説 H_0 : p=0.5$$

$$対立仮説 H_1 : p \gt  0.5$$

上記のように対立仮説を設定すれば、帰無仮説が棄却された時、新しい手術方法成功確率が上昇したと言えることになる。この帰無仮説の元で、すなわち”新しい手術方法は従来の方法と成功率に差がない”と仮定し、標準化変数が棄却域の内外どちらかであるかを調べる。標本成功確率より \(p’ = 0.59\) であるから

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{0.59 – 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = 1.8 \gt 1.64\end{eqnarray}

よって帰無仮説は棄却される。

結論:すなわち、従来の手術方法に比べて、新しい手術方法の成功率は上昇したと言える。

【ポイント】

この問題では、片側検定しているのがポイントです。これを有意水準5%で両側検定してしまうと、棄却域が1.96以上となり、標準化変数値として求めた1.8は棄却域に入らないため、帰無仮説は棄却されない。すなわち「新しい手術方法は従来の手術方法より成功率が向上した」とは言えなくなってしまう。よって上記のように片側検定で半ば強引に棄却域にねじ込んでいるのである。これはなんだかズルイやり方かもしれないが、データとして新しい手術方法は100回中59回成功しており、成功率が向上した述べたい時には、このように両側検定ではなく片側検定を行うことによって直感の意味付けを行うことができる。

 

統計学 参考書

考え方は少しややこしいかもしれませんが、やっていることは完全にパターン作業です。ある母集団で得られたデータから、標本平均を求めて、そこから全体の母集団の平均を推定するという時には、上記のように計算すれば良いわけです。95%の確率ではありますが、それができてしまうのは統計学のすごいところですよね。以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。

 

日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]

統計学検定問題集は結構使えます。レベル的には2級の問題集が、医学部学士編入試験としてはあっていると思います。

 

統計学がわかる (ファーストブック)

主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。

 

統計学入門 (基礎統計学Ⅰ)

東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。