母比率の区間推定・検定

統計学
スポンサーリンク

医学部学士編入生命科学試験では、大学によっては統計学の分野が出題されます。今回は母比率の推定と検定の分野をまとめてみたいと思います。この分野は2017年の旭川医科大学の医学部学士編入試験にχ2検定とともに出題されました。が、しかし本番中に自分は解けませんでした。試験後 1ヶ月経っても悔しさが消えない為、今回まとめることにしました。母比率の推定や検定は、テレビの視聴率内閣支持率、手術の成功件数新薬の効果等、身近な例が用いられることが多いので、イメージを掴みやすいと思われます。(数ヶ月前の自分に言いたい)


スポンサーリンク

スポンサーリンク

【母比率の区間推定】

母集団のある比率を考えるときには、母集団から得られた標本から標本比率を計算し、母比率を推定します。その際には、母集団から得られる確率変数の一つを、二項分布\(B(1, p)\)に従うことを仮定します。そして各確率変数の和は二項分布\(B(n, p)\)に従うことと合わせて、この分布を中心極限定理によって正規分布\(N(np, np(1-p))\)へ近似します。そしてその確率変数の和をサンプル数で割ったものが母比率そのものであり、それは正規分布\(N(p, \sqrt{\frac{p(1-p)}{n}} )\)に従います。あとは、標準化変数を求めることによって、計算を進めするだけです。以下に解法の手順をまとめます。

【解法の手順】
①母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う

$$X_n \sim  B(1, p)$$

②確率変数の和 \(X_1+\cdots+X_n \) が \(B(n, p)\) に従うことを言う。

$$X_1+\cdots+X_n \sim B(n, p)$$

\(B(n, p)\) 中心極限定理により \(N(np, np(1-p))\) へ近似する。

$$X_1+\cdots+X_n \sim  N \bigl(np, np(1-p)\bigr)$$

④確率変数の和をサンプル数 \(n\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim  N\bigl (p, \frac{p(1-p)}{n}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \sim  N(0, 1)$$

⑥信頼度を \(1 – α\) として、母比率 \(p\) の信頼区間を求める。

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここから母比率pの区間推定が可能になるが、手計算では母比率を標本比率で近似してよい

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$

となる。


スポンサーリンク

下の問題は2017旭川医科大学で出題された問題を母比率の推定へ改題しました。
【問題1】
S病院では\(1\) 年間で\(100\) 人に手術を行い、\(58\) 人が死亡した。病院Sでの失敗率から手術B失敗率の全国平均を\(95\) %信頼区間で統計学的に推定せよ。(2017 旭川医科大 改)
 
【解答例】
①手術Bの全国平均の死亡確率を \(p\)、病院Sにおける手術Bの死亡確率を \(p’\) (標本平均確率)とする。手術Bで死亡すれば \(1\)、手術Bで死亡しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②手術回数を \(100\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が0か1であり、100人のうち手術Bが失敗した件数を表す。

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。 

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

⑥次に、全国の手術Bの死亡確率を、信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。

$$-z(\frac{α}{2}) \lt \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここからここでルート内の母比率 \(p\) を標本比率 \(p’ = 0.58\) で近似し、\(z(\frac{0.05}{2}) = 1.96\)であるから

$$-z(\frac{α}{2})\lt \frac{ p’ – p}{\sqrt{\frac{p'(1- p’)}{n}} } \lt z(\frac{α}{2})$$

$$\ p’ -z(\frac{α}{2})  \sqrt{\frac{p'(1- p’)}{n}}\lt  p  \lt \ p’ +z(\frac{α}{2})\sqrt{\frac{p'(1- p’)}{n}}$$

$$0.58 -1.96\sqrt{\frac{0.58\times 0.42}{100}}\lt  p  \lt 0.58 +1.96 \sqrt{\frac{0.58\times 0.42}{100}}$$

よって手術Bの失敗率の \(95\)% 信頼区間は、

$$0.483\lt  p  \lt 0.677$$

となる。


スポンサーリンク

【問題2】
ある時点での安倍内閣の支持率は \(3000\) 人の有権者を対象に行ったアンケートによると \(35\) %であった。内閣支持率の \(95\) %信頼区間を求めよ。(頻出問題) 
 
 
【解答例】
①母集団(日本全体)の内閣支持率を \(p\) とする。そして母集団から得られる、有権者1人が確率 \(p\) で内閣を支持する(1)、確率 \(1-p\) で内閣を支持しない(0)と考えると、有権者 \(1\) 人が内閣を支持する確率変数 \(X\) は二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②有権者 \(3000\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\)に従う

$$X_1+\cdots+X_{3000} \sim B(3000, p)$$

③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{3000} \sim  N \bigl(3000p, 3000p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(3000\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_{3000}}{3000} \sim  N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{3000}} } \sim  N(0, 1)$$

⑥内閣支持率を信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここからここでルート内の母比率を標本比率で近似し、\(z(\frac{0.05}{2}) = 1.96\) であるから

$$-z(\frac{α}{2})\lt \frac{\hat{ p } – p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$

$$\hat{ p } -z(\frac{α}{2})  \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\lt  p  \lt \hat{ p } +z(\frac{α}{2})\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

$$0.35 -1.96\sqrt{\frac{0.35\times 0.65}{3000}}\lt  p  \lt 0.35 +1.96 \sqrt{\frac{0.35\times 0.65}{3000}}$$

よって内閣支持率の\(95\)% 信頼区間は、

$$0.333\lt  p  \lt 0.367$$

となる。


スポンサーリンク

【問題3】
問題2で得られた信頼区間の幅を0.04以下になるようにするには、何人以上の有権者を対象にアンケートを行えばよいか。(頻出問題) 
 
 
【解答例】

問題2で得られた標準誤差SE(standard error)は次の式で表せられる

$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時であるから

\begin{eqnarray} 2SE &=& 2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\\  &\leq & 2 z(\frac{0.05}{2}) \sqrt{\frac{0.05(1-0.05)}{n}}\\  &\leq & 0.04\end{eqnarray}

上記の式を\(n\)について解くと 

$$2401 \leq n$$

となる。

【ポイント】

問題2で得られた標準誤差SE(standard error)は次の式で表せられる

$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時である。 


スポンサーリンク

【問題4】
ある政党の支持率について調査を行い、支持率の信頼区間を求めたところ信頼区間の幅がやや広範囲であった。次回の調査で信頼区間の幅を今回の約半分にするためには、信頼係数と標本の大きさをどのように設定すればよいか。(創作問題) 
 
 
【解答例】

標準誤差SE(standard error)の幅が、今回は\(2k\)であり、次回に\(k\)(半分)するためには

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} \leq 2k$$

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{4n}} \leq k$$

つまり、信頼係数\(1-α\)を固定してサンプルサイズを\(4\)倍にすればよい。

【ポイント】

この問題は、問題3の類題である。標準誤差をうまく式変形すれば良い。


スポンサーリンク

 

【母比率の検定】

 ここからは母比率の検定についてです。母比率の検定の計算方法は、母比率の区間推定とほぼ同じです。同様の計算手順で標準化変数まで求めたのち、母比率\(p\)がある値(問題文中に与えられる)と差がないことを仮定する(帰無仮説)。この仮定の元で標準化変数を計算し、有意水準\(α\)でその標準化変数が棄却域に入っているか、いないかを調べる。検定の場合は帰無仮説の母比率がそのまま使えるので、ルート内の母比率を標本比率で近似する必要はない。
 
【解法の手順】
①母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う

$$Xn \sim  B(1, p)$$

②確率変数の和 \(X_1+\cdots+X_n \) が \(B(1, p)\) に従うことを言う。

$$X_1+\cdots+X_n \sim B(n, p)$$

\(B(1, p)\) を中心極限定理により \(N(np, np(1-p))\) へ近似する。

$$X_1+\cdots+X_n \sim  N \bigl(np, np(1-p)\bigr)$$

④確率変数の和をサンプル数 \(n\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim  N\bigl (p, \frac{p(1-p)}{n}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \sim  N(0, 1)$$

~~~~~ここまでは区間推定と同じ手順になる~~~~~

⑥帰無仮説、対立仮説を設定して有意水準\(α\)で検定する。

$$帰無仮説 H_0 : p=p^{\prime}$$

$$対立仮説 H_1 : p\neq p^{\prime}$$

この帰無仮説の元で標準化変数が棄却域の内外どちらかであるかを調べる。


スポンサーリンク

 
それでは実際に2017旭川医科大学で出題された問題を見ていきたいと思います。
【問題1】
全国平均の死亡率が50%の手術Bにおいて、S病院では1年間で100人に手術を行い、58人が死亡した。病院Sでは手術の成功率が全国平均と比べ差があるかどうかを統計学的に推察せよ。また、両側検定によるp値を求めよ。(2017 旭川医科大 改)
 
【解答例】
手術Bの全国平均の死亡確率を \(p\)、病院Sにおける手術Bの死亡確率を \(p’\) (標本平均確率)とする。手術Bで死亡すれば \(1\)、手術Bで死亡しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②手術回数を\(100\)人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が0か1であり、100人のうち手術Bが失敗した件数を表す。

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。 

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で検定する。

$$帰無仮説 H_0 : p=0.5$$

$$対立仮説 H_1 : p\neq 0.5$$

この帰無仮説の元で標準化変数が棄却域の内外どちらかであるかを調べる。標本確率より\(p’ = 0.58\) であるから 

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{0.58 – 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = 1.6 \lt  1.96\end{eqnarray}

標準正規分布表より、両側検定において、横軸の値 1.6を与える p値 (面積)は下の正規分布表より \(0.5 – 0.4452 = 0.0548\) である(注1)。また、片側の面積 \(0.025\) を与える値は \(1.96\) である為、帰無仮説は棄却されない。

結論:すなわち、病院Sの手術Bの死亡率は見かけ上は58%となってはいるが、統計学的には 50%と差がないと言って矛盾はない。

 

【ポイント】

母比率の検定の場合は、帰無仮説を仮定することで \(p = 0.5\) を使うことができることに注意。この問題が基本なので、この流れをマスターすれば他の問題も同様に対応できます。やはり、ポイントは中心極限定理によって、n→∞とした時に二項分布を標準正規分布に近似できることであると思います。自分はここの部分がこれまで納得できませんでした。下に数学的証明を載せておきますので納得したい方は手計算で追ってみてください。

中心極限定理によりn→∞の時、二項分布が標準正規分布へ近似できることの証明

→コチラ


スポンサーリンク

 
【問題2】
あるサイコロを3000回振ったところ、1の目が550回出た。このサイコロは歪みがないサイコロと言えるか統計学的に推察せよ。(頻出問題)
 
【解答例】
このサイコロの各目の出る確率を各々 \(p\)とする。このサイコロで\(1\)の目が出れば \(1\)、\(1\)の目が出なければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②サイコロを投げる回数を\(100\)人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\) に従う。

$$X_1+\cdots+X_{3000} \sim B(3000, p)$$

左辺は各々が0か1であり、3000人のうち1の目が出た回数を表す。

③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。 

$$X_1+\cdots+X_{3000} \sim  N \bigl(3000p, 3000p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(3000\) で割り標本比率\(p’\)を求める。

$$ p’  = \frac{X_1+\cdots+X_{3000}}{3000} \sim  N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{3000}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で検定する。

$$帰無仮説 H_0 : p=\frac{1}{6} = \frac{10}{60} $$

$$対立仮説 H_1 : p\neq \frac{1}{6}$$

この帰無仮説の元で標準化変数が棄却域の内外どちらかであるかを調べる。標本確率より\(\frac{550}{3000} = \frac{11}{60} \) であるから 

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{3000}} } \\  &=& \frac{\frac{11}{60} – \frac{10}{60} }{\sqrt{\frac{\frac{10}{60} \times \frac{50}{60} }{3000}}} = \sqrt{6}  \gt  1.96\end{eqnarray}

よって帰無仮説は棄却される。

結論:サイコロに歪みがないとは言えない。(サイコロは歪んでいる。)

 

【ポイント】

サイコロの歪みを調べる問題では、各出目の出た回数が全て与えられている場合は、カイ二乗検定の適合度検定を行います。別の記事で書いてありますので是非参考にしてください。


スポンサーリンク

 
【問題3】
学生Aはこれまでの模擬単語テストでは、3問のうち2問程度の正解率であったが、粉骨砕身猛烈な試験勉強の末に、今回の本番の単語テストでは、8問のうち7問の正解率であった。このことから学生Aの実力が上がったと判断して良いか? (秋田大)
 
【解答例】
学生Aの問題の正解率を \(p\)とする。問題に正解すれば \(1\)、正解しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②問題数を\(8\)問で考えると、確率変数の和 \(X_1+\cdots+X_8 \) は \(B(8, p)\) に従う。

$$X_1+\cdots+X_8 \sim B(8, p)$$

左辺は各々が0か1であり、8問のうち正解した問題数を表す。

③ \(B(8, p)\) は中心極限定理により \(N(8p, 8p(1-p))\) へ近似できる。 

$$X_1+\cdots+X_8 \sim  N \bigl(8p, 8p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(8\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_8}{8} \sim  N\bigl (p, \frac{p(1-p)}{8}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{8}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で検定する。

$$帰無仮説 H_0 : p=\frac{2}{3}$$

$$対立仮説 H_1 : p\neq \frac{2}{3}$$

この帰無仮説の元で、すなわち”試験勉強をしても成績に差がなかった”と仮定し、標準化変数が棄却域の内外どちらかであるかを調べる。標本確率より \(p’ = \frac{7}{8}\) であるから

 

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{ \frac{7}{8}- \frac{2}{3}}{\sqrt{\frac{\frac{2}{3} \times \frac{1}{3}}{8}}} = \frac{5}{4} \lt  1.96\end{eqnarray}

よって帰無仮説は棄却されない。

結論:学生Aの成績は見かけ上は\(\frac{2}{3} \lt \frac{7}{8} \)となってはいるが、統計学的には差がない、つまり成績は向上してるとは言えない。

 

【ポイント】

この問題は、正解数と不正解数を書き出すことで、カイ二乗検定でも検定することが可能です。別の記事で書いてありますので是非参照してください。


スポンサーリンク

【問題4】
ある手術の成功率が従来50%であったが、手術法の改良により新しい手術方法では100回の手術のうち59回が成功した。新しい手術の成功率は従来の方法より成功率が向上したか。有意水準5%で検定せよ。検定方法は自分で選択せよ。(類題 東京医科歯科大)
 
【解答例】
新しい手術の成功確率を \(p\)とする。手術に成功すれば \(1\)、成功しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②手術回数を\(100\)回で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が0か1であり、100回の手術のうち成功した数を表す。

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。 

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

⑥次に、帰無仮説、対立仮説を設定して有意水準α=0.05で片側検定する。

$$帰無仮説 H_0 : p=0.5$$

$$対立仮説 H_1 : p \gt  0.5$$

上記のように対立仮説を設定すれば、帰無仮説が棄却された時、新しい手術方法成功確率が上昇したと言えることになる。この帰無仮説の元で、すなわち”新しい手術方法は従来の方法と成功率に差がない”と仮定し、標準化変数が棄却域の内外どちらかであるかを調べる。標本成功確率より \(p’ = 0.59\) であるから

 

\begin{eqnarray} Z &=& \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \\  &=& \frac{0.59 – 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = 1.8 \gt 1.64\end{eqnarray}

よって帰無仮説は棄却される。

結論:すなわち、従来の手術方法に比べて、新しい手術方法の成功率は上昇したと言える。

 

【ポイント】

この問題では、片側検定しているのがポイントです。これを有意水準5%で両側検定してしまうと、棄却域が1.96以上となり、標準化変数値として求めた1.8は棄却域に入らないため、帰無仮説は棄却されない。すなわち「新しい手術方法は従来の手術方法より成功率が向上した」とは言えなくなってしまう。よって上記のように片側検定で半ば強引に棄却域にねじ込んでいるのである。これはなんだかズルイやり方かもしれないが、データとして新しい手術方法は100回中59回成功しており、成功率が向上した述べたい時には、このように両側検定ではなく片側検定を行うことによって直感の意味付けを行うことができる。


スポンサーリンク

コメント