医学部学士編入生命科学試験では、大学によっては統計学の分野が出題されます。ここでは、母比率の推定の分野をまとめてみたいと思います。この分野は2017年の旭川医科大学の医学部学士編入試験にχ2検定とともに出題されました。が、しかし本番中に自分は解けませんでした。当時、試験後 1ヶ月経っても悔しさが消えなかった為、まとめることにしました。母比率の推定や検定は、テレビの視聴率、内閣支持率、手術の成功件数、新薬の効果等、身近な例が用いられることが多いので、イメージを掴みやすいと思われます。母比率の検定は別記事を合わせて参照して頂けますと幸いです。
母比率の区間推定 解法手順
母集団のある比率を考えるときには、母集団から得られた標本から標本比率を計算し、母比率を推定します。その際には、母集団から得られる確率変数の一つを、二項分布\(B(1, p)\)に従うことを仮定します。そして各確率変数の和は二項分布\(B(n, p)\)に従うことと合わせて、この分布を中心極限定理によって正規分布\(N(np, np(1-p))\)へ近似します。そしてその確率変数の和をサンプル数で割ったものが母比率そのものであり、それは正規分布\(N(p, \sqrt{\frac{p(1-p)}{n}} )\)に従います。あとは、標準化変数を求めることによって、計算を進めするだけです。以下に解法の手順をまとめます。
①母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う。
$$X_n \sim B(1, p)$$
②確率変数の和 \(X_1+\cdots+X_n \) が \(B(n, p)\) に従うことを言う。
$$X_1+\cdots+X_n \sim B(n, p)$$
③\(B(n, p)\) を中心極限定理により \(N(np, np(1-p))\) へ近似する。
$$X_1+\cdots+X_n \sim N \bigl(np, np(1-p)\bigr)$$
④確率変数の和をサンプル数 \(n\) で割り標本比率を求める。
$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim N\bigl (p, \frac{p(1-p)}{n}\bigr)$$
⑤標準化変数は標準正規分布に従う。
$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \sim N(0, 1)$$
⑥信頼度を \(1 – α\) として、母比率 \(p\) の信頼区間を求める。
$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$
ここから母比率pの区間推定が可能になるが、手計算では母比率を標本比率で近似してよい。
$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$
となる。
問題1
解答
①手術Bの全国平均の死亡確率を \(p\)、病院Sにおける手術Bの死亡確率を \(p’\) (標本平均確率)とする。手術Bで死亡すれば \(1\)、手術Bで死亡しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。
$$X_1 \sim B(1, p)$$
②手術回数を \(100\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。
$$X_1+\cdots+X_{100} \sim B(100, p)$$
左辺は各々が0か1であり、100人のうち手術Bが失敗した件数を表す。
③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。
$$X_1+\cdots+X_{100} \sim N \bigl(100p, 100p(1-p)\bigr)$$
④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。
$$ p’ = \frac{X_1+\cdots+X_{100}}{100} \sim N\bigl (p, \frac{p(1-p)}{100}\bigr)$$
⑤標準化変数は標準正規分布に従う。
$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim N(0, 1)$$
⑥次に、全国の手術Bの死亡確率を、信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。
$$-z(\frac{α}{2}) \lt \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$
ここからここでルート内の母比率 \(p\) を標本比率 \(p’ = 0.58\) で近似し、\(z(\frac{0.05}{2}) = 1.96\)であるから
$$-z(\frac{α}{2})\lt \frac{ p’ – p}{\sqrt{\frac{p'(1- p’)}{n}} } \lt z(\frac{α}{2})$$
$$\ p’ -z(\frac{α}{2}) \sqrt{\frac{p'(1- p’)}{n}}\lt p \lt \ p’ +z(\frac{α}{2})\sqrt{\frac{p'(1- p’)}{n}}$$
$$0.58 -1.96\sqrt{\frac{0.58\times 0.42}{100}}\lt p \lt 0.58 +1.96 \sqrt{\frac{0.58\times 0.42}{100}}$$
よって手術Bの失敗率の \(95\)% 信頼区間は、
$$0.483\lt p \lt 0.677$$
となる。
問題2
解答
①母集団(日本全体)の内閣支持率を \(p\) とする。そして母集団から得られる、有権者1人が確率 \(p\) で内閣を支持する(1)、確率 \(1-p\) で内閣を支持しない(0)と考えると、有権者 \(1\) 人が内閣を支持する確率変数 \(X\) は二項分布 \(B(1, p)\) に従うとしてよい。
$$X_1 \sim B(1, p)$$
②有権者 \(3000\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\)に従う
$$X_1+\cdots+X_{3000} \sim B(3000, p)$$
③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。
$$X_1+\cdots+X_{3000} \sim N \bigl(3000p, 3000p(1-p)\bigr)$$
④確率変数の和をサンプル数 \(3000\) で割り標本比率を求める。
$$\hat{ p } = \frac{X_1+\cdots+X_{3000}}{3000} \sim N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$
⑤標準化変数は標準正規分布に従う。
$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{3000}} } \sim N(0, 1)$$
⑥内閣支持率を信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。
$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$
ここからここでルート内の母比率を標本比率で近似し、\(z(\frac{0.05}{2}) = 1.96\) であるから
$$-z(\frac{α}{2})\lt \frac{\hat{ p } – p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$
$$\hat{ p } -z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\lt p \lt \hat{ p } +z(\frac{α}{2})\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$
$$0.35 -1.96\sqrt{\frac{0.35\times 0.65}{3000}}\lt p \lt 0.35 +1.96 \sqrt{\frac{0.35\times 0.65}{3000}}$$
よって内閣支持率の\(95\)% 信頼区間は、
$$0.333\lt p \lt 0.367$$
となる。
問題3
解答
問題2で得られた標準誤差SE(standard error)は次の式で表せられる
$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$
この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時であるから
\begin{eqnarray} 2SE &=& 2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\\ &\leq & 2 z(\frac{0.05}{2}) \sqrt{\frac{0.05(1-0.05)}{n}}\\ &\leq & 0.04\end{eqnarray}
上記の式を\(n\)について解くと
$$2401 \leq n$$
となる。
【ポイント】
問題2で得られた標準誤差SE(standard error)は次の式で表せられる
$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$
この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時である。
問題4
解答
標準誤差SE(standard error)の幅が、今回は\(2k\)であり、次回に\(k\)(半分)するためには
$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} \leq 2k$$
$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{4n}} \leq k$$
つまり、信頼係数\(1-α\)を固定してサンプルサイズを\(4\)倍にすればよい。
【ポイント】
問題3の類題であり、標準誤差をうまく式変形すれば良いです。
統計学 参考書
いかがでしたか?
考え方は少しややこしいかもしれませんが、やっていることは完全にパターン作業です。ある母集団で得られたデータから、標本平均を求めて、そこから全体の母集団の平均を推定するという時には、上記のように計算すれば良いわけです。95%の確率ではありますが、それができてしまうのは統計学のすごいところですよね。以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。
日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]
統計学検定問題集は結構使えます。レベル的には2級の問題集が、医学部学士編入試験としてはあっていると思います。
統計学がわかる (ファーストブック)
主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。
東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。