【統計学】母比率の区間推定

医学部学士編入

医学部学士編入生命科学試験では、大学によっては統計学の分野が出題されます。ここでは、母比率の推定の分野をまとめてみたいと思います。この分野は2017年の旭川医科大学の医学部学士編入試験にχ2検定とともに出題されました。が、しかし本番中に自分は解けませんでした。当時、試験後 1ヶ月経っても悔しさが消えなかった為、まとめることにしました。母比率の推定や検定は、テレビの視聴率内閣支持率、手術の成功件数新薬の効果等、身近な例が用いられることが多いので、イメージを掴みやすいと思われます。母比率の検定は別記事を合わせて参照して頂けますと幸いです。

母比率の区間推定 解法手順

母集団のある比率を考えるときには、母集団から得られた標本から標本比率を計算し、母比率を推定します。その際には、母集団から得られる確率変数の一つを、二項分布\(B(1, p)\)に従うことを仮定します。そして各確率変数の和は二項分布\(B(n, p)\)に従うことと合わせて、この分布を中心極限定理によって正規分布\(N(np, np(1-p))\)へ近似します。そしてその確率変数の和をサンプル数で割ったものが母比率そのものであり、それは正規分布\(N(p, \sqrt{\frac{p(1-p)}{n}} )\)に従います。あとは、標準化変数を求めることによって、計算を進めするだけです。以下に解法の手順をまとめます。

【解法の手順】

①母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う

$$X_n \sim  B(1, p)$$

②確率変数の和 \(X_1+\cdots+X_n \) が \(B(n, p)\) に従うことを言う。

$$X_1+\cdots+X_n \sim B(n, p)$$

\(B(n, p)\) 中心極限定理により \(N(np, np(1-p))\) へ近似する。

$$X_1+\cdots+X_n \sim  N \bigl(np, np(1-p)\bigr)$$

④確率変数の和をサンプル数 \(n\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim  N\bigl (p, \frac{p(1-p)}{n}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \sim  N(0, 1)$$

⑥信頼度を \(1 – α\) として、母比率 \(p\) の信頼区間を求める。

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここから母比率pの区間推定が可能になるが、手計算では母比率を標本比率で近似してよい

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$

となる。

下の問題は2017旭川医科大学で出題された問題を母比率の推定へ改題しました。

問題1

S病院では\(1\) 年間で\(100\) 人に手術Bを行い、\(58\) 人が死亡した。病院Sでの失敗率から手術Bの失敗率の全国平均を\(95\) %信頼区間で統計学的に推定せよ。(2017 旭川医科大 改)

解答

①手術Bの全国平均の死亡確率を \(p\)、病院Sにおける手術Bの死亡確率を \(p’\) (標本平均確率)とする。手術Bで死亡すれば \(1\)、手術Bで死亡しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②手術回数を \(100\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B(100, p)\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が0か1であり、100人のうち手術Bが失敗した件数を表す。

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p’  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{p’ – p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

⑥次に、全国の手術Bの死亡確率を、信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。

$$-z(\frac{α}{2}) \lt \frac{p’ – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここからここでルート内の母比率 \(p\) を標本比率 \(p’ = 0.58\) で近似し、\(z(\frac{0.05}{2}) = 1.96\)であるから

$$-z(\frac{α}{2})\lt \frac{ p’ – p}{\sqrt{\frac{p'(1- p’)}{n}} } \lt z(\frac{α}{2})$$

$$\ p’ -z(\frac{α}{2})  \sqrt{\frac{p'(1- p’)}{n}}\lt  p  \lt \ p’ +z(\frac{α}{2})\sqrt{\frac{p'(1- p’)}{n}}$$

$$0.58 -1.96\sqrt{\frac{0.58\times 0.42}{100}}\lt  p  \lt 0.58 +1.96 \sqrt{\frac{0.58\times 0.42}{100}}$$

よって手術Bの失敗率の \(95\)% 信頼区間は、

$$0.483\lt  p  \lt 0.677$$

となる。

問題2

ある時点での安倍内閣の支持率は \(3000\) 人の有権者を対象に行ったアンケートによると \(35\) %であった。内閣支持率の \(95\) %信頼区間を求めよ。(頻出問題) 

解答

①母集団(日本全体)の内閣支持率を \(p\) とする。そして母集団から得られる、有権者1人が確率 \(p\) で内閣を支持する(1)、確率 \(1-p\) で内閣を支持しない(0)と考えると、有権者 \(1\) 人が内閣を支持する確率変数 \(X\) は二項分布 \(B(1, p)\) に従うとしてよい。

$$X_1 \sim  B(1, p)$$

②有権者 \(3000\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\)に従う

$$X_1+\cdots+X_{3000} \sim B(3000, p)$$

③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{3000} \sim  N \bigl(3000p, 3000p(1-p)\bigr)$$

④確率変数の和をサンプル数 \(3000\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_{3000}}{3000} \sim  N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{3000}} } \sim  N(0, 1)$$

⑥内閣支持率を信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } – p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここからここでルート内の母比率を標本比率で近似し、\(z(\frac{0.05}{2}) = 1.96\) であるから

$$-z(\frac{α}{2})\lt \frac{\hat{ p } – p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$

$$\hat{ p } -z(\frac{α}{2})  \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\lt  p  \lt \hat{ p } +z(\frac{α}{2})\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

$$0.35 -1.96\sqrt{\frac{0.35\times 0.65}{3000}}\lt  p  \lt 0.35 +1.96 \sqrt{\frac{0.35\times 0.65}{3000}}$$

よって内閣支持率の\(95\)% 信頼区間は、

$$0.333\lt  p  \lt 0.367$$

となる。

問題3

問題2で得られた信頼区間の幅を0.04以下になるようにするには、何人以上の有権者を対象にアンケートを行えばよいか。(頻出問題) 

解答

問題2で得られた標準誤差SE(standard error)は次の式で表せられる

$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時であるから

\begin{eqnarray} 2SE &=& 2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\\  &\leq & 2 z(\frac{0.05}{2}) \sqrt{\frac{0.05(1-0.05)}{n}}\\  &\leq & 0.04\end{eqnarray}

上記の式を\(n\)について解くと

$$2401 \leq n$$

となる。

【ポイント】

問題2で得られた標準誤差SE(standard error)は次の式で表せられる

$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時である。

問題4

ある政党の支持率について調査を行い、支持率の信頼区間を求めたところ信頼区間の幅がやや広範囲であった。次回の調査で信頼区間の幅を今回の約半分にするためには、信頼係数と標本の大きさをどのように設定すればよいか。(創作問題) 

解答

標準誤差SE(standard error)の幅が、今回は\(2k\)であり、次回に\(k\)(半分)するためには

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} \leq 2k$$

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{4n}} \leq k$$

つまり、信頼係数\(1-α\)を固定してサンプルサイズを\(4\)倍にすればよい。

【ポイント】

問題3の類題であり、標準誤差をうまく式変形すれば良いです。

 

統計学 参考書

いかがでしたか?

考え方は少しややこしいかもしれませんが、やっていることは完全にパターン作業です。ある母集団で得られたデータから、標本平均を求めて、そこから全体の母集団の平均を推定するという時には、上記のように計算すれば良いわけです。95%の確率ではありますが、それができてしまうのは統計学のすごいところですよね。以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。

 

日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]

統計学検定問題集は結構使えます。レベル的には2級の問題集が、医学部学士編入試験としてはあっていると思います。

 

統計学がわかる (ファーストブック)

主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。

 

統計学入門 (基礎統計学Ⅰ)

東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。