【統計学】母比率の区間推定をわかりやすく解説!!
スポンサーリンク
合格くん
合格くん

こんにちは!!合格です!

さぁここでは、母比率の区間推定を勉強するよ!

かえる
かえる

この母比率の区間推定も医学部学士編入試験ででるんだケロか??

合格くん
合格くん

もちろん出るよ!

実際、このサイトの管理人も本番で解けなくて泣いちゃったみたいだよ!

かえる
かえる

30 オーバーで泣くとか草w

管理人談

医学部学士編入生命科学試験では、大学によっては統計学の分野が出題されます。ここでは、母比率の推定の分野をまとめてみたいと思います。この分野は 2017 年の旭川医科大学の医学部学士編入試験にχ検定とともに出題されました。が、しかし本番中に自分は解けませんでした。当時、試験後 1 ヶ月経っても悔しさが消えなかった為、まとめることにしました。母比率の推定や検定は、テレビの視聴率内閣支持率、手術の成功件数新薬の効果等、身近な例が用いられることが多いので、イメージを掴みやすいと思われます。母比率の検定は別記事を合わせて参照して頂けますと幸いです。

母比率の区間推定とは?

この分野は二項分布と中心極限定理の応用問題ですので、まず二項分布の知識が不十分な人は、下の記事を参照してください。特に、確率変数を一回ごとの確率変数の和に分解するという考え方が重要ポイントになってきます。

また、ある程度大きな標本を扱う場合がほとんどなので、試験問題では二項分布を中心極限定理によって正規分布へ近似することで解答するというのが、定石パターンとなっています。

 

合格くん
合格くん

これまでの知識を総動員しないと解けない問題になっているんだね!二項分布や中心極限定理の知識を思い出して、次は解答の手順を学んでいこう!!

母比率の区間推定 解法手順

母集団のある比率を考えるときには、母集団から得られた標本から標本比率を計算し、母比率を推定します。その際には、母集団から得られる確率変数の一つが、二項分布 \(B(1, p)\) に従うことをいいます。そして各確率変数の和は二項分布 \(B(n, p)\) に従うことと合わせて、サンプル数が十分に大きいとして、この分布を正規分布 \(N(np, np(1-p))\) へ近似します ( 中心極限定理 ) 。そしてその確率変数の和をサンプル数で割ったものが母比率そのものであり、それは正規分布 \(N(p, \frac{p(1-p)}{n} )\) に従います。あとは、標準化変数を求めることによって、計算を進めるだけです。以下に解法の手順をまとめます。

 

【解法の手順】

①母集団から得られる、ある確率変 \(X_n\) が \(B(1, p)\) に従うことを言う

$$X_n \sim  B(1, p)$$

②確率変数の和 \(X_1+\cdots+X_n \) が \(B(n, p)\) に従うことを言う。

$$X_1+\cdots+X_n \sim B(n, p)$$

\(B(n, p)\) 中心極限定理により \(N(np, np(1-p))\) へ近似する。

$$X_1+\cdots+X_n \sim  N \bigl(np, np(1-p)\bigr)$$

④確率変数の和をサンプル数 \(n\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_n}{n} \sim  N\bigl (p, \frac{p(1-p)}{n}\bigr)$$

⑤標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } - p}{\sqrt{\frac{p(1-p)}{n}} } \sim  N(0, 1)$$

⑥信頼度を \(1 - α\) として、母比率 \(p\) の信頼区間を求める。

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } - p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここから母比率 pの区間推定が可能になるが、手計算では母比率を標本比率で近似してよい

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } - p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$

となる。

合格くん
合格くん

一般的な解答の手順を書いてみたけどどうだったかな?

かえる
かえる

解答の手順の ① と ② が分かりにくいケロ

合格くん
合格くん

そうかもしれないね。

この『二項分布の確率変数を、各確率変数の和に分解できる』ってところが一番のカギかもしれないね!

その後は、中心極限定理のところで勉強したように、二項分布を正規分布へ近似して、標準化変数を考えて、それが標準正規分布へ従うと考えればよかったんだもんね!

あとは、与えられた信頼度に従って、上側 α %点の値を表から探して、標準化変数を挟めば良かったんだね!

合格くん
合格くん

それでは実際に出題された問題で練習してみよう!!

下の問題は 2017 旭川医科大学で出題された問題を、母比率の区間推定の問題へ改題しました。

問題1

 S 病院では \(1\) 年間で \(100\) 人に手術 B を行い、\(58\) 人が死亡した。病院 S での失敗率から手術 B の失敗率の全国平均を \(95\) %信頼区間で統計学的に推定せよ。( 2017 旭川医科大 改)

解答

① 手術 B の全国平均の死亡確率を \(p\)、病院 S における手術 B の死亡確率を \(p' = \frac{58}{100}\) ( 標本平均確率 )とする。手術 B で死亡すれば \(1\)、手術 B で死亡しなければ \(0\) のように確率変数 \(X\) を考えると、確率変数 \(X\) は、二項分布 \(B(1, p)\) に従うとしてよい。n 回目の手術 B に関して \(X_n\) のように書くとすると、

$$X_1 \sim  B(1, p)$$

 

② 手術回数を \(100\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{100} \) は \(B ( 100, p )\) に従う。

$$X_1+\cdots+X_{100} \sim B(100, p)$$

左辺は各々が 0 か 1 であり、100 人のうち手術 B が失敗した件数を表す。

 

③ \(B(100, p)\) は中心極限定理により \(N(100p, 100p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{100} \sim  N \bigl(100p, 100p(1-p)\bigr)$$

 

④ 確率変数の和をサンプル数 \(100\) で割り標本比率を求める。

$$ p'  = \frac{X_1+\cdots+X_{100}}{100} \sim  N\bigl (p, \frac{p(1-p)}{100}\bigr)$$

 

⑤ 標準化変数は標準正規分布に従う。

$$Z = \frac{p' - p}{\sqrt{\frac{p(1-p)}{100}} } \sim  N(0, 1)$$

 

⑥ 次に、全国の手術 B の死亡確率を、信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。

$$-z(\frac{α}{2}) \lt \frac{p' - p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

ここからここでルート内の母比率 \(p\) を標本比率 \(p' = 0.58\) で近似し、\(z(\frac{0.05}{2}) = 1.96\)であるから

$$-z(\frac{α}{2})\lt \frac{ p' - p}{\sqrt{\frac{p'(1- p')}{n}} } \lt z(\frac{α}{2})$$

$$\ p' -z(\frac{α}{2})  \sqrt{\frac{p'(1- p')}{n}}\lt  p  \lt \ p' +z(\frac{α}{2})\sqrt{\frac{p'(1- p')}{n}}$$

$$0.58 -1.96\sqrt{\frac{0.58\times 0.42}{100}}\lt  p  \lt 0.58 +1.96 \sqrt{\frac{0.58\times 0.42}{100}}$$

よって手術 B の失敗率の \(95\)% 信頼区間は、

$$0.483\lt  p  \lt 0.677$$

となる。

問題2

ある時点での安倍内閣の支持率は \(3000\) 人の有権者を対象に行ったアンケートによると \(35\) %であった。内閣支持率の \(95\) %信頼区間を求めよ。(頻出問題) 

解答

① 母集団(日本全体)の内閣支持率を \(p\) とする。そして母集団から得られる、有権者1人が確率 \(p\) で内閣を支持する(1)、確率 \(1-p\) で内閣を支持しない(0) のように確率変数を考えると、有権者 \(1\) 人が内閣を支持する確率変数 \(X\) は二項分布 \(B(1, p)\) に従うとしてよい。n 人目の有権者に関して \(X_n\) のように書くとすると、

$$X_1 \sim  B(1, p)$$

 

② 有権者 \(3000\) 人で考えると、確率変数の和 \(X_1+\cdots+X_{3000} \) は \(B(3000, p)\)に従う

$$X_1+\cdots+X_{3000} \sim B(3000, p)$$

 

③ \(B(3000, p)\) は中心極限定理により \(N(3000p, 3000p(1-p))\) へ近似できる。

$$X_1+\cdots+X_{3000} \sim  N \bigl(3000p, 3000p(1-p)\bigr)$$

 

④ 確率変数の和をサンプル数 \(3000\) で割り標本比率を求める。

$$\hat{ p } = \frac{X_1+\cdots+X_{3000}}{3000} \sim  N\bigl (p, \frac{p(1-p)}{3000}\bigr)$$

 

⑤ 標準化変数は標準正規分布に従う。

$$Z = \frac{\hat{ p } - p}{\sqrt{\frac{p(1-p)}{3000}} } \sim  N(0, 1)$$

 

⑥ 内閣支持率を信頼区間 \(95\)% \((α = 0.05)\) で求めると以下の式が成り立つ。

$$-z(\frac{α}{2}) \lt \frac{\hat{ p } - p}{\sqrt{\frac{p(1-p)}{n}} } \lt z(\frac{α}{2})$$

 

ここでルート内の母比率を標本比率で近似し、\(z(\frac{0.05}{2}) = 1.96\) であるから

$$-z(\frac{α}{2})\lt \frac{\hat{ p } - p}{\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} } \lt z(\frac{α}{2})$$

$$\hat{ p } -z(\frac{α}{2})  \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\lt  p  \lt \hat{ p } +z(\frac{α}{2})\sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

$$0.35 -1.96\sqrt{\frac{0.35\times 0.65}{3000}}\lt  p  \lt 0.35 +1.96 \sqrt{\frac{0.35\times 0.65}{3000}}$$

 

よって内閣支持率の \(95\) % 信頼区間は、

$$0.333\lt  p  \lt 0.367$$

となる。

問題3

問題 2 で得られた信頼区間の幅を 0.04 以下になるようにするには、何人以上の有権者を対象にアンケートを行えばよいか。( 頻出問題 ) 

解答

問題 2 で得られた標準誤差 SE ( standard error ) は次の式で表せられる

$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは \(\hat{ p } = 0.5\) の時であるから

\begin{eqnarray} 2SE &=& 2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}\\  &\leq & 2 z(\frac{0.05}{2}) \sqrt{\frac{0.05(1-0.05)}{n}}\\  &\leq & 0.04\end{eqnarray}

上記の式を \(n\) について解くと

$$2401 \leq n$$

となる。

【ポイント】

問題 2 で得られた標準誤差 SE ( standard error ) は次の式で表せられる

$$SE = z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}}$$

この式を変形して、ルート内が最大になるときを考えればよい。ルート内が最大となるのは\(\hat{ p } = 0.5\) の時である。

$$y =\hat{ p }(1-\hat{ p })=-(\hat{p}-\frac{1}{2})^2+\frac{1}{4}≤\frac{1}{4}$$

問題4

ある政党の支持率について調査を行い、支持率の信頼区間を求めたところ信頼区間の幅がやや広範囲であった。次回の調査で信頼区間の幅を今回の約半分にするためには、信頼係数と標本の大きさをどのように設定すればよいか。( 創作問題 ) 

解答

標準誤差 SE ( standard error ) の幅が、今回は \(2k\) であり、次回に \(k\) ( 半分 ) にするためには

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} \leq 2k$$

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{4n}} \leq k$$

つまり、信頼係数 \(1-α\) を固定してサンプルサイズを \(4\) 倍にすればよい。

【ポイント】

問題 3 の類題であり、標準誤差をうまく式変形すれば良いです。

 

 

問題5

【問題】

ある政治家が街頭演説で以下のように述べた。間違っている部分を指摘せよ。

政治家 R『毎回発表される内閣支持率は減少の一途を辿っております。えー、しかしですね。この世論調査はたったの1000人を対象にして行なっているものでありまして、現在の日本の人口が、約 1 億人を超えていることを考えますと、1000 / 1 億 すなわち、1 / 10000 = 0.001 %の人しか対象に行われていない調査であることになります。えー、従いまして、発表されている世論調査は、実際の支持率とは誤差が大きすぎるものであると考えます』

 

【解答】

1 / 10000 = 0.001 %の人しか対象に行われていない調査であることになります。えー、従いまして、発表されている世論調査は、実際の支持率とは誤差が大きすぎるものであると考えます』

上記の太字の後半が間違い。

(理由)

母集団の大きさは標準誤差には関係しないから。(答え)

解説

この内閣支持率は 1000 人を標本として、母比率の区間推定を行なって求めたものであるため、母比率はある標準誤差内に収まって求められる。

$$2z(\frac{α}{2}) \sqrt{\frac{\hat{ p }(1-\hat{ p })}{n}} $$

上記の標準誤差に含まれる文字を考えると、

α:有意水準

p : 母比率 (日本全体の内閣支持率)

n:サンプル数

であるため、母集団の大きさである 1億 は標準誤差には全く関係しない。一方で、当然サンプル数 n が増えれば標準誤差は減少することがわかる。(4 倍になれば標準誤差は半分になる)

すなわち、今回の政治家 R の話の展開として、『 1 億人もいるうちの 1000 人しか調べてないのだから、値は間違っている』という流れは誤り。

 

実際、無作為抽出が厳密に行われていれば、サンプル数 1000 で十分に信頼できる値が得られるとされているそうです。

まとめ

合格くん
合格くん

どうだったかな?

実際にこれまでの応用問題だったでしょ?

かえる
かえる

これまでの復習をしていたから簡単だったケロ。

合格くん
合格くん

実際知っていれば、ほんとにパターン問題でしかないから、出題されたら必ず得点できるようにしておこう!!

 

 

日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]


統計学検定問題集は結構使えます。レベル的には 2 級の問題集が、医学部学士編入試験としてはあっていると思います。

 

統計学がわかる (ファーストブック)

主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。

 

統計学入門 (基礎統計学Ⅰ)

東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。

 

 

 

 

おすすめの記事