
ここでは、母集団の点推定の分野を扱います。今回は解説編ですので、問題編は別記事で扱っていますので参照して頂けますと幸いです。また、不偏推定量である不偏分散についても、数学的背景に注意しながら理解していきたいと思います。
点推定と区間推定
点推定:日本全国の高校3年生男子の、平均身長を一つの数値で知りたい時にはどうするか?

区間推定:日本全国の高校3年生男子の、平均身長をある範囲を持って知りたい時にはどうするか?
母集団と標本
ある同一の確率分布に従う母集団から、確率変数 \(X_i\) (i=1,2,…n) を n 個抽出するとする。これら n 個の標本 \(X_1\) , … , \(X_n\) において、\(X_1\) を抽出することは、\(X_2\) を抽出することに影響を与えない。それは他の確率変数にも同様に言えることであり、これらの確率変数 \(X_1\) , … , \(X_n\) は同一の確率分布に従い、かつ互いに独立な確率変数であるといえる。
【注意】この、「確率変数 \(X_1\) , … , \(X_n\) が互いに独立であること」は、以下で説明する不偏分散の期待値が母分散と等しいことを証明する際の計算過程で必要となってきます。
母平均 母分散の定義
母平均を \(μ\) (ミュー)、そして母分散を \(σ^2\) (シグマ)とおくと、確率変数 \(X_i\) (i=1,2,…n) に対して、
$$\small{ μ = E[X_i] \tag{1}}$$
$$\small{ σ^2 = E[(X_i - μ)^2] \tag{2}}$$
(1) (2) 式によって、母平均と母分散が定義されています。これらの意味についてですが、まず (1) 式は、同じ母集団から取ってきた確率変数の期待値が母平均μであるという、そのままの意味です。次に (2) についてですが、これは、同じ母集団から取ってきた各確率変数と母平均μの差を取って2乗した \((X_1 - μ)^2\) , \((X_2 - μ)^2\) , … , \((X_n - μ)^2\) たちの平均を取ったもの、つまりこれら\((X_i - μ)^2\) の期待値を求めたものが母分散 \(σ^2\) であるという意味です。言い換えると以下のようになります。
(1) は
$$\small{ μ = E[X_1] = E[X_2] = … = E[X_n] }$$
(2) は
$$\small{ σ^2 = \frac{(X_1 - μ)^2 + (X_2 - μ)^2 +…+(X_n - μ)^2}{n} }$$
(2-2) で各々引き算をしているのは、母平均 μ であることに注意しましょう。次に出てくる標本分散ではμではなく、標本平均 \(\overline{ x }\) で各々を引き算していくことに注意!
母平均 母分散が決まると分布の形が決まる
ここで、仮に母集団を正規分布と仮定すると、母集団を定義する式である確率分布を表す式 (確率密度関数と呼ぶ) は、これら \(μ\) と \(σ^2\) によって分布が一つに決まります。つまり、\(μ\) と \(σ^2\) によって分布の形が決まるというイメージを持っておきましょう。また、\(μ\) と \(σ^2\) を母平均と母分散にもつ正規分布は、N (\(μ\) , \(σ^2\)) と表記されます。そして、この正規分布を表す関数である、確率密度関数は以下の式で定義されます。
$$\small{f_N(x) =\frac{1}{\sqrt{2π}{σ}}e^{ \frac{-(x-μ)^2}{2σ^2} }\tag{3}}$$
この式をよく見ると、変数 \( x \) 以外は定数であること、そして、\( x = μ\) に対してグラフが左右対称であることがわかるはずです。
標本平均 標本分散の定義
次に、標本平均を \(\overline{ x }\) 、そして標本分散を \(s^2\) (sampleのs)とおくと、確率変数 \(X_i\) (i=1,2,…n) に対して、
$$\small{\overline{ x } = \frac{X_1 + X_2 + … + X_n}{n}}$$
$$\small{ s^2 = \frac{(X_1 - \overline{ x })^2 + (X_2 - \overline{ x })^2 +…+(X_n - \overline{ x })^2}{n}}$$
と定義されます。一つ目の式は標本の平均をとったものとなっています。二つ目の式は、母分散を表す(2)式との違いに注意してください。
標本分散と母分散の違い
右辺では母平均 \(μ\) ではなく、\(\overline{ x }\) で引き算をしています。母平均がわかればそれを使えば良いのですが、母平均がわからない時は、仕方なく標本を集めて計算するわけですので、このように標本平均 \(\overline{ x }\) を使わざるを得ません。
不偏分散の定義
「不偏」とは「偏りがない unbiased」という意味です。その意味については次の「不偏推定量の定義」の章で説明しますので、まずは標本分散 \(s^2\) との違いだけ意識できるようにしましょう。不偏分散を \( u^2 \) と置くと以下のように定義されます。
$$\small{ u^2 = \frac{(X_1 - \overline{ x })^2 + (X_2 - \overline{ x })^2 +…+(X_n - \overline{ x })^2}{n-1}}$$
不偏分散と標本分散の違い
不偏分散は n ではなく、n-1で割り算をしていることに注意してください!これは次に説明する不偏推定量の定義を考えた時に、n-1 で割ることでその定義が満たされるようになるからです。ある標本を取ってきて、「分散を計算しろ」と言われたら基本的には「nで割る」分散 (標本分散) を考えれば良いと思います。しかし、問題集や参考書によっては、標本分散と言っておきながら、標本分散を「n-1で割る」不偏分散と定義している本があります (超有名参考書)。この説明では、受験生の勉強の妨げになりますし、実際僕もかなり混乱させられました。
また、標準偏差 (標本標準偏差とも呼ぶので紛らわしい) を求める場合にも、この不偏分散の平方根 \(\sqrt{u^2}\) なのか、標本分散の平方根 \(\sqrt{s^2}\) なのか、標準偏差の定義も統一されていないようです。実際、北海道大学医学部の医学部学士編試験問題でも、標準偏差の定義を指定せずに、標準偏差を答えさせる問題がありました。(解答では、不偏分散を計算させていたので、標準偏差は \(\sqrt{u^2}\) と判断する問題でした↓)
「標本分散を求めよ」と出題されている場合は、「n-1で割る」不偏分散 \(u^2\) を意味しているのか、その標本自体を母集団と考えて「nで割る」母分散の意味での標本分散 \(s^2\) であるのか、どちらであるのかよく考えましょう。同時に「標本分散」についても \(\sqrt{u^2}\) なのか \(\sqrt{s^2}\) であるのか、問題の流れと出題者の意図を考えるようにしましょう。
不偏分散の文字
不偏分散を表現する際には、上記の事情もあり、\(s^2\) \(\hat{σ}^2\) \(V\) \(u^2\) といった様々な文字が用いられています。当サイトでは混乱を避けるため「不偏」「unbiased」 の頭文字をとって \(u^2\)を用いています。
不偏推定量の定義
ここが、 母集団の点推定を可能にしている定義式ですので、しっかりと計算も含めて押さえておきましょう。
【定義】母数θの推定量θ’に対し,
$$\small{E[ θ’ ] = θ\tag{4}}$$
を満たすとき、θ’をθの不偏推定量であると言います。
ここで言う母数θとは、母平均 \(μ\) や母分散 \(σ^2\) を意味しています。またこの「不偏推定量」の意味は、文字通り「推定量」が「不偏」「偏りがない」「unbiased」ということです。つまり、不偏推定量とは「推定した量 (ここでは標本平均や不偏分散となる) が、母数 (母平均や母分散) に比べて、大きい値や小さい値となる傾向はない」ということです。推定量を繰り返し測定して、得られた推定値の平均値 (期待値) は、その繰り返しの回数を増やすほど対応する母数θに近づくということを表現した定義が E[θ’]=θ ということです。
言葉で言えば言うほど分かりづらいかもしれませんが、標本平均 \(\overline{ x }\) と不偏分散 \( u^2 \) をこの定義を用いて計算することにより、以下の式が成り立ちます。
標本平均の期待値は母平均と等しい
$$\small{E[ \overline{ x }\ ] = μ\tag{5}}$$
標本平均 \(\overline{ x }\) の期待値を計算すると、母平均 \(μ\) となります。すなわち、標本平均 \(\overline{ x }\) は母平均 \(μ\) の不偏推定量であると言えることになります。
実際の計算はこちらの記事で解説しています↓
不偏分散の期待値は母分散と等しい
$$\small{E[ u^2 ] = σ^2\tag{6}}$$
不偏分散 \(\ u^2 \) の期待値を計算すると、母分散 \(σ^2\) となります。すなわち、不偏分散 \( u^2 \) は母分散 \( σ^2 \) の不偏推定量であると言えることになります。ここで先程述べたように、不偏分散の定義を n-1 でなく、n で割り算している標本分散 \(s^2\) で期待値を計算すると、不偏推定量の定義式を満たさないことになってしまいます。一般に、標本分散の期待値は母分散と一致せず、少しだけ小さい値となります。(\( \frac{n-1}{n} \)倍になる)
$$\small{E[ u^2 ] = σ^2\tag{7}}$$
$$\small{E[ s^2 ] = \frac{n-1}{n}σ^2\tag{8}}$$
実際の計算はこちらの記事で解説しています↓
まとめ
ここで、話を元に戻しましょう。今やりたいことは、「母集団の母平均 \(μ\) と母分散 \(σ^2\) がわからないから、標本から値を推定しよう!」ということでした。この場合に使えるのが、上でお示しした不偏推定量を使うことです。つまり、
標本平均の期待値は、母平均に一致すること
不偏分散の期待値は、母分散に一致すること
この理由を持って標本平均を母平均の推定値に、そして不偏分散を母分散の推定値にするということが許されています。つまり、まとめると以下のようになります。
「母集団の母平均、母分散の推定値は、標本の標本平均と不偏分散を計算する」ということです。
統計学 参考書
以下に、統計学を学ぶ上で参考になった教材をいくつか挙げておきます。
独習 統計学24講: 医療データの見方・使い方
式での計算過程は少し足りないと思いますが、文章で丁寧に説明されており理解が進みました。
スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!
計算でゴリゴリ証明してくれているので、根底から理解できます。
日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]
統計学検定問題集は結構使えます。レベル的には2級の問題集が、医学部学士編入試験としては合っていると思います。
統計学がわかる (ファーストブック)
主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。
統計学入門 (基礎統計学Ⅰ)
東京医科歯科大学の教養時代はこの教科書を用いて勉強していました。