
ここでは母平均の差の検定を勉強します。この母平均の差の検定は医学部学士編入試験でも、名古屋大学や知識面でも滋賀医科大学などで出題されています。この分野も基本的にはこれまでの知識が整理されていれば簡単に理解できます。ただし、与えられたデータに関して、どの分布を使って、どの検定をするかを瞬時に判断できるようになっておく必要があります。
母平均の差の検定とは?
これまでは、母集団を一つと考えていましたが、ここでは 2 つの母集団を考え、各々標本をとってくる。そして、それらの標本から各母集団の平均を考えて、等しいかどうかを検定するという手順を踏みます。図で描くとイメージは以下のようになります。
この標本平均の差 \(\overline{X}-\overline{Y}\) を確率変数とみるということになります。下で解法のフローチャートを確認してから、実際の解法の流れを説明します。
母平均の差の検定 フローチャート
母平均の差の検定に関して、解答方針のフローチャートを作ってみました。今回は右上の各母集団の母分散が既知の場合ですので、標準正規分布を用いる方法です。
母平均の差の検定 母分散既知 解法手順
2つの母集団に関して、平均の差の検定を行うときは以下のような手順を踏みます。今回は各群の母分散が既知という、まず有り得ない状況なのですが、一番わかりやすいパターンなのでやってみましょう。
① 二つの正規母集団 \(N(μ_1,\,\ σ_1^2)\)、\(N(μ_2,\,\ σ_2^2)\) に関して、これらの母集団の平均値が等しいがどうかを調べる。このとき帰無仮説は以下のように書ける。
$$H_0 : μ_1=μ_2$$
② 各正規母集団 \(N(μ_1, \,\ σ_1^2)\)、\(N(μ_2, \,\ σ_2^2)\) から各々独立かつ無作為に得られた標本 n 個と標本 m 個を
$${X_1,X_2,\cdots,X_n}$$
$${Y_1,Y_2,\cdots,Y_m}$$
のように定めると、正規分布の再生性より確率変数の和 \(X_1+\cdots+X_n \) は \(N(nμ,\,\ nσ_1^2)\) に従う。よって、
$$\overline{X} = \frac{1}{n}({X_1+\cdots+X_n}) \sim N_1(μ,\,\ \frac{σ_1^2}{n})$$
③ 同様に、
$$\overline{Y} = \frac{1}{m}({Y_1+\cdots+X_m}) \sim N_1(μ,\,\ \frac{σ_2^2}{m})$$
④ 各標本平均の差をとると
$$\overline{X}-\overline{Y} \sim N(μ_1-μ_2,\,\ \frac{σ_1^2}{n}+\frac{σ_2^2}{m})$$
⑤ よって、検定統計量は標準正規分布に従うとして、
$$Z = \frac{(\overline{X}-\overline{Y})-(μ_1-μ_2)}{\sqrt{\frac{σ_1^2}{n}+\frac{σ_2^2}{m}}} \sim N(0,\,\ 1)$$
⑥ 帰無仮説の元では、μ1=μ2 であり、各母分散は既知であるから、検定統計量は以下を計算すれば良い。
$$Z = \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{σ_1^2}{n}+\frac{σ_2^2}{m}}}$$
⑦ これ以降は、有意水準 α によって棄却域を定め、検定統計量が棄却域に入っているか否かを調べれば良い。
母分散が既知だから、標準正規分布 N ( 0, 1 ) が使えるということを思い出してください。
また、仮にこの母分散 σ¹とσ² が等しい場合であっても、同様に計算できます。
では、実際に問題みてみましょう。
問題 1
正規分布 N ( μ1, 49 ) に従う母集団から 32 1個の標本を、無作為抽出した結果、その標本平均は \(\overline{X} = 64.2\) であった。一方、正規分布 N ( μ2, 64 ) に従う母集団から 32 個の標本を、無作為抽出した結果、その標本平均は \(\overline{Y}=57.2\) であった。2 つの母集団について、母平均に差があるかどうかについて、有意水準 α = 5 % で検定せよ。
解答
【方針】2 つの正規母集団について、母分散既知であり、母平均の差の検定である。
ここまで来れば、大体予想はついているかも知れませんが、もし仮に各母分散 σ¹ と σ² が未知の場合は t 検定を使うことになります。
ただし、t 検定を使うにしても、各データが対応あるものなのか、対応のないものなのかによって、t 分布の使い方が少しだけ異なります。(別記事で解説しています) 条件によって用いる手法についてフローチャートを作りましたので、以下を参考にしてください。
上述した 対応のある t 検定と対応のない t 検定 については別記事で解説していますが、一応書いておきますと、
対応ありの t 検定の場合は、各実測値の差を求めて、それらの値から不偏分散を計算して、自由度 n - 1 の t 分布を用いる。
対応のない t 検定の場合は、各不偏分散を計算した後、各分散が等しい場合に、それらを用いて統合分散 Sp を計算する必要が出てきます。各分散が等しいとは限らない場合は、Welch 検定 を行う。
話を戻して、まとめますと以下のようになります↓
母分散既知の場合は、
- 各分布の標本平均の差をとって、分布を考える。
- 標準化した検定統計量が標準正規分布に従うとして検定を行う。
これだけは押さえておきましょう。
まとめ
正直なところ、対応のある t 検定と対応のない t 検定の問題をやってみないと全体像が掴めないかと思います。別記事の 平均の差の検定その 2 とその 3 の記事を参考にしてみてね!!
日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]
統計学検定問題集は結構使えます。レベル的には 2 級の問題集が、医学部学士編入試験としてはあっていると思います。
統計学がわかる (ファーストブック)
主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。
東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。