
今回は、母平均の差の検定 その3 です。
その1 では、2 つの群の母分散が既知っていう特別な場合、
その2 では、2 つの群の母集団が未知で、かつデータが対応ある場合だったケロ。データに対応がある場合でも、正規分布している時は、t 検定、正規分布か不明のときは Wilcoxon 検定でした。復習は以下の記事を参照してください↓
今回は下のフローチャートの丸で囲んだ部分を勉強します↓
各母集団の母分散が未知で、データに対応がなくて、各母集団が正規分布しているときは、各標本の不偏分散を計算し、 t 検定 でした。ただ、今回は前回の対応あるデータの時とは少し違って、注意が必要です。各群の母分散は未知だが、それらが『等しいか、等しくないかによって、また使える検定方法が異なってくるということに注意しましょう。
そして、試験で問われるのは、これまた特別な場合で、『 各母分散が未知だけど、等しいことはわかっている 』という場合です。このときは、二つの不偏分散から統合分散というものを計算して、自由度 n + m - 2 の t 分布を用いて検定を行います。
また、各分散が等しいかどうか不明な場合(≠)は、別の Welch 検定という方法を用いて行きます。
Welch 検定
『 対応がない 』データであり、2 つの分布が正規分布でもあることがわかっている。しかし、この二つの分散が等しいかどうか不明な場合は、Welch 検定 を行うことになります。この検定は、Wilcoxon の符号順位和検定や、順位和検定と同じく医学部学士編入試験では問われることはないので、この記事では割愛しています。
入学試験で問われることはありませんが、大学入学後、卒業後は普通に使用することになりますので、大学入学後に勉強することをお勧めします。方法論的には、下の参考書にてわかりやすく解説されています。
それでは次から実際の解答の手順について確認していきましょう。 t 検定か Welch 検定かどちらを行うにせよ、途中までは議論は同じですので、そこに注意して確認してみてください。
母平均の差の検定 対応ない t 検定 解法手順
2 つの母集団に関して、母分散が未知であり、対応がないデータであり、各分布が正規分布である。このとき、各群の標本平均、不偏分散を計算する。(ここまでは、t 検定にせよ、Welch 検定にせよ同じ議論です)
母分散が等しい場合
2 つの標本群 ( 標本数 n と m とする ) から統合分散 Sp² を計算し 自由度 n + m - 2 の t 分布による検定を行う。
母分散が異なる可能性がある場合
2 つの標本群 ( 標本数 n と m とする) から不偏分散を求め、母分散の比を不偏分散の比で近似する。自由度 ν を Satterthwaite の式を用いて計算し、t 分布による検定を行う。この方法を Welch 検定 と呼ぶ。この方法の利点は、近似的な方法であるに拘らず、実用上はその誤差を気にすることなく使用できること、そして、正規分布の仮定が崩れたときでも誤差を少なく計算することができること、が挙げられています。医学部学士編入試験では出題される可能性が低いため、今回は割愛しています。
それでは、実際の計算手順を書いてみます。
① 二つの正規母集団 \(N(μ_1,\,\ σ_1^2)\)、\(N(μ_2,\,\ σ_2^2)\) に関して、これらの母集団の平均値が等しいかどうかを調べる。\(σ_1^2,\,\ σ_2^2\) は未知とし、帰無仮説は以下のように書ける。$$H_0 : μ_1=μ_2$$
② 各正規母集団 \(N(μ_1, \,\ σ_1^2)\)、\(N(μ_2, \,\ σ_2^2)\) から各々独立かつ無作為に得られた標本 n 個と標本 m 個を $${X_1,X_2,\cdots,X_n}$$$${Y_1,Y_2,\cdots,Y_m}$$のように定めると、正規分布の再生性より確率変数の和 \(X_1+\cdots+X_n \) は \(N(nμ_1,\,\ nσ_1^2)\) に従う。よって、$$\overline{X} = \frac{1}{n}({X_1+\cdots+X_n}) \sim N(μ_1,\,\ \frac{σ_1^2}{n})$$
③ 同様に、$$\overline{Y} = \frac{1}{m}({Y_1+\cdots+X_m}) \sim N(μ_2,\,\ \frac{σ_2^2}{m})$$
④ 各標本平均の差をとると$$\overline{X}-\overline{Y} \sim N(μ_1-μ_2,\,\ \frac{σ_1^2}{n}+\frac{σ_2^2}{m})$$
⑤ よって、検定統計量は次のように書ける。$$T = \frac{(\overline{X}-\overline{Y})-(μ_1-μ_2)}{\sqrt{\frac{σ_1^2}{n}+\frac{σ_2^2}{m}}}$$ここまでは、母平均の差の検定 ( 母分散が既知 ) の場合と同じ議論です。しかし、今回は母分散が未知の状況ですので、この母分散を不偏分散で近似します。
⑥ 2 つの標本の不偏分散を \(u_1^2,\,\ u_2^2\) とおき、検定統計量の各母分散 \(σ_1^2,\,\ σ_2^2\) と置き換えると次のようになる。$$T_w = \frac{(\overline{X}-\overline{Y})-(μ_1-μ_2)}{\sqrt{\frac{u_1^2}{n}+\frac{u_2^2}{m}}}$$母分散が分かっていなければ、上述したとおりこの検定統計量 \(T_w\) を用いて Welch 検定へ進みます ( 試験に出ないので今回は割愛 )。しかし、母分散未知であっても、もし仮に 2 つが等しいことが分かっていさえすれば、このまま統合分散 Sp² を用いて t 検定へ進むことが可能になります↓
⑦ ここで、仮に各母分散が等しいことが分かっているとき、⑥ 式において、各母分散を統合分散 \(S_p^2=σ_1^2=σ_2^2\) を用いて以下のよう表すことができます。
$$T= \frac{(\overline{X}-\overline{Y})-(μ_1-μ_2)}{\sqrt{S_p^2(\frac{1}{n}+\frac{1}{m})}}$$
$$S_p^2 = \frac{(n-1)\,\ u_1^2-(m-1)\,\ u_2^2}{n + m\,\ - 2}$$
ここで、各母分散が等しいことが分かっていなければ、上述したとおり Welch 検定へ進みます ( 試験に出ないので今回は割愛しています ) が、等しいことが分かっていれば、このまま t 検定へ進めます。
⑧ 帰無仮説の元では、μ1=μ2 であり、検定統計量は以下を計算すれば良い。
$$T = \frac{\overline{X}-\overline{Y}}{\sqrt{S_p^2(\frac{1}{n}+\frac{1}{m})}}$$
⑨ この検定統計量 \(T\) は、自由度 n + m - 2 の t 分布に従うことが分かっており、有意水準 α を定めて棄却域にあるか否かを判定すればよい。
一般的な解答の手順は上記の通りです。
⑤ の検定統計量 T までは同じ議論になります。
母分散未知なら → 不偏分散で近似して Welch 検定
母分散未知でも仮に等しいなら → 統合分散で近似して t 検定
何度もいうけど、試験の計算問題でよく出題されるのは、下のフローチャートでいうところの『 母分散未知、対応のないデータで、2 群が正規分布、そして、偶然にも各母分散が等しい場合 』なんだ!!
統合分散について
統合分散は、『 重み付き分散 』とも呼ばれています。
$$S_p^2 = \frac{(n-1) u_1^2-(m-1)u_2^2}{n + m\,\ - 2}$$
各不偏分散に n - 1 と m - 1 をかけたものを、( n - 1 ) + ( m - 1 ) = n + m - 2 で割ったと解釈できます。
問題 1
一定体積の水槽へ溶解させた、一定量の化合物 A について、異なる 2 種類の有機溶媒 Z と Y を用いて有機溶媒抽出を行い、抽出百分率を求める実験を行った。各溶媒について、独立した実験を 5 回行った結果を表に示す。
実験回数 | 有機溶媒 Z | 有機溶媒 Y |
1 | 75.0 | 66.0 |
2 | 69.0 | 59.0 |
3 | 66.0 | 68.0 |
4 | 70.0 | 69.0 |
5 | 73.0 | 62.0 |
平均値 | 70.6 | 64.8 |
不偏分散 | 12.3 | 17.7 |
各有機溶媒で得られた、抽出百分率の平均値から、有機溶媒 Z と Y に差が認められるかを有意水準 α = 5 % で検定しろ。計算過程や結論の根拠を含めて解答欄に記載せよ。ただし、各群はそれぞれ正規分布に従い、2 群は等分散であるとみなしてよいとする。必要であれば、\(\sqrt{2}=1.2,\,\ \sqrt{3}=1.7\) として計算せよ。必要があれば下の t 分布表を用いてよい。( 名古屋大 改 )
解答
【方針】母平均の差の検定であり、各群の母分散は未知、有機溶媒 Z と有機溶媒 Y の二つは別の実験であって、得られたデータは対応のないデータであることがわかる。また、条件より各群のデータは正規分布に従い、2 群は等分散であると考えて良いため、各群の不偏分散から統合分散を求め、自由度 n + m - 2 の t 分布を用いて検定を行う。
有機溶媒 Z と有機溶媒 Y の各群の平均値をそれぞれ μ1, μ2 、母分散 σ1²,σ2²、実験回数を n 回と m 回とおく。帰無仮説を以下のように定める。
帰無仮説 H0:μ1 = μ2
各群の確率変数を Z と Y と定めると、各正規分布へ従う。
結果、有機溶媒 Z と Y による抽出百分率には有意差があると考えられる。よって、化合物 A に関して有機溶媒 Z による抽出の方が、抽出百分率が大きいと言える。 (答)
問題 2
A 高校と B 高校の学生が、同じ数学の試験を受験した。各高校の試験結果から無作為に 5 人と 7 人 の標本を無作為抽出により選んだ。
A 高校:25 65 70 75 95
B 高校:30 50 55 65 70 80 91
A 高校と B 高校の学生の試験点数は正規分布 N ( μ1, σ1² )、N ( μ2, σ2² ) に従い、各母分散は等しいとする。このとき、各高校の点数の平均値に差はあるかどうかを統計学的に推察せよ。必要があれば電卓と下の t 分布表を用いてよい。( 頻出問題 創作 )
解答
【方針】母平均の差の検定であり、各群の母分散は未知、A 高校 と B 高校 のデータは対応のないデータであることがわかる。また、条件より各高校の点数データは正規分布に従い、2 群は等分散であると考えて良いため、各群の不偏分散から統合分散を求め、自由度 n + m - 2 の t 分布を用いて検定を行う。
A 高校と B 高校の各群の平均値をそれぞれ μ1, μ2 、母分散 σ1²,σ2²、受験者数を n = 5 (人)と m = 7 (人)とおく。帰無仮説を以下のように定める。
帰無仮説 H0:μ1 = μ2
ここで、各標本データより、標本平均と不偏分散を計算すると、
すなわち、帰無仮説は棄却されず、A 高校と B 高校の平均値に差があるとは言えない。(答)
まとめ
統合分散の知識は新しいものでした。しかし、やっている内容は、これまでの知識を使ったものだったと思います。また、この対応のない t 検定もよくある設定ですので、やはり練習しておく必要があります。
別記事 その2↓では 対応のある t 検定を学習しましたが、ここで学習した内容 対応のない場合も出題される可能性は高いからしっかりと勉強しておきましょう。
日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]
統計学検定問題集は結構使えます。レベル的には 2 級の問題集が、医学部学士編入試験としてはあっていると思います。
統計学がわかる (ファーストブック)
主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。
東京医科歯科大学の教養時代はこの教科書を用いて勉強していました。