
今回は、母平均の差の検定 その2 です。
その1 では、2 つの群の母分散が既知っていう特別な状況でした。しかし、正直言いましてそんな都合の良いことあるわけがありません。
今回は下のフローチャートの丸で囲んだ部分を勉強します。
ここで学習する内容は、各母集団の母分散が未知で、データに対応があって、各母集団が正規分布しているときは、各データの差を考えて、不偏分散を計算し、自由度 n - 1 の t 検定を行う、というものです。
条件が多いと思いますが、以前勉強した 母分散未知の場合の母平均の検定と一緒です。それはつまり t 検定です。
復習が必要だなと感じましたら、下の記事を参照してください↓
それでは、まず『対応のある』『対応のない』から説明していきます。
『 対応のある 』『 対応のない 』データとは?
例えば、例を挙げるとわかりやすいと思いますが、『 対応のある 』とは、
例 1:
ある患者 10 人の投薬前後の収縮期血圧値に差はあるか?
例 2:
抗癌剤投与前後の腫瘍直径に差はあるか?
のような場合を言います。
これらの場合、2 標本ではありますが、対のデータの差分を新たなデータとして扱いますので、実質的には 1 標本問題ということになります。解法的にも、母分散未知の母平均の検定と殆ど同じで、『 対応のある 』データの場合は 1 標本問題として、差分のデータを 不偏分散を用いて 自由度 n - 1 の t 分布を用いて t 検定すれば良いことになります。
一方で、『 対応のない 』データとは、2 標本が互いに全く独立の場合で、
例 1:
マクドナ○ドの A 店と B 店について、フライドポテト S サイズのポテトの本数に差はあるか?
例 2:
大学 A の学生 10 人と大学 B の学生 9 人が同じ試験を受験し、各点数を得た。大学 A と大学 B の学生のこの試験の平均点に差はあるか?
上記のような例が挙げられます。
この『 対応のない 』データの場合はまた別の記事で解説していますので、チェックしてみてください。
母平均の差の検定 フローチャート
一つ注意して欲しいのが、今回解説しているのは下のフローチャートで『 対応がある 』だけでなく、『 N1 N2 が正規分布 』の場合であるということです。
この、二つの分布が正規分布であることによって、t 分布が使えるということに注意してください。母分散の検定のところでも触れましたが、このことは、数学的にはあまり深追いしないほうが良いです。どうしても深追いしたい!という人は、下の参考書に証明が書かれていますのでチェックしてみてください。
スバラシク実力がつくと評判の統計学キャンパス・ゼミ―大学の数学がこんなに分かる!単位なんて楽に取れる!
Wilcoxon 検定
『 対応ある 』データではあるが、この 2 つの分布が正規分布であるかどうか不明な場合は、Wilcoxon 符号順位和 検定 を行うことになります。この分布が不明な場合でも使用可能な方法をノンパラメトリックな方法と言います。補足ですが、『 対応のない 』データにおいてのノンパラメトリックな方法の一つに、Wilcoxon 順位和 検定 ( Mann Whitney の U 検定 ) なるものも存在するので注意が必要です。ただし、これらの検定は、医学部学士編入試験では計算問題として問われることはないので、この記事では割愛しています。
入学試験で問われることはありませんが、大学入学後、卒業後は普通に使用することになりますので、大学入学後に勉強することをお勧めします。方法論的には、下の参考書にてわかりやすく解説されています。
それでは次から実際の解答の手順について書いていきます↓
母平均の差の検定 対応ある t 検定 解法手順
2 つの母集団に関して、母分散が未知であり、対応あるデータであり、かつ、各分布が正規分布である場合は、対になる n 個の実測値データの、差を新しいデータとして用います。そして、不偏分散を計算し、自由度 n - 1 の t 分布を用いて検定を行います。
① n 個の対をなす標本データは、ともに正規分布に従うものとする。この対をなすデータに関して、各差を計算する。
$$\,\ d_1=X_1-Y_1$$
$$\,\ d_2=X_2-Y_2$$
・・・
$$\,\ d_n=X_n-Y_n$$
② 2 つの母平均をそれぞれ μ1, μ2 とおく。そして、上記の差の標本平均 \(\overline{d}\) と不偏分散 u² は以下のようになる。
$$\,\ \overline{d}= \frac{1}{n}(d_1+d_2+\cdots+d_n)$$
$$\,\ u^2 = \frac{1}{n-1}[(d_1-\overline{d})^2+\cdots+(d_n-\overline{d})^2] $$
③ 検定統計量を計算すると、
$$T = \frac{\overline{d}-(μ_1-μ_2)}{\sqrt{\frac{u^2}{n}}} \sim 自由度\,\ n-1\,\ t\,\ 分布$$
④ 帰無仮説の元では、μ1 = μ2 であり、検定統計量は以下を計算すれば良い。
$$T = \frac{\overline{d}}{\sqrt{\frac{u^2}{n}}}$$
⑤ これ以降は、有意水準 α によって棄却域を定め、検定統計量が棄却域に入っているか否かを調べれば良い。
この場合は母分散が未知ですので、標準正規分布 N ( 0, 1 ) は使うことはできません。その為、不偏分散を代わりに用いて、自由度 n - 1 の t 分布を用いて検定をするということになります。ただ t 分布に関しては、自由度が大きくなると t 分布は標準正規分布に近づいていくということも覚えておきましょう。
また、その他にも『 対応ある 』データであり、二つの母集団が正規分布していることも t 分布を使うことができる条件であったことを思いだしてください。分布が正規分布をなしていない場合は、ウィルコクソンの符号順位和 検定を行うことになります。
ウィルコクソン検定は、符号順位和検定でも、順位和検定でも、分布の種類が不明な場合でも使用できる、ノンパラメトリックな方法です。しかし、この方法は医学部学士編入試験において、計算問題としては出題されません。もし仮に出題されたとしても誘導問題となるハズです。まずは、しっかりとフローチャートで囲まれた『 対応ある 』データにおける t 検定の方法だけはマスターしておきましょう。
問題 1
高血圧患者 1 人に対して、降圧剤投与開始前後の収縮期血圧に関するデータを得た。投薬期間は 3 ヶ月であった。ただし、血圧のデータは正規分布すると考えて良い。必要であれば \(\sqrt{111}=10.5356\) と下記の t 分布表を用いてよい。以下の各問に答えよ。
問 1 この降圧剤の効果判定を、有意水準 5 %で行え。
被験者 | A | B | C | D | E | F |
投与前 | 150 | 145 | 140 | 155 | 145 | 150 |
投与後 | 130 | 135 | 135 | 150 | 130 | 141 |
解答
降圧剤投与前後の、各被験者の収縮期血圧の差を求める。
被験者 | A | B | C | D | E | F |
投与前 | 150 | 145 | 140 | 150 | 145 | 150 |
投与後 | 130 | 135 | 135 | 155 | 130 | 141 |
後 - 前 | - 20 | - 10 | - 5 | 5 | - 15 | - 9 |
【方針】母平均の差の検定であり、各群の母分散は未知、対応あるデータである。文章より各群の血圧のデータは正規分布すると考えて良いため、標本平均と不偏分散を求め、自由度 n - 1 の t 分布を用いて検定を行う。
降圧剤投与前後の差の、標本平均と不偏分散を求めると、
標本平均 \(\overline{d}\) = \(\frac{1}{6}[(-20)+(-10)+(-5)+5+(-15)+(-9)]\)=\(-9\)
不偏分散 \(u^2\) = \(\frac{1}{6-1}[(11^2+\cdots+0^2]\)=\(74\)
である。
降圧剤投与前後の各群の母平均をそれぞれ μ1, μ2 とおき、帰無仮説を以下のように定める。
帰無仮説 H0:μ1 = μ2
ここで、検定統計量 T は 自由度 6 - 1 の t 分布に従う。
$$T = \frac{\overline{d}-(μ_1-μ_2)}{\sqrt{\frac{u^2}{n}}} \sim 自由度 \,\ 5\,\ t 分布$$
$$T = \frac{ -9 - 0 }{\sqrt{\frac{74}{6}}} = -2.5627...$$
ここで、以下の t 分布の表を参考にすると、上側 2.5 %点は t n -1( 0.025 ) = t 5 ( 0.025 )= 2.571 であるから、検定統計量 T を有意水準 α = 5 % で両側検定すると、図より棄却域されない。
よって、帰無仮説は否定されないので、降圧剤の効果はあるとは言えない (答)
上記の場合、棄却域にギリギリ入らないという結果になりました。全体的には下がって入るように見えますが、このようなことが起こる可能性が 5 % 以上はある為、今回の場合は効果がある(差がある)とは言えない、ということになる。
次の問題は、先ほどのデータのうち、被験者 F の降圧剤投与後のデータが測定ミスだった という設定で解いてみましょう。
測定値がたったの『 1 』異なるだけで、結果が変わってきてしまうことに驚くと思います。
問題 2
問題 1 の状況において、被験者 F の投与後のデータが誤りであることが発覚した。必要であれば \(\sqrt{\frac{6}{2670}}=0.0474\) ,\(\sqrt{\frac{2670}{6}}=21.095\) と下記の t 分布表を用いてよい。以下の各問に答えよ。
問 1 この降圧剤の効果判定を、有意水準 5 %で行え。
問 2 効果があるとき、その効果の 95 % 信頼区間を求めよ。なお、数値は小数点第 3 位を四捨五入して求めよ。
被験者 | A | B | C | D | E | F |
投与前 | 150 | 145 | 140 | 155 | 145 | 150 |
投与後 | 130 | 135 | 135 | 150 | 130 | 140 |
問 2 解答
降圧剤投与前後の、各被験者の収縮期血圧の差を求める。
被験者 | A | B | C | D | E | F |
投与前 | 150 | 145 | 140 | 150 | 145 | 150 |
投与後 | 130 | 135 | 135 | 155 | 130 | 140 |
後 - 前 | - 20 | - 10 | - 5 | 5 | - 15 | - 10 |
【方針】問題 1 と同様である。
降圧剤投与前後の差の、標本平均と不偏分散を求めると、
標本平均 \(\overline{d}\) = \(\frac{1}{6}[(-20)+(-10)+(-5)+5+(-15)+(-10)]\)=\(\frac{-55}{6}\)
不偏分散 \(u^2\) = \(\frac{1}{6-1}[((-20)-(\frac{-55}{6}))^2+\cdots+((-10)-(\frac{-55}{6}))^2]\)=\(\frac{2670}{6^2}\)
である。
降圧剤投与前後の各群の母平均をそれぞれ μ1, μ2 とおき、帰無仮説を以下のように定める。
帰無仮説 H0:μ1 = μ2
ここで、検定統計量 T は 自由度 6 - 1 の t 分布に従う。
$$T = \frac{\overline{d}-(μ_1-μ_2)}{\sqrt{\frac{u^2}{n}}} \sim 自由度\,\ 5 \,\ t\,\ 分布$$
$$T = \frac{\frac{-55}{6} - 0 }{\sqrt{\frac{2670}{6^3}}} = -55\sqrt{\frac{6}{2670}}=-55×0.0474=-2.607$$
ここで、以下の t 分布の表を参考にすると、上側 2.5 %点は t n -1( 0.025 ) = t 5( 0.025 ) = 2.571 であるから、検定統計量 T を有意水準 α = 5 % で両側検定すると、図より棄却域される。
よって、帰無仮説は否定される、降圧剤の効果はあると言える (答)
上記の場合では、被験者 F の測定値がたったの『 1 』違うだけで結果が変わってしまったことに驚きます。データをしっかり取ることが、如何に大切かを考えさせられると思います。
問 2 解答
母平均を μ = μ1 - μ2 とおくと、
n = 6
標本平均 = -55/6
不偏分散 = 2670/36
自由度 5 の t 分布 上側 2.5 % 点 t n-1( 0.025 ) = t 5( 0.025 ) = 2.571
\(\sqrt{\frac{6}{2670}}=0.0474\)
\(\sqrt{\frac{2670}{6}}=21.095\)
であるから、母平均の 95 % 信頼区間は以下の図より求まる。
以上から 母平均 μ の 95 % 信頼区間は
- 18.205...≦ μ ≦ - 0.12754...
- 18.21 ≦ μ ≦ - 0.13 (答)
である。
問題 3
6 人のがん患者について、薬物投与前後における腫瘍組織の直径を測定し、次のようなデータを得た。この薬物には腫瘍縮小効果が期待できるかどうかを統計学的に検証するため、帰無仮説 H0 :効果がない、対立仮説 H1:効果がある、として有意水準 α = 5 % で片側検定を行え。自由度 5 の t 分布、上側 5 % 点 t 5 ( 0.05 ) = 2.015 を用いよ。( 京都大学 院 生物科学 改 )
患者番号 | 投与前 直径 (mm) X | 投与後 直径 (mm) Y | 投与前後の差 Z = X-Y |
1 | 20 | 10 | 10 |
2 | 15 | 12 | 3 |
3 | 13 | 9 | 4 |
4 | 23 | 14 | 9 |
5 | 10 | 11 | -1 |
6 | 25 | 8 | 17 |
解答
2 群における母分散が未知であり、同じ腫瘍に対する投薬前後のデータの比較であるため、対応あるデータである。また、各群の腫瘍直径は正規分布するものと仮定して以下議論する。投薬前後の各母集団の平均値を、μ1 と μ2 とおく。使用する分布は 自由度 6 - 1 = 5 の t 分布である。
以上より、帰無仮説は棄却される。よって、この抗がん剤の腫瘍縮小効果はあると考えられる (答)
【補足】原文では、標本平均、不偏分散、検定統計量 を求めるように誘導が付けられていたが、この問題は頻出問題でもあるため、解答の流れは確実におさえておきたい。また、今回は有意水準 5 % で片側検定を行なっていたが、両側検定であっても t 5 ( 0.025 ) = 2.571 であり、検定統計量は棄却域に存在するため、帰無仮説は棄却される。
まとめ
対応のある t 検定はよくある設定だと思いますので、しっかり練習しておきましょう。
平均に差の検定その 3 の記事では、対応のない t 検定を学習するからチェックしてみてください。
日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]
統計学検定問題集は結構使えます。レベル的には 2 級の問題集が、医学部学士編入試験としてはあっていると思います。
統計学がわかる (ファーストブック)
主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。
東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。