
今回は、母平均の差の検定 その4 です。
その1 では、2 つの群の母分散が既知っていう特別な状況で、その2 では、2 つの群の母集団が未知で、かつデータが対応ある場合
その3 では、2 つの群の母集団が未知で、かつデータが対応ない場合
を扱いました。
平均値の差の検定を t 分布を用いて行う前提条件としては、データが対応ある場合でも、対応がない場合でも、どちらの場合も各分布の形が正規分布をなしている場合でした。そもそも t 分布ってのは、分布が正規分布であることが前提条件だったでした。このサイトでは数学的な議論は省略していますが、参考図書に数式による証明が書かれていますので、気になる人はチェックしてみてください。
今回は、どの分布を使えばいいかを各分布が正規分布ではない場合も含めて覚えていきましょう。
パラメトリックとノンパラメトリック
下のフローチャートにもありますが、パラメトリックな方法とは、正規分布のような、なんらかの分布を仮定した上で導かれた推定、検定方法を指します。そのため、平均値の差の検定では、対応ある t 検定と対応のない t 検定、そして、対応のない場合の Welch 検定の 3 つがパラメトリックな方法として挙げられます。
一方で、ノンパラメトリックな方法とは、分布の種類が不明であっても、分布の種類によらずに用いることができる方法を指します。平均値の差の検定では、対応あるデータの場合の Wilcoxon の符号順位和 検定、対応ないデータの場合の Wilcoxon 順位和 検定 ( Mann Whitney の U 検定 )、Fligner Policello 検定、Hirotsu の累積 χ² 検定、最大 t 法 の 5 つが挙げられます。
Fligner - Policello 検定、Hirotsuの累積 χ² 検定、最大 t 法は医学部学士編入試験で問われることはないので、詳細は省きます。方法論的には、下の参考書にてわかりやすく解説されています。
それでは、実際の入試問題を利用してどのような場合にどのような検定を使えば良いか覚えていきましょう。
問題 1
統計学的仮説検定についての誤っている場合は、該当箇所に線を引き、正しく修正せよ。
1. 分布が歪んでいる ( 正規分布ではない ) 2 群を比較する際には、パラメトリック検定が用いられる。
2. t 検定を実施する前に、2 つの群の不偏分散性について検定する必要がある。
3. 『 2 群の平均値の差に関して統計的に有意ではない 』とは、2 群の平均値に差がないことを意味する。
4. 母平均の差の検定において、対応のないデータにおける検定は、母分散が等しくなければ、Wilcoxon 検定を行う。
5. 母平均の差の検定において、t 分布を使用する際は、各群の分布が正規分布でなければならない。
6. 母平均の差の検定において、対応のないデータにおける、分布が不明な場合でも、等分散性がわかっている場合は、t 検定を用いる。
( 滋賀医科大学 改 )
解答
1. 分布が歪んでいる ( 正規分布ではない ) 2 群を比較する際には、パラメトリック検定が用いられる。
→ ノンパラメトリック (答え)
【補足】各群が正規分布でない場合は、ノンパラメトリックな方法を用いる。
2. t 検定を実施する前に、2 つの群の不偏分散性について検定する必要がある。
→ 等 (答え)
【補足】平均値の差の検定において、対応のないデータでは、F 検定によって等分散性を確認して、等しければ t 検定を用い、等しくなければ Welch 検定を用いる。しかし、最近では等分散性が不明な場合は、この等分散性を確認せずに、Welch 検定を用いれば OK とされている。
3. 『 2 群の平均値の差に関して統計的に有意ではない 』とは、2 群の平均値に差がないことを意味する。
→ 正しい。(答え)
4. 母平均の差の検定において、対応のないデータにおける検定は、母分散が等しくなければ、Wilcoxon 検定を行う。
→ Welch 検定 (答え)
5. 母平均の差の検定において、t 分布を使用する際は、各群の分布が正規分布でなければならない。
→ 正しい。
【補足】正規分布性がなければ、t 分布は使用できない。例えば、外れ値が多い場合や、右に裾野を引いている分布などでは使用できない。しかし、変数変換を行なうことで、正規分布に変換できるようであれば、t 分布は用いて良いとされている。
6. 母平均の差の検定において、対応のないデータにおける、分布が不明な場合でも、等分散性がわかっている場合は、t 検定を用いる。
→ Wilcoxon 順位和検定
分布の形が等しければ、Wilcoxon 順位和検定、別名 Mann Whitney の U 検定を使用する。(フローチャート参照)
問題 2
統計学的仮説検定についての誤っている場合は、該当箇所に線を引き、正しく修正せよ。
1. 2 群の平均値を比較する、対応のない t 検定において、p 値が有意水準より大きく、帰無仮説が棄却されなかった場合、『 2 群の平均値は同じである 』と結論される。
2. 2 群間の平均値を比較する検定において立てる帰無仮説は、『 2 群の平均値には差がない 』である。
3. 検定の有意水準には、5 % が設定されることが多い。
4. 検定統計量の値が大きくなれば、p 値は小さくなる。
5. 右に裾野を引く分布においては、平均値は median より大きくなる。
6. 同一サンプルから求めた 95 % 信頼区間の幅は、90 % 信頼区間の幅より広い。
( 滋賀医科大学 改 )
解答
1. 2 群の平均値を比較する、対応のない t 検定において、p 値が有意水準より大きく、帰無仮説が棄却されなかった場合、『 2 群の平均値は同じである 』と結論される。
→ 差があるとは言えない (答え)
棄却されなかった場合、『 同じである 』は言い過ぎな表現です。
【補足】p 値について
p 値とは有意確率とも呼ばれ、『 帰無仮説の成立を仮定したときに、標本の状態以上に起こりにくい状態になる確率 』と定義されています。別の言い方をすれば、有意水準 α を定めたとき、ギリギリ棄却域のにある境目を p 値といいます。データから得られた p 値が、p < 有意水準 となれば帰無仮説が棄却されます。
2. 2 群間の平均値を比較する検定において立てる帰無仮説は、『 2 群の平均値には差がない 』である。
→ 正しい。(答え)
3. 検定の有意水準には、5 % が設定されることが多い。
→ 正しい。(答え)
4. 検定統計量の値が大きくなれば、p 値は小さくなる。
→ 正しい。
【補足】検定統計量が大きくなればなるほど、棄却域に入っていく。すなわち、それが起こる確率が減っていくということであるから、p 値は減少する。
5. 右に裾野を引く分布においては、平均値は median より大きくなる。
→正しい。(答え)
【補足】例えば、年収の分布は右に長い裾野を引く分布であることが知られており、中央値に比べて、平均値は大きくなります。
6. 同一サンプルから求めた 95 % 信頼区間の幅は、90 % 信頼区間の幅より広い。
→正しい。(答え)
【補足】95 % の方が確率が高いので、感覚的にも当然である。計算で理解するには、正規分布に従う母集団の場合、母平均の区間推定において、信頼区間の幅は\(2z(\frac{α}{2})\sqrt{\frac{σ^2}{n}}\) である。\(z(\frac{α}{2})\) は標準正規分布における、上側 \(\frac{α}{2}\) 点であり、95 % 信頼区間では 有意水準は α = 5 % 、90 % 信頼区間では有意水準 α = 10 % であることを考えると \(z(\frac{0.05}{2})\)>\(z(\frac{0.10}{2})\) であるから、95 % 信頼区間の幅の方が広い。
問題 3
2 つのグループの患者において、血液中の中性脂肪の測定値を比較したい。中性脂肪の測定値には外れ値が含まれる場合が少なくない。この場合、2 群間の差の検定で用いる検定手法は何か、以下の中から答えよ。( 滋賀医科大学 改 )
符号検定、カイ2乗検定、スチューデントt検定、フィッシャーの直接確率法、ウィルコクソンの順位和検定
解答
2 つの群は対応のないデータである。そして、外れ値が多いため、正規分布をしているとは考えられないため、ノンパラメトリックな方法を用いる。よって、選択肢の中では、ウィルコクソンの順位和検定を用いる。
問題 4
2 群を解析する手法について、各場合について適切な手法を1つずつ挙げよ。
ア) 外れ値が多く存在し、対応のないデータであるが、分散が等しいと考えられる場合。
イ) 薬剤を投与した前後の血圧など、同じ対象者で前後のデータを比較する場合。
( 滋賀医科大学 改 )
解答
ア) ウィルコクソンの順位和検定
イ) 対応ある t 検定
問題 5
X 地域と Y 地域において、住民ひとりひとりが支出した年間医療費を調査した。医療費 ( 横軸 ) とその医療費のかかった人数 ( 縦軸 ) をグラフに描くと、どちらの地域でも、右に裾野を引く分布となった。2 つの地域間で医療費を比較する際に用いられる検定手法として適切なものを答えよ。( 滋賀医科大学 改 )
解答
2 つの群は対応のないデータである。また、分布が不明であるため、ノンパラメトリックな手法を用いる必要がある。よって、ウィルコクソンの順位和検定、フリグナー・ポリチェロ検定、Hirotsuの累積カイ2乗検定、最大t法などが挙げられる。(答え)
まとめ
この分野は少しややこしいですが、フローチャートを覚えるだけです。
日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]
統計学検定問題集は結構使えます。レベル的には 2 級の問題集が、医学部学士編入試験としてはあっていると思います。
統計学がわかる (ファーストブック)
主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。
東京医科歯科大学の教養時代はこの教科書をもちいて勉強していました。