【統計学】平均値、分散、最頻値、中央値

医学部学士編入

統計学の用語からしっかりと抑えていきましょう。医学部学士編入試験では統計学の基本的な用語や内容も問われます。

問題1 平均 mean

8匹のマウスにおいてある値を測定したところ、以下の結果が得られた。この結果における、平均を求めよ。(滋賀医科大 改題)
5.5   9.5  11.0  7.5  3.0  12.5  8.5  6.5

解答

平均(mean)

$$\scriptsize{\frac{5.5+9.5+11.0+7.5+3.0+12.5+8.5+6.5}{8} = 8}$$

【ポイント】

平均はデータの総和を、データの総数で割ったものです。以下の式で定義されます。

$$\small{\overline{ x }=\sum_{ i = 1 }^{ n } x_i}$$

 

問題2 分散 variance

8匹のマウスにおいてある値を測定したところ、以下の結果が得られた。この結果における、分散を求めよ。(滋賀医科大 改題)
5.5   9.5  11.0  7.5  3.0  12.5  8.5  6.5

解答

分散(variance)

$$\scriptsize{\frac{1}{8}\{ (5.5-8)^2+…+(6.5-8)^2\}=\frac{65.5}{8}}$$

【ポイント】

分散は各データと平均の差の二乗の総和を、データの総数で割ったものです。以下の式で定義されます。

$$\small{σ^2 =\frac{1}{n}\sum_{ i = 1 }^{ n } (x_i – \overline{x})^2}$$

また次のように展開することで、有名公式が導かれます。

\begin{eqnarray}& &\scriptsize{σ^2 = \frac{1}{n}\sum_{ i = 1 }^{ n } (x_i – \overline{x})^2=\frac{1}{n}\sum_{i = 1}^{ n }(x_i^2 – 2x_i\overline{x} + \overline{x}^2)}\\& &\scriptsize{ \quad =\frac{1}{n}\sum_{ i = 1 }^{ n } x_i^2 -2\overline{x}\cdot\frac{1}{n}\sum_{ i = 1}^{ n }x_i + \overline{x}^2\cdot\frac{1}{n}\sum_{ i = 1}^{n}1}\\& &\scriptsize{ \quad =\frac{1}{n}\sum_{ i = 1 }^{ n } x_i^2 -2\overline{x}\cdot\overline{x} + \overline{x}^2\cdot1}\\& &\scriptsize{ \quad =\frac{1}{n}\sum_{ i = 1 }^{ n } x_i^2-\overline{x}^2}\end{eqnarray}

この公式は、(2乗の平均)-(平均の2乗) という公式です。この公式を用いると上記の問題は以下のようにも解けます。
$$\scriptsize{\frac{1}{8}\{ 5.5^2+9.5^2+11^2+…+6.5^2\}- 8^2 =\frac{65.5}{8}}$$

また、この \(σ^2\)の正の平方根である \(σ\)を標準偏差と呼びます。

 

問題3 最頻値 mode

 以下のデータに関して、最頻値を求めなさい。
1、6、3、4、6、3、4、1、3、3、8、5、6、8、1、3、8、9、6

解答

度数分布表を書いてみましょう。
データ 1 3 4 5 6 8 9
度数 3 5 2 1 4 3 1

度数の多い順番に並べてみると

データ 3 6 1 8 4 5 9
度数 5 4 3 3 2 1 1

よって、最頻値(mode)は 3である。

 

【ポイント】

最頻値とはデータの中で最も度数(出現回数)が多い値なので、出現回数の多い順番に並べて度数分布表を書くことで一目瞭然となる。

問題4 中央値 median

 以下のデータに関して、中央値を求めなさい。
(1) 1、1、2、3、5、6、7、8、9
(2) 1、1、2、3、5、6、6、7、8、9
(3) 1、6、3、2、9、8、1、6、7、5

解答

 中央値(median)とは、データを大小の順番に並べた時、中央の順位に来る値である。注意するべきはデータの数が偶数個の場合であり、その時は中央の順にある2つのデータの平均を中央値とする。
(1)9個のデータであるので、中央値は5である。
(2)10個のデータであるので、中央値は5と6の平均で 5.5である。
(3)データを大小の順に並び替えて、(2)と同様に中央値は5.5である。

【ポイント】

データの数が奇数か偶数かを注意するだけである。

問題5 滋賀医科大過去問 改題

7匹のマウスである値を測定したところ、次の結果が得られた。メディアン、モードはいくつか。

10.3  21.2  12.4  6.4  14.2  10.4  14.2

解答

メディアンは中央値のことであり、データを大小の順番に並べると、

6.4  10.3  10.4  12.4  14.2  14.2  21.2

であり、データの個数は7個であるから中央値は12.4である。

 

モードは最頻値のことであり、データの出現回数(度数)で並べると、

14.2が度数2であり、14.2が最頻値となる。

問題6 北海道大学過去問 改題

表1のデータの変数Yに関して、以下の統計量を求めなさい。

(1)算術平均   (2)中央値   (3)不偏分散   (4)標本分散   (5)標準偏差   (6)変動係数   (7)最頻値       (ただし、(5)は(4)の値を用いること)

1 2 0 2 1 1 0
7 4 1 7 1 4 4

解答

(1)4   (2)4   (3)6 不偏分散\(u^2\)はデータの標本数nではなく、n-1で割ることに注意する。   (4)\(\frac{36}{7}\) 分散はデータの数nで割る。   (5)\(\frac{6\sqrt{7}}{7}\) 標準偏差は分散の正の平方根である   (6)\(\frac{3\sqrt{7}}{14}\) 変動係数は標準偏差を平均で割ったものである。   (7)4 最頻値はデータの度数が一番大きいもの。

 

補足1) 不偏分散、標本分散については、コチラの記事を参照してください→コチラ

補足2) 標準偏差は、標本標準偏差と呼ばれることもあります。そして通常は、標本分散 \(s^2\) (標本平均からの偏差の平方和をnで割ったもの)の平方根 \(\sqrt{s^2}\) で示されますが、不偏分散 \(u^2\) (標本平均からの偏差の平方和をn-1で割ったもの)の平方根 \(\sqrt{u^2}\) で示されることもあり、世界的に定義が統一されていないようです。実際の北大の試験では、標本分散 \(s^2\) は計算させておらず、母集団の点推定を意図して不偏分散 \(u^2\) を計算させ、その平方根をとった \(\sqrt{u^2}\) を標準偏差として答えさせたかったようですが、当サイトのこの章では分かりずらさを排除するため、上記の出題としました。実際の問題では、標準偏差が、標本分散の平方根 \(\sqrt{s^2}\) なのか、不偏分散の平方根 \(\sqrt{u^2}\) なのか問題の流れ、出題者の意図を読み取って回答する必要があります。

補足3) 母集団の点推定については、こちらの記事を参照してください↓

【統計学】母集団の点推定 不偏分散 解説編
ここでは、母集団の点推定の分野を扱います。今回は解説編ですの...

問題 7 北海道大学過去問 改題

問題6において、変数YがY’=2Yと変換された場合、変数Y’に関して、平均は(い)倍、分散は(ろ)倍、標準偏差は(は)倍、変動係数は(に)倍になる。これらの(い)〜(に)の数字を埋めよ。

解答

律儀に計算しても良いが、式変形をうまくやれば見えてくると思います。

(い)2  (ろ)4  (は)2  (に)1

 

 

 

統計学 参考書

 

日本統計学会公式認定 統計検定 2級 公式問題集[2016〜2018年]

統計学検定問題集は結構使えます。レベル的には2級の問題集が、医学部学士編入試験としては合っていると思います。

 

統計学がわかる (ファーストブック)

主人公がハンバーガーショップのバイトをしながら、身近な例を用いて統計学を学んで行きます。

 

統計学入門 (基礎統計学Ⅰ)

東京医科歯科大学の教養時代はこの教科書を用いて勉強していました。