1 (Mean, Sample mean, Average) 標本平均 3,4

国際教養学部数理統計第 3,4 回
火曜 4 時限 担当 宮田
標本平均 (Mean, Sample mean, Average)
1
データ x1 , x2 , ..., xn に対して, 全てのデータを足して, それをデータの個数で割ったもの
x
¯=
x1 + x2 + · · · + xn
n
(1)
1∑
xi と表せる.
n
n
を標本平均という. ここで Σ 記号を用いると x
¯=
i=1
標本平均はデータが大体 どこを中心に分布 しているかを表しています.
【例 1】 データ 5, 7, 1, 2, 4 の標本平均は, x1 = 5, x2 = 7, ..., x5 = 4 とすると
x
¯=
x1 + x2 + · · · + x5
5+7+1+2+4
=
= 3.8
5
5
となります.
次にデータの散らばりの度合いを表す指標として, 標本分散というものを紹介します.
標本分散 (Variance of a sample)
2
データ x1 , ..., xn が与えられたとき, 標本分散
s2 =
s2
は次のように定義する.
(x1 − x
¯)2 + (x2 − x
¯)2 + · · · + (xn − x
¯ )2
n−1
1∑
1 ∑
ここで x
¯=
xi とする. Σ 記号を用いると s2 =
(xi − x
¯)2 と表せる. また
n
n−1
n
n
i=1
i=1
v
u
√
u
2
s= s =t
1 ∑
(xi − x
¯ )2
n−1
n
i=1
とおき,この s のことを x1 , ..., xn の標準偏差 (Standard deviation) と呼ぶ. 標準偏差もデー
タのばらつきを表す 1 つの指標です.
2.1
標本分散の意味
)
1 (
(x1 − x
¯)2 + (x2 − x
¯)2 + · · · + (xn − x
¯)2 において,(x1 − x
¯)2 という項は x
¯
n−1
と x1 がどれだけ離れているかを表しています. 例えば x
¯ = 3.8 としたときには x1 = 5 に対して
は (5 − 3.8)2 = 1.44 となりますが,x2 = 7 に対しては (7 − 3.8)2 = 10.24 となります. つまり x
¯
2
から離れていればいるほど大きな値をとるということです. 同様にして (x2 − x
¯) , · · · , (xn − x
¯)2
も x2 , ..., xn が x
¯ からどれだけ離れているかを表しています. 標本分散 s2 =
1
このため, 標本分散は 標本平均からだいたい平均的に見てどれくらい離れているか を表します.
ここで標本分散のイメージとしては下のヒストグラムを見てください.
標本分散が小さい
標本分散が大きい
【例 2】 【例 1】のデータにおいて 標本分散 s2 は
(x1 − x
¯)2 + (x2 − x
¯)2 + · · · + (x5 − x
¯)2
5−1
2
(5 − 3.8) + (7 − 3.8)2 + · · · + (4 − 3.8)2
=
4
1.44 + 10.24 + 7.84 + 3.24 + 0.04
22.8
=
=
= 5.7
4
4
s2 =
2.2
となります.
標本分散の計算公式
上の例を見てもらうとわかるように, 標本分散 s2 の計算は意外と大変です. この計算を若干簡
単にするための計算公式があります.
1
x21 + · · · + x2n − (x1 + · · · + xn )2
n
s2 =
.
n−1
問 1 (p65, 2.16. c.) You are given n = 8 measurements: 3, 1, 5, 6, 4, 4, 3, 5. Then, calculate
the sample variance and standard deviation.
z-スコア (z-score), 標準化 (standardization):試験範囲外
3
データ x1 , ..., xn に対して, x
¯=
n
n
1 ∑
1 ∑
xi で s2 =
(xi − x
¯)2 とします. この時, 次の変換
n i=1
n − 1 i=1
を考えます.
x1 − x
¯
x2 − x
¯
xn − x
¯
, z2 =
, · · · , zn =
s
s
s
この変換を標準化と呼び, z1 , ..., zn のことを z-スコアと呼びます. また分母 s は標準偏差になっ
ていることに注意してください. 式から分かるように, z-スコアは平均値 x
¯ からどれだけずれてい
るかを表しています. 特に zi > 0 で大きな値をとればとるほど, データ xi は平均値 x
¯ より大きく
離れていることがわかり, zi < 0 で小さな値をとればとるほど, データ xi は平均値 x
¯ より低い点数
で離れていることがわかります.
z1 =
3.1
なぜ標準偏差 s で割る必要があるのですか?
20 人のクラスに対して, 数学と英語のテストを行った時, 以下の結果が得られたとしましょう.
2
A
B
C
D
E
数学
英語
47
73
68
79
70
58
70
65
73
69
F
G
H
I
J
数学
英語
61
63
87
76
69
64
66
82
72
68
K
L
M
N
O
数学
英語
56
30
63
60
82
62
50
67
65
78
数学
英語
88
65
69
98
56
75
68
70
80
58
P
Q
R
S
T
ここで数学と英語の平均は共に 68 点となります. この時 O さんの数学 82 点と H さんの英語 82
点どちらが価値があるのかを考えて見ましょう. 実は数学と英語の平均点を直線上に点をうってい
くと, 以下のようになります。
つまり英語の方はたいていの生徒が 68 点付近の点数を取っている中での 82 点であって, 一方で数
学の方は 68 点からの散らばり具合が大きいので, 80 点台をとった人も何人かいるなかでの 82 点
ということになります. つまりは英語の 82 点の方が価値があるということになります. z-スコア
では, データの散らばり具合も考慮にいれた上での平均値 x
¯ からの離れ具合を測っていることにな
ります。実際, 数学の標準偏差は 14.9, 英語の標準偏差は 7.5 から
82 − 68
= 0.94 (O さんの数学の z-スコア)
14.9
82 − 68
z=
= 1.87 (H さんの英語の z-スコア)
7.5
z=
となり, 英語の 82 点の方が価値が高いことが分かります。
問 2 プリントの【例 1】のデータ 5, 7, 1, 2, 4 に対して, 観測値 1 の z-score を求めよ. (ただし
x
¯ = 3.8,s2 = 5.7 は分かっている)
3.2
z-score の応用
z-score は平均値からの離れ具合を表しているので, 外れ値を発見するために用いられことがあ
ります。これは
z-score の絶対値 > 3
=⇒
3 >z-score の絶対値 > 2
=⇒
その測定値はほとんど起こらない (very unlikely)
→ 外れ値の可能性が高い
その測定値は起こりずらい (somewhat unlikely) 値である
となります. ただしこれはデータの数が少ないとうまくいきません。(つまり外れ値であっても
z-score は 2 より小さい値をとります)
問3 ⃝
¯ ≑ 2.1 で標準偏差は s ≑ 2.46 で
1 14 個のデータ 1,1,3,2,1,1,0,10,2,3,2,0,1,2 の平均値は x
あった. このとき観測値 10 の z-score を求めよ. また 10 は外れ値かどうか?
⃝
2 (データ数が少ないときの例) データ 0, 1, 2, 1, 16 における観測値 16 の z-score を求めよ.
3
3.3
z-score のその他の性質
どんなデータであっても標準化することにより平均 0, 分散 1 のデータに変換できます. 即ち
1∑
zi = 0,
n
n
z¯ =
1 ∑
(zi − z¯)2 = 1.
n−1
n
s2z =
i=1
i=1
より具体的な例として、アサガオの丈の長さを測ったところ 38cm, 74cm, 80cm, 86cm, 122cm
だったとしましょう. この時, 標本平均 x
¯ = 80 で, 分散 s2x = 900 より最初のデータ 38 は
7
38 − 80
√
=−
5
900
となります. 残りの 74, 80, 86, 122 も同様にして変換すると左下の表のようになります.
元のデータ (cm) z-score
元のデータ (m) z-score
38(x1 )
− 75
0.38(y1 )
− 75
74(x2 )
− 15
0.74(y2 )
− 15
80(x3 )
0
0.8(y3 )
0
1
1
86(x4 )
0.86(y4 )
5
5
7
7
122(x5 )
1.22(y
)
5
5
5
一方で、このデータをメートルを使って表すと 0.38m, 0.74m, 0.8m, 0.86m, 1.22m となります.
この時, 標本平均 y¯ = 0.8 で, 分散 s2y = 0.09(これはメートルで表されたデータの分散) となること
から最初のデータ 0.38 は
7
0.38 − 0.8
√
=−
5
0.09
となります. 残りの 0.74, 0.8, 0.86, 1.22 も同様にして変換すると右上の表のようになります. 結局、何が分かったかというと、標準化されたデータ (つまり z-score) は単位の影響を受けない
ということです.
総和記号
4
Σ 記号を用いて a1 + a2 + · · · + an を
n
∑
(ai )2 = (a1 )2 + (a2 )2 + · · · + (an )2 ,
i=1
n
∑
ai という記号で省略して書く. この記号を用いると,
i=1
n
∑
(ai + 5) = (a1 + 5) + (a2 + 5) + · · · + (an + 5) となる.
i=1
解答 p65 2.16 a. R = 6 − 1 = 5. b. 表より x
¯=
31
. c. 表より,
8
137 − (31)2 /8
分散の計算公式を用いると, s2 =
≑ 2.41. これより
8−1
√
s = 2.41 ≑ 1.55. d. 5/1.55 ≑ 3.23.
1 − 3.8
問 2 s ≑ 2.39 より z-score=
≑ −1.17. 問 3 ⃝
1 z =
2.39
10 − 2.1
= 3.21. これより 10 は外れ値の可能性が高い.
2.46
16 − 4
⃝
¯ = 4, 標準偏差 s ≑ 6.75 より, z =
= 1.78. ここで 16 と
2 x
6.75
いう観測値は外れ値の可能性が高いのに, z-score がうまく働いてい
ない点に注意!
計
x
1
3
3
4
4
5
5
6
31
x2
1
9
9
16
16
25
25
36
137
連絡先 E-mail:ymiyatagbt@tcue.ac.jp
URL:http://www1.tcue.ac.jp/home1/ymiyatagbt/solution.html
セメスターを通じての注意点
• course navi で連絡するとき (特に試験前) があるので、Waseda-net で適宜確認すること.
• 返却された宿題は, 成績が確定するまで捨てないこと.
4