Download Report

国際教養学部数理統計第 3,4 回
火曜 4 時限担当宮田
標本平均 (Mean, Sample mean, Average)
1
データ x1 , x2 , ..., xn に対して, 全てのデータを足して, それをデータの個数で割ったもの
x
¯=
x1 + x2 + · · · + xn
n
(1)
1∑
xi と表せる.
n
n
を標本平均という. ここで Σ 記号を用いると x
¯=
i=1
標本平均はデータが大体どこを中心に分布しているかを表しています.
【例 1】データ 5, 7, 1, 2, 4 の標本平均は, x1 = 5, x2 = 7, ..., x5 = 4 とすると
x
¯=
x1 + x2 + · · · + x5
5+7+1+2+4
=
= 3.8
5
5
となります.
次にデータの散らばりの度合いを表す指標として, 標本分散というものを紹介します.
標本分散 (Variance of a sample)
2
データ x1 , ..., xn が与えられたとき, 標本分散
s2 =
s2
は次のように定義する.
(x1 − x
¯)2 + (x2 − x
¯)2 + · · · + (xn − x
¯ )2
n−1
1∑
1 ∑
ここで x
¯=
xi とする. Σ 記号を用いると s2 =
(xi − x
¯)2 と表せる. また
n
n−1
n
n
i=1
i=1
v
u
√
u
2
s= s =t
1 ∑
(xi − x
¯ )2
n−1
n
i=1
とおき，この s のことを x1 , ..., xn の標準偏差 (Standard deviation) と呼ぶ. 標準偏差もデー
タのばらつきを表す 1 つの指標です.
2.1
標本分散の意味
)
1 (
(x1 − x
¯)2 + (x2 − x
¯)2 + · · · + (xn − x
¯)2 において，(x1 − x
¯)2 という項は x
¯
n−1
と x1 がどれだけ離れているかを表しています. 例えば x
¯ = 3.8 としたときには x1 = 5 に対して
は (5 − 3.8)2 = 1.44 となりますが，x2 = 7 に対しては (7 − 3.8)2 = 10.24 となります. つまり x
¯
2
から離れていればいるほど大きな値をとるということです. 同様にして (x2 − x
¯) , · · · , (xn − x
¯)2
も x2 , ..., xn が x
¯ からどれだけ離れているかを表しています. 標本分散 s2 =
1
このため, 標本分散は標本平均からだいたい平均的に見てどれくらい離れているかを表します.
ここで標本分散のイメージとしては下のヒストグラムを見てください.
標本分散が小さい
標本分散が大きい
【例 2】【例 1】のデータにおいて標本分散 s2 は
(x1 − x
¯)2 + (x2 − x
¯)2 + · · · + (x5 − x
¯)2
5−1
2
(5 − 3.8) + (7 − 3.8)2 + · · · + (4 − 3.8)2
=
4
1.44 + 10.24 + 7.84 + 3.24 + 0.04
22.8
=
=
= 5.7
4
4
s2 =
2.2
となります.
標本分散の計算公式
上の例を見てもらうとわかるように, 標本分散 s2 の計算は意外と大変です. この計算を若干簡
単にするための計算公式があります.
1
x21 + · · · + x2n − (x1 + · · · + xn )2
n
s2 =
.
n−1
問 1 (p65, 2.16. c.) You are given n = 8 measurements: 3, 1, 5, 6, 4, 4, 3, 5. Then, calculate
the sample variance and standard deviation.
z-スコア (z-score), 標準化 (standardization):試験範囲外
3
データ x1 , ..., xn に対して, x
¯=
n
n
1 ∑
1 ∑
xi で s2 =
(xi − x
¯)2 とします. この時, 次の変換
n i=1
n − 1 i=1
を考えます.
x1 − x
¯
x2 − x
¯
xn − x
¯
, z2 =
, · · · , zn =
s
s
s
この変換を標準化と呼び, z1 , ..., zn のことを z-スコアと呼びます. また分母 s は標準偏差になっ
ていることに注意してください. 式から分かるように, z-スコアは平均値 x
¯ からどれだけずれてい
るかを表しています. 特に zi > 0 で大きな値をとればとるほど, データ xi は平均値 x
¯ より大きく
離れていることがわかり, zi < 0 で小さな値をとればとるほど, データ xi は平均値 x
¯ より低い点数
で離れていることがわかります.
z1 =
3.1
なぜ標準偏差 s で割る必要があるのですか?
20 人のクラスに対して, 数学と英語のテストを行った時, 以下の結果が得られたとしましょう.
2
A
B
C
D
E
数学
英語
47
73
68
79
70
58
70
65
73
69
F
G
H
I
J
数学
英語
61
63
87
76
69
64
66
82
72
68
K
L
M
N
O
数学
英語
56
30
63
60
82
62
50
67
65
78
数学
英語
88
65
69
98
56
75
68
70
80
58
P
Q
R
S
T
ここで数学と英語の平均は共に 68 点となります. この時 O さんの数学 82 点と H さんの英語 82
点どちらが価値があるのかを考えて見ましょう. 実は数学と英語の平均点を直線上に点をうってい
くと, 以下のようになります。
つまり英語の方はたいていの生徒が 68 点付近の点数を取っている中での 82 点であって, 一方で数
学の方は 68 点からの散らばり具合が大きいので, 80 点台をとった人も何人かいるなかでの 82 点
ということになります. つまりは英語の 82 点の方が価値があるということになります. z-スコア
では, データの散らばり具合も考慮にいれた上での平均値 x
¯ からの離れ具合を測っていることにな
ります。実際, 数学の標準偏差は 14.9, 英語の標準偏差は 7.5 から
82 − 68
= 0.94 (O さんの数学の z-スコア)
14.9
82 − 68
z=
= 1.87 (H さんの英語の z-スコア)
7.5
z=
となり, 英語の 82 点の方が価値が高いことが分かります。
問 2 プリントの【例 1】のデータ 5, 7, 1, 2, 4 に対して, 観測値 1 の z-score を求めよ. (ただし
x
¯ = 3.8,s2 = 5.7 は分かっている)
3.2
z-score の応用
z-score は平均値からの離れ具合を表しているので, 外れ値を発見するために用いられことがあ
ります。これは
z-score の絶対値 > 3
=⇒
3 >z-score の絶対値 > 2
=⇒
その測定値はほとんど起こらない (very unlikely)
→ 外れ値の可能性が高い
その測定値は起こりずらい (somewhat unlikely) 値である
となります. ただしこれはデータの数が少ないとうまくいきません。(つまり外れ値であっても
z-score は 2 より小さい値をとります)
問3 ⃝
¯ ≑ 2.1 で標準偏差は s ≑ 2.46 で
1 14 個のデータ 1,1,3,2,1,1,0,10,2,3,2,0,1,2 の平均値は x
あった. このとき観測値 10 の z-score を求めよ. また 10 は外れ値かどうか?
⃝
2 (データ数が少ないときの例) データ 0, 1, 2, 1, 16 における観測値 16 の z-score を求めよ.
3
3.3
z-score のその他の性質
どんなデータであっても標準化することにより平均 0, 分散 1 のデータに変換できます. 即ち
1∑
zi = 0,
n
n
z¯ =
1 ∑
(zi − z¯)2 = 1.
n−1
n
s2z =
i=1
i=1
より具体的な例として、アサガオの丈の長さを測ったところ 38cm, 74cm, 80cm, 86cm, 122cm
だったとしましょう. この時, 標本平均 x
¯ = 80 で, 分散 s2x = 900 より最初のデータ 38 は
7
38 − 80
√
=−
5
900
となります. 残りの 74, 80, 86, 122 も同様にして変換すると左下の表のようになります.
元のデータ (cm) z-score
元のデータ (m) z-score
38(x1 )
− 75
0.38(y1 )
− 75
74(x2 )
− 15
0.74(y2 )
− 15
80(x3 )
0
0.8(y3 )
0
1
1
86(x4 )
0.86(y4 )
5
5
7
7
122(x5 )
1.22(y
)
5
5
5
一方で、このデータをメートルを使って表すと 0.38m, 0.74m, 0.8m, 0.86m, 1.22m となります.
この時, 標本平均 y¯ = 0.8 で, 分散 s2y = 0.09(これはメートルで表されたデータの分散) となること
から最初のデータ 0.38 は
7
0.38 − 0.8
√
=−
5
0.09
となります. 残りの 0.74, 0.8, 0.86, 1.22 も同様にして変換すると右上の表のようになります. 結局、何が分かったかというと、標準化されたデータ (つまり z-score) は単位の影響を受けない
ということです.
総和記号
4
Σ 記号を用いて a1 + a2 + · · · + an を
n
∑
(ai )2 = (a1 )2 + (a2 )2 + · · · + (an )2 ,
i=1
n
∑
ai という記号で省略して書く. この記号を用いると,
i=1
n
∑
(ai + 5) = (a1 + 5) + (a2 + 5) + · · · + (an + 5) となる.
i=1
解答 p65 2.16 a. R = 6 − 1 = 5. b. 表より x
¯=
31
. c. 表より,
8
137 − (31)2 /8
分散の計算公式を用いると, s2 =
≑ 2.41. これより
8−1
√
s = 2.41 ≑ 1.55. d. 5/1.55 ≑ 3.23.
1 − 3.8
問 2 s ≑ 2.39 より z-score=
≑ −1.17. 問 3 ⃝
1 z =
2.39
10 − 2.1
= 3.21. これより 10 は外れ値の可能性が高い.
2.46
16 − 4
⃝
¯ = 4, 標準偏差 s ≑ 6.75 より, z =
= 1.78. ここで 16 と
2 x
6.75
いう観測値は外れ値の可能性が高いのに, z-score がうまく働いてい
ない点に注意!
計
x
1
3
3
4
4
5
5
6
31
x2
1
9
9
16
16
25
25
36
137
連絡先 E-mail:ymiyatagbt@tcue.ac.jp
URL:http://www1.tcue.ac.jp/home1/ymiyatagbt/solution.html
セメスターを通じての注意点
• course navi で連絡するとき (特に試験前) があるので、Waseda-net で適宜確認すること.
• 返却された宿題は, 成績が確定するまで捨てないこと.
4