t検定

( X i  X) 2 とすると
基礎統計 2015/5/29
mcobaya.web.fc2.com/kisotokei/index_ut.htm
tokeibunseki@gmail.com
宿題 3 の間違い
X ~ N ( p, p(1  p ) / N ), pˆ  X を使わないもの
3) 学術論文では、本文中に参照しない文献は参考文献
リストに含めない。(間違いとまでは言えないが)
第2章
( X 1  X) 2  ...  ( X N  X) 2
N 1
で見当をつける(推定)することができる。分散の推定量を不
1) 区間推定ではなく、仮説検定を行うもの。P.221 参照
2)
s2 
偏分散という。(N-1 でわる理由は。教科書 222。後で)
N が十分大きい時は精度も高い
ので、標本(不偏)分散 s2
を母分散  で代用してもよいとしよう。N が多いのかどうか
2
の判断基準、分散の誤差を考慮する方法は後で)
確率変数(続き)
共分散
Case 1:分散  が不明、N が大きい(とみなす)
共分散が正の値をとるとき正の相関
N=16 人の生徒の標本平均
共分散が負の値をとるとき負の相関
 2 の不偏分散 s 2 =64,標準偏差 s  8(=64 の平方根)が十分
共分散が 0 のとき無相関
精度の高い推定と仮定し、 =64,標準偏差 
2
=50 であった。N(  ,  )たいし、
2
2
質問:共分散 cov(Y,X)=E((Y-E(Y))(X-E(X)))が大きい値のと
き、X,Y の相関(関連)が強いといってよいか。
理由:
C を定数とすると、共分散の計算公式 E(c)=c なので
(1) V(X+Y)= V(X)+V(Y)+2cov(X,Y)
(2) cov(c,X)=E((c-c)(X-E(X)))=E(0)=0
(3) cov(cY,X)=E((cY-cE(Y))(X-E(X)))=cE((Y-E(Y))(XE(X)))=c*cov(X,Y)

8 とできる。
z  ( X   ) /  2 / N は平均 0,分散1の標準正規分布になる。
 E ( X   )      0, V ( X   )  V ( X )   2 / n,
V (( X   ) /  2 / n )   2 / n / (  2 / n ) 2  1,
Pr(| ( X   ) /  2 / N | 1.96)  0.05 より
Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95
Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95
(4) V(X+c)=V(X)、V(cX)=c2V(X)
相関係数
X,Y の相関係数=cov(X,Y)/√(V(X)*V(Y))
-1<=相関係数<=1
X
証明はシュワルツの不等式と同じで、
解釈:
X
は、ほぼ確実に期待値  から 1.96
 2 / N 以内の距
離にある。逆に考えると、未知の  はほぼ確実に
V(tX-Y)= t2V(X)+V(Y)-2tcov(X,Y)>=0 は t= cov(X,Y)/V(X)で
1.96  2 / N  2  SE 以内の距離にある。
最小値 V(Y)- Cov(X,Y)2/V(X)をとり、これが 0 以上であること
注意:1.96は実務的には2と考えてよい。
X
から
から、1>= Cov(X,Y)2/(V(X)V(Y))
例:Y=1+2*X と直線的な関係が厳密に成立するとき、
この方法で作る信頼区間は 95%の確率で真実の値を含む。
Cov(Y,X)=Cov(1+2*X,X)=cov(1,X)+cov(2*X,X)=0+2*cov(X,X)
(95%の確率で魚を捕まえる網のようなもの)
=2*V(X),
99%の信頼区間は 25±2.6×0.2
V(Y)=V(2X+1)=4V(X)
当然、99%の信頼区間は信頼係数は高くなるが 30%広くなるの
したがって、相関係数の分母は 2*V(X)、分子も 2*V(X)となり、
で有用性は低くなる。
一致し、相関係数=1
N が大きくなると、信頼区間は狭まる。
練習 Y=1-2*X のとき、相関係数=-1 を示せ。
注意:分布の標準偏差/√N=推定量の標準偏差(誤りやすい)推
定量の分布の標準偏差を標準誤差(SE)という。
p.207 N(  ,  )において分散  が未知の場合のμの区間推
注意:95%(もしくは 99%)を使うのは習慣。1.96, 2.6 という
定、検定
数値はよく使うので覚えておくと良い。
分散  は
(p.109 の話は後回し。
)
2
2
2
「変量の分布の平均  からの偏差の二乗」の平均
なので、 X で  を代用し、平均  からの偏差の二乗を
N がそれほど大きくなく、不偏分散分 2 による母分散  の推定
2
誤差を考える場合。p. 208
(( X 1  X ) 2  ...  ( X n  X ) 2 )
t  ( X   ) / s / N の分布は当然、標準正規分布とは異なる。
2
 (( X 1   )  ( X   )) 2  ...  (( X n   )  ( X   )) 2
 ( X 1   )   ...  ( X n   )   n( X   ) 2
この t の分布は正規分布より分布の裾が広がり(fat tail)、かつ中
 ( X 1   )( X   )  ...  ( X n   )( X   )
心が尖った分布になる。教科書 p.209 の図参照。
 ( X   )( X 1  ..  X n  n )  n( X   )( X   )
裾が広いので、上側5%点、1%点は正規分布よりも原点から遠
より
ざかる。ただしこの t 分布の形は自由度とよばれるパラメター
(( X 1  X )2  ...  ( X n  X ) 2 )
に依存し、ここで用いた不偏分散 s の場合には n-1(サンプル
 ( X 1   )  ...  ( X n   )   n( X   ) 2
サイズから1を引く)。当然 n が無限大(自由度も無限大)な
と変形してからの期待値をとると、右辺の期待値は
ら、 s は  に一致するので教科書 p.325 の数表の一番下の行
n 2  n( 2 / n)  (n  1) 2
は正規分布のもの(上川5%点は 1.645)に一致する。しかし、
したがって、
2
2
2
有限の自由度の場合、t分布の上側5%点は正規分布の上側
E (s 2 ) 
n 2  n( 2 / n)
2
n 1
の差なので、サンプルサイズがある程度大きい時には、正規分
p.211
N(  ,  )において既知μの場合の  2 の区間推定
布の値を使っても実用上支障がない。両側 5%点は、正規分布
Q:なぜ分散を推定せねばならないのか。
にたいして
A.
5%点よりも常に大きい(例:自由度20のときは 1.725) 約5%
1.96 だが自由度 20 にt分布では 2.086 とやはり
2
製品に品質のばらつきがあると役にたたない。
5%以内の差。人によって異なるが自由度が 20(N=21)より大き
Q. μが既知とは非現実性ではないか。
い時は正規分布と考えて良い。先ほどの N=16 人の場合には、
A.確かに非現実的だが、次のμが未知の場合の説明のため必要。
自由度は「
カイ二乗分布
」になるので、表より両側 5%点は「
」
となるので、区間推定は
Pr( X  ***  2 / N    X  ***  2 / N )  0.95
p.222
不偏分散
独立な確率変数
X 1 , , X N が期待値 E( Xi )   ,分散
V ( xi )   の正規分布に従うならば、正規分布の和は正規分
2
布なので、したがって標本平均も正規分布となり、
E( X )  , V ( X )   2 / N
という期待値、分散を持つ。(p.182)以下はその計算課程であ
る。
X 1 , , X N の独立性より
 X  ..  X n  E ( X 1 )  ..  E ( X n )
E( X )  E  1
 ,

n
n


 X  ..  X n  1
V(X ) V  1
  2 V  X 1  ..  X n 
n

 n
1
 2 V ( X 1 )  ..  V ( X n )    2 / n
n
p.201 不偏分散
s 2 =[(x1  x ) 2 +...+(xn  x ) 2 ] / ( n  1)
にたいして E ( s )   の証明
2
2
( X 1   )   ...  ( X n   ) 
2
たがう。数表は p.326
は自由度nの(カイ二乗)分布にし