( X i X) 2 とすると 基礎統計 2015/5/29 mcobaya.web.fc2.com/kisotokei/index_ut.htm tokeibunseki@gmail.com 宿題 3 の間違い X ~ N ( p, p(1 p ) / N ), pˆ X を使わないもの 3) 学術論文では、本文中に参照しない文献は参考文献 リストに含めない。(間違いとまでは言えないが) 第2章 ( X 1 X) 2 ... ( X N X) 2 N 1 で見当をつける(推定)することができる。分散の推定量を不 1) 区間推定ではなく、仮説検定を行うもの。P.221 参照 2) s2 偏分散という。(N-1 でわる理由は。教科書 222。後で) N が十分大きい時は精度も高い ので、標本(不偏)分散 s2 を母分散 で代用してもよいとしよう。N が多いのかどうか 2 の判断基準、分散の誤差を考慮する方法は後で) 確率変数(続き) 共分散 Case 1:分散 が不明、N が大きい(とみなす) 共分散が正の値をとるとき正の相関 N=16 人の生徒の標本平均 共分散が負の値をとるとき負の相関 2 の不偏分散 s 2 =64,標準偏差 s 8(=64 の平方根)が十分 共分散が 0 のとき無相関 精度の高い推定と仮定し、 =64,標準偏差 2 =50 であった。N( , )たいし、 2 2 質問:共分散 cov(Y,X)=E((Y-E(Y))(X-E(X)))が大きい値のと き、X,Y の相関(関連)が強いといってよいか。 理由: C を定数とすると、共分散の計算公式 E(c)=c なので (1) V(X+Y)= V(X)+V(Y)+2cov(X,Y) (2) cov(c,X)=E((c-c)(X-E(X)))=E(0)=0 (3) cov(cY,X)=E((cY-cE(Y))(X-E(X)))=cE((Y-E(Y))(XE(X)))=c*cov(X,Y) 8 とできる。 z ( X ) / 2 / N は平均 0,分散1の標準正規分布になる。 E ( X ) 0, V ( X ) V ( X ) 2 / n, V (( X ) / 2 / n ) 2 / n / ( 2 / n ) 2 1, Pr(| ( X ) / 2 / N | 1.96) 0.05 より Pr( X 1.96 2 / N X 1.96 2 / N ) 0.95 Pr( X 1.96 2 / N X 1.96 2 / N ) 0.95 (4) V(X+c)=V(X)、V(cX)=c2V(X) 相関係数 X,Y の相関係数=cov(X,Y)/√(V(X)*V(Y)) -1<=相関係数<=1 X 証明はシュワルツの不等式と同じで、 解釈: X は、ほぼ確実に期待値 から 1.96 2 / N 以内の距 離にある。逆に考えると、未知の はほぼ確実に V(tX-Y)= t2V(X)+V(Y)-2tcov(X,Y)>=0 は t= cov(X,Y)/V(X)で 1.96 2 / N 2 SE 以内の距離にある。 最小値 V(Y)- Cov(X,Y)2/V(X)をとり、これが 0 以上であること 注意:1.96は実務的には2と考えてよい。 X から から、1>= Cov(X,Y)2/(V(X)V(Y)) 例:Y=1+2*X と直線的な関係が厳密に成立するとき、 この方法で作る信頼区間は 95%の確率で真実の値を含む。 Cov(Y,X)=Cov(1+2*X,X)=cov(1,X)+cov(2*X,X)=0+2*cov(X,X) (95%の確率で魚を捕まえる網のようなもの) =2*V(X), 99%の信頼区間は 25±2.6×0.2 V(Y)=V(2X+1)=4V(X) 当然、99%の信頼区間は信頼係数は高くなるが 30%広くなるの したがって、相関係数の分母は 2*V(X)、分子も 2*V(X)となり、 で有用性は低くなる。 一致し、相関係数=1 N が大きくなると、信頼区間は狭まる。 練習 Y=1-2*X のとき、相関係数=-1 を示せ。 注意:分布の標準偏差/√N=推定量の標準偏差(誤りやすい)推 定量の分布の標準偏差を標準誤差(SE)という。 p.207 N( , )において分散 が未知の場合のμの区間推 注意:95%(もしくは 99%)を使うのは習慣。1.96, 2.6 という 定、検定 数値はよく使うので覚えておくと良い。 分散 は (p.109 の話は後回し。 ) 2 2 2 「変量の分布の平均 からの偏差の二乗」の平均 なので、 X で を代用し、平均 からの偏差の二乗を N がそれほど大きくなく、不偏分散分 2 による母分散 の推定 2 誤差を考える場合。p. 208 (( X 1 X ) 2 ... ( X n X ) 2 ) t ( X ) / s / N の分布は当然、標準正規分布とは異なる。 2 (( X 1 ) ( X )) 2 ... (( X n ) ( X )) 2 ( X 1 ) ... ( X n ) n( X ) 2 この t の分布は正規分布より分布の裾が広がり(fat tail)、かつ中 ( X 1 )( X ) ... ( X n )( X ) 心が尖った分布になる。教科書 p.209 の図参照。 ( X )( X 1 .. X n n ) n( X )( X ) 裾が広いので、上側5%点、1%点は正規分布よりも原点から遠 より ざかる。ただしこの t 分布の形は自由度とよばれるパラメター (( X 1 X )2 ... ( X n X ) 2 ) に依存し、ここで用いた不偏分散 s の場合には n-1(サンプル ( X 1 ) ... ( X n ) n( X ) 2 サイズから1を引く)。当然 n が無限大(自由度も無限大)な と変形してからの期待値をとると、右辺の期待値は ら、 s は に一致するので教科書 p.325 の数表の一番下の行 n 2 n( 2 / n) (n 1) 2 は正規分布のもの(上川5%点は 1.645)に一致する。しかし、 したがって、 2 2 2 有限の自由度の場合、t分布の上側5%点は正規分布の上側 E (s 2 ) n 2 n( 2 / n) 2 n 1 の差なので、サンプルサイズがある程度大きい時には、正規分 p.211 N( , )において既知μの場合の 2 の区間推定 布の値を使っても実用上支障がない。両側 5%点は、正規分布 Q:なぜ分散を推定せねばならないのか。 にたいして A. 5%点よりも常に大きい(例:自由度20のときは 1.725) 約5% 1.96 だが自由度 20 にt分布では 2.086 とやはり 2 製品に品質のばらつきがあると役にたたない。 5%以内の差。人によって異なるが自由度が 20(N=21)より大き Q. μが既知とは非現実性ではないか。 い時は正規分布と考えて良い。先ほどの N=16 人の場合には、 A.確かに非現実的だが、次のμが未知の場合の説明のため必要。 自由度は「 カイ二乗分布 」になるので、表より両側 5%点は「 」 となるので、区間推定は Pr( X *** 2 / N X *** 2 / N ) 0.95 p.222 不偏分散 独立な確率変数 X 1 , , X N が期待値 E( Xi ) ,分散 V ( xi ) の正規分布に従うならば、正規分布の和は正規分 2 布なので、したがって標本平均も正規分布となり、 E( X ) , V ( X ) 2 / N という期待値、分散を持つ。(p.182)以下はその計算課程であ る。 X 1 , , X N の独立性より X .. X n E ( X 1 ) .. E ( X n ) E( X ) E 1 , n n X .. X n 1 V(X ) V 1 2 V X 1 .. X n n n 1 2 V ( X 1 ) .. V ( X n ) 2 / n n p.201 不偏分散 s 2 =[(x1 x ) 2 +...+(xn x ) 2 ] / ( n 1) にたいして E ( s ) の証明 2 2 ( X 1 ) ... ( X n ) 2 たがう。数表は p.326 は自由度nの(カイ二乗)分布にし
© Copyright 2025