Download Report

SF1901: Sannolikhetslära och statistik
Föreläsning 7.
Normalfördelning, Linjära kombinationer av
normalfördelade variabler, Centrala gränsvärdessatsen,
Approximationer
Jan Grandell & Timo Koski
03.02.2015
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
1 / 50
From a Data Set to a Probability Distribution
Adolphe Quetelet (1796 1874) was an influential statistician and a tireless
promoter of statistical data collection1 , who wanted to mold social science
to an exact science like physics, he talked about ’social physics’. He
presented a theory of the average man invoking the normal (Gaussian)
distribution. He extended his statistical analysis of the demographic and
anthropometric characteristics of man to behaviour, mind and soul.
1 or
is it a hunter of factoids
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
2 / 50
A data set due to Quetelet according to a textbook by
J.W. Lindeberg, 1927 : chest breadths of 1516 Belgian
soldiers
Class
i
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Jan Grandell & Timo Koski
()
Absolute
frequency
fi
The values of
2
g (x ) = 286e −0.112(x −35)
g (xi )
2
4
17
55
102
180
242
310
251
181
103
42
19
6
1.2
5.1
17.4
47.7
104.4
182.7
255.7
286.0
255.7
182.7
104.4
47.7
17.4
5.1
Matematisk statistik
03.02.2015
3 / 50
From a Data Set to a Probability Distribution
A plot of the frequency data and the function 286e −0.112(x −35)
2
350
300
250
200
150
100
50
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
4 / 50
’stickprov ur en fördelning’ !
Plotten av de relativa frekvenserna av Quetelets data och funktionen
286 −0.112(x −35)2
.
1516 e
0.25
0.2
0.15
0.1
0.05
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
5 / 50
Bell-Shaped Curve
σ > 0,
2
2
1
√ e −(x −µ) /2σ
σ 2π
I figuren µ = 1, σ = 1
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5
−4
−3
Jan Grandell & Timo Koski
−2
()
−1
0
1
2
Matematisk statistik
3
4
5
03.02.2015
6 / 50
2
Funktionen 286e −0.112(x −35) svarar mot
1516 −(x −µ)2/2σ2
g (x ) = √
e
σ 2π
med µ = 35, σ2 = 4.46 (1516 är summan av klassfrekvenserna)
350
300
250
200
150
100
50
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
7 / 50
Normal (Probability) Density Curve
De relativa frekvenserna i Quetelets data och
1
2
2
f (x ) = √
e −(x −µ) /2σ
σ 2π
med µ = 35, σ2 = 4.46
0.25
0.2
0.15
0.1
0.05
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
8 / 50
SLUT PÅ INLEDNINGEN MED QUETELET–
0.25
0.2
0.15
0.1
0.05
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
9 / 50
Standardiserad normalfördelning, N (0, 1)
Definition
En s.v. Z säges vara standardiserad normalfördelad om den är
N (0, 1)-fördelad, dvs. om den har täthetsfunktionen
2
1
e −z /2 .
ϕ (z ) = √
2π
Dess fördelningsfunktion betecknas med Φ(z ), dvs.
Φ(z ) =
Jan Grandell & Timo Koski
()
Z z
−∞
1
2
√ e −x /2 dx.
2π
Matematisk statistik
03.02.2015
10 / 50
Standardiserad normalfördelning, N (0, 1)
1
2
ϕ (z ) = √
e −z /2 .
2π
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
11 / 50
En bilaga i fin stil (kan överhoppas)
Hur vet vi att ϕ(z ) =
gäller det att
√1
2π
e −z
2 /2
Z ∞
−∞
är en sannolikhetstäthet ? Dvs. varför
ϕ(z )dz = 1.
Svaret ges t.ex. i Eike Petermann: Analytiska metoder II, Studentlitteratur
2002, sid. 235, Ex. 9.14, Anmärkning 9.6 eller bilagan nedan
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
12 / 50
Bilaga (ur Eike Petermann: Analytiska metoder II) :
Z
Jan Grandell & Timo Koski
()
∞
−∞
ϕ(z )dz = 1.
Matematisk statistik
03.02.2015
13 / 50
Bilaga :
Z
Jan Grandell & Timo Koski
()
∞
−∞
ϕ(z )dz = 1.
Matematisk statistik
03.02.2015
14 / 50
Sista sidan i bilagan :
Z
Jan Grandell & Timo Koski
()
∞
−∞
ϕ(z )dz = 1.
Matematisk statistik
03.02.2015
15 / 50
Standardiserad normalfördelning, N (0, 1)
Fördelningsfunktionen betecknas med Φ(z ), dvs.
Φ(z ) =
Z z
−∞
2
1
√ e −x /2 dx.
2π
Av symmetriskäl gäller klart att
Φ ( 0) =
Jan Grandell & Timo Koski
()
1
.
2
Matematisk statistik
03.02.2015
16 / 50
Φ (z ) =
Z
z
1
2
√ e −x /2 dx
−∞
2π
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−5
−4
−3
Jan Grandell & Timo Koski
−2
()
−1
0
1
2
Matematisk statistik
3
4
5
03.02.2015
17 / 50
Φ (x ) =
Z
x
1
2
√ e −t /2 dt
−∞
2π
Φ(x)
x
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
18 / 50
Beräkning av Φ(z ): MATLAB
Ett problem är att fördelningsfunktionen inte kan ges på en sluten
analytisk form. Det är dock lätt att numeriskt beräkna
fördelningsfunktionen och vi använder programvara för beräkning av Φ(x ).
I MATLAB Statistics Toolbox beräknas Φ(1) av :
>> normcdf(1, 0, 1)
ans =
0.84134474607
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
19 / 50
Beräkning av Φ(z ): TI-82 STATS
Ta fram menyn DISTR med tangentsekvensen 2nd DISTR. Gå ned till
normalcdf(. Då beräknas Φ(1) av2 :
normcdf(−1E 99, 1, 0, 1)
.8413447404
Man kan även skriva (d.v.s. 0 och 1 är defaultvärden)
normcdf(−1E 99, 1)
.8413447404
2E
tas fram med tangentsekvensen 2ND E
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
20 / 50
Tabellen för Φ(x ) ur kursens formelsamling
Vi slår upp Φ(1) som .8413
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
21 / 50
Φ(−z ) = 1 − Φ(z ).
Vi observerar att ϕ(−z ) = ϕ(z ). Φ(z ) är tabulerad i kursens
formelsamling endast för z ≥ 0. Vi har dock
Φ(−z ) =
Z −z
−∞
=
ϕ(x ) dx = [y = −x ] = −
Z ∞
z
Z z
∞
ϕ(−y ) dy
ϕ(y ) dy = 1 − Φ(z ).
Sats
Φ(−z ) = 1 − Φ(z ).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
22 / 50
Z ∈ N (0, 1), E (Z ), V (Z )
Om Z är N (0, 1)-fördelad, så kan man visa att
E (Z ) = 0 (ty ϕ(−z ) = ϕ(z ))
V (Z ) = 1.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
23 / 50
Kvantiler
När vi kommer till statistikdelen av kursen behöver vi ofta lösa ekvationer
av följande slag:
Bestäm z så att vi för givet α har
P (Z ≤ z ) = 1 − α;
P (Z > z ) = 1 − α;
P (−z < Z ≤ z ) = 1 − α.
För att lösa sådana ekvationer inför vi α-kvantilen λα definierad av
P (Z > λα ) = α eller
α = 1 − Φ( λ α ).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
24 / 50
Kvantiler i TI-82 STATS invNorm(
Vi vill ta fram λ0.05 definierad av ekvationen P (Z > λ0.05 ) = 0.05 eller
0.05 = 1 − Φ(λ0.05 ) ⇔ Φ(λ0.05 ) = 0.95
Vi knappar in i räknären (meny DISTR)
invNorm(0.95, 0, 1)
som ger lösningen
1.644853626
(≈ 1.6449).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
25 / 50
Kvantiler
area=α
λα
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
26 / 50
Kursens formelsamling: kvantiler
Tabell 2 i kursens formelsamling ger λ0.05 = 1.6449.
Normalfördelningens kvantiler
P (X > λα ) = α där X ∈ N (0, 1)
α
λα
α
λα
0.10
1.2816
0.001
3.0902
0.05
1.6449
0.0005
3.2905
0.025 1.9600
0.0001
3.7190
0.010 2.3263
0.00005 3.8906
0.005 2.5758
0.00001 4.2649
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
27 / 50
Kvantiler (forts.)
α = 1 − Φ( λ α ).
Det är då bra att observera att
1 − α = 1 − Φ ( λ 1− α )
⇔
α = Φ ( λ 1− α )
⇔
α = 1 − Φ(−λ1−α ),
vilket ger
λ 1− α = − λ α .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
28 / 50
Allmän normalfördelning
Definition
En s.v. X säges vara N (µ, σ)-fördelad, där µ reell och σ > 0, om
Z =
Jan Grandell & Timo Koski
()
X −µ
är N (0, 1)-fördelad.
σ
Matematisk statistik
03.02.2015
29 / 50
Allmän normalfördelning
Sats
Låt X vara N (µ, σ)-fördelad. Då gäller
2
2
x −µ
1
1
fX ( x ) = ϕ
= √ e −(x −µ) /2σ
σ
σ
σ 2π
och
Jan Grandell & Timo Koski
x −µ
FX ( x ) = Φ
σ
()
Matematisk statistik
.
03.02.2015
30 / 50
Allmän normalfördelning
Bevis. Vi har
x −µ
X −µ
≤
FX ( x ) = P ( X ≤ x ) = P
σ
σ
x −µ
x −µ
=P Z ≤
=Φ
.
σ
σ
x −µ
Derivation ger fX (x ) = σ1 ϕ σ .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
31 / 50
Normalfördelning
X ∈ N (µ, σ) med
1
2
2
fX ( x ) = √
e −(x −µ) /2σ
σ 2π
där µ godtycklig konstant och σ > 0. I figuren för fX (x ) har vi
µ = 1, σ = 1
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−6
−4
Jan Grandell & Timo Koski
−2
()
0
2
Matematisk statistik
4
6
03.02.2015
32 / 50
Normalfördelning (även känd som Gaussfördelning efter
C.F. Gauss, 1777-1855)
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
33 / 50
Normalfördelning i kinetiska gasteorin
X ∈ N (0, σ) med
fX ( x ) =
r
2
m
e −mx /2kB T
2πkB T
q
d.v.s. σ = kBmT , kB = Boltzmans konstant, T = temperatur, m =
partikelns massa. ”the fraction of particles in with velocities in the
x-direction within x, x + dx =fX (x )dx”. .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
34 / 50
En viktig regel
Beviset ovan innehåller en viktig räkneregel. Om X är N (µ, σ)-fördelad, så
gäller det att
x −µ
FX ( x ) = P ( X ≤ x ) = Φ
.
σ
Man kan m.a.o. använda tabellen för Φ(x ) även för att beräkna FX (x )
för X ∈ N (µ, σ).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
35 / 50
TI-82 STATS
Smidigare än med regeln ovan och tabellen kan vi beräkna, om
X ∈ N (µ, σ), sannolikheten FX (x ) = P (X ≤ x ) som
normcdf(−1E 99, x, µ, σ)
Till exempel, om X ∈ N (2, 2) och beräknas P (0 ≤ X ≤ 3.5) med TI-82
STATS som
normcdf(0, 3.5, 2, 2)
.614717461
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
36 / 50
Allmän normalfördelning
Sats
Om X är N (µ, σ)-fördelad så gäller
E (X ) = µ
och
V ( X ) = σ2 .
Bevis. Vi ska nu se hur listig definitionen är!
X = σZ + µ
E (X ) = σE (Z ) + µ = 0 + µ = µ
V ( X ) = σ2 V ( Z ) + 0 = σ2 .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
37 / 50
Täthetsfunktionerna för N (0, 1) och N (1, 1) och N (0, 1)
och N (0, 2) (från vänster till höger)
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
38 / 50
Allmän normalfördelning
Sats
Låt X vara N (µ, σ)-fördelad och sätt Y = aX + b. Då gäller det att
Y är N (aµ + b, |a|σ)-fördelad.
Bevis. Från definitionen följer att X = µ + σZ där Z är N (0, 1)-fördelad.
Detta ger
Y = aX + b = a(µ + σZ ) + b = aµ + b + aσZ
Y − (aµ + b )
= Z.
aσ
Om a > 0 följer satsen. Om a < 0 utnyttjar vi att Z och −Z har samma
fördelning.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
39 / 50
Summan av oberoende normalfördelade variabler
Sats
Om X är N (µX , σX )-fördelad, Y är N (µY , σY )-fördelad och X och Y är
oberoende så gäller att
q
X + Y är N µX + µY , σX2 + σY2 -fördelad
och
X − Y är N µX − µY ,
Jan Grandell & Timo Koski
()
q
σX2
Matematisk statistik
+ σY2
-fördelad.
03.02.2015
40 / 50
Repetition om väntevärden
Återkalla i minnet att Låt X och Y vara två oberoende (okorrelerade
räcker) s.v. Då gäller
E (X + Y ) = E (X ) + E (Y )
V (X + Y ) = V (X ) + V (Y )
E (X − Y ) = E (X ) − E (Y )
V (X − Y ) = V (X ) + V (Y ).
Det nya är att vi kan ge fördelningen för summan av oberoende
normalfördelade variabler
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
41 / 50
Summan av oberoende normalfördelade variabler
Sats
Låt X1 , . . . , Xn vara oberoende och N (µ1 , σ1 ), . . . , N (µn , σn ). Då gäller att
s
!
n
n
∑
ck Xk är N
∑
k =1
k =1
n
ck µk ,
∑ ck2 σk2
-fördelad.
k =1
Allmän regel : Linjärkombinationer av oberoende normalfördelade
stokastiska variabler är normalfördelade med rätt väntevärde och rätt
standardavvikelse.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
42 / 50
I förra föreläsningen
Sats
Låt X1 , . . . , Xn vara oberoende (okorrelerade räcker) s.v. och sätt
Y = c1 X1 + . . . + cn Xn .
Då gäller
E (Y ) = c1 E (X1 ) + . . . + cn E (Xn )
och
V (Y ) = c12 V (X1 ) + . . . + cn2 V (Xn )
Det nya är att vi för linjärkombinationer av oberoende normalfördelade
stokastiska variabler kan ge hela fördelningen.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
43 / 50
Aritmetiska medelvärdet
Följdsats
Låt X1 , X2 , . . . , Xn vara oberoende och N (µ, σ)-fördelade s.v. Då gäller att
σ
X är N µ, √
-fördelad.
n
Återkalla i minnet:
Sats
Låt X1 , X2 , . . . , Xn vara oberoende och likafördelade s.v. med väntevärde µ
och standardavvikelse σ. Då gäller att
E (X) = µ,
Jan Grandell & Timo Koski
()
V (X) =
σ2
n
och
Matematisk statistik
σ
D (X) = √ .
n
03.02.2015
44 / 50
Stora talens lag: ett frimärke från Schweiz
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
45 / 50
Centrala gränsvärdessatsen
Vi har sett några exempel på att normalfördelningen har trevliga statistiska
egenskaper. Detta skulle vi inte ha så stor glädje av, om
normalfördelningen inte dessutom var vanligt förekommande. Centrala
gränsvärdessatsen CGS, som är den huvudsakliga motiveringen för
normalfördelningen, kan utan vidare sägas vara ett av sannolikhetsteorins
och statistikens allra viktigaste resultat.
Sats
(CGS) Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med
väntevärde µ och standardavvikelse σ. Då gäller att
n
∑i =1 Xi − nµ
√
P
≤ x → Φ(x ) då n → ∞.
σ n
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
46 / 50
CGS
Ofta uttrycker man slutsatsen i CGS som att
∑ni=1 Xi − nµ
√
är approximativt N (0, 1)-fördelad
σ n
eller att
n
∑ Xi
i =1
Jan Grandell & Timo Koski
()
√ är approximativt N nµ, σ n -fördelad.
Matematisk statistik
03.02.2015
47 / 50
CGS
En, för statistiken mycket vanlig användning av CGS är följande:
Följdsats
Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde µ
och standardavvikelse σ. Då gäller att
b−µ
a−µ
√
√
−Φ
P (a < X ≤ b ) ≈ Φ
σ/ n
σ/ n
om n är tillräckligt stort.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
48 / 50
CGS
Det är tyvärr inte möjligt att ge några generella och enkla tumregler om
hur stort n måste vara för att normalapproximationen ska vara användbar.
Detta beror på hur ”normalliknande” de enskilda variablerna Xk är. Om
Xk na är normalfördelade så ”gäller” ju CGS för alla n. En tumregel är att
om Xk na är någorlunda symmetriskt fördelade så räcker ganska små n, säg
något tiotal. Om Xk na är påtagligt skevt fördelade så behöver n var något
eller i värsta fall några hundratal.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
49 / 50
CGS
Det är svårt att formulera strikt, men det räcker i CGS att Xk na är
någorlunda oberoende och någorlunda lika fördelade. Med ”någorlunda
lika fördelade” menas framförallt att det inte finns vissa Xk som är mycket
dominerande. Detta innebär att mätfel i välgjorda försök kan anses vara
approximativt normalfördelade. I mindre välgjorda försök kan det däremot
mycket väl finnas någon dominerande felkälla som inte alls behöver vara
approximativt normalfördelad.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
50 / 50