Jan Grandells och Timo Koskis föreläsningsanteckningar

SF1901: Sannolikhetslära och statistik
Föreläsning 7.
Normalfördelning, Linjära kombinationer av
normalfördelade variabler, Centrala gränsvärdessatsen,
Approximationer
Jan Grandell & Timo Koski
03.02.2015
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
1 / 50
From a Data Set to a Probability Distribution
Adolphe Quetelet (1796 1874) was an influential statistician and a tireless
promoter of statistical data collection1 , who wanted to mold social science
to an exact science like physics, he talked about ’social physics’. He
presented a theory of the average man invoking the normal (Gaussian)
distribution. He extended his statistical analysis of the demographic and
anthropometric characteristics of man to behaviour, mind and soul.
1 or
is it a hunter of factoids
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
2 / 50
A data set due to Quetelet according to a textbook by
J.W. Lindeberg, 1927 : chest breadths of 1516 Belgian
soldiers
Class
i
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Jan Grandell & Timo Koski
()
Absolute
frequency
fi
The values of
2
g (x ) = 286e −0.112(x −35)
g (xi )
2
4
17
55
102
180
242
310
251
181
103
42
19
6
1.2
5.1
17.4
47.7
104.4
182.7
255.7
286.0
255.7
182.7
104.4
47.7
17.4
5.1
Matematisk statistik
03.02.2015
3 / 50
From a Data Set to a Probability Distribution
A plot of the frequency data and the function 286e −0.112(x −35)
2
350
300
250
200
150
100
50
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
4 / 50
’stickprov ur en fördelning’ !
Plotten av de relativa frekvenserna av Quetelets data och funktionen
286 −0.112(x −35)2
.
1516 e
0.25
0.2
0.15
0.1
0.05
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
5 / 50
Bell-Shaped Curve
σ > 0,
2
2
1
√ e −(x −µ) /2σ
σ 2π
I figuren µ = 1, σ = 1
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5
−4
−3
Jan Grandell & Timo Koski
−2
()
−1
0
1
2
Matematisk statistik
3
4
5
03.02.2015
6 / 50
2
Funktionen 286e −0.112(x −35) svarar mot
1516 −(x −µ)2/2σ2
g (x ) = √
e
σ 2π
med µ = 35, σ2 = 4.46 (1516 är summan av klassfrekvenserna)
350
300
250
200
150
100
50
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
7 / 50
Normal (Probability) Density Curve
De relativa frekvenserna i Quetelets data och
1
2
2
f (x ) = √
e −(x −µ) /2σ
σ 2π
med µ = 35, σ2 = 4.46
0.25
0.2
0.15
0.1
0.05
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
8 / 50
SLUT PÅ INLEDNINGEN MED QUETELET–
0.25
0.2
0.15
0.1
0.05
0
28
30
Jan Grandell & Timo Koski
32
()
34
36
38
Matematisk statistik
40
42
03.02.2015
9 / 50
Standardiserad normalfördelning, N (0, 1)
Definition
En s.v. Z säges vara standardiserad normalfördelad om den är
N (0, 1)-fördelad, dvs. om den har täthetsfunktionen
2
1
e −z /2 .
ϕ (z ) = √
2π
Dess fördelningsfunktion betecknas med Φ(z ), dvs.
Φ(z ) =
Jan Grandell & Timo Koski
()
Z z
−∞
1
2
√ e −x /2 dx.
2π
Matematisk statistik
03.02.2015
10 / 50
Standardiserad normalfördelning, N (0, 1)
1
2
ϕ (z ) = √
e −z /2 .
2π
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
11 / 50
En bilaga i fin stil (kan överhoppas)
Hur vet vi att ϕ(z ) =
gäller det att
√1
2π
e −z
2 /2
Z ∞
−∞
är en sannolikhetstäthet ? Dvs. varför
ϕ(z )dz = 1.
Svaret ges t.ex. i Eike Petermann: Analytiska metoder II, Studentlitteratur
2002, sid. 235, Ex. 9.14, Anmärkning 9.6 eller bilagan nedan
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
12 / 50
Bilaga (ur Eike Petermann: Analytiska metoder II) :
Z
Jan Grandell & Timo Koski
()
∞
−∞
ϕ(z )dz = 1.
Matematisk statistik
03.02.2015
13 / 50
Bilaga :
Z
Jan Grandell & Timo Koski
()
∞
−∞
ϕ(z )dz = 1.
Matematisk statistik
03.02.2015
14 / 50
Sista sidan i bilagan :
Z
Jan Grandell & Timo Koski
()
∞
−∞
ϕ(z )dz = 1.
Matematisk statistik
03.02.2015
15 / 50
Standardiserad normalfördelning, N (0, 1)
Fördelningsfunktionen betecknas med Φ(z ), dvs.
Φ(z ) =
Z z
−∞
2
1
√ e −x /2 dx.
2π
Av symmetriskäl gäller klart att
Φ ( 0) =
Jan Grandell & Timo Koski
()
1
.
2
Matematisk statistik
03.02.2015
16 / 50
Φ (z ) =
Z
z
1
2
√ e −x /2 dx
−∞
2π
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−5
−4
−3
Jan Grandell & Timo Koski
−2
()
−1
0
1
2
Matematisk statistik
3
4
5
03.02.2015
17 / 50
Φ (x ) =
Z
x
1
2
√ e −t /2 dt
−∞
2π
Φ(x)
x
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
18 / 50
Beräkning av Φ(z ): MATLAB
Ett problem är att fördelningsfunktionen inte kan ges på en sluten
analytisk form. Det är dock lätt att numeriskt beräkna
fördelningsfunktionen och vi använder programvara för beräkning av Φ(x ).
I MATLAB Statistics Toolbox beräknas Φ(1) av :
>> normcdf(1, 0, 1)
ans =
0.84134474607
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
19 / 50
Beräkning av Φ(z ): TI-82 STATS
Ta fram menyn DISTR med tangentsekvensen 2nd DISTR. Gå ned till
normalcdf(. Då beräknas Φ(1) av2 :
normcdf(−1E 99, 1, 0, 1)
.8413447404
Man kan även skriva (d.v.s. 0 och 1 är defaultvärden)
normcdf(−1E 99, 1)
.8413447404
2E
tas fram med tangentsekvensen 2ND E
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
20 / 50
Tabellen för Φ(x ) ur kursens formelsamling
Vi slår upp Φ(1) som .8413
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
21 / 50
Φ(−z ) = 1 − Φ(z ).
Vi observerar att ϕ(−z ) = ϕ(z ). Φ(z ) är tabulerad i kursens
formelsamling endast för z ≥ 0. Vi har dock
Φ(−z ) =
Z −z
−∞
=
ϕ(x ) dx = [y = −x ] = −
Z ∞
z
Z z
∞
ϕ(−y ) dy
ϕ(y ) dy = 1 − Φ(z ).
Sats
Φ(−z ) = 1 − Φ(z ).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
22 / 50
Z ∈ N (0, 1), E (Z ), V (Z )
Om Z är N (0, 1)-fördelad, så kan man visa att
E (Z ) = 0 (ty ϕ(−z ) = ϕ(z ))
V (Z ) = 1.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
23 / 50
Kvantiler
När vi kommer till statistikdelen av kursen behöver vi ofta lösa ekvationer
av följande slag:
Bestäm z så att vi för givet α har
P (Z ≤ z ) = 1 − α;
P (Z > z ) = 1 − α;
P (−z < Z ≤ z ) = 1 − α.
För att lösa sådana ekvationer inför vi α-kvantilen λα definierad av
P (Z > λα ) = α eller
α = 1 − Φ( λ α ).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
24 / 50
Kvantiler i TI-82 STATS invNorm(
Vi vill ta fram λ0.05 definierad av ekvationen P (Z > λ0.05 ) = 0.05 eller
0.05 = 1 − Φ(λ0.05 ) ⇔ Φ(λ0.05 ) = 0.95
Vi knappar in i räknären (meny DISTR)
invNorm(0.95, 0, 1)
som ger lösningen
1.644853626
(≈ 1.6449).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
25 / 50
Kvantiler
area=α
λα
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
26 / 50
Kursens formelsamling: kvantiler
Tabell 2 i kursens formelsamling ger λ0.05 = 1.6449.
Normalfördelningens kvantiler
P (X > λα ) = α där X ∈ N (0, 1)
α
λα
α
λα
0.10
1.2816
0.001
3.0902
0.05
1.6449
0.0005
3.2905
0.025 1.9600
0.0001
3.7190
0.010 2.3263
0.00005 3.8906
0.005 2.5758
0.00001 4.2649
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
27 / 50
Kvantiler (forts.)
α = 1 − Φ( λ α ).
Det är då bra att observera att
1 − α = 1 − Φ ( λ 1− α )
⇔
α = Φ ( λ 1− α )
⇔
α = 1 − Φ(−λ1−α ),
vilket ger
λ 1− α = − λ α .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
28 / 50
Allmän normalfördelning
Definition
En s.v. X säges vara N (µ, σ)-fördelad, där µ reell och σ > 0, om
Z =
Jan Grandell & Timo Koski
()
X −µ
är N (0, 1)-fördelad.
σ
Matematisk statistik
03.02.2015
29 / 50
Allmän normalfördelning
Sats
Låt X vara N (µ, σ)-fördelad. Då gäller
2
2
x −µ
1
1
fX ( x ) = ϕ
= √ e −(x −µ) /2σ
σ
σ
σ 2π
och
Jan Grandell & Timo Koski
x −µ
FX ( x ) = Φ
σ
()
Matematisk statistik
.
03.02.2015
30 / 50
Allmän normalfördelning
Bevis. Vi har
x −µ
X −µ
≤
FX ( x ) = P ( X ≤ x ) = P
σ
σ
x −µ
x −µ
=P Z ≤
=Φ
.
σ
σ
x −µ
Derivation ger fX (x ) = σ1 ϕ σ .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
31 / 50
Normalfördelning
X ∈ N (µ, σ) med
1
2
2
fX ( x ) = √
e −(x −µ) /2σ
σ 2π
där µ godtycklig konstant och σ > 0. I figuren för fX (x ) har vi
µ = 1, σ = 1
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−6
−4
Jan Grandell & Timo Koski
−2
()
0
2
Matematisk statistik
4
6
03.02.2015
32 / 50
Normalfördelning (även känd som Gaussfördelning efter
C.F. Gauss, 1777-1855)
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
33 / 50
Normalfördelning i kinetiska gasteorin
X ∈ N (0, σ) med
fX ( x ) =
r
2
m
e −mx /2kB T
2πkB T
q
d.v.s. σ = kBmT , kB = Boltzmans konstant, T = temperatur, m =
partikelns massa. ”the fraction of particles in with velocities in the
x-direction within x, x + dx =fX (x )dx”. .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
34 / 50
En viktig regel
Beviset ovan innehåller en viktig räkneregel. Om X är N (µ, σ)-fördelad, så
gäller det att
x −µ
FX ( x ) = P ( X ≤ x ) = Φ
.
σ
Man kan m.a.o. använda tabellen för Φ(x ) även för att beräkna FX (x )
för X ∈ N (µ, σ).
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
35 / 50
TI-82 STATS
Smidigare än med regeln ovan och tabellen kan vi beräkna, om
X ∈ N (µ, σ), sannolikheten FX (x ) = P (X ≤ x ) som
normcdf(−1E 99, x, µ, σ)
Till exempel, om X ∈ N (2, 2) och beräknas P (0 ≤ X ≤ 3.5) med TI-82
STATS som
normcdf(0, 3.5, 2, 2)
.614717461
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
36 / 50
Allmän normalfördelning
Sats
Om X är N (µ, σ)-fördelad så gäller
E (X ) = µ
och
V ( X ) = σ2 .
Bevis. Vi ska nu se hur listig definitionen är!
X = σZ + µ
E (X ) = σE (Z ) + µ = 0 + µ = µ
V ( X ) = σ2 V ( Z ) + 0 = σ2 .
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
37 / 50
Täthetsfunktionerna för N (0, 1) och N (1, 1) och N (0, 1)
och N (0, 2) (från vänster till höger)
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
38 / 50
Allmän normalfördelning
Sats
Låt X vara N (µ, σ)-fördelad och sätt Y = aX + b. Då gäller det att
Y är N (aµ + b, |a|σ)-fördelad.
Bevis. Från definitionen följer att X = µ + σZ där Z är N (0, 1)-fördelad.
Detta ger
Y = aX + b = a(µ + σZ ) + b = aµ + b + aσZ
Y − (aµ + b )
= Z.
aσ
Om a > 0 följer satsen. Om a < 0 utnyttjar vi att Z och −Z har samma
fördelning.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
39 / 50
Summan av oberoende normalfördelade variabler
Sats
Om X är N (µX , σX )-fördelad, Y är N (µY , σY )-fördelad och X och Y är
oberoende så gäller att
q
X + Y är N µX + µY , σX2 + σY2 -fördelad
och
X − Y är N µX − µY ,
Jan Grandell & Timo Koski
()
q
σX2
Matematisk statistik
+ σY2
-fördelad.
03.02.2015
40 / 50
Repetition om väntevärden
Återkalla i minnet att Låt X och Y vara två oberoende (okorrelerade
räcker) s.v. Då gäller
E (X + Y ) = E (X ) + E (Y )
V (X + Y ) = V (X ) + V (Y )
E (X − Y ) = E (X ) − E (Y )
V (X − Y ) = V (X ) + V (Y ).
Det nya är att vi kan ge fördelningen för summan av oberoende
normalfördelade variabler
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
41 / 50
Summan av oberoende normalfördelade variabler
Sats
Låt X1 , . . . , Xn vara oberoende och N (µ1 , σ1 ), . . . , N (µn , σn ). Då gäller att
s
!
n
n
∑
ck Xk är N
∑
k =1
k =1
n
ck µk ,
∑ ck2 σk2
-fördelad.
k =1
Allmän regel : Linjärkombinationer av oberoende normalfördelade
stokastiska variabler är normalfördelade med rätt väntevärde och rätt
standardavvikelse.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
42 / 50
I förra föreläsningen
Sats
Låt X1 , . . . , Xn vara oberoende (okorrelerade räcker) s.v. och sätt
Y = c1 X1 + . . . + cn Xn .
Då gäller
E (Y ) = c1 E (X1 ) + . . . + cn E (Xn )
och
V (Y ) = c12 V (X1 ) + . . . + cn2 V (Xn )
Det nya är att vi för linjärkombinationer av oberoende normalfördelade
stokastiska variabler kan ge hela fördelningen.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
43 / 50
Aritmetiska medelvärdet
Följdsats
Låt X1 , X2 , . . . , Xn vara oberoende och N (µ, σ)-fördelade s.v. Då gäller att
σ
X är N µ, √
-fördelad.
n
Återkalla i minnet:
Sats
Låt X1 , X2 , . . . , Xn vara oberoende och likafördelade s.v. med väntevärde µ
och standardavvikelse σ. Då gäller att
E (X) = µ,
Jan Grandell & Timo Koski
()
V (X) =
σ2
n
och
Matematisk statistik
σ
D (X) = √ .
n
03.02.2015
44 / 50
Stora talens lag: ett frimärke från Schweiz
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
45 / 50
Centrala gränsvärdessatsen
Vi har sett några exempel på att normalfördelningen har trevliga statistiska
egenskaper. Detta skulle vi inte ha så stor glädje av, om
normalfördelningen inte dessutom var vanligt förekommande. Centrala
gränsvärdessatsen CGS, som är den huvudsakliga motiveringen för
normalfördelningen, kan utan vidare sägas vara ett av sannolikhetsteorins
och statistikens allra viktigaste resultat.
Sats
(CGS) Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med
väntevärde µ och standardavvikelse σ. Då gäller att
n
∑i =1 Xi − nµ
√
P
≤ x → Φ(x ) då n → ∞.
σ n
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
46 / 50
CGS
Ofta uttrycker man slutsatsen i CGS som att
∑ni=1 Xi − nµ
√
är approximativt N (0, 1)-fördelad
σ n
eller att
n
∑ Xi
i =1
Jan Grandell & Timo Koski
()
√ är approximativt N nµ, σ n -fördelad.
Matematisk statistik
03.02.2015
47 / 50
CGS
En, för statistiken mycket vanlig användning av CGS är följande:
Följdsats
Låt X1 , X2 , . . . vara oberoende och lika fördelade s.v. med väntevärde µ
och standardavvikelse σ. Då gäller att
b−µ
a−µ
√
√
−Φ
P (a < X ≤ b ) ≈ Φ
σ/ n
σ/ n
om n är tillräckligt stort.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
48 / 50
CGS
Det är tyvärr inte möjligt att ge några generella och enkla tumregler om
hur stort n måste vara för att normalapproximationen ska vara användbar.
Detta beror på hur ”normalliknande” de enskilda variablerna Xk är. Om
Xk na är normalfördelade så ”gäller” ju CGS för alla n. En tumregel är att
om Xk na är någorlunda symmetriskt fördelade så räcker ganska små n, säg
något tiotal. Om Xk na är påtagligt skevt fördelade så behöver n var något
eller i värsta fall några hundratal.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
49 / 50
CGS
Det är svårt att formulera strikt, men det räcker i CGS att Xk na är
någorlunda oberoende och någorlunda lika fördelade. Med ”någorlunda
lika fördelade” menas framförallt att det inte finns vissa Xk som är mycket
dominerande. Detta innebär att mätfel i välgjorda försök kan anses vara
approximativt normalfördelade. I mindre välgjorda försök kan det däremot
mycket väl finnas någon dominerande felkälla som inte alls behöver vara
approximativt normalfördelad.
Jan Grandell & Timo Koski
()
Matematisk statistik
03.02.2015
50 / 50