Modelkontrol og prædiktion

Program
Faculty of Life Sciences
• Test af hypotese i ensidet variansanalyse
• F -tests og F -fordelingen.
Modelkontrol og prædiktion
• Multiple sammenligninger. Bonferroni-korrektion
Claus Ekstrøm
• Opsummering af statistiske modeller/eksempler
E-mail: ekstrom@life.ku.dk
• Modelkontrol
• Prædiktion
Slide 2— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Multiple sammenligninger
Opgave 5.2: fosforkoncentration
Risikoen afhænger af
signifikansniveauet — ofte 5%.
Ved et test: risiko for fejl: 5%
0.8
Uge
Forfor
Probability
0.4
0.6
Hver gang vil laver et test er der
risiko for at lave en fejl af type I.
1.0
Lineær regression
1
0.51
2
0.48
3
0.44
4
0.44
5
0.39
6
0.35
7
0.28
8
0.24
Statistisk model:
Ved m tests:
0.2
fosfori = α + β · ugei + ei ,
0.0
1 − 0.95m
0
Slide 3— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
10
20
30
40
No. of tests (m)
50
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
R: model1 <- lm(fosfor ~uge)
Slide 4— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
9
0.19
Opgave 6.7: vægttilvækst hos kyllinger
Opgave 6.1: drægtighed for heste
Ensidet ANOVA
En enkelt stikprøve
Feed type
1
2
3
4
55
61
42
169
Weight gain
49
42 21
112 30 89
97
81 95
137 169 85
Drægtighedstider for 13 heste:
52
63
92
154
339 339 339 340 341 340 343 348 341 346 342 339 337
Statistisk model:
gesti ∼ N(µ, σ 2 ) uafhængige
Statistisk model:
Modellen kan ogs˚
a skrives:
gaini = αfeed(i) + ei ,
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
gesti = µ + ei ,
R: model2 <- lm(gain~factor(feed))
Bemærk factor(feed)!
Slide 5— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
R: model3 <- lm(gest~1)
Slide 6— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Alle modeller
Resum´e 1: statistiske modeller og inferens
fosfori = α + β · ugei +ei ,
gaini = αfeed(i) +ei ,
gesti = µ+ei ,
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
Variabeltyper:
• Responsvariabel, y : fosfor, gain, gest
• Forklarende variabel: age (kvantitativ), feed
(faktor/kategorisk)
Antagelser:
• Alle ei (eller yi ) er normalfordelte
• Middelværdien af yi afhænger evt. af en forklarende variabel
Modellerne for lineær regression, ensidet variansanalyse og en
enkelt stikprøve er i virkeligheden meget ens!
Det er derfor den statistiske inferens ogs˚
a er den samme i de tre
slags modeller (p er antallet af middelværdiparametre):
• middelværdiparametre estimeres med LS
• spredningen σ estimeres p˚
a “samme m˚
ade”
• Konfidensintervaller: estimat ± t0.975,n−p · SE(estimat)
• Hypotesetest udføres som t-test eller F -test
Modellerne kan udvides til at omfatte flere forklarende variable —
kvantitative variable og/eller faktorer. Lineære normale modeller:
yi = middelværdii + ei
e1 , . . . , en ∼ N(0, σ 2 ) uafhængige
• Alle ei (eller yi ) har samme spredning
• e1 , . . . , en (eller y1 , . . . , yn ) uafhængige
Slide 7— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Slide 8— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Residualer
Residualer i R
Forventet værdi eller fittet værdi eller prædikteret værdi, yˆi :
\i = α
• yˆi = fosfor
ˆ + βˆ · xi
[i = α
• yˆi = gain
ˆg (i)
di = µ
• yˆi = gest
ˆ
>
>
>
>
model1 <- lm(fosfor~uge)
fit1 <- fitted(model1)
res1 <- residuals(model1)
stdres1 <- rstandard(model1)
##
##
##
##
>
>
>
>
model2 <- lm(gain~factor(feed))
fit2 <- fitted(model2)
res2 <- residuals(model2)
stdres2 <- rstandard(model2)
Lineær regression
Fittede værdier
R˚
a residualer
Standard. residualer
Residualer:
ri = yi − yˆi = observeret − fittet
Residualerne er vores bedste gæt p˚
a e’erne! S˚
a
q
1
n
• σ
ˆ = s = n−p ∑i=1 ri2 hvor p er antal middelværdiparametre
(2, k, 1)
• residualerne kan bruges til modelkontrol!
Og hvis du har isdals installeret
> residualplot(model1)
Residualerne kan standardiseres s˚
a de har spredning 1:
˜ri = ri /SE(ri ).
Slide 9— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Modelkontrol: hvorfor?
Slide 10— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Modelkontrol: hvordan?
Antagelser:
Modelkontrol best˚
ar i at kontrollere om modelantagelserne er
rimelige for vores data.
1. ei er normalfordelt
Hvorfor skal vi lave modelkontrol?
3. ei har samme spredning — uanset de forklarende variable
• Hvis antagelserne er ok, s˚
a indeholder 95%-CI
populationsværdien med 95% sandsynlighed, og p-værdierne
er korrekte.
Vi kan stole p˚
a vores resultater!
• Hvis antagelserne ikke er ok, s˚
a ved vi ikke om vi kan stole p˚
a
vores resultater!
Antagelserne om e1 , . . . , en kontrolleres vha. de standardiserede
residualer ˜r1 , . . . ,˜rn .
2. ei har middelværdi 0 — uanset de forklarende variable
4. e1 , . . . , en uafhængige
Hvordan?
• Uafhængighed er snarere et spørgsm˚
al om eksperimentielt
design
• Kontrollerer de tre første antagelser om e1 , . . . , en vha. de
standardiserede residualer ˜r1 , . . . ,˜rn
Thorvald Nicolai Thiele, 1838–1910
Man skal tegne før man kan regne
Slide 11— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Slide 12— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Plantevækst og fosfor: antagelse 2 og 3
Normal Q−Q Plot
●
●
Sample Quantiles
−1.0 −0.5 0.0 0.5 1.0
Standardized residuals
−1.0 −0.5 0.0 0.5 1.0
1.5
●
Antagelse 1. ei er normalfordelt:
• QQ-plot over ˜
r1 , . . . ,˜rn
• Sammenlign med ret linie,
●
●
●
●
med skæring 0 og hældning
1
Antagelse 2. og 3. ei har
middelværdi 0 og samme
spredning
• Residualplot, ˜
ri mod yˆi
●
1.5
Plantevækst og fosfor: antagelse 1
●
●
• Ingen systematik i den
lodrette variation
●
●
●
• Er det outliers, dvs.
●
ekstreme observationer?
(˜r1 , . . . ,˜rn har spredning 1)
●
●
●
0.20
●
−1.5 −1.0 −0.5 0.0 0.5 1.0
Theoretical Quantiles
0.30
0.40
Fitted values
1.5
0.50
Hvis man har installeret isdals kan man bruge
residualplot(model)
Slide 14— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Slide 13— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Residualplot for to andre datasæt
Pillbugs/bænkebidere (case 2)
●
2
●
QQ-plot
Residualplot
●
●
●
●
●
●
●
●
●
1
2
●
1
Andemad (eks. 2.4 og 6.2)
Residualanalyse for kyllingedata
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
−1000
−2
−1
●
●
1000
3000
Predicted values
5000
Slide 15— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
50
100
fitted(model2)
150
●
●
●
−2
●
−2
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
stdres2
0
●
●
●
●
●
●
−1
●
●
Sample Quantiles
−1
0
●
rstandard(model2)
−1
0
1
●
0
Std. residuals
1
●
●
−2
●
−1
0
1
Theoretical Quantiles
2
Slide 16— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
40
60
80
100
fit2
120
140
Antagelse 4: uafhængighed
Kan som regel ikke testes vha. data (residualer), men er snarere et
spørgsm˚
al om eksperimentets design.
Observationerne m˚
a ikke “dele information”.
Hvis en observation ligger højere end forventet, ændrer det s˚
a vores
viden om hvorvidt de nogle af de øvrige observationer ligger
højere/lavere end forventet?
Eksempler p˚
a afhængige data:
• Data fra samme marker, samme personer, samme planter, etc.
• Data fra søskende, kuld, ...
Sommetider vil vi gerne have afhængighed — men s˚
a skal der
tages højde for det i modellen.
Slide 17— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Resum´e 2: modelkontrol
Det er ekstremt vigtigt at at lave modelkontrol, for ellers ved vi
ikke om vi kan stole p˚
a konfidensintervaller, p-værdier osv.
Modelkontrol udføres først og fremmest grafisk, vha. residualplot
og QQ-plot for standardiserede residualer. Især residualplottet er
vigtigt!
• I residualplottet skal den lodrette variation være tilfældig. M˚
a
ikke være systematisk forskellige “fra venstre til højre”.
• Meget store standardiserede residualer svarer til ekstreme
observationer eller outliers. Bør undersøges nærmere.
• I QQ-plottet skal punkterne som sædvanlig være spredt
tilfældigt om en ret linie, her linien med skæring 0 og
hældning 1.
• Er det rimeligt at antage uafhængighed?
Slide 18— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Plantevækst og fosfor: prædiktion
Plantevækst og fosfor: prædiktion
Plante bliver fulgt i 7 uger. Forventet forforkoncentration er
α + β · 7 der estimeres til
Konfidensintervallet udtaler sig om den forventede værdi — ikke en
ny observation.
ˆ + βˆ · 7 = 0.56972 − 0.04017 · 7 = 0.28853
yˆ = α
med estimeret spredning (side 110)
s
√
1 (7 − x¯)2
SE(ˆ
y0 ) = s
+
= 0.02031 · 0.4216 = 0.00856
n
SSx
95%-konfidensinterval:
0.28853 ± 2.306 · 0.00856 = (0.2688; 0.3083)
En plante p˚
a 7 uger f˚
ar m˚
alt forfoskoncentrationen til 0.25. Hvorfor
kan vi ikke bruge konfidensintervallet til at afgøre om det er
usædvanligt?
Slide 19— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Konfidensintervallet tager kun hensyn til estimationfejlen — ikke
observationsfejlen.
95%-prædiktionsinterval:
s
yˆ ± t0.975,n−2 · s ·
1+
1 (x0 − x¯)2
+
n
SSx
Plante p˚
a 7 uger:
√
yˆ ± 2.306 · 0.02031 · 1 + 0.4216 = (0.2377, 0.3394)
Er en fosforkoncentration p˚
a 0.25 usædvanlig for en plante p˚
a7
uger?
Slide 20— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Konfidensinterval vs. prædiktionsinterval
Resum´e 3: prædiktion
50
Prædiktion handler om at “forudsige” nye observationer.
CI vs. PI:
40
●
●
●
●
Fatpct
30
●
●
• Fortolkning: forventet værdi
• 95%-prædiktionsintervallet indeholder med sandsynlighed 95%
eller ny observation
en ny observation for en given værdi af de(n) forklarende
variabel.
• PI altid bredere end CI
• Et prædiktionsintervaller er altid bredere end det tilsvarende
20
●
• CI kan gøres vilk˚
aligt smalt
●
●
10
ved at øge n, PI kan ikke
konfidensinterval fordi det og˚
a tager hensyn til
“observationsfejlen”
0
• Kan ikke gøres vilk˚
arligt smalle ved at øge n.
20
30
40
Age
50
60
Prædiktion i ensidet ANOVA og en enkelt stikprøve: se afsnit 7.2.3!
Slide 21— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Resum´e 1–3
Slide 22— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Dagens hovedpunkter
Modellerne for lineær regression, ensidet ANOVA og en enkelt
stikprøve er “samme suppe”.
• Samme antagelser — p˚
a nær specifikationen af middelværdien
• To typer forklarende variable: kvantitative og faktorer
• Statistisk inferens “ens”: LS-estimation, konfidensintervaller,
test, prædiktion, modelkontrol
• Flere forklarende variable kan kobles p˚
a — stadig samme
• Multiple sammenligninger — hvorfor er det et problem, og
hvad kan vi gøre ved det?
• Modelkontrol
• Analyse af standardiserede residualer — hvad skal vi se efter?
• Prædiktion. Forskel p˚
a konfidens- og prædiktionsintervaller.
Udregning.
modeltype og samme m˚
ade at lave statistisk inferens
Modellerne er baseret p˚
a normalfordelingen — pga. den centrale
grænseværdisætning!
Slide 23— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Slide 24— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Ordliste
Engelsk
explanatory variable
independence
response variable
standardized residual
outlier
Slide 25— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion
Dansk
forklarende variabel
uafhængighed
responsvariabel
standardiseret residual
ekstrem observation