university of copenhagen Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 22. september 2015 1 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Simpel lineær regression Regression og korrelation I Simpel lineær regression I Todimensionale normalfordelinger I Korrelation vs. regression I Modelkontrol I Diagnostics Hjemmesider: http://biostat.ku.dk/~lts/basal15_2 E-mail: ltsk@sund.ku.dk 2 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Simpel lineær regression Retningsbestemt relation (men ikke nødvendigvis kausal) mellem to kvantitative (kontinuerte) variable: Y: Respons eller outcome, afhængig (dependent) variabel X: Forklarende variabel, kovariat (somme tider Independent/uafhængig - meget uheldigt!) Gennemgående eksempel at tænke på: Y =blodtryk, X =alder 3 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Data Sammenhørende registreringer (xi , yi ), for en række individer eller ’units’, i = 1, · · · , n: Bemærk: xi ’erne kan vælges på forhånd! I Det er smart, fordi man kan designe sig til mere præcise estimater I Det er farligt, hvis man har tænkt sig at benytte korrelationer (mere om det senere) 4 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel I Sammenhæng mellem kolinesteraseaktivitet (KE) og tid til opvågning (TID) I Outcome: TID I Forklarende variabel: KE I Konklusioner: Hvor lang tid forventer vi til opvågning, baseret på en måling af KE? Hvor stor er usikkerheden på denne prediktion? 5 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel II Sammenligning af lungekapacitet (FEV1 ) for rygere og ikke-rygere Problem: FEV1 afhænger også af f.eks. højde I Outcome: FEV1 I Forklarende variable: højde, rygevaner I Konklusioner: Hvor meget dårligere er lungefunktionen hos rygere? 6 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel fra bogen Hvilken sammenhæng er der mellem fastende blodsukkerniveau og sammentrækningsevne for venstre hjertekammer hos diabetikere? (n=23) OBS Outcome: Y=vcf, %/sec. Kovariat: X=blodsukker, mmol/l 7 / 72 1 2 3 . . . 21 22 23 BLODSUKKER 15.3 10.8 8.1 . . . 4.9 8.8 9.5 VCF 1.76 1.34 1.27 . . . 1.03 1.12 1.70 university of copenhagen Indlæsning og scatter plot data vcf; infile ’C:\Basalstatistik\vcf.txt’ firstobs=2; input blodsukker vcf; run; proc gplot data=vcf; plot vcf*blodsukker; run; eller proc sgplot data=vcf; scatter x=blodsukker y=vcf; run; 8 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Scatter plot Er der nogen sammenhæng her? 9 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Matematisk model Ligningen for en ret linie: Y = α + βX Intercept α: Skæring med Y-akse Hældning β 10 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fortolkning I I α: intercept, afskæring (skæring med Y-akse) Sammentrækningsevnen for en diabetiker med en blodsukkerværdi på 0. Samme enheder som outcome. Som regel en utilladelig ekstrapolation! β: hældning, regressionskoefficient Forskellen i sammentrækningsevne hos 2 diabetikere, der afviger i blodsukkerværdi med 1 mmol/l. Ofte parameteren med størst interesse. Enheder som “Outcomes enheder” pr. “kovariats enhed”. 11 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Statistisk model Yi = α + βXi + εi , εi ∼ N (0, σ 2 ) uafh. εi ’erne er residualerne, dvs. afvigelserne (i Y) fra observeret til forventet. 12 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s ∗ Estimation Mindste kvadraters metode: Bestem α og β, så kvadratafvigelsessummen n X (yi − (α + βxi ))2 = i=1 n X ε2i i=1 bliver mindst mulig. Resultat (estimater): Sxy β̂ = = Sxx 13 / 72 Pn i=1 (xi − x̄)(yi − ȳ) , 2 i=1 (xi − x̄) Pn α̂ = ȳ − β̂x̄ university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Regressionsanalyse i SAS proc glm data=vcf; model vcf = blodsukker / clparm; run; og for at tegne linien skrives f.eks. proc gplot data=vcf; plot vcf*blodsukker; symbol v=circle c=red i=rl h=2 l=1; run; eller proc sgplot data=vcf; reg x=blodsukker y=vcf / markerattrs=(color=blue) lineattrs=(color=red); run; 14 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output fra regressionsanalyse i SAS Dependent Variable: vcf Source Model Error Corrected Total R-Square 0.173684 DF 1 21 22 Coeff Var 16.34634 Sum of Squares 0.20726892 0.98609630 1.19336522 Root MSE 0.216696 Mean Square 0.20726892 0.04695697 F Value 4.41 Pr > F 0.0479 vcf Mean 1.325652 Source blodsukker DF 1 Type I SS 0.20726892 Mean Square 0.20726892 F Value 4.41 Pr > F 0.0479 Source blodsukker DF 1 Type III SS 0.20726892 Mean Square 0.20726892 F Value 4.41 Pr > F 0.0479 Parameter Intercept blodsukker Parameter Intercept blodsukker 15 / 72 Estimate 1.097814878 0.021962522 Standard Error 0.11748118 0.01045358 95% Confidence Limits 0.853499382 0.000223108 1.342130374 0.043701937 t Value 9.34 2.10 Pr > |t| <.0001 0.0479 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Vigtige informationer fra output I I Hældning (slope, vises i output under betegnelsen ’blodsukker’, fordi det er koefficienten til denne), β̂ = 0.02196 ≈ 0.022, med tilhørende spredning (standard error) Spredningen omkring linien (Root MSE), s = σ̂ = 0.216696 ≈ 0.217 Denne størrelse benyttes til konstruktion af prediktionsgrænser (kommer senere), som er normalområder for given blodsukkerværdi. 16 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimeret regressionslinie Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsukker 17 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Forventet værdi for specifikke værdier af kovariaten Fittede (predikterede, forventede) værdier: yˆi = α̂ + β̂xi Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l: 1.10 + 0.0220 × 10 = 1.32 men hvad med usikkerheden (s.e.) for denne? 18 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Forventet værdi for specifikke værdier af kovariaten, II Estimat (med konfidensgrænser) for middelværdien af sammentrækningsevnen for diabetikere med blodsukkerværdi 10 mmol/l. proc glm data=vcf; model vcf=blodsukker / clparm; estimate ’blodsukker=10’ intercept 1 blodsukker 10; run; giver de ekstra output linier Standard Error t Value 0.04535290 29.05 Parameter blodsukker=10 Estimate 1.31744010 Parameter blodsukker=10 95% Confidence Limits 1.22312358 1.41175662 19 / 72 Pr > |t| <.0001 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimaterne fra regressionsanalysen Regressionsanalysen indeholder 3 parametre: I 2 hørende til linien (intercept og hældning) I 1, som er spredningen omkring linien (σ): den biologiske variation af vcf for folk med samme blodsukker-værdi Variansen omkring regressionslinien (σ 2 ) estimeres ved s2 = n 1 X (yi − α̂ − β̂xi )2 n − 2 i=1 ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer) erstattet af n − 2 (antallet af frihedsgrader), her 21 20 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Spredning omkring regressionslinie Da man ikke kan forstå eller fortolke varianser direkte, tager vi straks kvadratrod: √ s = s2 som er estimat for spredningen omkring regressionslinien kaldes i SAS (lidt uheldigt∗ ) for ’Root Mean Square Error’, forkortet Root MSE i output. Estimatet er 0.2167, med de samme enheder som outcome vcf ∗ uheldigt, fordi det ikke er en standard error, men en standard deviation 21 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Usikkerhed på estimaterne Hvor gode er skønnene over de ukendte parametre α og β? Hvor meget anderledes resultater kunne vi forvente at finde ved en ny undersøgelse? Det kan vises, at β̂ ∼ N (β, σ2 ) Sxx dvs. hældningen er præcist bestemt, hvis I observationerne ligger tæt på linien (σ 2 lille) I variationen i x-værdier (Sxx ) er stor 22 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Konfidensinterval = Sikkerhedsinterval Estimeret usikkerhed på β̂: SE(β̂) = √s Sxx Dette estimat kaldes standard error for β̂, eller generelt standard error of the estimate (SEE) Vi bruger det til at konstruere et 95% konfidensinterval β̂ ± t97.5% (n − 2) × SE(β̂) = β̂ ± ca.2 × SE(β̂) = 0.0220 ± 2.080 × 0.0105 = (0.0002, 0.0438) 23 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s T-test for “parameter=0” Vi kan også teste, typisk ’H0 : β = 0’ ved t-testet t= β̂ SE(β̂) som her giver t = 0.0220 =2.10 ∼ t(21), 0.0105 ∼ t(n − 2) P=0.048 dvs. lige på grænsen af det signifikante 24 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Og hvad med interceptet....? Man kan forestille sig situationer, hvor det er rimeligt at teste f.eks. ’H0 : α = α0 ’ I så fald benyttes det tilsvarende t-test t= α̂ − α0 ∼ t(n − 2) SE(α̂) eller man udregner et 95% konfidensinterval for α: 1.098 ± 2.080 × 0.1175 = (0.854, 1.342) Dette er bare ikke altid særligt interessant. 25 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Når man har flere hypoteser... Vi kan altså teste hypoteser om såvel α som β, men: I Estimaterne for intercept og hældning er (negativt) korrelerede (her -0.92) I Accepter ikke to ’sideordnede’ test Selv om vi kan acceptere test vedr. både α (f.eks. intercept=0) og β (f.eks. hældning 1) hver for sig, kan vi ikke nødvendigvis acceptere begge samtidig 26 / 72 university of copenhagen Hypotetisk eksempel 27 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Variationsopspaltning Forklaring til de øverste linier i output s. 15: SStotal = n X (yi − ȳ)2 = SSmodel + SSerror i=1 Total variation = variation, som kan forklares + variation, som ikke kan forklares x er en god forklarende variable, hvis SSmodel er stor i forhold til SSerror Jeg foretrækker at kalde SSerror for SSresidual ... 28 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Determinationskoefficient, R2 Den andel af variationen (i y), der kan forklares ved modellen: R2 = SSmodel SStotal Her finder vi determinationskoefficienten: R2 = 0.17, dvs. vi kan forklare 17% af variationen i vcf v.hj.a. variablen blodsukker. Determinationskoefficienten er kvadratet på korrelationskoefficienten √ mellem vcf og blodsukker (som dermed er r = 0.17 = 0.42) 29 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Korrelationen Korrelationen r mellem to variable måler I I hvor høj grad ligner scatter plottet en ret linie? I Ikke: Hvor nær ligger punkterne ved den rette linie? Korrelationskoefficienten estimeres ved: r = rxy = I I Sxy q Sxx Syy Pn = i=1 (xi n i=1 (xi − qP − x̄)(yi − ȳ) x̄)2 Pn i=1 (yi − ȳ)2 antager værdier mellem -1 og 1 (0 = uafhængighed) +1 og -1 svarer til perfekt lineær sammenhæng, hhv. positiv og negativ 30 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Todimensional normalfordelingstæthed, r=0 Korrelation 0 Alle lodrette snit giver normalfordelinger I med samme middelværdi I og samme varians 31 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Todimensional normalfordelingstæthed, r=0.9 Korrelation 0.9 Udpræget retning i figuren 32 / 72 university of copenhagen Konturkurver Konturkurver for en normalfordeling bliver ellipser 33 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Regression kontra korrelation Regressionsmodellen Yi = α + βXi + εi , εi ∼ N (0, σ 2 ) siger, at de betingede fordelinger af Y, givet X, er normalfordelinger, med samme varians σ 2 (samme spredning σ) og med middelværdier, der afhænger lineært af X. 34 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Regression kontra korrelation, II Antagelserne til brug for fortolkning af en korrelation er skrappere end for regressionsanalysen, fordi: Her er der også et krav om normalfordeling på xi ’erne!! Hvis ikke dette krav er opfyldt, kan man ikke fortolke korrelationskoefficienten! ...men man kan godt teste, om den er 0. 35 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Test af hældning vs test af korrelation Det er en og samme sag De to estimater (for korrelation og hældning) ligner hinanden, og de er 0 på samme tid β̂ = Sxy Sxx S rxy = √ xy Sxx Syy β̂ = rxy rxy = β̂ q Syy Sxx q Sxx Syy Test for β = 0 er identisk med test for ρxy = 0 36 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Pas på med fortolkning af korrelation 2 = 1 − rxy s2 Sxx s 2 + β̂ 2 n−2 Hold β̂ og s 2 fast: 2 tæt på 0 ⇒ r 2 tæt på 1 Sxx stor ⇒ 1-rxy xy 2 kan gøres vilkårlig tæt på 1 ved at sprede x’erne rxy – hvordan mon? 37 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvornår bruger vi så korrelationen I Til at teste om der er en sammenhæng Brug gerne Spearman korrelation og slip for så mange antagelser, men så får man også kun en P-værdi I Til at sammenligne styrken af sammenhænge mellem mange variable, målt på de samme individer I I observationelle studier uden selektion: Her kan korrelationen fortolkes, hvis der er tale om en todimensional normalfordeling men spørgsmålet er stadig, om det giver den information, der er ønskelig: Eksempelvis: Spørgsmål: Hvor meget stiger blodtrykket med alderen? Svar: Korrelationen er 0.42..... 38 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af målemetoder I en sådan situation giver det ingen mening at benytte korrelation! I Korrelationen udtrykker sammenhæng, ikke overensstemmelse (der er f.eks. en sammenhæng mellem alder og blodtryk, men der er naturligvis ikke overensstemmelse) I Naturligvis er der sammenhæng mellem to målemetoder, der foregiver at måle det samme, så det behøver man ikke teste (ellers er der i hvert fald noget helt galt) I Man skal i stedet kvantificere differenserne mellem de to metoder, og udregne limits of agreement (på relevant skala) 39 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Confounding (Kor)relationen er: I positiv for mænd I positiv for kvinder I negativ for mennesker Eks: Kolesterol vs. chokoladeindtag 40 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Confounding, II (Kor)relationen er: I tilsyneladende positiv I 0 for hver aldersgruppe X og Y vokser begge med alderen (f.eks. kolesterol og blodtryk) 41 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Konfidensgrænser for linien For hver x-værdi: Fittede (predikterede, forventede) værdier: yˆi = α̂ + β̂xi Konfidensgrænser for selve linien (smalle grænser) I benyttes til sammenligning med andre grupper af personer I I I q 2 man benytter spredningen s n1 + (xiS−x̄) xx Disse grænser bliver vilkårligt snævre, når antallet af observationer øges. De kan ikke bruges til diagnostik! 42 / 72 university of copenhagen Tegn konfidensgrænser for linien proc gplot data=vcf; plot vcf*blodsukker; symbol v=circle c=blue i=rlclm95; run; 43 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Prediktionsgrænser for enkeltindivider For hver x-værdi: Fittede (predikterede, forventede) værdier: yˆi = α̂ + β̂xi Brede grænser, normalområder for givet x I I I De benyttes til at afgøre, om en ny person er atypisk i forhold til normen (diagnostik), idet de omslutter ca. 95% af fremtidige observationer, også for store n. q 2 man benytter spredningen s 1 + n1 + (xiS−x̄) xx Disse grænser bliver ikke nævneværdigt snævrere, når antallet af observationer øges. 44 / 72 university of copenhagen Tegn prediktionsgrænser proc gplot data=vcf; plot vcf*blodsukker; symbol v=circle c=blue i=rlcli95; run; 45 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Tegn det hele på en gang Dette sker formentlig auromatisk for de fleste ellers brug ods graphics 46 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Summa summarum om grænser De smalle grænser, konfidensgrænser: I svarer til standard error I bruges til at vurdere sikkerheden i estimatet I afhænger kraftigt af kovariatværdien De brede grænser, prediktionsgrænser: I svarer til standard deviation I kaldes også normalområder eller referenceområder I bruges til at diagnosticere individuelle patienter I udregnes approksimativt ved ±2 Root MSE 47 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Har vi gjort det godt nok? Modellens konklusioner er kun rimelige, hvis modellen selv er rimelig. Modelkontrol: Passer modellen rimeligt til data? Diagnostics: Passer data til modellen? Eller er der indflydelsesrige observationer eller outliers? Check af disse to forhold burde naturligvis foretages fra begyndelsen, men da de kræver fit af modellen, kan de først foretages efterfølgende. 48 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelkontrol Den statistiske model var Yi = α + βXi + εi , εi ∼ N (0, σ 2 ) uafhængige Hvilke antagelser skal vi checke her? I I I linearitet varianshomogenitet (εi ’erne har samme spredning) normalfordelte afvigelser (εi ’erne) Obs: Intet krav om normalfordeling på xi ’erne!! 49 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Grafisk modelkontrol Fokus er her på residualerne = modelafvigelserne = observeret værdi - fittet værdi: ε̂i = yi − ŷi eller en modifikation af disse (se senere) Hvis man vil have fuld kontrol over hele modelkontrollen kan man udregne predikterede værdier og residualer, samt gemme disse i et nyt datasæt (ny) ved at tilføje linien output out=ny p=predicted r=residual; inden run; i GLM-koden 50 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Residualplots Residualer (af passende type) plottes mod I den forklarende variabel xi – for at checke linearitet (se efter krumninger, buer) I de fittede værdier ŷi – for at checke varianshomogenitet (se efter trompeter) I fraktildiagram eller histogram – for at checke normalfordelingsantagelsen (se efter afvigelse fra en ret linie) 51 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Modelkontrol i et enkelt hug ods graphics on; proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=vcf; model vcf=blodsukker / clparm; run; ods graphics off; danner en figur med mange brugbare figurer (og lidt til), samt en figur til vurdering af lineariteten 52 / 72 university of copenhagen Diagnostics Panel 53 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Vurdering af lineariteten Residualer plottet mod kovariaten, med overlejret udglatning: 54 / 72 university of copenhagen Afvigelser fra modellen 55 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen Afhjælpning af problemer Linearitet: Hvis lineariteten ikke holder i rimelig grad, bliver modellen ufortolkelig. Hvad gør man så? I tilføjer flere kovariater, f.eks. I I I I I alder, køn, medicin etc. transformerer variablene med logaritmer kvadratrod, invers foretager ikke-lineær regression 56 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Afhjælpning af problemer, II Varianshomogenitet: Hvis varianshomogeniteten ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige! Hvad gør man så? I I tilfælde af trompetfacon: Transformation med logaritmer I (Non-parametriske metoder – men så får vi ingen kvantificeringer) 57 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Trompetfacon kan fortolkes som I konstant relativ spredning = konstant variationskoefficient spredning Variationskoefficient = middelværdi I I 58 / 72 ofte konstant, når man måler på små positive størrelser, f.eks. koncentrationer transformer outcome med logaritme university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Afhjælpning af problemer, III Normalfordelte residualer: Hvis normalfordelingen ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige! Hvad gør man så? I I tilfælde af hale mod højre: Transformation med logaritmer I (Non-parametriske metoder – men så får vi ingen kvantificeringer) 59 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Normalfordeling og varianshomogenitet Antagelsen om normalfordeling (og varianshomogenitet) er ikke så kritisk for selve fittet, fordi: t-fordelingen bygger på normalfordelingen, men kun på en normalfordelingsantagelse for estimatet β̂, og dette passer ofte, når der er rimeligt mange observationer, på grund af Den centrale grænseværdisætning, der siger at summer og andre funktioner af mange observationer bliver ’mere og mere’ normalfordelt. Men prediktionsgrænserne bliver misvisende og ufortolkelige!! 60 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Transformation med logaritmer – men hvilken logaritme? Alle logaritmer er proportionale, så resultaterne bliver ens (efter tilbagetransformation), men der er visse fif: I Den forklarende variabel transformeres I for at opnå linearitet, dvs. når det er successive fordoblinger, der har konstant effekt. Brug gerne 2-tals logaritmer! Hældningen β udtrykker så effekten af en fordobling af kovariaten 61 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Transformation med logaritmer, II I Outcome transformeres enten I I for at opnå linearitet for at opnå ens spredninger (varianshomogenitet) Spredning(log(y)) ≈ Spredning(y) = CV y dvs. en konstant variationskoefficient (CV) på Y betyder konstant spredning på log(Y ), (den naturlige logaritme) (den som tidligere har heddet ln, men som altså hedder log i computersprog) Effekten af kovariater bliver så (når de tilbagetransformeres) til faktorer, der skal ganges på. 62 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Numeriske check af antagelserne er mulig, men bør kun bruges som en rettesnor I Linearitet: Tilføj kvadreret kovariat, test om 2.gradspolynomiet (parablen) er væsentlig bedre end linien I Varianshomogenitet: De findes, men ikke i GLM I Normalfordelingen: Der findes test, men de kan ikke generelt anbefales 63 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Regression diagnostics Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? I Udelad den i te person og bestem nye estimater for samtlige parametre. I Udregn Cook’s afstand, et mål for ændringen i parameterestimater. I Spalt Cook’s afstand ud i koordinater, som måler f.eks: Hvor mange s.e.(β̂1 ) ændrer β̂1 sig, hvis den i te person udelades? Tilføj evt. sætningen output out=ny p=predicted r=residual cookd=cook; til GLM-linierne 64 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Cooks afstand (se også DiagnosticsPanel tidligere) En enkelt observation skiller sig ud i forhold til de øvrige 65 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Kun i proceduren REG Cooks afstand kan spaltes ud i koordinater: Hvor mange SE(β̂1 )’er ændres f.eks. β̂, når den i’te person udelades? proc reg data=vcf; model vcf = blodsukker / influence; run; Dependent Variable: vcf Output Statistics -------DFBETAS------Obs Intercept blodsukker 1 2 3 4 5 6 7 66 / 72 -0.2421 0.0014 -0.0049 0.1082 0.0150 0.4436 0.0048 0.4134 0.0005 0.0030 -0.1461 -0.0104 -0.3547 -0.0019 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 -0.0588 -0.0829 0.0008 0.0060 -0.0345 -0.8744 0.0982 0.3409 . -0.1295 0.0181 0.0128 0.3978 0.0169 -0.2938 -0.1237 0.2419 -0.0430 0.0552 -0.0617 -0.0043 0.0277 1.1973 -0.1718 -0.2478 . 0.1086 -0.0008 -0.0907 -0.6287 -0.0476 0.2395 0.0625 -0.0856 <------------------ university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Udeladelse af observation nr. 13 Estimeret linie: y = 1.098 + 0.022x β̂ = 0.02196(0.01045), t= 0.02196 = 2.1, P = 0.048 0.01045 Regressionsanalyse uden observation nr. 13 Estimeret linie: y = 1.189 + 0.011x β̂ = 0.01082(0.01029), 67 / 72 t= 0.01082 = 1.05, P = 0.31 0.01029 university of copenhagen Indflydelsen på hældningen denne figur er lavet i R 68 / 72 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Outliers Observationer, der ikke passer ind i sammenhængen I de er ikke nødvendigvis indflydelsesrige I de har ikke nødvendigvis et stort residual Press-residualer Residualer, der fremkommer efter at den pågældende observation har været udelukket fra estimationen. (residualer without current observation) output out=ny p=predicted r=residual press=presid; 69 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Udeladelse af enkeltobservationer?? Hvad gør vi ved indflydelsesrige observationer og outliers? I ser nærmere på dem, de er tit ganske interessante I anfører et mål for deres indflydelse Hvornår kan vi udelade dem? I hvis de ligger meget yderligt I I husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen I 70 / 72 og da skal alle sådanne udelades! university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Et delvist program kunne se ud som: data vcf; infile ’C:\Basalstatistik\vcf.txt’ firstobs=2; input blodsukker vcf; blodsukker_i_anden=(blodsukker-10)**2; run; /* lineaer regression med automatisk modelkontroltegninger */ ods graphics on; proc glm PLOTS=ALL; model vcf=blodsukker / clparm; estimate ’blodsukker=10’ intercept 1 blodsukker 10; run; ods graphics off; 71 / 72 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s /* modelkontrol med andengradsled */ /* dvs. test af linearitet */ proc glm data=vcf; model vcf=blodsukker blodsukker_i_anden / clparm; run; /* eller hvis man vil danne en ny datafil, kaldet "ny" */ /* og have fuld kontrol over modelkontrollen */ proc glm data=vcf; model vcf=blodsukker / clparm p; output out=ny p=yhat r=resid student=stresid cookd=cook rstudent=uresid press=press; run; proc print data=ny; var blodsukker vcf yhat resid stresid h cook uresid press; run; 72 / 72
© Copyright 2024