χ2 –Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt 12.00-12.30 Frokost 12.30-14.30 Øvelser: I fremlægger jeres resultater Program for forelæsning Challenger katastrofen Model / Teststørrelse / p-værdi χ2 -test 2 modeller, 2 hypoteser teststørrelse, frihedsgrader hvorfor χ2 -fordeling χ2 -test generelt Brug af excel Andre test - Andre modeller Challenger Challenger katastrofen 28/1-1986 Aftenen før opsendelse: ingeniører forsøgte at advare mod problemer med O-ringe ved lave temperaturer Temperatur: 31◦ F (−1◦ C) Challenger Data (Rogers Commission report 1986) Missed opportunity: så kun på flyvninger med fejl Challenger Model Hver opsendelse kan enten resultere i fejl i O-ringe eller resultere i ingen fejl i O-ringe Sandsynligheden for fejl er p(T ) T er temperaturen Data: 24 sammenhørende værdier af temperatur og indikator for fejl Fejl i 7 og ingen fejl i 17 Challenger Hypotese Ingen afhængighed af temperatur: p(T ) = konstant Under hypotesen: de 7 flyvninger med fejl vælges tilfældigt blandt de 24 flyvninger Eksempel på alternativ: log p(T ) 1−p(T ) = α − βT P P(Data) = c(α, β) exp{24α − β 24 i=1 Ti xi } xi er 1 ved fejl og 0 ved ingen fejl Teststørrelse: P24 i=1 Ti xi = P i:xi =1 Ti observeret værdi = 446 Challenger Simulere p-værdi Trække 7 tilfældigt blandt de 24 og beregne sum af de 7 tilhørende temperaturer. Gentage 1 million gange. Konklusion: hvis der ingen sammenhæng er mellem temperatur og fejlsandsynlighed, vil sandsynligheden for at få en sum af temperaturer fra 7 flyvninger med fejl, der er mindre end eller lig med 446 være cirka 0.32% Histogram of sim 0.000 0.005 Density 0.010 0.015 0.020 Data: 446 440 460 480 500 sim 520 540 Da denne er lille tror vi ikke på hypotesen om ingen sammenhæng Challenger p-værdi p-værdien: forestiller os at vi laver uafhængige gentagelser af eksperimentet i situationen hvor hypotesen er sand Beregner hvor ofte vi får udfald der er mere ekstreme end det faktisk observerede p-værdi = hyppighed af mere ekstreme udfald Mere ekstrem: defineres ud fra valg af teststørrelse Challenger p-værdi p-værdien < 0.05: det observerede er “meget usædvanligt” under hypotesen: data strider mod hypotesen og vi tror ikke på hypotesen p-værdien > 0.05: det observerede er “normalt” under hypotesen: data strider ikke mod hypotesen, der er ikke grund til at forkaste hypotesen p-værdien er IKKE sandsynligheden for at hypotesen er sand Challenger Tre vigtige punkter Model: bestemt af den sandsynlighedsmekanisme der frembringer data Teststørrelse: vælges klogt af statistiker p-værdi: beregnes (eller simuleres) under hypotesen Challenger En test af jer Er det godt at få en stor p-værdi ? JA NEJ To dataeksempler Teststørrelse χ2 –approksimationen Dataeksempel I Ved 715 indlæggelser af spædbørn har man registreret om moderen har givet lav eller høj omsorg og om barnet har overlevet lav høj død 20 6 lever 373 316 715 Spørgsmål: er overlevelse uafhængig af graden af omsorg ? Hvad synes I ? To dataeksempler Teststørrelse χ2 –approksimationen Generel model I n “individer” vælges tilfældigt fra population: individer er uafhængige For hvert individ undersøges to egenskaber der er r muligheder for den ene egenskab der er s muligheder for den anden egenskab r × s –tabel: xij er antallet af individer der falder i celle (i, j) d.v.s. har værdien i for den første egenskab og værdien j for den anden egenskab x11 · · · x1s x1• .. .. .. .. . . . . xr 1 · · · xrs x•1 · · · x•s xr • n To dataeksempler χ2 –approksimationen Teststørrelse General model I Sandsynlighed for at falde i række i og søjle j, d.v.s. celle (i, j) er pij grundmodel: pij er vilkårlige: pij > 0, Pr i=1 Ps j=1 pij =1 Hypotese om uafhængighed: pij = ρi σj ρi = sandsynlighed for at falde i række i σj = sandsynlighed for at falde i søjle j Sandsynlighed for at falde i søjle j givet at individ falder i række i er σj , d.v.s. uafhængig af i To dataeksempler χ2 –approksimationen Teststørrelse Dataeksempel II Blandt 1176 Thulearbejdere, der deltog i oprydning efter nedstyrtning af B52 bombefly fik 40 kræft indenfor en bestemt tidsperiode Blandt 3025 Thulearbejdere, der var rejst hjem før nedstyrtningen, fik 100 kræft i en tilsvarende tidsperiode under B52 før B52 kræft 40 100 ikke kræft 1136 2925 total 1176 3025 Spørgsmål: er der samme kræfthyppighed i de to grupper af Thulearbejdere To dataeksempler Teststørrelse χ2 –approksimationen Generel model II Vi har r populationer Fra den i’te population vælges ni “individer” tilfældigt For hvert individ undersøges en egenskab der er s muligheder for denne egenskab r × s-table: xij er antallet af individer fra population i der falder i kasse j x11 · · · x1s .. .. .. . . . xr 1 · · · xrs x•1 · · · x•s n1 .. . nr n To dataeksempler Teststørrelse χ2 –approksimationen General model II Sandsynlighed for at individ fra population i falder i kasse j er pij grundmodel: pij er vilkårlige: P pij > 0, for hvert i: sj=1 pij = 1 Hypotese om homogenitet: pij = πj πj = fælles sandsynlighed for at falde i kasse j To dataeksempler χ2 –approksimationen Teststørrelse Teststørrelse Klassiske (Karl Pearson, 1900): X2 = P celler (observerede−forventede)2 forventede skalerede kvadrerede afstande Statistiker i dag: −2 ln(Q)= 2 Generelt princip: Q = obs celler obs ln forv P maxhypotese P(data) maxgrundmodel P(data) Generelt resultat: under hypotesen: −2 ln(Q) ≈ χ2 (f ), X 2 ≈ χ2 (f ) f = antal (frie) parametre i grundmodel − antal (frie) parametre under hypotesen To dataeksempler Teststørrelse χ2 –approksimationen Frie parametre Resultat: Med følgende setup: model: n individer fordeles på k kasser sandsynligheden for at falde i kasse j er pj P sandsynlighederne kan være vilkårlige: pj > 0, kj=1 pj = 1 er antallet af frie parametre k − 1 Bevis: pk = 1 − p1 − · · · − pk−1 (p1 , . . . , pk−1 ) kan P variere i et åbent område: k−1 pj > 0, j=1 pj < 1 To dataeksempler Teststørrelse χ2 –approksimationen Frihedsgrader Model I: test for uafhængighed grundmodel: ingen bånd på pij : r · s − 1 frie parametre hypotesen: pij = ρi σj : (r − 1) + (s − 1) frie parametre f = [r · s − 1] − [(r − 1) + (s − 1)] = (r − 1)(s − 1) Model II: test for homogenitet P grundmodel: for alle i = 1, . . . , r er sj=1 pij = 1: r · (s − 1) frie parametre hypotesen: pij = πj : s − 1 frie parametre f = [r · (s − 1)] − [s − 1] = (r − 1)(s − 1) To dataeksempler χ2 –approksimationen Teststørrelse Forventede antal Forventede = samlede antal · skøn over sandsynlighed for at falde i kasse under hypotesen Model I: test for uafhængighed x forventedeij = n · ρˆi σ ˆj = n xni • n•j = Model II: test for homogenitet x forventedeij = ni · π ˆj = ni n•j = xi • x•j n xi • x•j n Forventede = rækkesum · søjlesum / samlede antal To dataeksempler Teststørrelse Cochrans regel Når vi finder p-værdien fra en χ2 -fordeling er dette en approksimation Må bruges når: alle forventede er ≥ 1 højst 20% af de forventede er mindre end 5 Hvis dette ikke er opfyldt, så: eventuelt simulere eventuelt bruge Fishers eksakte test χ2 –approksimationen To dataeksempler Teststørrelse χ2 –approksimationen Beregning af p-værdi Da store værdier af X 2 -teststørrelsen er kritiske og X 2 ≈ χ2 (f ), er testsandsynligheden p-værdi = P(χ2 (f ) ≥ X 2 ), som kan beregnes ved hjælp af Excel funktionen CHIFORDELING, idet P(χ2 (f ) ≥ X 2 ) = CHIFORDELING(X 2 ; f ). Tilsvarende bemærkninger gælder for −2 ln(Q)-teststørrelsen. To dataeksempler χ2 –approksimationen Teststørrelse Illustration af approksimation: −2 ln(Q) Ser på 2 × 2 tabel: x11 x21 Hypotese: x12 x22 n1 n1 p11 = p21 = p, p12 = p22 = 1 − p P(χ2 (1) ≥ 3.84) = 0.05 Finde P(teststørrelse ≥ 3.84) Regel: n1 p ≥ 5, n1 (1 − p) ≥ 5, n1 (1 − p) ≥ 5, n2 (1 − p) ≥ 5 To dataeksempler Teststørrelse χ2 –approksimationen Illustration af approksimation: −2 ln(Q) n1=25; n2=25; p=0.4 pberegn=0 # sandsynlighed for værdi >= 3.84 for (x1 in 0:n1){ for (x2 in 0:n2){ phat=(x1+x2)/(n1+n2) X2=(x1-n1*phat)^2/(n1*phat)+(n1-x1-n1*(1-phat))^2/(n1*(1-ph (x2-n2*phat)^2/(n2*phat)+(n2-x2-n2*(1-phat))^2/(n2*(1-ph if (X2>=3.84){ pberegn=pberegn+dbinom(x1,n1,p)*dbinom(x2,n2,p)} }} pberegn To dataeksempler χ2 –approksimationen Teststørrelse Illustration af approksimation: −2 ln(Q) 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 faelles p faelles p n1=50, n2=50 n1=100, n2=100 1.0 0.05 0.00 0.00 0.05 P(−2lnQ>=3.84) 0.10 0.2 0.10 0.0 P(−2lnQ>=3.84) 0.05 P(−2lnQ>=3.84) 0.00 0.05 0.00 P(−2lnQ>=3.84) 0.10 n1=50, n2=25 0.10 n1=25, n2=25 0.0 0.2 0.4 0.6 faelles p 0.8 1.0 0.0 0.2 0.4 0.6 faelles p 0.8 1.0 To dataeksempler χ2 –approksimationen Teststørrelse Illustration af approksimation: X 2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 faelles p faelles p n1=50, n2=50 n1=100, n2=100 1.0 0.05 0.00 0.00 0.05 P(X2>=3.84) 0.10 0.2 0.10 0.0 P(X2>=3.84) 0.05 P(X2>=3.84) 0.00 0.05 0.00 P(X2>=3.84) 0.10 n1=50, n2=25 0.10 n1=25, n2=25 0.0 0.2 0.4 0.6 faelles p 0.8 1.0 0.0 0.2 0.4 0.6 faelles p 0.8 1.0 To dataeksempler Teststørrelse Hvorfor χ2 –approksimationen Definition på en χ2 (f )-fordeling: lad U1 , . . . , Uf være uafhængige N(0, 1)-fordelte V = U12 + · · · + Uf2 siges at følge en χ2 (f )-fordeling P(χ2 (1) > 3.84) = 0.05, P(χ2 (2) > 5.99) = 0.05 Karl Pearson 1900: obsi − forvi → lineær transformation: ukorrelerede og varians = 1 → kvadrere og summere: X 2 χ2 –approksimationen To dataeksempler χ2 –approksimationen Teststørrelse To dataeksempler Spædbørnsdødelighed: observerede antal død lever lav 20 373 høj 6 316 715 X2 = 5.24, P(χ2 (1) forventede antal død lever lav 14.3 378.7 høj 11.7 310.3 715 ≥ 5.24) = 0.022 Thulearbejdere: observerede antal kræft ikke kræft under B52 40 1136 før B52 100 2925 X 2 = 0.023, total 1176 3025 P(χ2 (1) ≥ 0.023) = 0.88 forventede antal kræft ikke kræft 39.2 1136.8 100.8 2924.2 To dataeksempler Pause Preben tager over Teststørrelse χ2 –approksimationen χ2 -test: generelt χ2 -test: generelt Tælledata: k kasser xj = antal der falder i kasse j n = x1 + · · · + xk , samlede antal Grundmodel: sandsynlighed pj for at falde i kasse j er vilkårlig 0 < pj < 1, p1 + · · · + pk = 1 Hypotese: pj = πj (θ) θ: parameter, πj (·) kendt funktion ˆ find θ der maksimerer θ: Qk j=1 πj (θ) xj χ2 -test: generelt χ2 -test: generelt ˆ Forventede under hypotesen: ej = n · πj (θ) Teststørrelse: −2 ln(Q) = 2 eller X 2 = Pk j=1 Pk j=1 xj ln xj ej (xj −ej )2 ej Approksimative p-værdi: sandsynlighed for at få en værdi ≥ teststørrelse i en χ2 (f )-fordeling f = (k − 1) − (dimension af θ) p-værdi = P(χ2 (f ) ≥ −2 ln(Q)) eller P(χ2 (f ) ≥ X 2 ) χ2 -test: generelt χ2 -test: k = 2 Tælledata: k = 2 kasser (her kaldet + og −) antal der falder i kasse + er lig med x antal der falder i kasse − er lig med n − x + x − n−x ialt n Grundmodel p = sandsynlighed for at falde i kasse + 1 − p = sandsynlighed for at falde i kasse − 0<p<1 Hypotese: p = p0 hvor p0 er vilkårlig men kendt frihedsgrader f = k − 1 − 0 = 2 − 1 − 0 = 1 χ2 -test: generelt χ2 -test: k = 2, X 2 -teststørrelsen X 2 -teststørrelsen beregnes ud fra: observerede antal + − ialt x n−x n forventede antal + − ialt np0 n(1 − p0 ) n (x − np0 )2 ((n − x) − n(1 − p0 ))2 + np0 n(1 − p0 ) 2 (x − np0 ) 1 1 = + n p0 1 − p0 (x − np0 )2 = np0 (1 − p0 ) !2 (x − np0 ) = p np0 (1 − p0 ) X2 = χ2 -test: generelt χ2 -test: k = 2, X 2 -teststørrelsens fordeling Hvorfor χ2 (1): Xi = 1 hvis individ i falder i kasse +, 0 ellers sandsynlighed for at falde i kasse + er p0 Pn √i =1 Xi −np0 ≈ N(0, 1) np0 (1−p0 ) Centrale grænseværdisætning : sum af mange små uafhængige led har en fordeling der ligner normalfordelingen Da X = Pn i=1 Xi X − np0 er 2 p ≈ N(0, 1) → X = np0 (1 − p0 ) (X − np0 ) p np0 (1 − p0 ) !2 ≈ χ2 (1) χ2 -test: generelt χ2 -test: k = 2, eksempel Partiet Æ fik ved sidste valg 25 % af stemmerne. I en opinionsundersøgelse, hvori 1200 deltager, tilkendegiver 335, at de vil stemme på Æ. Har tilslutningen til partiet ændret sig? Teste hypotesen p = 0.25 observeret forventet Æ 335 300 andet 865 900 ialt 1200 1200 Da de forventede antal er > 5, beregnes X2 = (335 − 300)2 = 5.44 1200 × 0.25 × 0.75 og p-værdien p-værdi = P(χ2 (1) ≥ 5.44) = 0.0197, så tilslutningen har ændret sig. Da 335/1200 = 27.9%, er Æ gået frem. χ2 -test: generelt χ2 -test: k = 3, eksempel 100 personer bliver spurgt om, hvilket af to vaskepulvere A og B de foretrækker. Resultatet blev: A (x1 ) 36 B (x2 ) 52 ved ikke (x3 ) 12 ialt 100 Spørgsmålet om, at vaskepulverne er lige populære, kan afgøres ved at teste hypotesen (p1 , p2 , p3 ) = (θ, θ, 1 − 2θ), hvor parameteren θ ligger i intervallet ]0, 0.5[ . ˆ der maksimerer funktionen Starter med at finde θ, L(θ) = θx1 θx2 (1 − 2θ)x3 eller, ækvivalent hermed, funktionen l (θ) = ln(L(θ)) = (x1 + x2 ) ln(θ) + x3 ln(1 − 2θ). χ2 -test: generelt χ2 -test: k = 3, eksempel (fortsat) Maksimum for l (θ) antages i x1 + x2 θˆ = . 2n De forventede antal bliver derfor ˆ θ, ˆ 1 − 2θ) ˆ = ( x1 + x2 , x1 + x2 , x3 ), (e1 , e2 , e3 ) = n(θ, 2 2 så A B ved ikke ialt observeret 36 52 12 100 forventet 44 44 12 100 De forventede antal >5 så X 2 -testet kan benyttes. f = 3 − 1 − 1, så X 2 = 2.90 og p-værdi = P(χ2 (1) ≥ 2.90) = 0.0886. Vi kan derfor ikke afvise, at de to vaskepulvere er lige populære. χ2 -test: generelt Goodness of fit test Måling: styrken af jordens magnetfelt (målt i lava) vi måler en kontinuert variabel (ingen kasser vi falder i) Spørgsmål: er X = ln(styrken) normalfordelt ? Rb d.v.s.: P(a < X < b) = a √ 1 2 exp − 2σ1 2 (x − µ)2 dx 2πσ 2163 målinger fra forskellige geologiske perioder x1 , x2 , . . . , xn , n = 2163 χ2 -test: generelt Kontinuerte data → tælledata Inddeler aksen med ln(magnetstyrker): (−∞, z1 ], (z1 , z2 ], . . . , (zk−1 , zk ], (zk , ∞) Ser blot på hvilket interval (“kasse”) xi falder i: aj = antal blandt x1 , . . . , xn der falder i kasse j χ2 -test: generelt Data styrke < 0.15 0.15 - 0.25 0.25 - 0.35 0.35 - 0.55 0.55 - 0.85 0.85 - 1.25 1.25 - 1.85 1.85 - 2.75 2.75 - 4.15 4.15 - 6.25 6.25 - 9.35 9.35 -14.05 14.05 -21.05 > 21.05 antal 8 23 22 84 143 227 269 398 396 334 170 73 14 2 χ2 -test: generelt 0.2 0.1 0.0 taethed 0.3 0.4 Histogram −2 −1 0 1 ln(styrke) 2 3 χ2 -test: generelt Fraktilsamenligning 0 −1 −2 N(0,1)−fraktiler 1 2 3 Fraktilsammenligning −2 −1 0 1 ln(styrke) 2 3 χ2 -test: generelt Model Model M0 : pj sandsynlighed for at falde i kasse j er vilkårlig P pj > 0, j pj = 1 (siger ikke noget om fordeling af X ) Model M1 : R zj √ 1 exp − 2σ1 2 (x − µ)2 dx pj (µ, σ 2 ) = zj−1 2 2πσ (X er normalfordelt) Forventede under M1 : ej = n · pj (ˆ µ, σ ˆ2) χ2 -test: generelt Forventede styrke < 0.15 0.15 - 0.25 0.25 - 0.35 0.35 - 0.55 0.55 - 0.85 0.85 - 1.25 1.25 - 1.85 1.85 - 2.75 2.75 - 4.15 4.15 - 6.25 6.25 - 9.35 9.35 -14.05 14.05 -21.05 > 21.05 antal 8 23 22 84 143 227 269 398 396 334 170 73 14 2 forventede 2.0 10.1 21.6 75.2 162.8 245.2 338.9 384.7 366.4 270.6 160.6 79.7 31.5 13.6 (obs-forv)2 /forv 18.3 16.3 0.0 1.0 2.4 1.4 14.4 0.5 2.4 14.9 0.6 0.6 9.7 9.9 Test for goodness of fit: X 2 = 92.3 p-værdi: 1 − P(χ2 (14 − 1 − 2) ≥ 92.3) = 6 · 10−15 (Cochrans regel!) χ2 -test: generelt χ2 -test: Excel Fordeling af variansestimat t-fordelingen t-test Andre anvendelser af chi2-fordelingen modeller for normalfordelte data fordeling af variansestimat t-test F -test generelle modeller fordeling af −2ln(Q)-teststørrelsen F -fordelingen F -test Fordeling af variansestimat t-fordelingen t-test F -fordelingen Fordeling af variansestimat i normalfordeling Lad x1 , . . . , xn være realisationer af uafhængige identisk N(µ, σ 2 )-fordelte stokastiske variable X1 , . . . , Xn . Som skøn over middelværdien µ benyttes den empiriske middelværdi, gennemsnittet, n 1X σ2 x¯· = xi ∼∼ N(µ, ) n n i=1 og som skøn over variansen σ 2 den empiriske varians, dvs. n 1 X s2 = (xi − x¯· )2 ∼∼ σ 2 χ2 (n − 1)/(n − 1), n−1 i=1 så n n−1 2 X s = (xi − x¯· )2 ∼∼ χ2 (n − 1). σ2 i=1 ¯· og s 2 (X) er uafhængige. De tilsvarende stokastiske variable X F -test Fordeling af variansestimat t-fordelingen t-test F -fordelingen t-fordelingen Hvis U og Z er to uafhængige stokastiske variable således at U ∼ N(0, 1) og Z ∼ χ2 (f )/f , er størrelsen U t=√ Z t-fordelt med f frihedsgrader og vi skriver t ∼ t(f ). Symbolsk kan definitionen af t-fordelingen gengives som N(0, 1) t(f ) = p , χ2 (f )/f hvis vi husker på at nævner og tæller symboliserer uafhængige stokastiske variable. Fordelingen kaldes undertiden Student fordelingen eller Student’s t-fordeling. F -test Fordeling af variansestimat t-fordelingen t-test F -fordelingen t-test Lad x1 , . . . , xn være realisationer af uafhængige identisk N(µ, σ 2 )-fordelte stokastiske variable X1 , . . . , Xn . Hypotese µ = µ0 , hvor µ0 er kendt. Hvis σ 2 er ukendt benyttes t-teststørrelsen x¯· − µ0 t(x) = t(x1 , . . . , xn ) = p s 2 /n og p-værdien bliver p-værdi = 2P(t ≥| t(x) |), hvor t ∼ t(n − 1). F -test Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -fordelingen Lad Z1 og Z2 være to uafhængige stokastiske variable så Zi ∼ χ2 (fi )/fi , i = 1, 2. Da er den stokastiske variabel Z1 Z2 F -fordelt med (f1 , f2 ) frihedsgrader, eller med f1 frihedsgrader i tælleren og f2 frihedgrader i nævneren. Symbolsk er definitionen F = F (f1 , f2 ) = χ2 (f1 )/f1 , χ2 (f2 )/f2 hvor tæller og nævner symboliserer uafhængige stokastiske variable. F -test Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test Antag, at man i en model har to uafhængige variansskøn s12 ∼∼ σ 2 χ2 (f1 )/(f1 ), og s22 ∼∼ σ 2 χ2 (f2 )/(f2 ) Rimeligheden af modellen kan da ofte vurderes ved hjælp af F = s12 ∼∼ F (f1 , f2 ). s22 Beregning af testsandsynligheden p afhænger af modellen. F -test Referenser χ2 -test Blæsild,P. og Kristensen,L.B.(2006):JOKER statistik. Hæfte 10 i serien Matematiske emner, Matematiklærerforeningen. Christensen,E.S.: At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. Aalborg Universitet. Poulsen,J.R Poulsen, Vestergaard,H. og Lundbye-Christensen,S.: Hvad er meningen? Aalborg Universitet. t-test Blæsild,P. og Kristensen,L.B.(2007):Statistik i løb. Hæfte 11 i serien Matematiske emner, Matematiklærerforeningen. Referenser (fortsat) Begynderlærebog i statistik Jensen,J.L.(2010):Et Nanokursus i Statistik. Institut for Matematiske Fag, Aarhus Universitet. Gratis programpakke R (kan findes på nettet ved at lave Google-søgningen “R”. og gå ind under “The R Project for Statistical Computing”)
© Copyright 2024