Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING ............................................................................ 2 1.1 2 O VERVÆGT SOM CASE........................................................................................................... 2 ANALYSEFORBEREDELSER ............................................................................................... 4 2.1 HEPRO- UNDERSØGELSEN .................................................................................................... 4 2.2 DEN AFHÆNGIGE VARIABEL – VIGTIGHED AF ÆNDRINGEN AF VÆGT ..................................... 5 2.2.1 Interval eller ordinalskalleret? ........................................................................................ 5 2.2.2 De forskellige mål ............................................................................................................ 7 2.3 DEN UAFHÆNGIGE VARIABEL – BMI .................................................................................... 8 2.4 ANDRE FAKTORER ................................................................................................................. 8 2.4.1 Fysisk tilstand .................................................................................................................. 8 2.4.2 Psykisk tilstand............................................................................................................... 10 2.4.3 Baggrundsvariable......................................................................................................... 11 3 ANALYSE................................................................................................................................. 12 3.1 ANVENDELSE AF LINEÆR REGRESSION ................................................................................ 12 3.1.1 Simpel lineær regression................................................................................................ 12 3.1.2 Multipel lineær regression – kontrol for andre faktorer ............................................... 15 3.2 ANVENDELSE AF ALMINDELIG LOGISTISK REGRESSION ....................................................... 19 3.2.1 Simpel logistisk regression ............................................................................................ 19 3.2.2 Multipel logistisk regression – kontrol for andre faktorer ............................................ 20 3.3 ANVENDELSE AF MULTINOMINAL LOGISTISK REGRESSION .................................................. 22 3.3.1 Simpel multinominal regression .................................................................................... 22 3.3.2 Multipel multinominal regression .................................................................................. 23 3.4 ANVENDELSE AF ORDINAL LOGISTISK REGRESSION ............................................................. 26 4 SAMMENLIGNING AF MODELLER ................................................................................. 28 5 OPSAMLING ........................................................................................................................... 32 6 LITTERATURLISTE ............................................................................................................. 33 7 BILAG - SPSS PROGRAMMERING ................................................................................... 34 Side 1 af 39 Test og sammenligning af udvalgte regressionsmodeller 1 Berit Christina Olsen forår 2008 Indledning og problemstilling En given problemstilling kan oftest undersøges ved hjælp af flere metoder, hvor nogle undersøgelsesmetoder selvfølgelig er mere oplagte end andre. Inden for den kvantitative metode og brugen af statistik kan sammenhænge mellem bestemte variable ligeledes oftest analyseres ved hjælp af flere forskellige statistiske mål og regressionsmodeller. Valget a f regressionsmodeller er blandt andet afhængig af variablernes type, dvs. om de er intervalskallerede, ordinalskallerede eller nominalskalerede. Målet med denne metodeopgave er at anvende og teste forskellige regressionsmodeller til at analysere en bestemt problemstilling. Resultaterne fra de forskellige analyser vil således blive sammenlignet, hvor der vil være en diskussion om fordele og ulemper ved anvendelse af de forskellige regressionsmodeller i forbindelse med analysen af problemstillingen. Til at afprøve regressionsmodellerne tages der udgangspunkt i en case omhandlende, hvorvidt det er vigtigt for personer i region Nordjylland at ændre deres vægt. I nærværende opgave undersøges dette, og hvilken sammenhæng der er med personernes BMI. Udover BMI undersøges det, om der er andre faktorer, som kan formodes at have betydning for, hvorvidt det er vigtigt at ændre sin vægt. Der vil således blive kontrolleret for en række relevante variable så som køn, alder, uddannelse, psykisk tilstand og fysisk tilstand. Datagrundlaget for analysen er HEPRO-undersøgelsen, som vil blive beskrevet i et kapitel 2. Regressionsmodellerne, der vil blive anvendt til at undersøge sammenhængen mellem vigtigheden af at ændre vægt og BMI, vil være en lineærregressionsmodel og logistiske regressionsmodeller. Ved anvendelse af den logistiske regression vil der blive benyttet forskellige metoder til at analysere den afhængige variabel på herunder almindelig logistisk regression, multinominal regression og ordinal regression. 1.1 Overvægt som case Ifølge sundheds og sygelighedsundersøgelsen foretaget af Statens Institut for folkesundhed er næsten 45 % af danskerne over 15 år i dag overvægtige, hvilket svarer til 2,2 millioner danskere. Heraf er 11,4 % eller næsten en halv million danskere svært overvægtige. Overvægt har betydelige konsekvenser for både den enkelte som for eksempel forringet livskvalitet i form af helbredsproblemer, følgesygdomme og social udstødelse og en økonomisk byrde for samfundet (Indenrigs- og Sundhedsministeriet 2005:5). Side 2 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Ud fra disse betragtninger er det således relevant at undersøge befolkningen i Nordjyllands ændringsparathed i forhold til at ændre deres vægt i forhold til hvor høj eller lav deres BMI er. BMI står for Body Mass Index, som er kropsvægten divideret med højden i centimeter i anden. Det kan formodes, at der er andre faktorer i form af forskellige ressourcer eller barrierer, der har betydning for, hvor vigtigt det er for en person at ændre sin vægt. Disse ressourcer og barrierer kunne for eksempel være uddannelse, alder og den fysiske og psykiske tilstand. Sammenhængen mellem hvor vigtigt det er for folk at ændre deres vægt og deres BMI, vil således ved hjælp af forskellige regressionsmodeller blive analyseret og resultaterne af disse analyser sammenlignet. Figur 1 – Samme nhæng mellem BMI og vigtigheden af ændring af vægt samt andre faktorer BMI Alder Psykisk tilstand Fysisk tilstand Køn Videregående udd. Vigtigheden af ændring af vægt Side 3 af 39 Test og sammenligning af udvalgte regressionsmodeller 2 Berit Christina Olsen forår 2008 Analyseforberedelser I følgende afsnit vil HEPRO- undersøgelsen, som er datagrundlaget for opgaven blive beskrevet. I de efterfølgende afsnit vil de variable, der anvendes i analysen blive beskrevet herunder den afhængige, den uafhængige og kontrolvariablene. 2.1 HEPRO-undersøgelsen Til at belyse problemstillingen omkring sammenhængen mellem BMI og hvor vigtigt det er at ændre vægt, anvendes som tidligere nævnt data fra HEPRO-undersøgelsen1 . HEPRO-undersøgelsen blev udarbejdet i Region Nordjylland 2006-2007 i forbindelse med Kommunalreformen. Målet med undersøgelsen er at udarbejde kommunale sundhedsprofiler, som kan bibringe kommunerne og regionen viden om den aktuelle sundhedstilstand i landsdelen. Meningen med HEPRO er at fremme sundheden for borgerne samt bidrage til at sætte folkesundhed øverst på den politiske dagsorden. Gallup har stået for spørgeskemaundersøgelsen, og Statens institut for folkesundhed står for bearbejdning af data og afrapportering til Region Nordjylland og kommunerne. Der er blevet sendt ca. 22.000 spørgeskemaer ud heraf ca. 2200 pr kommune. I alt har 11.498 personer svaret på spørgeskemaet, hvilket svarer til ca. 1000 fra hver kommune. Det er således kun lidt over halvdelen af de der har modtaget spørgeskemaet som har svaret, og der er dermed et forholdsvist stort frafald. Det store frafald har dog mindre betydning for denne opgave, da fokus her er på metoden og anvendelse af forskellige regressionsmodeller og ikke på selve den valgte problemstilling. De 11.498 svar danner stadig et godt grundlag for de statistiske analyser, som vil blive foretaget i opgaven. Spørgeskemaet indeholder spørgsmål omkring selvvurderet, helbred, livsstil, motivation til forandring af livsstil, sygelighed, medicinforbrug, sociale forhold, arbejdsmiljø, netværk, ensomhed/isolation, tryghed, deltagelse i lokalsamfundet, tillid til andre mennesker og til systemer, ressourcer (Sundhedsprofil 2007:1-4). 1 HEPRO står fo r Health profiles eller på dansk sundhedsprofiler Side 4 af 39 Test og sammenligning af udvalgte regressionsmodeller 2.2 Berit Christina Olsen forår 2008 Den afhængige variabel – vigtighed af ændringen af vægt Til at belyse sammenhængen mellem vigtigheden af ændring af vægt og BMI, anvendes der til at måle den afhængige variabel spørgsmålet: - Hvor vigtig er det for dig at ændre din vægt på en skala fra 0 til 10 hvor 0 er ”slet ikke vigtigt” og 10 er ”meget vigtigt”? Variablen er således en skala med kategorierne 0 til 10. Denne type af spørgsmål hvor der skal svares på en skala med talværdier, anvendes ofte ved spørgeskemaundersøgelser. Ved anvendelsen af en sådan type skala kan der dog opstå en diskussion om, hvordan variablen anvendes i analysen, og det kan diskuteres, hvorvidt den er intervalskalleret, eller om den er ordinalskalleret, hvilket er relevant, da valget af regressionsmodel er afhængig af, om variablen er intervalskalleret eller ordinalskalleret. I følgende afsnit vil dette blive diskuteret i forhold til den afhængige variabel omhandlende vigtigheden af at ændre vægt. 2.2.1 Interval eller ordinalskalleret? Ved en ordinalskalleret variabel kan svarkategorierne rangordnes i enten stigende eller aftagende rækkefølge. Ved en intervalskalleret variabel kan svarkategorierne ligeledes rangordnes, men ved den intervalskallerede variabel er den indbyrdes afstand mellem svarkategorierne den samme. For at den afhængige variabel skal kunne betegnes som intervalskalleret, skal der således være lige stor afstand mellem de 11 kategorier. For at dette er tilfældet er det nødvendigt, at alle informanterne opfatter den oprindelige skala fra 0 til 10 på samme måde, hvor der er lige stor afstand mellem eksempelvis kategori 2 og 3 og kategori 8 og 9. Derudover er der risiko for en tendens til at vælge nogle bestemte svarkategorier frem for andre. Er dette tilfældet skaber dette ligeledes en bias i forhold til svarfordelingen. For at undersøge dette ses der således nærmere på en frekvens over variablen. Tabel 1 viser svarfordelingen, og de kategorier med højst svarprocent viser sig at være 0 og 10 på henholdsvis 25 og 15,5 %, hvilket vil sige yderkategorierne. Derudover viser der sig et mønster, ved at midterkategorien 5 har en forholdsvis høj svarprocent på 10 % og kategorierne 4 og 6 ved siden af, har en forholdsvis lav svarprocent på 3,8 og 4,9 %. Mellem yderkategorien 0 og midterkategorien 5 har svarkategori 2, der er en den 3. svarkategori fra yderkategorien med den højeste svar procent på 6,4 %. Dette gør sig også gældende mellem midterkategorien 5 og Side 5 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 yderkategorien, hvor svarkategori 8 har den højeste svarprocent. Det tyder således på at nogle svarkategorier vælges oftere end andre, hvilket skaber en form for bias. Tabel 1 – Svarfordelingen på den afhængige variabel Skala 0 1 2 3 4 5 6 7 8 9 10 Procent 25 5 6,4 5,5 3,8 10 4,9 8,8 10,3 4,7 15,5 For at få mest ud af data er det nødvendigt at anvende den regressionsmodel, hvor der går mindst data tabt og på den måde maksimere variablens målingsniveau. Jo højere målingsniveau, jo mere information indeholder variablen. I datahierarkiet ligger den intervalskallerede variabel således højere end den ordinalskallerede. Betegnes den afhængige variabel som intervalskalleret, vil man få det største udbytte af dataene ved anvendelse af en lineærregressionsmodel. Der kan her stilles spørgsmålstegn til, om man blot kan tillade sig at antage, at alle informanterne i en undersøgelse opfatter en skala med talværdier som en differential skala og analysere den som dette, ved f.eks. at anvende en lineær regressionsmodel. Opfatter alle informanterne det ikke som en differential skala, og der anvendes en lineær regressionsmodel til at analysere sammenhængen mellem den og andre variable, begås der er en fejl. I tilfældet med ’vigtigheden af ændringen af vægt’, vil det på baggrund af fordelingen af svar meget sandsynligt være en fejlslutning at tro, at alle informanterne opfatter skalaen som en differential skala, og variablen dermed ikke opfylder kravene til en intervalskalleret variabel. Betegnes variablen i stedet for som ordinalskalleret, vil det ikke være muligt at anvende den lineærregressionsmodel, men i stedet en logistisk regressionsmodel. Ved anvendelse af en almindelig logisk regressionsmodel, er det nødvendigt, at den afhængige variabel er dikotom. Dette medfører, at analysen og resultatet bliver forsimplet i forhold til datamaterialet, hvor der i tilfældet med ’vigtigheden af ændringen’ af vægt, oprindeligt er 11 svarkategorier. Anvendes der en multinominal eller ordinal regressionsmodel, er det dog muligt at have flere kategorier på den afhængige variabel. Når der foretages en analyse, er det ved valg af analysemetode og regressionsmodel nødvendigt at vurdere, hvilken model der bedst analyserer, og kommer med det resultat, der bedst kan løse den givne problemstilling. I nærværende opgave kunne proble mstillingen være at motivere overvægtige til at tabe sig, og det er således relevant at undersøge sammenhængen mellem BMI og vigtigheden Side 6 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 af at ændre vægt samt inddrage for udvalgte variable, for at finde ud af hvem der synes det er vigtig og ikke vigtigt at ændre vægt. For at se på forskelle mellem anvendelse af de forskellige regressionsmodeller og disses resultater, antages det først, at den afhængige variabel kan betegnes som en intervalskalleret variabel, og sammenhængen mellem denne og den uafhængige variabel kan således analyseres ved hjælp af en lineærregressionsmodel. Hernæst betegnes variablen som ordinalskalleret, og sammenhængen analyseres ved hjælp af en logistisk regressionsmodel. 2.2.2 De forskellige mål Til de forskellige regressionsanalyser anvendes der således de samme variable, de måles dog på forskellig måde. Ved den lineære regressionsanalyse anvendes den oprindelige afhængige variabel med de 11 kategorier som en intervalskalleret variabel. Ved den almindelige logistiske regression omkodes denne til en binær variabel. Afhængig af den givne problemstilling er der forskellige måder, hvorpå dette kan gøres mest hensigtsmæssigt. En mulighed kunne være at slå kategorierne sammen således, at der er cirka lige mange i hver af de to nye kategorier, det vil sige kategorierne 0-4 og 5-10. På denne måde kommer den ene kategori til at bestå af informanter, der synes det er vigtigt at ændres deres vægt og den anden af informanter, der synes det er mindre vigtigt at ændre deres vægt. En anden mulighed er at omkode variablen således, at den ene kategori kun til kommer at bestå af informanter, der slet ikke synes det er vigtigt at ændre deres vægt, og den anden kategori vil bestå af de resterende informanter. Fordelen ved at slå kategorierne sammen på denne måde er, at man kan se forskel på dem der slet ikke synes det er vigtigt at ændre deres vægt, og de resterende som synes det er lidt til meget vigtigt at ændre deres vægt. Der er dermed muligt at undersøge, hvorvidt det er informanter, der har et højt BMI, som slet ikke synes det er vigtigt at ændre deres vægt og således de informanter hvis holdning man set i et sundhedsfremmende perspektiv gerne vil ændre. På baggrund af dette omkodes variablen på sidstnævnte måde. Ved den multinominale og ordinale regressionsanalyse omkodes den oprindelige variabel til en variabel med 4 kategorier. Kategorierne slås sammen således at 0 bliver en kategori for sig selv. Disse er de informanter, der slet ikke synes det er vigtigt at ændre vægt. Kategorierne 1-4, 5-7 og 810 slås sammen og er de informanter, der henholdsvis synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre vægt. Formålet med opgaven er således også, at undersøge om der er forskel Side 7 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 på resultaterne når variablene omkodes på forskellig måde ved de forskellige regressionsanalyser, og hvorvidt det dermed er muligt at manipulere med eller dreje resultaterne i en bestemt retning. 2.3 Den uafhængige variabel – BMI Til at afdække den uafhængige variabel dannes der en BMI variabel ved hjælp af spørgsmål om højde og vægt 2 . BMI variablen er således en intervalskaleret variabel, der går fra en minimumværdi på 14,88 til en maksimumværdi på 71,49. Til den lineære regressionsanalyse vil den oprindelige intervalskalerede variabel blive anvendt. WHO definerer personer med en BMI på under 18,5 som undervægtige, mellem 18,5 og 25 som normalvægtige, mellem 25 og 30 som overvægtige og over 30 som svært overvægtige. Den samme inddeling af BMI anvendes ligeledes i nærværende rapport i de logistiske regressionsanalyser. 2.4 Andre faktorer Da der må formodes at være andre faktorer end BMI, der er bestemmende for, hvor vigtigt folk mener det er at ændre deres vægt, inddrages der en række andre faktorer. Da casen omhandlende ændringen af vægt skal virke som et eksempel til at vise anvendelsen af forskellige regressionsmodeller og fordele og ulemper ved brugen af disse, er der udvalgt en begrænset mængde kontrolvariable. I nedenstående beskrives de anvendte kontrolvariable og indeks. 2.4.1 Fysisk tilstand Som kontrolvariable er der dannet to indeks af henholdsvis fire og fem spørgsmål. Disse er dannet for at anvende så mange informationer fra spørgsmålene som muligt, uden at skulle anvende variablene hver for sig. Det ene indeks omhandler den fysiske tilstand og er dannet af fire følgende spørgsmål om, hvor ofte man har følt følgende i de sidste 4 uger, hvor svarkategorierne består af ”hele tiden”, ”det meste af tiden”, ”en hel den af tiden”, ”lidt af tiden”, og ”på intet tidspunkt”: - Har du følt dig veloplagt og fuld af liv? - Har du været fuld af energi? - Har du følt dig nedslidt? - Har du følt dig træt? 2 Der anvendes her selvrapporterede data. Ulempen ved at disse, er at der er risiko for at respondenterne angiver, at de er højere end de er eller vejer mindre, end de gør i virkeligheden. Side 8 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Efter at have vendt de nødvendige variable, det vil sige ’har du følt dig nedslidt’ og ’har du følt dig træt’ således, at alle fire variable vender samme vej, foretages en faktoranalyse og reliabilitetstest. Variablene viser sig at korrelere med en KMO på 0,688 og en Cronbachs Alpha på 0,842. Det er dermed hensigtsmæssigt at danne et indeks af de fire variable. På det dannede indeks er det muligt at få en score fra 4 til 20, hvor 4 svarer til det bedste fysiske helbred, og 20 svarer til det dårligste fysiske helbred. Til den lineære regressionsanalyse anvendes dette indeks som en intervalskalleret variabel. Ofte er der en tendens til at informanterne på sådanne indeks, klumper sig sammen på midten, således at der er flest i midterkategorierne og få i yderkategorierne. Dette er tilfældet med indekset for den fysiske tilstand og kan både skyldes, at informanterne har svaret i midterkategorierne i de oprindelige spørgsmål, og at de i et spørgsmål har fået en høj score, og i et andet har de fået en lav score, hvilket også vil medføre, at de til sammen får en score, som placerer dem i midterkategorierne på indekset. Til de logistiske regressionsanalyser er det mest hensigtsmæssigt at omkode indekset til en variabel med færre kategorier. Fordelingen af informanterne på indekset har betydning for, hvordan omkodningen foretages mest hensigtsmæssigt, så der bliver nogenlunde lige mange besvarelser i hver kategori, men også hvad der er bedst i forhold til problemstillingen. Da der som tidligere nævnt er flere, der har fået en score i midterkategorierne og færre i yderkategorierne, bliver indekset omkodet til en variabel med fire kategorier som dannes ved at slå scorerne 4-7, 8-9, 10-11 og 12-20 sammen. På den måde kommer der til at være cirka lige mange besvarelser i hver af de fire kategorier. Kategorien 4-7 kommer således til at indeholde de informanter, der har den bedste psykiske tilstand, kategorien 8-9 vil indeholde de informanter, der har en lidt dårligere fysisk tilstand, kategorien 10-11 vil indeholde de informanter, der har en noget dårligere fysisk tilstand, og kategorien 12-20 vil komme til at indeholde de informanter, der har den dårligste fysiske tilstand. Tabel 2 – Svarfordelingen på indekset over fysisk tilstand Score 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Procent 3,3 2,4 7,6 14,7 16,3 11,7 11,7 7,2 8,1 4,8 4,3 2,7 2,1 1,2 1,1 0,5 0,4 Side 9 af 39 Test og sammenligning af udvalgte regressionsmodeller 2.4.2 Berit Christina Olsen forår 2008 Psykisk tilstand Det andet indeks omhandler den psykiske tilstand, og er dannet af fem spørgsmål. Disse går ud på at beskrive, hvor meget følgende problemer eller lidelser har generet i de sidste 7 dage, hvor svarkategorierne består af ’over-hovedet ikke’, ’en lille smule’, ’en hel del’ og ’rigtig meget’. - Ængstelse, nervøsitet eller uro - Angst - Følelse af håbløshed for fremtiden - Nedtrykt, deprimeret, ulykkelig - For mange bekymringer Variablene korrelerer ifølge en faktor analyse og reliabilitetstest med en KMO på 0,843 og Cronbachs Alpha på 0,860, og det er dermed hensigtsmæssigt at danne et indeks af de 5 variable, hvorpå der er muligt at få en score fra 5 til 20, hvor 5 svarer til bedste psykiske helbred, og 20 svarer til det dårligste psykiske helbred. Dette indeks anvendes ligeledes som en intervalskalleret variabel til den lineære regressions analyse. Fordelingen på indekset for den psykiske tilstand koncentrer sig i modsætning til på indekset for den fysiske tilstand i yderkategorien. Her er den største procentdel på 37,9 % ved scoren 5, hvilket svarer til den bedste psykiske tilstand. Tabel 3 – Svarfordelingen på indekset over psykisk tilstand Score 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Procent 37,9 17,0 13,5 9,7 5,6 5,0 3,3 2,1 1,6 1,3 1,0 0,5 0,4 0,3 0,2 0,4 Ved anvendelsen af de logistiske regressionsanalyser omkodes også indekset for den psykiske tilstand til en variabel med fire kategorier. Da størstedelen af informanterne har fået en forholdsvis lav score på indekset, omkodes det ved at scoren 5 bliver en kategori for sig selv, scorerne 6-7, 8-10 og 11-20 slås sammen, så der på den måde kommer cirka lige mange besvarelser i hver kategori. Kategorien 5 kommer således til at indeholde de informanter der har den bedste psykiske tilstand, og overhovedet ikke har følt sig generet af ovenstående problemer i løbet af de sidste 7 dage. Kategorien 6-7 vil indeholde de informanter der har været lidt generet af problemerne, kategorien 810 vil indeholde de informanter, der har følt sig noget generet af problemerne og kategorien 11-20 vil komme til at indeholde de informanter, der har været meget generet af ovenstående psykiske problemer i løbet af de sidste 7 dage. Side 1 0 af 39 Test og sammenligning af udvalgte regressionsmodeller 2.4.3 Berit Christina Olsen forår 2008 Baggrundsvariable Udover psykisk og fysisk tilstand består de andre faktorer af baggrundsspørgsmål som alder, køn og uddannelse. Til den lineære regressionsanalyse anvendes den intervalskallerede aldersvariabel, hvor der til den logistiske regressionsanalyse anvendes en omkodet variabel med kategorierne 16-24 år, 25-44 år, 45-64 år og 65+ år. Derudover dannes der fire dummyvariable, som svarer til de fire alderskategorier. Til den lineære regressionsanalyse anvendes en variabel med antal år på en videregående uddannelse, erhvervsuddannelse eller anden type uddannelse. Til den logistiske regressionsanalyse anvendes en omkodet variabel som inddeles i kategorierne ingen videregående uddannelse, kort videregående uddannelse, mellemlang videregående uddannelse og lang videregående uddannelse. Det er desuden værd at bemærke, at når køn-variablen anvendes i analyserne, er det mænd, der er referencegruppen. Side 11 af 39 Test og sammenligning af udvalgte regressionsmodeller 3 Berit Christina Olsen forår 2008 Analyse I de følgende afsnit beskrives de anvendte regressionsmodeller og resultaterne fra regressionsanalyserne vil blive præsenteret. 3.1 Anvendelse af lineær regression Den lineære regressionsanalyse anvendes til at måle effekten fra en uafhængig variabel på en afhængig variabel. Lineær regression går i hovedtræk ud på at lave en ret linie ud fra observationernes placering i et koordinatsystem og ud fra denne, se om der er en lineær sammenhæng mellem X og Y. Den sande regressionslinie for populationen er Y = + X. Ud fra en stikprøve kan estimeres en regressionslinie Ŷ = a + bX, hvor konstanten a er liniens skæring med y-aksen, og b er hældningskoefficienten (Agresti & Finlay 1997:309). For at kunne anvende lineær regression, er der visse forudsætninger der skal være opfyldt i forhold til typen af variable og observationernes fordeling. Det er således et krav, at de anvendte variable er intervalskallerede. Det antages at variablen ’vigtighed for ændring af vægt’, opfylder denne betingelse. Dikotome uafhængige variable accepteres ligeledes. Den uafhængige BMI variabel opfylder også kravene til lineær regression, da denne er intervalskalleret. Det er ved anvendelse af lineær regression også en forudsætning, at en lineær sammenhæng mellem variablene. (Agresti & Finlay 1997:308). Styrken i den lineære sammenhæng mellem variablene undersøges ved hjælp af regressionskoefficienten Pearson’s r, som kan antage værdier mellem -1 og 1. Pearsons’ r er i den bivariate analyse lig med den standardiserede regressionskoefficient (Agresti & Finlay 1997:417). I analysen ses der på den justerede r2 , der er justeret for antal forklarende variable. Dette er forklaringskraften, der giver udtryk for, hvor meget den uafhængige variabel forklarer af variansen på den afhængige variabel. 3.1.1 Simpel lineær regression Efter at have foretaget en simpel lineær regressionsanalyse i SPSS, hvor der ikke kontrolleres for andre variable, er den justerede r2 -værdi for den simple lineære regression på 0,215, hvilket vil sige at BMI forklarer 21,5 % af variansen på den afhængige variabel. P-værdien er signifikant, og det er derfor muligt at forkaste Ho-hypotesen om, at der ikke er en sammenhæng mellem BMI og Side 1 2 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 vigtighed af ændringen af vægt. Ud fra de rå koefficienter hvor a er -4,449 og b er 0,398 kan den estimerede regressionsligning skrives som: Ŷ = - 4,449+ 0,398X. I ligningen indsættes grænseværdierne for BMI samt nogle af midterværdierne. Det beregnes således ud fra den estimerede lineære regressionsligning, hvor informanterne med en bestemt BMI vil placere sig på den afhængige intervalskallerede variabel omhandlende, hvor vigtigt det er at ændre vægt på en skala fra 0 til 10. 14,88: Ŷ = - 4,449 + 0,398 x 14,88 = 1,47 36,31: Ŷ = - 4,449 + 0,398 x 36,43 = 10,00 18,5: Ŷ = - 4,449 + 0,398 x 18,5 = 2,91 40: Ŷ = - 4,449 + 0,398 x 40 = 11,47 Ŷ = - 4,449 + 0,398 x 50 = 21,45 25: Ŷ = - 4,449 + 0,398 x 25 = 5,50 50: 30: Ŷ = - 4,449 + 0,398 x 30 = 7,49 71,49: Ŷ = - 4,449 + 0,398 x 71,49 = 24,00 På baggrund af den estimerede regressionsligning vil informanter med minimum BMI- værdien på 14,88, have en værdi på 1,47 på den afhængige variabel omhandlende hvor vigtigt det er at ændre vægt. Undervægtige informanter vil have en værdi på mellem 1,47 og 2,91 på den afhængige variabel. Normalvægtige informanter vil have en værdi på mellem 2,91 og 5,50 på den afhængige variabel. Overvægtige informanter vil have en værdi på mellem 5,50 og 7,49 på den afhængige variabel. Svært overvægtige vil have en værdi på mellem 7,49 og 24. I og med at den oprindelige skala på den afhængige variabel går fra 0-10, er det i øjenfaldende at Ŷ værdierne for de informanter med en BMI på over 36,31, vil være over 10, som er den maksimale værdi på den oprindelige skala. Dette kunne tyde på, at den lineære regression ikke er den model der bedst beskriver sammenhængen mellem BMI, og ’hvor vigtigt det er at ændre vægt’. På baggrund af ovenstående fremgår det således af den lineære regressionsanalyse, at der er en sammenhæng mellem befolkningen i Region Nordjyllands mening om, hvor vigtigt det er for dem at ændre deres vægt og deres BMI. Den positive hældning på regressionsligningen betyder, at jo højere BMI en person har, jo vigtigere er det for dem at ændre deres vægt. På figur 2 ses et diagram over sammenhængen mellem de to variable. Ud fra denne er det bemærkelsesværdigt at de overvægtige ikke i så høj grad, som man måske kunne forvente, synes det er vigtigt vægt. Derimod synes de svært overvægtige i noget højere grad, at det er vigtigt at ændre deres vægt. Side 1 3 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Figur 2 – Diagram over sammenhængen mellem ’vigtigheden af at ændre vægt’ og ’BMI’ På figur 3 ses scatterplottet for sammenhængen mellem hvor vigtig det er for informanterne at ændre deres vægt og deres BMI. På scatterplottet ses ligeledes den estimerede linje for den lineære regression. Ved en nærmere undersøgelse af den estimerede regressionsligning, kan det som tidligere nævnt betvivles, at sammenhængen mellem BMI og vigtigheden af at ændre vægt er lineær. Det er ud fra scatterplottet svært at drage nogle konklusioner på grund af det høje antal observationer, der placerer sig oveni hinanden på figuren. En mulighed er at sammenhængen mellem de to variable i stedet for en lineær regressionsmodel, kan udtrykkes ved hjælp af en anden regressionsmodel. Dette kunne f.eks. være en logaritmisk regressionsmodel eller en andengradsligning, som også ses på figur 3. Hvor forklaringskræften r2 for den lineære regressionsmodel er 0,215 er den for den logaritmiske regressionsmodel 0,225 og 0,233 for andengradsligningen. Det kunne dermed tyde på at disse regressionsmodeller bedre beskriver sammenhængen mellem BMI, og hvor vigtigt det er at ændre sin vægt. Da der kun er en forholdsvis lille forskel på forklaringskraften mellem de tre regressionsmodeller, vil der i det følgende fortsat blive anvendt den lineære regressionsmodel, hvor andre faktorer vil blive inddraget. Side 1 4 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Figur 3 – Scatterplot over sammenhængen mellem ’vigtigheden af at ændre vægt’ og ’BMI’ 3.1.2 Multipel lineær regression – kontrol for andre faktorer Efter at have undersøgt hvor stor en sammenhæng der er mellem den uafhængige og afhængige variabel ved hjælp af simpel lineær regression, er det relevant at undersøge, hvorvidt dele af variansen på den afhængige variabel bliver forklaret af andre faktorer. De andre faktorer alder psykisk tilstand, fysisk tilstand, køn, og videregående uddannelse indsættes dermed i en multipel regressionsmodel. Der undersøges her således, hvor meget variablene forklarer af variansen på den afhængige variabel, og om forholdet mellem den uafhængige og afhængige variabel ændrer sig. På baggrund af en formodning om at køn har en betydning for, om man synes det er vigtigt at ændre vægt, og om der eksisterer stor forskel mellem mænd og kvinder, indsættes først køn i en regressionsmodel. På figur 4 og 5 ses scatterplottene samt de estimerede lineære ligninger for sammenhængen mellem vigtigheden for ændringen af vægt og BMI for kvinder og for mænd hver for sig. Side 15 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Figur 4 – Scatterplot over sammenhængen mellem ’vigtigheden af at ændre vægt’ og ’BMI’ – Kun kvinde r Figur 5 – Scatterplot samme nhængen melle m ’vigtigheden af at ændre vægt’ og ’BMI’ Kun Mænd Side 1 6 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Den estimerede ligning for kvinder bliver på baggrund af en lineær regressionsanalyse: Ŷ = - 4,488+ 0,432X For mænd bliver den estimerede ligning: Ŷ = - 5,559+ 0,412X Kvinderne mener således, at det er vigtigere at ændre vægt, end mænd synes. Derudover tyder det på, at mændene skal have et større BMI i forhold til kvinder, før end de synes, det er vigtigt at ændre deres vægt. De resterende faktorer sættes herefter ind i regressionsmodellen. På baggrund af forskellen mellem mænd og kvinder, kunne det tænkes, at der var en interaktion mellem køn og BMI. Der er i regressionsanalysen således medtaget et interaktionsled med de to variable i den multiple analyse. Dette viser sig dog ikke at være signifikant. Når alle variablene indsættes, er den justerede r2 -værdi 0,301, hvilket vil sige, at variablene tilsammen forklarer 30,1 % af variansen på den afhængige variabel. Dette er 8,8 % point mere end hvad BMI forklarer alene i den bivariate analyse. Dette tyder således på, at der også er en sammenhæng mellem disse og den afhængige variabel om vigtigheden af at ændre sin vægt. Efter at have inddraget kontrolvariablene i regressionsmodellen, falder de rå koefficienter a til -68,762 og b stiger til 0,452. Alle variablene på nær interaktionsledet og den fysiske tilstand er signifikante. På trods af at B værdien for alder er 0,031 og dermed forholdsvis lav, kunne det tænkes, at der er forskel på, hvor vigtigt der er at ændre vægt for forskellige generationer. Dette undersøges ved at indsætte fire dummyvariable i modellen i stedet for aldersvariablen. Dummyvariablene dækker over aldersgrupperne 16-24 år, 25-44 år, 45-64 år og 65 år og derover. Den lineære multiple regressionsanalyse er foretaget med en backward selection, hvilket vil sige at de variable, der ikke er signifikante udtages af modellen en efter en, og afsluttende er der kun de variable, der er signifikante med i modellen. I tabel 4 ses resultaterne for den simple lineære regressionsanalyse, den multiple regressionsanalyse med aldersvariablen som intervalskalleret, den multiple regressionsanalyse med alder som dummyvariable og den endelige model hvor kun de signifikante variable er med. De variable der i analysen ikke er signifikante og derfor udtages, er dummyvariablen for aldersgruppen 25-44 år, variablen for fysisk tilstand og interaktionsledet med BMI og køn. I det følgende fokuseres der primært på værdierne fra den endelige model. Side 17 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 I forhold til andre faktorer der kunne have betydning for, hvor vigtigt informanterne synes det er at ændre vægt, kunne det på baggrund af den multiple regressionsanalyse med aldersvariablen tyde på, at der er en positiv sammenhæng mellem vigtighed af at ændre vægt og alder da B er positiv med en værdi på 0,031. Dette vil sige at jo ældre man er, jo mere synes man at det er vigtigt at ændre sin vægt. I den endelige model hvor dummyvariablene anvendes i stedet for, ser det dog anderledes ud Kategorien 16-25 år har en B-værdi på 0,585. Da værdien er positiv synes de således at det er vigtigere at ændre vægt end resten af informanterne. Kategorien 45-64 år har en negativ B-værdi på - 0,445, og disse synes således at det er mindre vigtigt at ændre deres vægt i forhold til resten af informanterne. Kategorien 65+ har en negativ B-værdi på - 1,278 og synes dermed, at det er mindre vigtigt at ændre deres vægt i forhold til resten af informanterne. I modsætning til regressionsanalysen hvor der blev anvendt den intervalskallerede aldersvariabel viser det sig ved anvendelsen af dummyvariable, at jo ældre man er, jo mindre vigtigt synes man det er at ændre vægt. Ved anvendelse af forskellige mål, er det således muligt at få forskellige resultater. Da referencegruppen for køn er mænd, betyder det, at kvinder synes, at det er vigtigere end mænd at ændre deres vægt med en positiv B-værdi på 1,624. For de to indeks omhandlende psykisk og fysisk tilstand, er det kun den psykiske tilstand, der viser sig at være signifikant. Her gælder det ifølge den multiple regressionsanalyse, at jo værre man har det psykisk, jo vigtigere synes man det er at ændre vægt med en positiv B-værdi på 0,088. Med hensyn til uddannelse gør det sig gældende, at jo flere års videregående uddannelse man har, jo vigtigere synes man det er at ændre vægt med en positiv B- værdi på 0,048. Den lineære formel for multipel lineær regression her med k uafhængige variable ser således ud: E(Y) = + 1 X1 + 2 X2 +...+ k Xk. Ligningen for den endelige multiple lineære model bliver således: Ŷ= -7,050 + 0,451 X1 + 0,585 X2 - 0,445 X3 -1,278 X4 + 0,088 X5 + 1,624 X6 + 0,048 X7 Det er i analysen desuden testet for multikollinaritet, hvilket vil sige, at de uafhængige variable korrelerer meget med hinanden hvorved det kan påvirke r², og det er derved vanskeligt at adskille effekten fra de enkelte uafhængige variable (de Vaus 2002:327). Da ingen af VIF-værdierne i dette tilfælde overstiger fire, er der i regressionsanalysen således ikke multikollinaritet. Side 1 8 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Tabel 4 – Resultater fra den lineære regressionsanalyse M odel (Constant) BM I Alder Alderdum 16-24 år Alderdum 45-64 år Alderdum 65 år + Psykisk tilstand Fysisk tilstand Køn (ref. M ænd) Uddannelse antal år Interaktion køn&BM I 3.2 B - 4,449 ,398 Simpel Std. Error ,191 ,007 Sig. ,000 ,000 M ultipel med alder år M ultipel med alder som dummy Endelig model Std. B Std. Sig. B Std. B Error Sig. Error Error -68,762 4,360 ,000 -7,070 ,332 ,000 -7,050 ,236 ,452 ,012 ,000 ,449 ,012 ,000 ,451 ,008 ,031 ,002 ,000 ,589 ,115 ,000 ,585 ,115 -,445 ,075 ,000 -,445 ,075 -1,281 ,117 ,000 -1,278 ,117 ,078 ,015 ,000 ,078 ,015 ,000 ,088 ,012 ,012 ,013 ,373 ,014 ,013 ,302 1,641 ,407 ,000 1,572 ,407 ,000 1,624 ,068 ,048 ,012 ,000 ,048 ,012 ,000 ,048 ,012 ,000 ,016 ,954 ,002 ,016 ,908 - Sig. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 - Anvendelse af almindelig logistisk regression I følgende analyse antages det, at den afhængige variabel ikke er intervalskalleret, og der vil således blive anvendt logistisk regression til at analysere sammenhængen mellem de to variable samt kontrol for de øvrige variable. Den logistiske regressionsmodel beskriver en asymmetrisk relation mellem én binær variabel og en eller flere uafhængige variable. Overordnet går den ud på at sammenligne chancerne for den samme hændelse under forskellige betingelser, hvilket er forholdet mellem to odds-værdier. I forhold til lineær regression stilles der færre krav til anvendelsen af logistisk regression. I den simple logistiske regressionsmodel er det er dog et krav, at den afhængige variabel Y er dikotom, hvor der ingen krav er til skalaen på de uafhængige variable. Ligningen for den logistiske regression er: Log it (π) = log 3.2.1 =α+β· x Simpel logistisk regression For at kunne analysere sammenhængen mellem vigtighed af ændring af vægt og BMI ved hjælp af almindelig logistisk regression, er det således nødvendig at omda nne den afhængige intervalskallerede vigtighed af ændringen af vægt variabel til en dikotom variabel, hvilket blev beskrevet i afsnit 2.2.2. I den logistiske regressionsanalyse vil kategorien ’slet ikke vigtigt at ændre vægten’ fungere som referencekategori, således at oddsene for succes bliver oddsene for, at det er vigtigt at ændre vægt. For den uafhængige BMI- variabel er kategorien BMI på 18,5-25 valgt som referencekategori, da dette svarer til at være normalvægtig. Efter at have foretaget den logistiske regressionsanalyse uden inddragelse af andre faktorer i SPSS, viser det sig at alle kategorierne i den uafhængige variabel er signifikante. Det ses yderligere at oddsene for at synes at ’det er vigtigt at ændre vægt’ i forhold til ’slet ikke at synes det er vigtigt at ændre vægt’, for overvægtige er 4,821 gange større end når man normalvægtig. Ligeledes er oddsene for at synes, at det er vigtigt at ændre Side 1 9 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 vægt, når man er svært overvægtig 14,615 gange større, end når man er normalvægtig. Er man overvægtig, er der således tendens til, at man synes det er vigtigt at ændre vægt, i forhold til hvis man er normalvægtig. Med hensyn til de undervægtige gælder det, at oddsene for at synes det er vigtigt at ændre vægt, er 0,717 gange større hvis man er undervægtig, end hvis man er normalvægtig. 3.2.2 Multipel logistisk regression – kontrol for andre faktorer Efter at have foretaget en simpel logistisk regressionsanalyse, vil der i nedenstående blive kontrolleret for de øvrige variable alder, psykisk tilstand, fysisk tilstand, køn og uddannelse. Ved inddragelse af de andre faktorer stiger oddsene for, at man synes det er vigtigt at ændre vægt, hvis man er overvægtig til at være 8,344 gange større, end hvis man er normalvægtig. Ligeledes stiger oddsene for, at man synes det er vigtigt at ændre vægt, hvis man er svært overvægtig til at være 22,874 gange større end hvis man er normalvægtig. Når der kontrolleres for andre faktorer, falder oddsene for at synes det er vigtigt at ændre vægt, for personerne der er undervægtige til at være 0,502, og der er således mindre odds for, at man synes det er vigtigt at ændre vægt, hvis man er undervægtig, i forhold til hvis man er normalvægtig. I forhold til kontrolvariablene viser det sig, at jo ældre man er, jo mindre er oddsene for, at man synes det er vigtigt at ændre sin vægt. Med hensyn til den psykiske og fysiske tilstand viser der sig ikke noget entydigt mønster, og nogle af kategorierne er ikke signifikante. I forhold til køn er oddsene for, at man synes det er vigtigt at ændre vægt 2,377 gange større, hvis man er en kvinde, i forhold til hvis man er en mand. Ved uddannelse gør det sig gældende, at jo længere videregående uddannelse man har, jo større er oddsene for at man synes det er vigtigt at ændre vægt, i forhold til hvis man ingen videregående uddannelse har. Ligningen for den multiple logistiske regression er: Log it (π) = log = α + β1 · x1 + β2 · x2 + · · · · βk · xk Dem der på baggrund af den multiple logistiske regressionsanalyse vil have de største odds for at synes det er lidt til meget vigtig at ændre vægt, i forhold til slet ikke at synes det er vigtigt at ændre sin vægt, vil være en svært overvægtig kvinde i alderen 16-24 år med en noget dårlig psykisk og fysisk tilstand med en lang videregående uddannelse. Oddsene for denne beregnes til at være: 0,664 x 22,874 x 2,377 x 1,377 x 1,646 x 1,330 x 1,669 = 181,64 gange større end en normalvægtig mand i alderen 25-44 år med en god psykisk og fysisk tilstand uden en videregående uddannelse. Side 20 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Tabel 5 – Resultater fra den almindelige logistiske regressionsanalyse Simpel B BMI 18,5- 25 (ref.) BMI 0-18,49 BMI 25,01-30 BMI 30,01+ Constant Alder 25-44 (ref.) Alder 16-24 Alder 45-64 Alder 65+ Psykisktilstand – God (ref.) Psykisktilstand (1) Psykisktilstand (2) Psykisktilstand (3) – dårlig Fysisktilstand – God (ref.) Fysisktilstand (1) Fysisktilstand (2) Fysisktilstand (3) – dårlig Køn (ref. =mænd) Udd. – ingen videreg (ref.) Udd. – kort videreg Udd. – ml. videreg. Udd. – lang videreg Constant -,333 1,573 2,682 ,446 S.E. ,148 ,058 ,143 ,028 Multipel Wald 1023,889 5,057 731,212 353,084 252,118 df 3 1 1 1 1 Sig ,000 ,025 ,000 ,000 ,000 Exp(B) ,717 4,821 14,615 1,563 B S.E. -,689 2,121 3,130 - ,182 ,075 ,177 - ,320 -,552 -1,178 ,102 ,067 ,098 ,479 ,498 ,248 ,071 ,088 ,112 ,101 ,285 ,129 ,866 ,075 ,089 ,093 ,061 ,356 ,459 ,512 -,410 ,095 ,080 ,095 ,101 Wald 1020,175 14,368 796,598 312,967 220,105 9,756 68,593 145,770 57,528 45,847 32,396 4,917 10,160 1,849 10,158 1,948 202,363 38,623 14,139 32,674 28,954 16,517 df 3 1 1 1 3 1 1 1 3 1 1 1 3 1 1 1 1 3 1 1 1 1 Sig ,000 ,000 ,000 ,000 ,000 ,002 ,000 ,000 ,000 ,000 ,000 ,027 ,017 ,174 ,001 ,163 ,000 ,000 ,000 ,000 ,000 ,000 Exp(B) ,502 8,344 22,874 1,377 ,576 ,308 1,614 1,646 1,281 1,107 1,330 1,138 2,377 1,428 1,582 1,669 ,664 Side 21 af 39 Test og sammenligning af udvalgte regressionsmodeller 3.3 Berit Christina Olsen forår 2008 Anvendelse af multinominal logistisk regression Ved anvendelsen af en multinominal logistisk regressionsmodel, er der muligt at anvende en afhængig variabel med flere kategorier end to. Den afhængige variabel vil med anvendelse af denne regressionsmodel blive behandlet som en nominalskalleret variabel, og der vil således ikke blive taget hensyn til en eventuel rangorden for kategorierne i variablen. Den afhængige variabel omhandlende hvor vigtigt det er at ændre vægt, omkodes som tidligere beskrevet til en variabel med 4 kategorier. Det er med den multinominale regressionsanalyse muligt at se på oddsene for hver af grupperne der synes det lidt vigtigt, noget vigtigt og meget vigtigt at ændre vægt i forhold til slet ikke at synes at det er vigtigt at ændre vægt, som vil fungere som baseline. Det er derudover muligt at se på forskellene mellem kategorierne. Ved den simple multinominale regressionsanalyse sammenlignes oddsene for, hvor vigtigt det er at ændre vægt i forhold til BMI for hver af de fire kategorier. De normalvægtige med en BMI på 18,5-25 fungerer også her som referencegruppe. 3.3.1 Simpel multinominal regression Resultaterne fra den simple multinominale regressionsanalyse ses i tabel 6. Det viser sig at alle kategorierne er signifikante med undtagelse af undervægtige i kategori 3 og 4. Når der ikke kontrolleres for andre faktorer, er oddsene for at synes det er lidt vigtigt at ændre sin vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt, for overvægtige informanter 2,238 gange større end for normalvægtige informanter. For svært overvægtige er oddsene 2,479 gange større end normalvægtige informanter. Oddsene for undervægtige informanter er 0,474 og således mindre end normalvægtige. Overordnet er der således større odds for, at man synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre sin vægt jo højere BMI man har, i forhold til ikke at synes, det er vigtigt at ændre sin vægt. F.eks. er Oddsene for, at synes det er meget vigtigt at ændre sin vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt for svært overvægtige informanter 38,888 gange større end normalvægtige informanter. Der er altså stor forskel på oddsene, og BMI har således forskellig betydning i for tre grupper. Side 22 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Tabel 6 – Resultater fra den simple multinominale regressionsanalyse Vigtigheden af ændring af BMI 2 = lidt vigtigt Intercept BMI 0-18,49 BMI 25,01-30 BMI 30,01+ BMI 18,5-25 (ref.) 3 = noget vigtigt Intercept BMI 0-18,49 BMI 25,01-30 BMI 30,01+ BMI 18,5-25 (ref.) 4 = meget vigtigt Intercept BMI 0-18,49 BMI 25,01-30 BMI 30,01+ BMI 18,5-25 (ref.) 3.3.2 B -,376 -,747 ,806 ,908 0b -,710 ,006 1,623 2,535 0b -,957 -,247 2,211 3,661 0b S td. Error ,034 ,216 ,070 ,176 . ,038 ,188 ,068 ,152 . ,042 ,224 ,068 ,147 . Wald 119,185 11,972 130,787 26,624 . 344,552 ,001 563,820 276,475 . 527,614 1,214 1044,855 615,966 . df 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 Sig. ,000 ,001 ,000 ,000 . ,000 ,974 ,000 ,000 . ,000 ,271 ,000 ,000 . Exp(B) ,474 2,238 2,479 . 1,006 5,067 12,619 . ,781 9,128 38,888 . Multipel multinominal regression Ved den multiple multinominale regression inddrages der ligesom ved de andre analyser andre faktorer alder, psykisk tilstand, fysisk tilstand, køn og videregående uddannelse. Efter inddragelse af andre faktorer i modellen stiger oddsene i forhold til den simple multinominale analyse for hver af de tre kategorier. F.eks. er oddsene for at synes det er meget vigtigt at ændre sin vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt for svært overvægtige informanter steget til at være 93,749 gange større end normalvægtige informanter. For både kategori 2, 3 og 4 gælder det, at jo højere BMI jo større odds for at mans synes det er vigtigt at ændre sin vægt. Med hensyn til de andre faktorer er alder signifikant i alle kategorierne med undtagelse af de 16-24årige, der synes det er lidt vigtigt at ændre vægt. Oddsene for at synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre vægt, i forhold til ikke at synes det er vigtigt at ændre vægt, er for de 16-24-årige henholdsvis 1,244, 1,474 og 1,488 gange større end for de 25-44-årige. Oddsene for at synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre vægt, i forhold til ikke at synes det er vigtigt at ændre vægt, er for aldersgrupperne 45-64 år og 65 og derover mindre end for de 2544-årige. I forhold til den psykiske tilstand er alle kategorierne signifikante, på nær dem med en dårlig psykisk tilstand der synes, det er lidt vigtigt og noget vigtigt at ændre vægt. Oddsene for at synes det er lidt vigtigt, noget vigtigt og meget at ændre sin vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt, er for alle kategorierne højere end dem med en god psykisk tilstand. Alle Side 23 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 kategorierne for den fysiske tilstand med undtagelse af dem i fysisk tilstand gruppe 2 der synes, det er lidt eller noget vigtigt at ændre sin vægt, viser sig at være ikke-signifikante. Det er således ikke muligt at konkludere noget ud fra den multiple multinominale regressionsanalyse i forhold til den fysiske tilstand. Oddsene for at synes det er lidt vigtigt at ændre sin vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt, er for kvinder 1,589 gange større, end det er for mænd. Oddsene for at synes det er noget vigtigt at ændre sin vægt, er for kvinder 2,249 gange større end for mænd. Oddsene for at synes det er meget vigtigt at ændre sin vægt, er for kvinder 5,183 gange større end for mænd. Køn har således en forskellig betydning for de tre grupper. Alle kategorierne for uddannelse er signifikante, og oddsene for at synes det er lidt vigtigt, noget vigtigt og meget vigtigt at ændre sin vægt, i forhold til ikke at synes det er vigtigt at ændre sin vægt, er for alle kategorierne højere end dem uden videregående uddannelse. Ligningen for den multiple multinominale regression er: Log = (αj + βj1 · x1 + βj2 · x2 + · · · · βkj · xk ) Som eksempel er oddsene, for at synes det er meget vigtigt at ændre vægt, i forhold til slet ikke at synes det er vigtigt at ændre vægt for svært overvægtige kvinder i alderen 16-24 med en lidt til noget dårlig psykisk tilstand med en lang videregående uddannelse lig med Exp(-2,724) x 93,749 x 5,183 x 1,488 x 1,975 x 2,244 = 210,24 gange større end normalvægtige mænd i alderen 25-44 år med en god psykisk tilstand uden en videregående uddannelse. Side 24 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Tabel 7 – Resultater fra den multiple multinominale regressionsanalyse 2 = lidt vigtigt Vigtigheden af ændring af BMI Intercept BMI 0-18, 49 BMI 25,01-30 BMI 30,01+ BMI 18,5- 25 (ref.) Alder 16-24 Alder 45-64 Alder 65+ Alder 25-44(ref.) Psykisktilstand (1) Psykisktilstand (2) Psykisktilstand (3) – dårlig Psykisktilstand – God (ref.) Fysisktilstand (1) Fysisktilstand (2) Fysisktilstand (3) – dårlig Fysisktilstand – God (ref.) Køn = Kvinder Køn = Mænd (ref.) Udd. – kort videreg Udd. – ml. videreg. Udd. – lang videreg Udd. – ingen videreg (ref.) B -,823 -,845 1,267 1,276 0b ,218 -,601 -1,049 0b ,384 ,401 ,030 0b ,093 ,339 ,106 0b ,463 0b ,278 ,405 ,393 0b S td. Error ,118 ,239 ,087 ,214 . ,117 ,077 ,116 . ,082 ,101 ,134 . ,087 ,103 ,108 . ,071 . ,111 ,094 ,112 . Wald 48,970 12,468 211,940 35,709 . 3,490 60,363 81,639 . 21,993 15,793 ,051 . 1,141 10,929 ,963 . 42,430 . 6,218 18,440 12,348 . df 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 0 1 0 1 1 1 0 3 = noget vigtigt Sig. ,000 ,000 ,000 ,000 . ,062 ,000 ,000 . ,000 ,000 ,822 . ,285 ,001 ,326 . ,000 . ,013 ,000 ,000 . Exp(B) ,429 3,551 3,583 . 1,244 ,548 ,350 . 1,469 1,493 1,030 . 1,097 1,403 1,112 . 1,589 . 1,320 1,499 1,481 . B -1,535 -,366 2,199 3,131 0b ,388 -,458 -1,131 0b ,445 ,481 ,258 0b ,118 ,290 ,133 0b ,810 0b ,300 ,440 ,440 0b S td. Error ,124 ,224 ,087 ,188 . ,121 ,079 ,120 . ,085 ,103 ,133 . ,090 ,106 ,110 . ,073 . ,113 ,096 ,114 . Wald 152,305 2,670 638,670 277,279 . 10,263 33,729 88,244 . 27,648 21,745 3,729 . 1,727 7,561 1,445 . 121,563 . 7,030 21,213 14,909 . df 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 0 1 0 1 1 1 0 4 = meget vigtigt Sig. ,000 ,102 ,000 ,000 . ,001 ,000 ,000 . ,000 ,000 ,053 . ,189 ,006 ,229 . ,000 . ,008 ,000 ,000 . Exp(B) ,694 9,013 22,904 . 1,474 ,633 ,323 . 1,561 1,618 1,294 . 1,125 1,337 1,142 . 2,249 . 1,350 1,552 1,553 . B -2,724 -,889 3,167 4,541 0b ,398 -,581 -1,415 0b ,681 ,680 ,555 0b ,105 ,196 ,143 0b 1,645 0b ,566 ,574 ,808 0b S td. Error ,138 ,285 ,092 ,188 . ,129 ,081 ,127 . ,089 ,108 ,137 . ,094 ,111 ,115 . ,078 . ,118 ,101 ,119 . Wald 389,794 9,719 1181,122 584,209 . 9,455 50,851 123,585 . 58,583 39,951 16,336 . 1,245 3,109 1,555 . 446,405 . 23,004 32,263 46,432 . df 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 0 1 0 1 1 1 0 Sig. ,000 ,002 ,000 ,000 . ,002 ,000 ,000 . ,000 ,000 ,000 . ,265 ,078 ,212 . ,000 . ,000 ,000 ,000 . Side 25 af 39 Exp(B) ,411 23,740 93,749 . 1,488 ,560 ,243 . 1,975 1,975 1,742 . 1,111 1,216 1,154 . 5,183 . 1,760 1,775 2,244 . Test og sammenligning af udvalgte regressionsmodeller 3.4 Berit Christina Olsen forår 2008 Anvendelse af ordinal logistisk regression Den ordinale regressionsmodel kan anvendes i tilfælde, hvor den afhængige variabel er en ordinalskalleret variabel. Dette vil sige at kategorierne i variablen kan rangordnes. Ved den ordinale regressionsanalyse beregnes oddsene for kategorierne kumulativt. I forhold til den afhængige variabel om hvor vigtigt er det at ændre vægt, sammenlignes først at det ’ikke er vigtigt’ med at det er ’lidt vigtigt’, ’noget vigtigt’ og ’meget vigtigt’. Dernæst sammenlignes ’ikke vigtigt’ og ’lidt vigtigt’ med ’noget vigtigt’ og ’meget vigtigt’. Sidst sammenlignes ’ikke vigtigt’, ’lidt vigtigt’ o g ’noget vigtigt’ med ’meget vigtigt’. Det er et krav i forhold til anvendelse af den ordinale regressionsmodel, at den uafhængige variabel har lige stor betydning for de forskellige kategorier på den afhængige variabel. Det vil sige, at BMI og de andre inddragede faktorer har lige stor betydning for de fire kategorier på variablen, om hvor vigtigt det er at ændre vægt. Ligning for den ordinale regression er: Log it (P(Y≤ j)) = (αj + β1 · x1 + β2 · x2 + · · · · βk · xk ) Resultatet for den simple og multiple ordinale regression ses i tabel 8. Inden der kontrolleres for andre faktorer, er oddsene for den simple ordinale regressionsanalyse for konstanterne for de tre ovenstående sammenligninger på henholdsvis 0,631, 1,895 og 6,246. Oddsene for BMI kategorierne er de samme for de tre sammenligninger. Oddsene er for de undervægtige 0,865, for de overvægtige 4,433 og for de svært overvægtige 11,101 i forhold til de normalvægtige. Ved den multiple ordinale regressionsanalyse falder oddsene for de undervægtige til 0,587, og stiger for de overvægtige og svært overvægtige til henholdsvis 6,903 og 16,265. De undervægtige er dog ikke signifikante ved hverken den simple eller den multiple ordinale regressionsanalyse. Ved den multiple regressionsanalyse er alle de inddragede variable signifikante med undtagelse af fysisk tilstand. Den multinominale regressionsanalyse viste, at der var stor forskel på både BMI og de andre faktorer i forhold til kategorierne på den afhængige variabel, om hvorvidt informanterne synes det er vigtigt at ændre vægt. Da kravet for den ordinale regressionsanalyse netop er at de uafhængige variable skal have samme betydning for alle kategorierne på den afhæ ngige variabel, vil det således være misvisende at anvende en ordinal regressionsmodel. Resultaterne fra den ordinale regressionsanalyse vil derfor ikke blive beskrevet yderligere. Side 26 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Tabel 8 – Resultater fra den ordinale regressionsanalyse Exp(B) Threshold Ændring af vægt = 1 Ændring af vægt = 2 Ændring af vægt = 3 Location BMI 0-18, 49 BMI 25,01-30 BMI 30,01+ BMI 18,5- 25 (ref.) Alder 16-24 Alder 45-64 Alder 65+ Alder 25-44 (ref.) Psykisktilstand (1) Psykisktilstand (2) Psykisktilstand (3) – dårlig Psykisktilstand – God (ref.) Fysisktilstand (1) Fysisktilstand (2) Fysisktilstand (3) – dårlig Fysisktilstand – God (ref.) Køn = Kvinder Køn = Mænd (ref.) Udd. – kort videreg Udd. – ml. videreg. Udd. – lang videreg Udd. – ingen videreg (ref.) 0,631 1,895 6,246 0,865 4,433 11,101 . Estimate -,461 ,639 1,832 -,145 1,489 2,407 0a Std. Error ,027 ,027 ,033 ,135 ,041 ,065 . Wald 290,908 542,778 3148,039 1,159 1331,127 1390,065 . df 1 1 1 1 1 1 0 Sig. ,000 ,000 ,000 ,282 ,000 ,000 . Exp(B) 1,492 5,344 20,186 0,587 6,903 16,265 . 1,313 0,740 0,430 . 1,446 1,468 1,441 . 1,090 1,092 1,121 . 2,625 . 1,380 1,390 1,597 . Estimate ,400 1,676 3,005 -,532 1,932 2,789 0a ,272 -,301 -,844 0a ,369 ,384 ,365 0a ,086 ,088 ,114 0a ,965 0a ,322 ,329 ,468 0a Std. Error ,077 ,079 ,083 ,159 ,049 ,077 . ,073 ,047 ,074 . ,051 ,061 ,080 . ,055 ,063 ,066 . ,044 . ,069 ,058 ,069 . Wald 27,167 454,032 1305,162 11,126 1559,483 1322,078 . 13,773 41,745 129,754 . 51,973 39,394 20,520 . 2,433 1,962 2,951 . 489,863 . 22,051 31,764 46,240 . df 1 1 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 1 0 1 0 1 1 1 0 Sig. ,000 ,000 ,000 ,001 ,000 ,000 . ,000 ,000 ,000 . ,000 ,000 ,000 . ,119 ,161 ,086 . ,000 . ,000 ,000 ,000 . Side 27 af 39 Test og sammenligning af udvalgte regressionsmodeller 4 Berit Christina Olsen forår 2008 Sammenligning af modeller I det følgende afsnit vil resultaterne fra alle regressionsanalyserne blive sammenlignet herunder fordele og ulemper ved anvendelse af de forskellige regressionsmodeller, samt hvorvidt det er mest hensigtsmæssigt at anvende en type regressionsmodel ved en bestemt problemstilling frem for en anden. Derudover sammenlignes hvorvidt variablernes målingsniveau maksimeres, og i hvilket omfang der sker tab af data ved anvendelsen af regressionsmodellerne. Værdierne fra de forskellige regressionsanalyser er samlet i tabel 9. Disse er B- værdierne fra den lineære regressionsanalyse, Exp(B) fra de logistiske regressionsanalyser. Antages det, at den afhængige variabel omhandlende hvor vigtigt det er at ændre vægt, er en intervalskalleret variabel, er det muligt at anvende den lineære regressionsanalyse, da dette er et krav for at anvende denne regressionsmodel. Da der ikke er foretaget nogle sammenlægninger af kategorier, går der ikke data tabt, og fordelen er, at der udnyttes så meget information fra variablen som muligt. Ved brugen af den lineære regressionsmodel er det muligt at estimere en lineær ligning for sammenhængen mellem to variable. Det er ikke muligt at se, hvorvidt der er en forskel på sammenhængen ved for eksempel forskellige aldersgenerationer eller BMI- grupper, med mindre variablen omdannes til dummyvariable. Ved anvendelsen af den intervalskallerede aldersvariabel kunne det ud fra den lineærregressionsanalyse tyde på, at jo ældre man er, jo vigtigere synes man det er at ændre vægt. Ved i stedet at anvende dummyvariable for fire alderskategorier viste det sig, at dette ikke var tilfældet. Ved anvendelse af forskellige mål, er det dermed muligt at få forskellige resultater. Af de fire regressionsmodeller der er blevet anvendt til at analysere sammenhængen mellem BMI og vigtigheden af at ændre vægt, er den lineære regressionsmodel den model, hvor der stilles de største krav til de inddragede variable. Opfylder variablene kravene og er sammenhængen mellem disse lineær, er det ved anvendelse af lineær regression muligt at udnytte dataene optimalt. Oftest er sammenhængen mellem to variable dog ikke fuldstændig lineær, hvilket kan medvirke til en fejlslutning. På baggrund af analysen tyder det på, at dette er tilfældet for sammenhængen mellem BMI, og hvor vigtigt man synes det er at ændre vægt. Det vil derfor være fejlagtigt blot at konkludere på den lineære regressionsanalyse. Til en almindelig logistisk regressionsanalyse stilles der færre krav til variable ne end ved den lineære regressionsanalyse. Der er intet krav om en bestemt type af sammenhæng mellem Side 28 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 variablene, da det er oddsene for de forskellige kategorier, der beregnes. Det er derudover ikke nødvendigt som ved den lineære regressionsanalyse, at variablene er intervalskalerede, men det er et krav, at den afhængige variabel er dikotom. Idet der kun må være to kategorier i den afhængige variabel, er det kun muligt at sammenligne oddsene for disse, og analysen forsimples dermed. Idet mange kategorier slås sammen, går en stor mængde data tabt. Dette er imidlertid ikke et problem, hvis man blot ønsker at undersøge oddsene for en enkelt gruppe, som for eksempel de synes det er lidt til meget vigtig at ændre vægt, i forhold til de der slet ikke synes, det er vigtigt at ændre vægt. I modsætning til den lineære regressionsanalyse må de uafhængige variable være ordinal eller nominal skallerede, og det er således muligt at sammenligne kategorier som for eksempel aldersgenerationer og BMI-kategorierne. Variablene behandles dog i analysen som nominale og en eventuel rangorden i variablen, mister således sin betydning, og der går også her data tabt. Fordelen ved anvendelsen af en logistisk regressionsanalyse er således, at der kun stilles få krav til variablene. Der er derudover muligt at beregne oddsene for en person med bestemte karakteristika i forhold til de inddragede variable. En ulempe kan dog være, at der går data tabt ved anvendelsen af variable, der oprindeligt er interval eller ordinal skallerede. Da det ved anvendelse af den multinominale regressionsmodel er tilladt, at den afhængige variabel indeholder mere end to kategorier, er det muligt at lave en mere detaljeret analyse og få mere ud af sine data i forhold til den almindelige logistiske regression, hvor den afhængige variabel er dikotom. Det er her muligt at se på oddsene inden for hver af de enkelte kategorier på den afhængige variabel. Ved den multinominale regressionsanalyse beregnes oddsene således for tre kategorier, der synes, det er lidt, noget eller meget vigtigt at ændre vægt i forhold til slet ikke synes det er vigtigt at ændre vægt i stedet for de tre kategorier slået sammen, som ved den almindelige logistiske regressionsanalyse. Sammenlignes oddsene for at synes det er vigtigt at ændre vægt, i forhold til slet ikke at synes det er vigtigt at ændre vægt, er dette ved anvendelse af den almindelig multiple logistiske regression på 22,874 for dem med en BMI på over 30. Ved anvendelse af multipel multinominal regression er oddsene for dem der synes det er lidt, noget og meget vigtigt at ændre vægt på henholdsvis 3,583, 22,904 og 93,749. Oddsene er meget forskellige for de tre grupper, og den multinominale regressionsanalyse giver således et mere nuanceret billede af sammenhængen mellem de to variable. Det samme gør sig gældende for køn, hvor oddsene for kvinder er 2,377 ved den multiple Side 29 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 logiske regression, og hvor oddsene for kvinder i de tre kategorier ved den multiple multinominale regressionsanalyse er på henholdsvis 1,589, 2,249 og 5,183. Ulempen kan ved anvendelse af den multinominale regressionsmodel være, at outputtet fra analysen hurtig bliver uoverskuelig, hvis den afhængige variabel har mange kategorier, og der inddrages mange variable. Den ordinale regressionsmodel kan anvendes i de tilfælde, hvor den afhængige variabel er ordinalskalleret. Fordelen ved anvendelse af en ordinal regressionsmodel er at kategorierne på den afhængige variabel sammenlignes på forskellig måde i samme model, og der tages højde for at variablen er ordinal. Dog har de uafhængige variable samme betydning, uafhængigt af hvilke kategorier der sammenlignes. Da det på baggrund af den multinominale regressionsanalyse viste sig, at dette ikke er tilfældet, vil det med denne viden således være fejlagtigt kun at konklude re på den ordinale regressionsanalyse. Side 30 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Tabel 9 – Oversigt over resultaterne fra regressionsanalyserne Lineær – B Simpel BMI interval BMI 0-18, 49 BMI 25,01-30 BMI 30,01+ BMI 18,5- 25 (ref.) Alder interval Alder 16-24 Alder 45-64 Alder 65+ Alder 25-44(ref.) Psykisk tilstand interval Psykisktilstand (1) Psykisktilstand (2) Psykisktilstand (3) – dårlig Psykisktilstand – God (ref.) Fysisk tilstand interval Fysisktilstand (1) Fysisktilstand (2) Fysisktilstand (3) – dårlig Fysisktilstand – God (ref.) Køn = Kvinder Køn = Mænd (ref.) Udd. interval Udd. – kort videreg Udd. – ml. videreg. Udd. – lang videreg Udd. – ingen videreg (ref.) ,398 Logistisk – Exp(B) Multipel Simpel Multipel Multinominal – Exp(B) Simpel (2) Simpel (3) Simpel (4) Multipel (2) Ordinal – Exp(B) Multipel (3) Multipel (4) Simpel Multipel ,451 ,717 4,821 14,615 ,031 ,585 -,445 - 1,278 ,502 8,344 22,874 ,474 2,238 2,479 1,006 5,067 12,619 ,781 9,128 38,888 ,429 3,551 3,583 ,694 9,013 22,904 ,411 23,740 93,749 0,865 4,433 11,101 0,587 6,903 16,265 1,377 ,576 ,308 1,244 ,548 ,350 1,474 ,633 ,323 1,488 ,560 ,243 1,313 0,740 0,430 1,614 1,646 1,281 1,469 1,493 1,030 1,561 1,618 1,294 1,975 1,975 1,742 1,446 1,468 1,441 1,107 1,330 1,138 1,097 1,403 1,112 1,125 1,337 1,142 1,111 1,216 1,154 1,090 1,092 1,121 2,377 1,589 2,249 5,183 2,625 1,428 1,582 1,669 1,320 1,499 1,481 1,350 1,552 1,553 1,760 1,775 2,244 1,380 1,390 1,597 ,088 ,014 1,624 ,048 Side 31 af 39 Test og sammenligning af udvalgte regressionsmodeller 5 Berit Christina Olsen forår 2008 Opsamling Til at måle sammenhængen mellem hvorvidt befolkningen i Region Nordjylland ønsker at ændre vægt og deres BMI, er det på baggrund af de forskellige regressionsanalyser således hensigtsmæssigt at vælge nogle regressionsmodeller frem for andre. Da det kan diskuteres, hvorvidt den afhængige variabel er intervalskalleret, og sammenhængen mellem de to variable ikke er lineær, kan det således argumenteres for, at det vil være en fejl at anvende den lineære regressionsmodel. Eftersom de uafhængige variable har forskellig betydning for kategorierne på den afhængige variabel, er det også uhensigtsmæssigt at anvende den ordinale regressionsmodel. Den almindelige logistiske regressionsmodel kan derimod med fordel anvendes til at analysere sammenhængen mellem de to variable. Ved anvendelse af denne model er det dog kun muligt at anvende den afhængige variabel som dikotom. Ved anvendelse af den multinominale regressionsmodel kan man som nævnt anvende en afhængig variabel med flere kategorierne end to, hvorved det er muligt at se, om der er forskel på oddsene, og dermed om de uafhængige variable har forskellig betydning for kategorierne på den afhængige variabel. Dette er netop tilfældet, med sammenhængen mellem hvorvidt informanterne synes det er vigtigt at ændre vægt og BMI samt de andre faktorer. Det er ved hjælp af de forskellige regressionsmode ller således muligt at analysere den givne problemstilling på forskellige måder, ved at omkode variablene og derved anvende forskellige mål i analyserne og således også få forskellige resultater. Overordnet viser de forskellige regressionsanalyser dog de samme tendenser, i forhold til sammenhængen mellem hvor vigtigt informanterne synes det er at ændre vægt og BMI og andre faktorer. Dette kan skyldes valget af problemstilling, og et andet resultat ville muligvis være fremkommet, hvis der var taget udgangspunkt i en anden problemstilling. På baggrund af analyserne kan det tyde på, at den afhængige variabel om hvor vigtigt man synes det er at ændre vægt, ikke opfattes på samme måde af informanterne, og at denne ikke kan defineres som en differential intervalskalleret variabel. Det kan dermed argumenteres for, at variablen er en ordinalskalleret variabel, og den bør derfor også analyseres som dette ved hjælp af en model, der behandler variablen ordinalt eller nominalt. Det er således vigtigt at gøre sig mange metodiske overvejelser når en problemstilling analyseres ved hjælp af en regressionsmodel herunder type af variabel, problemstillingens karakter, hvordan variablen måles og sidst valg af model. Side 32 af 39 Test og sammenligning af udvalgte regressionsmodeller 6 Berit Christina Olsen forår 2008 Litteraturliste Agresti, Alan og Finlay, Barbara (1997): Statistical Methods for the Social Sciences. New Jersey: Prentice-Hall, Inc Pearson Education de Vaus, David (2002): Surveys in Social Research, 5. udgave. London: Routledge. Indenrigs- og Sundhedsministeriet (2005): En forstærket indsats mod svær overvægt. København: Ministeriet for Familie- og Forbrugeranliggender. Region Nordjylland (2007): Sådan står det til med sundheden i Nordjylland – Sundhedsprofil for Region Nordjylland og 11 nordjyske kommuner. Aalborg: Region Nordjylland. Side 33 af 39 Test og sammenligning af udvalgte regressionsmodeller 7 Berit Christina Olsen forår 2008 Bilag - SPSS programmering /* Dannelse af de to indeks psykisk og fysisk tilstand med factor analyse og reliabilitetstest FACTOR /VARIABLES Q9_1 Q9_2 Nedslidt Træt /MISSING LISTWISE /ANALYSIS Q9_1 Q9_2 Nedslidt Træt /PRINT INITIAL KMO EXTRACTION ROTATION /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) DELTA(0) /ROTATION OBLIMIN /METHOD=CORRELATION . RELIABILITY /VARIABLES=Q9_1 Q9_2 Nedslidt Træt /SCALE('ALL VARIABLES') ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE CORR . FACTOR /VARIABLES Q8_1 Q8_2 Q8_3 Q8_4 Q8_5 /MISSING LISTWISE /ANALYSIS Q8_1 Q8_2 Q8_3 Q8_4 Q8_5 /PRINT INITIAL KMO EXTRACTION ROTATION /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) DELTA(0) /ROTATION OBLIMIN /METHOD=CORRELATION . RELIABILITY /VARIABLES=Q8_1 Q8_2 Q8_3 Q8_4 Q8_5 /SCALE('ALL VARIABLES') ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE CORR . /*Dannelse af variabel for ængstelse, angst, håbløshed, nedtrykt, bekymringer COMPUTE Ængstelse_angst_håbløshed_nedtrykt_bekymringer = Q8_1 + Q8_2 + Q8_3 + Q8_4 + Q8_5 . VARIABLE LABELS Ængstelse_angst_håbløshed_nedtrykt_bekymringer 'Ængstelse_angst_håbløshed_nedtrykt_bekymringer' . EXECUTE . /*Dannelse af variabel for fysisktilstand COMPUTE Liv_energi_nedslidt_træt = Q9_1 + Q9_2 + Nedslidt + Træt . VARIABLE LABELS Liv_energi_nedslidt_træt 'Liv_energi_nedslidt_træt' . EXECUTE . Side 34 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 /*********************************************************************** /*Regressioner /*Simpel lineær regression REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Q28 /METHOD=ENTER BMI. /* Anvendte variable: Q28 = Ændring af vægt intervalskalleret BMI = BMI intervalskalleret /* Filter der kun medtager kvinder USE ALL. COMPUTE filter_$=(Køndik = 1). VARIABLE LABEL filter_$ 'Køndik = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE. /* Anvendte variable: Køndik = Køn som dikotom 0-1 variabel /* Filter der kun medtager mænd USE ALL. COMPUTE filter_$=(Køndik = 0). VARIABLE LABEL filter_$ 'Køndik = 0 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE. /* Dannelse af interaktionsled COMPUTE InteraktionKønBMI=Køndik * BMI. EXECUTE. /*Multipel lineær regression med alder som intervalskalleret REGRESSION /MISSING LISTWISE Side 35 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Q28 /METHOD=BACKWARD BMI Alderrekodet Ængstelse_angst_håbløshed_nedtrykt_bekymringer Liv_energi_nedslidt_træt Køndik Q49 InteraktionKønBMI. /*Anvendte variable: Alderrekodet = Alder som intervalskalleret Ængstelse_angst_håbløshed_nedtrykt_bekymringer = Indeks for psykisk tilstand som intervalskalleret Liv_energi_nedslidt_træt = Indeks for fysisk tilstand som intervalskalleret Q49 = Videregående uddannelse antal år intervalskalleret InteraktionKønBMI = Interaktionsled med Køn og BMI /* Dannelse af dummy- variable RECODE alder4 (1=1) (ELSE=0) INTO Alderdummy1624. VARIABLE LABELS Alderdummy1624 'Alderdummy1624'. EXECUTE. RECODE alder4 (2=1) (ELSE=0) INTO Alderdummy2544. VARIABLE LABELS Alderdummy2544 'Alderdummy2544'. EXECUTE. RECODE alder4 (3=1) (ELSE=0) INTO Alderdummy4564. VARIABLE LABELS Alderdummy4564 'Alderdummy4564'. EXECUTE. RECODE alder4 (4=1) (ELSE=0) INTO Alderdummy65. VARIABLE LABELS Alderdummy65 'Alderdummy65'. EXECUTE. /* Multipel lineær regression med alder som dummyvariable samt endelig model REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Q28 /METHOD=BACKWARD BMI Alderdummy1624 Alderdummy2544 Alderdummy4564 Alderdummy65 Ængstelse_angst_håbløshed_nedtrykt_bekymringer Liv_energi_nedslidt_træt Køndik Q49 InteraktionKønBMI. /* Rekodninger til anvendelse ved den Logistiske regression /* Rekodning af BMI til 4 kategorier Side 36 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 RECODE BMI (0 thru 18.49=2) (18.5 thru 25=1) (25.01 thru 30=3) (30.01 thru 72=4) INTO BMI4katlog . VARIABLE LABELS BMI4katlog 'BMI4katlog'. EXECUTE . RECODE BMI4katlog (1=4) (2=1) (3=2) (4=3) INTO LogisBMI4kat. VARIABLE LABELS LogisBMI4kat 'LogisBMI4kat'. EXECUTE. RECODE alderlog (1=4) (2=1) (3=2) (4=3) INTO Logisa lder4kat. VARIABLE LABELS Logisalder4kat 'Logisalder4kat'. EXECUTE. RECODE Psykisktilstandkat4 (1=4) (2=1) (3=2) (4=3) INTO Logispsykiskkat4. VARIABLE LABELS Logispsykiskkat4 'Logispsykiskkat4'. EXECUTE. RECODE Fysisktilstandkat4 (1=4) (2=1) (3=2) (4=3) INTO Logisfysiskkat4. VARIABLE LABELS Logisfysiskkat4 'Logisfysiskkat4'. EXECUTE. RECODE Videregåendeudd4kat (1=4) (2=1) (3=2) (4=3) INTO Logisuddkat4. VARIABLE LABELS Logisuddkat4 'Logisuddkat4'. EXECUTE. /* Simpel almindelig logistisk regression LOGISTIC REGRESSION VARIABLES Ændringafvægt2kat /METHOD=ENTER LogisBMI4kat /CONTRAST (LogisBMI4kat)=Indicator /CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5). /* Anvendte variable: Ændringafvægt2kat = Ændring af vægt som dikotom LogisBMI4kat = BMI med 4 kategorier /* Multipel almindelig logistisk regression LOGISTIC REGRESSION VARIABLES Ændringafvægt2kat /METHOD=ENTER LogisBMI4kat Logisalder4kat Logispsykiskkat4 Logisfysiskkat4 Køndikny Logisuddkat4 /CONTRAST (Køndikny)=Indicator /CONTRAST (Logisfysiskkat4)=Indicator /CONTRAST (LogisBMI4kat)=Indicator /CONTRAST (Logisuddkat4)=Indicator /CONTRAST (Logisalder4kat)=Indicator /CONTRAST (Logispsykiskkat4)=Indicator /CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5). Side 37 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 /* Anvendte variable: Logisalder4kat = alder i 4 kategorier Logispsykiskkat4 = Psykisk tilstand i 4 kategorier Logisfysiskkat4 = Fysisk tilstand i 4 kategorier Logisuddkat4 = Videregående uddannelse i 4 kategorier /* Rekodning af Ændring af vægt til variabel med 4 kategorier RECODE Q28 (1=1) (2 thru 5=2) (6 thru 8=3) (9 thru 11=4) INTO Ændringafvægt4kat. VARIABLE LABELS Ændringafvægt4kat 'Ændringafvægt4kat'. EXECUTE. /* Simpel multinominal regression NOMREG Ændringafvægt4kat (BASE=FIRST ORDER=ASCENDING) BY LogisBMI4kat /CRITERIA CIN(95) DELTA(0) MXITER(100) MXSTEP(5) CHKSEP(20) LCONVERGE(0) PCONVERGE(0.000001) SINGULAR(0.00000001) /MODEL /STEPWISE=PIN(.05) POUT(0.1) MINEFFECT(0) RULE(SINGLE) ENTRYMETHOD(LR) REMOVALMETHOD(LR) /INTERCEPT=INCLUDE /PRINT=PARAMETER SUMMARY LRT CPS STEP MFI. /* Anvendte variable: Ændringafvægt4kat = Ændring af vægt i 4 kategorier /* Multipel multinominal regression NOMREG Ændringafvægt4kat (BASE=FIRST ORDER=ASCENDING) BY LogisBMI4kat Logisalder4kat Logispsykiskkat4 Logisfysiskkat4 Køndikny Logisuddkat4 /CRITERIA CIN(95) DELTA(0) MXITER(100) MXSTEP(5) CHKSEP(20) LCONVERGE(0) PCONVERGE(0.000001) SINGULAR(0.00000001) /MODEL /STEPWISE=PIN(.05) POUT(0.1) MINEFFECT(0) RULE(SINGLE) ENTRYMETHOD(LR) REMOVALMETHOD(LR) /INTERCEPT=INCLUDE /PRINT=FIT PARAMETER SUMMARY LRT CPS STEP MFI. /* Simpel ordinal regression PLUM Ændringvægtordinal BY LogisBMI4kat /CRITERIA=CIN(95) DELTA(0) LCONVERGE(0) MXITER(100) MXSTEP(5) PCONVERGE(1.0E-6) SINGULAR(1.0E-8) /LINK=LOGIT /PRINT=FIT PARAMETER SUMMARY /SAVE=ESTPROB. Side 38 af 39 Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 /* Multipel ordinal regression PLUM Ændringvægtordinal BY LogisBMI4kat Logisalder4kat Logispsykiskkat4 Logisfysiskkat4 køndikny Logisuddkat4 /CRITERIA=CIN(95) DELTA(0) LCONVERGE(0) MXITER(100) MXSTEP(5) PCONVERGE(1.0E-6) SINGULAR(1.0E-8) /LINK=LOGIT /PRINT=FIT PARAMETER SUMMARY. LOGISTIC REGRESSION VARIABLES Ændringafvægt2kat /METHOD=ENTER LogisBMI4kat /CRITERIA=PIN(.05) POUT(.10) ITERATE(20) CUT(.5). Side 39 af 39
© Copyright 2025