2013-11-29 Webropol Oy Professional Statistics Pikaopas SISÄLTÖ 1. Miten pääset alkuun .................................................................................................................... 2 1.1. Systeemivaatimukset.......................................................................................................... 2 1.2. Professional Statistics avaaminen...................................................................................... 2 2. Perustoiminnot ............................................................................................................................ 4 3. Mitä pitäisi ottaa huomioon ennen analyysejä ............................................................................ 9 3.1. Pitkien muuttujanimien lyhentäminen ................................................................................. 9 3.2. Erilaisten Webropol kysymystyyppien muuttujatyypit ....................................................... 10 3.3. Uusien muuttujien laskeminen ......................................................................................... 11 3.4. Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En osaa sanoa’ vastausten poistaminen................................................................................................................................... 13 4. 3.5. Aineiston filterointi / ehtojen tekeminen ............................................................................ 13 3.6. Jakauman normaalisuuden tutkiminen ............................................................................. 14 Mikä analyysi pitäisi valita? ....................................................................................................... 16 4.1. Varianssien yhtäsuuruusoletuksen testaaminen .............................................................. 17 4.2. Kaksi jatkuvaluonteista muuttujaa .................................................................................... 18 4.3. Kaksi luokiteltua muuttujaa ............................................................................................... 19 4.4. Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi ryhmämuuttuja ............................ 21 4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja ..................................................................... 21 4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja ................................................ 23 4.5. Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä ..................................... 24 4.6. Reliabiliteetin laskeminen eli Cronbachin alpha ............................................................... 25 4.7. Faktorianalyysi.................................................................................................................. 26 4.8. Regressio ......................................................................................................................... 28 4.9. Klusterointi ........................................................................................................................ 29 4.9.1. Manuaalinen klusterointi ........................................................................................... 29 4.9.2. Hierarkkinen klusterianalyysi .................................................................................... 30 1 1. MITEN PÄÄSET ALKUUN 1.1. Systeemivaatimukset Professional Statistics (PS) on Java-pohjainen kuten monet muutkin Internet sovellukset. Tämä tarkoittaa sitä, että PS käyttää tietokoneen omaa laskentatehoa suorittaakseen analyysit. Jotkut analyysit ovat hieman raskaampia ja tulosten laskenta saattaa viedä enemmän aikaa. Joka tapauksessa suorituskyky on riippuvainen tietokoneen omasta suorituskyvystä. Myös Internetyhteyden nopeus vaikuttaa. Professional Statisticsin lataaminen kestää jonkin aikaa, joten olethan kärsivällinen. Professional Statisticsiä voidaan käyttää eri Javaa tukevissa ympäristöissä. Ainoa vaatimus on että Java Run Time Environment tai vastaava on asennettuna. Voit ladata viimeisimmän Javan ilmaiseksi osoitteesta: http://www.java.com/en/download/index.jsp 1.2. Professional Statistics avaaminen Voit avata Professional Statisticsin suoraan kyselykansioista osoittamalla haluamaasi kyselyä listassa, kyselyn nimen oikealle puolelle ilmestyy ratas, ja sitä klikkaamalla saat valikon auki. Valikosta valitsemalla Professional Statistics aukeaa kuvan 3 näkymä, josta voit ladata Professional Statisticsin auki. K UVA 1: P ROFESSIONAL S TATISTICSIN AVAAMINEN KYSELYKANSIOSTA 2 Toinen tapa on avata PS raportoinnin puolella klikkaamalla ikkunan oikeassa ylänurkassa olevaa Professional Statistics tekstipainiketta. K UVA 2: P ROFESSIONAL S TATISTICSIN AVAAMINEN RAPORTOINTINÄKYMÄSSÄ Kumpikin tapaa avaavat alla olevan näkymän, josta valitsemalla Analyze (Statistics) ohjelma lähtee latautumaan. PS napin tai Professional Statistics tekstinapin painaminen ohjaa sinut tälle sivulle. Avataksesi Professional Statisticsin klikkaa Analyze kohtaa. Jos haluat ottaa aineistostasi otoksen tai muuten lisäkäsitellä aineistoasi klikkaa Customize. Lisäinformaatiota datan käsittelyyn Data Minerissa löytyy Data Minerin Helpistä. K UVA 3: P ROFESSIONAL S TATISTICS - JA D ATA M INER LATAUSIKKUNA 3 2. PERUSTOIMINNOT Professional Statistics avaa automaattisesti sen aineiston (kysely), jonka raportilta Professional Statistics käynnistetään. Jos haluat ladata toisen aineiston valitse Load data Professional Statisticsin File-menusta. Aineiston on oltava Excel-muotoa. Huomaa, että .xlsx tiedoston pitää olla tiettyä muotoa, jotta se toimisi oikein Professional Statisticsissa. K UVA 4: E XCEL - DATAN MUOTO Seuraavassa kuvassa on Professional Statisticsin (PS) näkymä ohjelman avauduttua. PS on jaettu neljään osaan. Ylemmässä osassa (1) valitaan analyysit ja perustoiminnot, vasemmanpuoleisessa osassa (2) näkyy muuttujalista (kysymykset), keskimmäisessä osassa (3) näkyvät tulostaulukot ja oikeassa osassa (4) grafiikka. Ylhäällä vasemmassa nurkassa näet Report valikon, missä voit kopioida ja tallentaa kuvia, sekä File valikon missä voit joko ladata tai tallentaa aineiston. Näiden valikoiden alapuolella kohdassa Analysis types voit valita tarvittavan analyysityypin. Analysis types – kohdan oikealla puolella Algorithms – kohdassa näkyvät analyysit ja funktiot valitusta analyysityypistä riippuen (kuvassa Overview – kohdan perusanalyysit). Ylhäällä oikeassa kulmassa voit antaa palautetta, napauttamalla Give Feedback painiketta avautuu Feedback nettilomake, jonka voit lähettää netin kautta ohjelmatoimittajalle. Napauttamalla Show help avautuu valitun toiminnon Help-ikkuna. Samasta kohtaa saat Help-ikkunan suljettua. Oranssi kysymysmerkki avaa yleisnäkymä helpikkunan PS:n päälle erilliseen ikkunaan. 4 K UVA 5: P ROFESSIONAL S TATISTICSIN PERUSNÄK YMÄ Tässä näkymässä näet PS:n muuttujalistan ja tulostaulukon. Valitse muuttuja ruksaamalla haluamasi muuttujan edessä olevaa valintaruutua. Valitse useampia muuttujia kerralla painamalla Ctrl alas ja valitsemalla hiirellä muuttujat. Kun muuttujat ovat valittuna, paina välilyöntinäppäintä. Tällöin valitut muuttujat tulevat ruksatuiksi ja PS tuottaa analyysin. Voit käyttää myös Shift ja Up/Down nuolia valitaksesi muuttujat. K UVA 6: V ASEMMANPUOLEINEN - JA KESKIOSA : M UUTTUJALISTA JA TULOSTAULUKKO 5 Tässä näkyy PS:n tulostaulu. Järjestääksesi tulokset suuruusjärjestykseen klikkaa sarakkeen otsikkoa (kuvassa average) hiiren oikealla. Valitaksesi kaikki muuttujat kuvaan klikkaa hiiren vasemmalla sarakkeen otsikon päällä. Valitaksesi tietyt muuttujat kuvaan paina Ctrl alas ja klikkaa hiiren vasemmalla vain haluttujen muuttujien kohdalla sarakkeessa. Voit myös maalata halutut rivit mukaan. K UVA 7: K ESKIMMÄINEN OSA : T ULOSTAULU Voit viedä tulostaulukon Exceliin (Create xls-sheet), tai kopioida leikepöydälle (Data to clipboard) valitsemalla halutun formaatin Report-valikon alta. Ristiintaulukoinnissa (Crosstabs) voit viedä taulukon Exceliin klikkaamalla Export to Excel – nappia taulukon yläpuolella. K UVA 8: T ULOSTAULUKON VIENTI MUIHIN FORMAATTEIHIN 6 Tässä näet PS:n grafiikkaalueen. Valitse kuvatyyppi Chart type - kohdasta. Nähdäksesi kuvasta vain osan asteikkoa maalaa hiirellä asteikon kohdalla haluttu väli vasemmalta oikealle. Koko asteikon takaisin saat pyyhkäisemällä hiiren vasen näppäin alhaalla asteikon yli oikealta vasemmalle. Tutkiaksesi kuvaa ryhmittäin valitse Split by-kohdasta ryhmämuuttuja. K UVA 9: O IKEANPUOLEINEN OSA : G RAFIIKKA Voit viedä kuvan PowerPointiin (Create ppt-slide (objekti) / Create PPT Chart (muokattava muoto)), Exceliin (Create xls-chart (muokattava muoto)), Wordiin (Create doc image (objekti)) tai leikepöydälle (Image to clipboard (objekti)) klikkaamalla hiiren oikealla kuvan päällä ja valitsemalla halutun formaatin. (kts kuva 11). Valittuasi Excel-, Word- tai Powerpoint -muodon muuttujalistan alle vasempaan laitaan ilmestyy halutun formaatin mukainen ikoni ja tallenna painike. Jokaisesta siirrettävästä kuvasta tulee oma ikoninsa. Kuvassa 10 on kolme PowerPoint diaa ja kaksi Excel taulukkoa odottamassa tallennusta. Näin voit tallentaa kerralla useamman kuvan yhteen tiedostoon. Poistaaksesi turhat ikonit, valitse ne ja paina delete. Kun olet tehnyt kaikista halutuista kuvista ikonin, klikkaa tallenna – nappia (disketin kuva kuvaikonien oikealla puolella). Huomaa, että jokainen PowerPoint-kuva tulee omalle dialleen ja jokainen Excel-taulukko/kuva omalle välilehdelleen. Hiiren oikean näppäimen alta näkyvä Chart Colors – alla voit vaihtaa kuvan värejä. Enlarge avaa kuvan omaan ikkunaansa, jossa voit vaihtaa akseleiden paikkaa, muokata kuvan otsikkoa, väritystä ja fontteja, sekä tallentaa /kopioida muokatun kuvan. 7 K UVA 10: S IIRRETTÄVÄT K UVA 11: K UVIEN KUVAIKON IT JA T ALLENNA - PAINIKE VIENTI 8 3. MITÄ PITÄISI OTTAA HUOMIOON ENNEN ANALYYSEJÄ Professional Statistics sisältää monia tapoja muokata dataa ennen analyysejä. Alla olevassa Pretreatment taulukossa näet Pretreatment – osion eri toiminnot. Variable Name Editor Variable Types Variable Math Recode Variable Group and Filter Jos kysymyksen seliteteksti on liian pitkä tai haluat muuttaa nimen kuvaavammaksi, voit muokata tekstejä Variable Name Editorin alla. Voit määritellä muuttujien muuttujatyypit. Muuttujatyyppi kertoo mitä analyysejä voit käyttää. Muuttujatyyppien määrittely on vapaaehtoinen toiminto eikä se vaikuta suurimpaan osaan analyyseistä. Voit luoda uusia muuttujia olemassa olevien muuttujien avulla. Muuttujien luokkien yhdistäminen ja uudelleen luokittelu. Tyypillisesti käytetään asteikon kääntämiseen ja ryhmien määrän pienentämiseen. Group – funktiolla voit luoda vastaajaryhmiä, jotka perustuvat yhden tai kahden muuttujan arvoihin. Filter-funktiolla luot ehtoja dataan, poimit esim. mukaan analyyseihin vain yli 40-vuotiaat naiset. Seuraavassa esimerkkejä edellä mainituista toiminnoista. 3.1. Pitkien muuttujanimien lyhentäminen Tehdäksesi analysoinnin ja tulosten tulkinnan helpommaksi voit muokata muuttujanimiä Variable Name Editor – kohdassa. Voit muokata suoraan nimeä halutuksi New – kohdassa. Useampia nimiä kerralla muokatessa kirjoita muokattava nimi/nimen osa Replace-kohtaan ja uusi korvaava nimi Withkohtaan. Klikkaa sitten Replace – painiketta. K UVA 12: V ARIABLE N AME E DITOR - NÄKYMÄ HUOM! Nimimuutokset eivät muuta mitään itse kyselyaineistoon, muutokset ovat voimassa vain Professional Statisticsissa. Voit kuitenkin tallentaa muokatut nimet myöhempää käyttöä varten Save - painikkeella ja kun avaat seuraavan kerran saman aineiston Professional Statisticsiin voit hakea muokatut nimet Load - painikkeella. 9 3.2. Erilaisten Webropol kysymystyyppien muuttujatyypit Alhaalla taulukossa näet Professional Statisticsin muuttujatyypit. Voit määritellä ne Pretreatment – osiossa Variable Typesin alla. Nominal Variable Types Ordinal Interval Ratio Multi choice Luokiteltu muuttuja, jonka luokkia ei voida laittaa kiistattomaan järjestykseen. Esimerkiksi ‘Sukupuoli: Mies, Nainen’ Luokiteltu muuttuja, jonka luokat voidaan laittaa järjestykseen. Esimerkiksi ‘Luokiteltu ikä: Vähemmän kuin 30 v, 31-65 vuotta, yli 65 vuotta’ Numeerinen muuttuja, jolla ei ole ns. absoluuttista nollapistettä, jossa ominaisuus loppuu Esimerkiksi ‘Lämpötila mitattuna Celsiusasteilla’ tai ‘Bruttokansantuote’, Näissä molemmissa voi olla sekä negatiivisia että positiivia arvoja, eikä ole mitään arvoa missä ominaisuus loppuisi. Numeerinen muuttuja, jolla on ns. absoluuttinen nollapiste, jossa ominaisuus loppuu Esimerkiksi paino, pituus tai palkka. Ne eivät voi saada negatiivisia arvoja. Muuttuja, jossa voi olla valittuina useampi vastausvaihtoehto. Esimerkiksi ‘Valitse kolme tärkeintä ominaisuutta listasta, mitä haluat uuden tuotteen pitävän sisällään.’ K UVA 13: V ARIABLE T YPE NÄKYMÄ 10 3.3. Uusien muuttujien laskeminen Voit laskea uusia muuttujia Variable Math - funktiolla. Paina Add equation nappia, uusi muuttuja ilmestyy muuttujalistan loppuun nimellä ‘equation…’. Nimeä uusi muuttuja haluamaksesi ja kirjoita ‘equation’ sarakkeeseen lauseke. Käytä x-alkuisia muuttujanimiä lausekkeessa laskiessasi jo olemassa olevilla muuttujilla. Remove selected rows poistaa ylimääräisiä muuttujia, joita et tarvitse. K UVA 14: V ARIABLE M ATH – NÄKYMÄ Perinteinen aritmeettinen keskiarvo (esimerkki kuvassa Satisfaction with Staff) laskee keskiarvon niille vastaajille, jotka ovat vastanneet jokaiseen summattavaan muuttujaan. Eli jos joku vastaaja esimerkin tapauksessa olisi jättänyt vastaamatta x4:sta vastaavaan kysymykseen, ei keskiarvoa voida laskea hänelle. Eli aineistossa, jossa on paljon puuttuvia vastauksia, ei kokonaiskeskiarvon laskeminen välttämättä ole kovin kuvaava suure ja voi vähentää kokonaiskeskiarvon n-arvoa ratkaisevasti. Tällaisissa tilanteissa voit myös käyttää tilastollisia funktioita kokonaiskeskiarvon laskemiseen. average-funktio laskee keskiarvon niillä arvoilla mitä aineistosta löytyy, ja näin ollen ei vähennä n-lukua suhteettomasti vaikka aineistossa olisi tyhjiäkin vastauksia. Esim. jos vastaaja on jättänyt vastaamatta x4:sta ja x8:a vastaaviin kysymyksiin, niin keskiarvo lasketaan niistä kysymyksistä, joissa vastaus on, eli lopuista kahdeksasta esimerkin tapauksessa. Käytettävät funktiot: average, min, max, sum ja stdev. Funktion sisällä laskettavat muuttujat erotetaan pilkulla toistaan. 11 Seuraavassa kuvassa esimerkki funktion käytöstä laskettaessa esimerkin ’Satisfaction with Staff’ käyttäen average-funktiota. Huom! käytä vain pieniä kirjaimia funktiossa sekä käytettävissä xmuuttujissa lausekkeessa. K UVA 15: K OKONAISKESKIARVON LASKEMINEN KÄYTTÄEN AV ERAGE - FUNKTIOTA 12 3.4. Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En osaa sanoa’ vastausten poistaminen Voit muokata vastausvaihtoehtoja Recode variable - funktiolla. Valitse muokattavat muuttujat Variables-listalta. Jos haluat yhdistää vastausvaihtoehtoja yhdeksi luokaksi, anna niille sama arvo New Value kohtaan ja selite ylimmälle arvolle New Name kohtaan . Muokataksesi vastausvaihtoehtojen selitteitä klikkaa selitteen kohdalla (New Name) ja nimeä se uudestaan. Poistaaksesi vaihtoehdon poista arvo New Value kohdasta ja New Name kohdasta. Tallenna muutokset K UVA 16: R ECODE V ARIABLE - NÄKYMÄ antamalla uuden muuttujan nimi Name of new variable - kohtaan ja paina Enter. Voit muokata vastausvaihtoehtojen selitteitä ja poistaa ‘En osaa sanoa’ – vastauksia myös raportoinnin sisällä ennen kuin avaat Professional Statisticsin. Tarkemmat ohjeet tästä löydät Webropol 2.0 Raportointioppaasta. 3.5. Aineiston filterointi / ehtojen tekeminen Tarkastellaksesi vain osaa aineistoa voit käyttää Group and Filter – toimintoa Pretreatment osiossa. Group tuottaa uuden muuttujan, jossa yhtenä ryhmänä on valitut ja toisena muut. Filter – muuttaa ei-valitut havainnot passiiviseksi eli vain valitut tulevat mukaan analyyseihin. Valitse muuttuja(t) Y-variables listalta ja X-variables listalta. Huomaa, että jos haluat tehdä ehdon vain yhden muuttujan arvoilla, niin sinun pitää valita sama muuttuja molemmista, niin Y-variables kuin X-variables listalta. Esimerkiksi haluamme valita vain naiset mukaan. Valitse ‘Gender’ Y-variables listalta ja myös Xvariables listalta. 13 Ruksaa ‘Female’ kuten seuraavassa kuvassa ja paina Filter Rows nappia. Ohjelma ilmoittaa ’You have now filtered the data…’. Ikkunan ylälaidassa näet että filterointi on päällä. (Data filtered, using … rows). K UVA 17: G ROUP AND F ILTER NÄKYMÄ Kun haluat tarkastella koko aineistoa jälleen, klikkaa ’Data filtered, using … rows’, Disable filtering – komento tulee näkyviin. Kun valitset sen, filtteri on pois päältä ja koko aineisto jälleen käytettävissä. 3.6. Jakauman normaalisuuden tutkiminen Joidenkin analyysien oletuksena on jakauman normaalisuus, minkä on oltava voimassa, jotta tuloksiin voitaisiin luottaa. Voit tarkastella jakauman vinoutta ja huipukkuutta Normality Assessmentin alla. Koko jakauman normaalisuutta voit tarkistella myös jakaumakuvien avulla, esim Overview:n alta klikkaamalla tunnuslukua ja valitsemalla kuvatyypiksi Histogram tai Normal propability plot. Lisäksi voit testata jakauman normaalisuutta Shapiro-Wilkin tai Lillieforsin testillä niin ryhmittäin kuin koko aineistollekin. Lisäinformaatiota normaalisuuden tutkimisesta saat myös 14 klikkaamalla oikeasta yläkulmasta Show help – nappia. Se avaa kunkin toiminnon kohdan oman Help-ikkunan. Basic Normality Assessment Overview Percentiles Shapiro-Wilk Lilliefors Perustunnusluvut muuttujille. Vinous- ja huipukkuusluvut jatkuvaluonteisen muuttujan normaalisuuden tarkasteluun. Riippuen siitä ovatko jakaumat normaalisia vai eivät käytetään parametrisia (normaaliset jakaumat) tai ei-parametrisia (einormaaliset jakaumat) testejä. Fraktiilit (Percentiles) kertovat jakaumasta enemmän kuin keskiarvot yksin. Ne ovat järjestetyn aineiston se piste, jota vähemmän on ‘k’ prosenttia havainnoista. Esimerkiksi 25% fraktiili eli alakvartiili antaa luvun, jota pienempia havinnoista on 25 %. Yleisimmin käytetyt fraktiilit tieteellisissä raporteissa ovat alakvartiili, mediaani ja yläkvartiili, eli 25%, 50% ja 75% fraktiilit. Shapiro-Wilkin testiä käytetään vähintään välimatka-asteikollisen muuttujan jakauman normaalisuuden testaamiseen. Tämä testi on parhaimmillaan pienempien aineistojen testauksessa. Lillieforsin testiä käytetään vähintään välimatka-asteikollisen muuttujan jakauman normaalisuuden testaamiseen. Lillieforsin testiä suositellaan nimenomaan isompien aineistojen testauksessa. Jakauman normaalisuuden tarkasteluun ja testaamiseen on monta tapaa: Shapiro-Wilk - tai Lilliefors – testi, Normal probability plot, Histogrammi tai vinous- ja huipukkuuslukujen tarkastelu niiden keskivirheiden kanssa. Shapiro-Wilk – and Lilliefors testeissä saat tulokset myös ryhmittäin, ruksaa ‘Test each Y group’ ja valitse ryhmittelevä muuttuja Y-variables listalta. Jos testin p-arvo on suurempi kuin 0.05, voidaan jakaumaa pitää normaalisesti jakautuneena. Normal probability plotissa normaalisesti jakautuneen aineiston pisteiden pitäisi kulkea jakaumaviivan päällä lineaarisesti. K UVA 18: S HAPIRO -W ILKIN TESTI JA N ORMAL PROPABILITY PLOT 15 Esimerkkiaineistossa Shapiro Wilkin testi hylkää jakauman normaalisuuden, p-arvo ≤ 0.05. Jakaumakuva oikealla vahvistaa tuloksen. 4. MIKÄ ANALYYSI PITÄISI VALITA? Saadaksesi luotettavia tuloksia on tärkeää valita oikea analyysi erilaisille muuttujille. Alhaalla taulukossa on käyty lyhyesti läpi eri testien tarkoitus ja käytettävät muuttujatyypit. Variables t-test (paired) Wilcoxon Crosstabs Crosstabs for Means Chi² Compare groups Levene t-test (independent samples) MannWhitney ANOVA Riippuvien otosten t-testiä (t-test (paired)) käytetään testaamaan kahden jatkuvaluonteisen muuttujan keskiarvoeroja. Testattavan muuttujan pitää olla vähintään välimatka-asteikollinen ja noudattaa normaalijakaumaa. Testattavat muuttujat pitää olla mitattu samalla skaalalla, sillä testi perustuu muuttujien keskiarvojen vertaamiseen. Jos normaalisuus ei ole voimassa toisella tai molemmilla muuttujilla, pitää käyttää ei-parametrista Wilcoxonin testiä. Wilcoxon signed rank testiä käytetään testaamaan kahden vähintään järjestysasteikollisen muuttujan välisiä eroja (eroaako muuttuja 1 muuttujasta 2). Jos kahden jatkuvaluonteisen muuttujan jakaumat eivät noudata normaalijakaumaa voidaan Wilcoxonin testiä käyttää parametrisen t-testin sijaan. Testattavilla muuttujilla pitää olla sama mittaskaala. Esim. kaksi Likert-asteikollista muuttujaa - molemmat mitattu 1-5 asteikolla. Ristiintaulukointia (Crosstabs) käytetään eri ryhmien välisten jakaumien vertaamiseen. Tulostaulukossa näkyvät prosentit sekä numeerisilla muuttujilla keskiarvot ryhmittäin. Tulokset voidaan esittää graafisesti nopeasti valitsemalla hiirellä tulosarvot. Sarakeprosentti- ja sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo tilastolliset erot). Ristiintaulukointi pelkillä keskiarvoilla on usein skaalallisilla muuttujilla se halutuin tapa esittää asiat taulukkomuodossa. Sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo tilastolliset erot). Khii-toiseen riippumattomuustestiä (Chi²) käytetään testaamaan testattavien luokkamuuttujien (nominaali – ja/tai järjestysasteikolliset muuttujat) riippumattomuutta, eli käytännössä, onko muuttujaryhmien välillä eroja vai ei. Esimerkiksi jos halutaan tutkia sukupuolten välisiä eroja suosikkivuodenajan tai työn vastuualueen suhteen. Levenen testiä käytetään varianssien yhtäsuuruuden testaamiseen ryhmien välillä. Varianssien yhtäsuuruus on yksi parametristen testien oletuksista. Jos varianssien yhtäsuuruusoletus ei ole voimassa, pitää käyttää eiparametrisia testejä (Mann-Whitney riippumattomien otosten t-testin sijaan, Kruskal-Wallis ANOVAn sijaan). Riippumattomien otosten t-testiä (t-test (independent samples)) käytetään jatkuvan muuttujan keskiarvoerojen testaamiseen kahden ryhmän välillä. X variables – listalta valitun muuttujan tulee olla normaalisesti jakautunut molemmissa luokitellun muuttujan ryhmissä (Y-variables), ja sen varianssien tulee olla yhtä suuret molemmissa ryhmissä. Jos oletukset eivät ole voimassa tulee käyttää ei-parametrista Mann-Whitneyn testiä. Mann-Whitney (tunnettu myös Wilcoxon signed-rank testinä tai MannWhitney-Wilcoxon testinä) on ei-parametrinen testi, joka testaa järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja kahden ryhmän välillä. ANOVAa (Analysis of Variance) eli varianssianalyysiä käytetään jatkuvan muuttujan keskiarvoerojen testaamiseen kolmen tai useamman ryhmän 16 Correlations Kruskal-Wallis R (Pearson) Rho (Spearman) Spearmanin järjestyskorrelaatiokerrointa (tai Spearmanin rhota) käytetään testaamaan vähintään järjestysasteikollisten tai vinosti jakautuneiden jatkuvaluonteisten muuttujien välistä lineaarista riippuvuutta. Cronbachin alphaa käytetään mittaamaan muuttujien reliabiliteettia (internal consistency), esim. kuinka hyvin summattavat muuttujat mittaavat samaa asiaa tai kuinka hyvin ne mittaavat yhdessä ryhmänä jotain asiaa. PCA Pääkomponenttianalyysiä (Principal Component Analysis (PCA)) käytetään luomaan lineaarikombinaatioita muuttujista perustuen muuttujien variansseihin ja niiden välisiin riippuvuuksiin. Käytettävien muuttujien tulee olla jatkuvia. Aineiston koko tulisi olla vähintään 300 havaintoa. PCA olettaa muuttujaparien välisen riippuvuuden olevan lineaarista. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa analyysistä. Exploratorinen faktorianalyysi on keino löytää muuttujien takaa ilmiö, joka selittää muuttujien vaihtelua (keino nähdä metsä puilta). Tekniikka perustuu muuttujien välisiin lineaarisiin riippuvuuksiin. Muuttujien tulee olla skaalallisia ja mielellään normaalisesti jakautuneita. Aineiston koon tulisi olla vähintään 100 havaintoa ja havaintoja (täydellinen aineisto) tulisi olla enemmän kuin mukaan tulevia muuttujia. Self-Organizing Map (SOM) – kuvia käytetään muuttujien visuaaliseen tarkasteluun tarkoituksena löytää muuttujien jakaumista klustereita. Käytettävien muuttujien tulee olla numeerisia. Partial Least Squares (PLS) Regressiota käytetään selittämään yhden jatkuvan muuttujan vaihtelua kahdella tai useammalla jatkuvalla muuttujalla. Varsinkin pienillä aineistoilla jakaumien tulisi olla vähintään likimain normaalisia. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa analyysistä. Askeltavalla regressiolla (Stepwise Regression) voidaan arvioida mitkä tekijät selittävät parhaiten selitettävän muuttujan vaihtelua. Testattavien muuttujien tulisi olla jatkuvaluonteisia ja vähintään likimain normaalisia. Riippuvuuksien oletetaan olevan lineaarisia. Hierarkkista klusterianalyysiä käytetään luomaan homogeenisia ryhmiä valittujen muuttujien (ominaisuuksien) suhteen. Käytettävien muuttujien tulee olla jatkuvaluonteisia. Otoskoon tulisi olla vähintään 2k, kun k on analyysissä olevien muuttujien määrä. SOM Regression (PLS) Multivariate Pearsonin tulomomenttikorrelaatiokerrointa (r) käytetään testaamaan jatkuvaluonteisten, mielellään normaalisesti jakautuneiden muuttujien välistä lineaarista riippuvuutta. Testattavien muuttujien pitää olla vähintään välimatka-asteikollisia. Jos data eroaa merkittävästi normaalijakaumasta tai muuttujat ovat järjestysasteikollisia, tulee käyttää Spearmanin järjestyskorrelaatiokerrointa (Rho). Cronbach’s Alpha Factor analysis 4.1. välillä. X-variables listan muuttujan tulee olla normaalisesti jakautunut kussakin Y-variables listan luokitellun muuttujan ryhmässä. Myös varianssien tulee olla yhtä suuret kussakin ryhmässä. Jos oletukset eivät ole voimassa, tulee käyttää ei-parametrista Kruskal-Wallisin testiä. Kruskal-Wallis on ei-parametrinen testi, joka testaa järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja kolmen tai useamman ryhmän välillä. Stepwise Regression Clustering Varianssien yhtäsuuruusoletuksen testaaminen Parametristen testien (riippumattomien otosten t-testi ja ANOVA) oletuksena on, jakauman normaalisuusoletuksen lisäksi, myös varianssien yhtäsuuruus testattavassa kussakin ryhmässä. 17 Varianssien yhtäsuuruuden testaamiseen käytetään Levenen testiä. Se löytyy Compare Groups osion alta. Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli ) ja jatkuva muuttuja X-variables listalta (esimerkiksi paino, pituus, tyytyväisyyden summamuuttuja) ja Algorithms – kohdasta Levene. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05, tarkoittaa se, että varianssit eivät ole yhtä suuria, eli varianssien yhtäsuuruusoletus ei ole voimassa. K UVA 19: L EVENEN VARIANSSIEN YHTÄSUURUUSTESTI JA B OX P LOT KUVA Esimerkkiaineistossa nähdään, että varianssien yhtäsuuruusoletus on voimassa, eli varianssit ovat samat sukupuolten (Gender) kesken (p=1.000 > 0.05). Tämä tarkoittaa, että jos testattava muuttuja noudattaa normaalijakaumaa molemmissa ryhmissä, parametrista testiä voidaan käyttää. (kahden ryhmän tapauksessa t-test (independent samples) ja useamman ryhmän tapauksessa ANOVA). 4.2. Kaksi jatkuvaluonteista muuttujaa Kun haluat vertailla kahta jatkuvaluonteista muuttujaa voit käyttää riippuvien otosten t-testiä (t-test (paired)), jos molemmat muuttujat noudattavat normaalijakaumaa. Jos toisen tai molempien jakauma on ei-normaalinen tai muuttujat ovat järjestysasteikollisia, tulee käyttää ei-parametrista Wilcoxonin testiä. t-test(paired) ja Wilcoxon löytyvät Variables-osion alta. 18 Valitse toinen muuttuja Y-variables listalta ja toinen X-variables listalta. Algorithms – kohdasta valitse oletusten voimassaolon perusteella joko t-test (paired) tai Wilcoxon. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05, merkitsee se että muuttujien välillä on eroja. Means kuvasta voi tarkistaa erojen suunnan. K UVA 20: T - TEST ( PAIRED ) JA M EANS KUVA Esimerkkidatassa on tilastollisia eroja Tyytyväisyydessä CRM systeemiin (Satisfaction with CRMsystem) ja Tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff) välillä (p = 0.000). Means-kuvasta voimme nähdä, että vastaajat olivat tyytyväisempiä palveluntarjoajan henkilökuntaan kuin CRM systeemiin. 4.3. Kaksi luokiteltua muuttujaa Jos haluat vertailla kahta muuttujaa keskenään, joista vähintään toinen on nominaaliasteikollinen ja toinen joko nominaaliasteikollinen tai järjestysasteikollinen, voit käyttää ristiintaulukointia 2 (Crosstabs) erojen etsimiseen ja Khii toiseen testiä (Chi ) muuttujien riippumattomuuden 2 testaamiseen. Crosstabs ja Chi löytyvät Compare groups - osiosta. 2 2 Kun käytät Chi testiä pidä huoli, että vastaajia on tarpeeksi. Chi testin oletukset ovat: enintään 20% odotetuista frekvensseistä saa olla pienempiä kuin 5 ja pienin odotettu frekvenssi ei saa olla 2 pienempi kuin 1. Jos nämä oletukset eivät toteudu, ei Chi testin tuloksiin voi luottaa. Tällöin käytä Pretreatment osion Recode Variable – toimintoa yhdistääksesi luokkien määrää pienempään. 19 Valitse sarakemuuttuja Y-variables listalta ja rivimuuttuja X-variables listalta. K UVA 21: C ROSSTABS TULOSTUS JA TAULUKKO KUVANA Kuvassa edellä näet valinnat kun haluat tehdä ristiintaulukoinnin. Esimerkkiaineistossa Ikä (Age) – muuttujan luokat ovat sarakkeella (Younger than 35 years, 35-44 years, 45-54 years ja 55 years or older), selitteiden alla näkyvät sarakkeiden havaintojen lukumäärät (N=...) ja rivimuuttujan Familiarity with the CRM system luokat (Not so good, Moderate ja Good) sarakeprosentteineen. Kuvassa voidaan vertailla visuaalisesti prosentteja ryhmittäin ja taulukossa numeroina. Punainen väri taulukossa kertoo, että kyseisen ryhmän prosenttijakauma (tai keskiarvo numeerisilla muuttujilla) eroaa tilastollisesti loppuaineistosta. Esimerkkiaineistossa nähdään että alle 35 vuotiaat kokevat CRM systeemin tutummaksi (Good) kuin vanhemmat. Vastaavasti vanhempien prosentuaalinen osuus on tilastollisesti suurempi niiden joukossa, jotka eivät koe CRM-systeemiä tutuksi (Not so good). Vastaava informaatio on luettavissa kuvasta oikealla. 2 Chi testi seuraavassa kuvassa näyttää että CRM systeemin tuttuus (Familiarity with the CRM system) ja ikä(Age) riippuvat toisistaan (p=0.018), eli käytännössä se, miten tuttuna kokee CRMsysteemin eroaa ikäryhmittäin. Nähdään että oletukset ovat voimassa: minimi odotettu frekvenssi on 13.55 ja ei yhtään (0 %) odotettua frekvenssiä ole pienempiä kuin viisi. Näin ollen voimme luottaa tulokseen. 20 2 Chi testillä voit testata luokkamuuttujien riippumattomuutta tilastollisesti. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05, tarkoittaa se, että muuttujat riippuvat toisistaan. Min Expected kertoo pienimmän odotetun frekvenssin ja Fraction < 5 kertoo kuinka monta prosenttia odotetuista frekvensseistä on pienempiä kuin 5. K UVA 22: C HI 4.4. 2 TESTI Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi ryhmämuuttuja 4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja Jos haluat tutkia yhden jatkuvan muuttujan eroja kahdessa ryhmässä käytä riippumattomien otosten t-testiä (independent samples) tai Mann-Whitneyn testiä riippuen siitä ovatko oletukset voimassa. t-testin oletukset ovat varianssien yhtäsuuruus (kts kappale 4.1) ja jakaumien normaalisuus kussakin ryhmässä. (kts kappale 3.6). Voit käyttää t-testiä vaikka jakauma olisi vain likimain normaalinen. Jos jakauma ei ole lainkaan normaalinen tai varianssit eivät ole yhtä suuret tai testattava muuttuja on järjestysasteikollinen, tulisi käyttää Mann-Whitneyn testiä. Molemmat testit löytyvät Compare groups - osiosta. Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli) ja jatkuva, normaalisesti jakautunut (tai vähintään likimain normaalinen) muuttuja X-variables listalta, ja t-test (independent samples) Algorithms - kohdasta. 21 Riippumattomien otosten t-testillä (independent samples) voit testata eroja kahden ryhmän välillä. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05 tarkoittaa se, että ryhmien välillä on eroja. K UVA 23: T - TEST ( INDEPENDENT SAMPLES ) Mann-Whitneyn testillä voit testata eroja kahden ryhmän välillä vaikka jakauma ei olisikaan normaalinen tai testattava muuttuja olisi järjestysasteikollinen. Jos p-arvo on pienempi tai yhtäsuuri kuin 0.05, on ryhmien välillä eroja. K UVA 24: M ANN -W HITNEYN TESTI JA B OX P LOT KUVA t-testin tuloksista näemme, että sukupuolten välillä on nähtävissä tilastollisia eroja (p=0.040 < 0.05) tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff), kuvan mukaan näemme, että naiset ovat tyytyväisempiä kuin miehet. Seuraavassa kuvassa sama testitilanne käyttäen Mann-Whitneyn testiä. Mann-Whitney antaa saman tuloksen (p=0.015) 22 4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja Jos haluat tutkia yhden jatkuvan muuttujan eroja kolmen tai useamman ryhmän välillä, käytä varianssianalyysiä (ANOVA). Muuttujan tulee noudattaa normaalijakaumaa (kts kappale 3.6) ja varianssien tulee olla yhtäsuuret (kts kappale 4.1). Jos normaalisuusoletus ja/tai varianssien yhtäsuuruusoletus ei ole voimassa tai testattava muuttuja on järjestysasteikollinen, tulee käyttää eiparametrista Kruskal-Wallisin testiä. Nämä testit löytyvät Compare groups osion alta. Valitse yli kaksiluokkainen kategorinen muuttuja Y-variables listalta (esimerkiksi ikäluokat ( Age)) ja jatkuva normaalisti jakautunut muuttuja X-variables listalta (esimerkiksi Satisfaction with CRM system), ja ANOVA Algorithms osiosta. ANOVA testillä voit testata eroja kolmen tai useamman ryhmän välillä. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05, eroaa ainakin yksi ryhmistä tilastollisesti muista. K UVA 25: ANOVA TESTI JA M EANS KUVA RYHMIEN KESKIARVOISTA Esimerkkiaineistossa ei ole tilastollisia eroja ikäryhmien välillä tyytyväisyydessä CRM-systeemiin (Satisfaction with CRM ) (p=0.149 > 0.05). 23 4.5. Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä Jos haluat tutkia mitkä jatkuvat tai järjestysasteikolliset muuttujat riippuvat toisistaan, käytä korrelaatioita eli Correlations. Tarjolla on kaksi korrelaatiota: Pearsonin tulomomenttikorrelaatiokerroin jatkuville normaalisesti jakautuneille muuttujille ja Spearmanin järjestyskorrelaatiokerroin järjestysasteikollisille tai ei-normaalisesti jakautuneille muuttujille. Valitse muuttujat, joiden korrelaatioita haluat tarkistella Y-variables - ja X-variables listoilta. Korrelaatiokertoimet vaihtelevat -1 ja 1 välillä. Tulkintaohjeena: älä raportoi korrelaatiota, jos se on itseisarvoltaan alle 0.3. Kuvassa oikealla on XY-plot, jonka avulla kahden muuttujan välistä riippuvuutta voidaan tarkastella. K UVA 26: C ORRELATION JA XY- PLOT KUVA Esimerkkidatassa Tyytyväisyys CRM-systeemiin (Satisfaction with CRM system) ja Tyytyväisyys palveluntuottajan (Satisfaction with Staff) henkilökuntaan välinen korrelaatio on voimakas ja positiivinen. Se merkitsee, että jos vastaaja on tyytyväinen henkilökuntaan hän on myös todennäköisesti tyytyväinen tarjottuun CRM-järjestelmään. Sama on nähtävissä myös oikealla XYplotissa. Kun pistejoukko on vasemmalta oikealle nouseva on kyseessä positiivinen korrelaatio ja kun pistejoukko on vasemmalta oikealle laskeva on kyseessä negatiivinen korrelaatio. 24 4.6. Reliabiliteetin laskeminen eli Cronbachin alpha Jos haluat tehdä useammasta muuttujasta yhden summamuuttujan (käyttäen joko summaa tai aritmeettista keskiarvoa), sinun tulisi tarkistaa summattavien reliabiliteetti. Se tarkoittaa, että mittaavatko muuttujat samaa asiaa. Tämän voit tehdä käyttäen Cronbachin alphaa. Se löytyy Multivariate osiosta. Cronbachin alpha vaihtelee 0 ja 1 välillä – mitä korkeampi arvo, sitä parempi reliabiliteetti. Tulkintaohjeena Cronbachin alphan pitäisi olla suurempi tai yhtä suuri kuin 0.7, jotta reliabiliteetti katsotaan hyväksi. Alpha if item deleted – kohdassa näet mikä muuttuja mahdollisesti huonontaa mittarin reliabiliteettia. Jos yksittäisen muuttujan perässä oleva alpha on suurempi kuin koko mittarin alpha, kertoo se, että kyseinen muuttuja huonontaa reliabiliteettia ja mikä alphan arvo olisi ilman kyseistä muuttujaa summamuuttujassa. K UVA 27: C RONBACHIN ALPHA NÄKYMÄ Esimerkkidatassa Cronbachin Alpha on 0.9619, mikä tarkoittaa erittäin hyvää reliabiliteettia. 25 4.7. Faktorianalyysi Faktorianalyysi on tilastollinen tekniikka, jota käytetään tiivistämään tutkittavien muuttujien määrää luomalla summamuuttujia ja löytämään muuttujien taustalla ilmeneviä ilmiöitä. Professional Statisticsin faktorianalyysi on luonteeltaan eksploratiivinen ja se löytyy Multivariate osiosta. Käytettävien muuttujien tulee olla numeerisia ja skaalallisia (mielellään myös normaalisesti jakautuneita, mutta jos tätä ei saavuteta, se ei ole kriittistä analyysin kannalta). Valitse muuttujat X-variables listalta, määrittele haluamasi määrä faktoreita (voit muuttaa määrän myöhemmin toiseksi, jos huomaat että faktoreita olisikin eri määrä), valitse metodi Analysis Method-kohdasta (oletuksena pääakselifaktorointi eli Principal Axis) ja rotatointimetodi Rotation method-kohdasta (oletuksena Varimax) ja sen jälkeen toteuta painamalla Compute-nappia. Huomaa että faktorianalyysi on Professional Statisticsissa ainoa menetelmä, joka käyttää verkkoa, joten siinä tarvitset internetyhteyttä. Faktorien määrä Analyysimetodi Rotatointimetodi Show partial correlations K UVA 28: F AKTORIANALYYSIN MÄÄR ITTELYT ‘Show partial correlations’ tuottaa osittaiskorrelaatiomatriisin, jos haluat tarkastella faktorirakennetta ja löytää mahdolliset muuttujat, joita rakenne ei kykene selittämään. Helpompi tapa tähän on tarkastella kommunaliteetteja (communalities) latausmatriisissa. ‘Show simplified Factor loading matrix’ piilottaa pienimmät lataukset latausmatriisista helpottamaan latausmatriisien tulkintaa (ne ovat edelleen mukana analyysissä, mutta eivät näy). Voit tallentaa saadut faktorit painamalla Save factors – painiketta. Factor scoring – kohdasta voit valita tallennusmetodin (oletuksena on regressiomenetelmä). 26 K UVA 29: F AKTORIANALYYSIN TULOKSET JA S CREE P LOT - KUVA Rotatoitujen faktorilatausten matriisi (Rotated factor loadings) näkyy keskellä . Näet muuttujat vasemmalla, Rotatoidut lataukset Factor-sarakkeissa ja kommunaliteetit (Communalities). Kommunaliteetit kertovat kuinka hyvin luotu faktorirakenne selittää yksittäisen muuttujan vaihtelua. Mitä suurempi kommunaliteetti sitä paremmin kyseisen muuttujan vaihtelua on kyetty selittämään. Ensimmäinen faktori, Factor 1, selittää 34.1 % kokonaisvaihtelusta, ja nähdään että kaikki SPmuuttujat (Service provider) ovat vahvasti latautuneita sille. Myös jotkut CRM-muuttujat ovat latautuneet sille suhteellisen vahvasti, mutta vastaavasti ne ovat latautuneet kuitenkin paremmin toiselle faktorille, joten emme ota niitä mukaan ensimmäiseen faktoriin. Ensimmäisen faktorin nimi voisi olla Tyytyväisyys palvelun tuottajan henkilökuntaan ’Satisfaction with service provider’s staff’. Toisessa faktorissa Factor2:ssa CRM-muuttujat saavat suurimmat lataukset, ja kolmannessa eli Factor 3:ssa Commitment-muuttujat latautuvat parhaiten. Joten toinen faktori voisi olla Tyytyväisyys CRM-systeemiin eli ’Satisfaction with CRM-system’ ja kolmas faktori Sitoutuneisuus eli ’Commitment’. Voit tallentaa faktorit painamalla Save Factors – painiketta, mikä antaa sinulle kolme standardoitua faktoria. (Standardointi tarkoittaa normaalijakaumaa, jonka keskiarvo on nolla ja varianssi 1). Standardoidut faktorit voivat olla vaikeita tulkita, joten toinen tulkinnallisesti helpompi tapa on käyttää Variable Math – funktiota Pretreatment – osiossa, ja tuottaa kunkin funktion kärkimuuttujista summamuuttujat. Esimerkiksi ’Satisfaction with service provider’s staff ’ olisi SP-muuttujien keskiarvo (SP-muuttujien summa/10 tai average-funktiolla vastaava). Kts tarkemmat ohjeet kappale 3.3. Kuva oikealla näyttää ominaisarvot (osoittamalla hiirellä taitekohtaa viivakuviossa näet kunkin faktorin ominaisarvon). Tyypillisesti analyysiin otetaan mukaan ne faktorit, joiden ominaisarvo yli 1, joten tämän avulla voit tarkistaa luotavien faktoreiden määrän. 27 4.8. Regressio Nähdäksesi kuinka hyvin kaksi tai useampi jatkuvaa muuttujaa selittää yhden jatkuvan muuttujan vaihtelua, käytä Regression (PLS) – analyysiä. Jos sinulla ei ole selkeää kuvaa siitä, mitkä muuttujat selittävät kyseisen muuttujan vaihtelua, voit käyttää askeltavaa analyysiä (Stepwise regression) apuvälineenä löytääksesi ne. Se ottaa selittäjän yksi kerrallaan mukaan malliin. Huomaa kuitenkin, että aina lopullinen malli on tehtävä ilman askellus-menetelmää eli ns. pakotettuna mallina, ja että askeltavan menetelmän antama malli voi erota pakotetusta mallista. Regressiomenetelmät löytyvät Multivariate-osiosta. Valitse selitettävä muuttuja Y-variable listalta ja selittävät muuttujat X-variables – listalta. K UVA 30: R EGRESSION (PLS) TULOKSET JA S AMMON MAP - KUVA Taulukossa näet lasketun mallin, b on regressionkerroin, beta standardoitu regressionkerroin, r korrelaatiokerroin, t on testisuure (mittaa kykeneekö kyseinen muuttuja selittämään selitettävää muuttujaa (Y-variable listan muuttuja) ja p merkitsevyys. Kuvassa oikealla näet Sammon map kuvan. Kun valitset vain merkitsevät p-arvot (p≤0.05), saat vain ne näkyviin kuvaan. Muuttujien välinen viiva kertoo näiden välisen korrelaation. Esimerkkiaineistossa selitettävä muuttuja on suositteluhalukkuus eli ’Commitment: Willingness to recommend’, ja selittäjinä ovat SP-muuttujat ja CRM-muuttujat. Taulukosta nähdään, että parhaat selittäjät ovat ’CRM: Overall visually appealing’, ’CRM: Modern’, ’CRM: Practical reporting functions’, ’SP: High overall quality’, ’CRM: Produces visually appealing materials’, ’CRM: Versatile reporting functions’ ja ’SP: Listens to customers’. Muut muuttujat eivät kyenneet selittämään suositteluhakukkuutta (p-arvot > 0.05). 28 4.9. Klusterointi Voit klusteroida aineistoasi manuaalisesti tai käyttäen hierarkkista klusterianalyysiä Professional Statisticsissa. 4.9.1. Manuaalinen klusterointi Jos haluat käyttää manuaalista klusterointia tuota aluksi XY-plot ja sitten rajaa kuvasta alue hiiren vasemmalla, klikkaa hiiren oikealla ja valitse aukeavasta valikosta ‘To cluster’. Input valikkoikkuna aukeaa, anna klusterille nimi ja paina OK. K UVA 31: M IELENKIINTOISEN K UVA 32: J ÄÄNNÖSTEN ALUEEN VALITSEMINEN JA N IMEÄMINEN NIMEÄMINEN 29 Vastaavasti jatka rajaamalla muut klusterit. Viimeisen klusterin nimeäminen käy klikkaamalla hiiren oikealla vielä valitsemattomien havaintojen kohdalla ja valitsemalla Rename a cluster. Rename a cluster - ikkuna avautuu, kirjoita Old name – kohtaan: 1 ja sitten nimeä loput New name - kohtaan . Esimerkin kuvista tulee kaksi klusteria: Not satisfied ja Others. Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ – systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle. 4.9.2. Hierarkkinen klusterianalyysi Jos haluat klusteroida aineistosi käyttäen hierarkkista klusterianalyysiä, valitse Multivariate ja Algorithms osiosta Clustering. Valitse muuttujat X-variables listalta. Huomaa että muuttujien tulee olla jatkuvia tai dikotomisia (mikä tarkoittaa muuttujaa joka saa arvoja 0 ja 1). K UVA 33: K LUSTERIANALYYSIN TUL OKSET Esimerkkiaineistossa näet Anova testin, joka testaa onko luotujen klustereiden välillä tilastollisia eroja mukana olevien muuttujien suhteen. Clu 1 mean-, Clu 2 mean- ja Clu 3 mean- sarakkeissa näet muuttujien keskiarvot kussakin klusterissa. Näiden avulla klustereiden nimeäminen on helpompaa. Huomaa, että jos loit vain kaksi klusteria, täytyy klusterien välisiä eroja testata riippumattomien otosten t-testillä tai Mann-Whitneyn testillä. Anova ei ole silloin oikea testi vaikka se taulukkoon ilmestyykin. Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ – systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle. 30
© Copyright 2025