Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei tarvita. 54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tehtävässä 30 havaittiin, että muuttujien tulotaso ja koulutus välinen korrelaatiokerroin oli sen verran suuri, että muuttujien välillä voidaan katsoa olevan vahvaa positiivista lineaarista riippuvuutta. Muodosta nyt yhden selittäjän lineaarinen regressiomalli (Analyze Regression - Linear), jossa selität tulotaso-muuttujan (Dependent) vaihtelua koulutus-muuttujan (Independent) avulla. Tulkitse mallisi tulokset: Mikä on mallin selitysaste (= Model Summary taulukossa, R Square)? Millainen on malli? (Regressiokertoimet = Coefficients-taulukon B-sarake) ^ tulotaso = x koulutus Mallin tulkinta: 55. Muodosta vastaava regressiomalli kuin tehtävässä 54, mutta käytä vain Länsi-Suomen läänin kuntia (Linear-proseduurissa Selection Variable Rule ). Tulkitse tulokset. Millainen on malli? = x Eroavatko mallit toisistaan paljon? Tarkastellaan sitten aineistoa kyselya. Nyt on kyseessä otanta-aineisto, joten tilastollista päättely varten testejäkin käytetään. 56. Yhden selittäjän lineaarisen regression lisäksi tutkaillaan mallin sopivuutta ja tilastollista merkitsevyyttä: Harjoituksissa 4 havaittiin, että kaikkien määrällisten muuttujien (pituus, paino, kengännumero, vaaksan pituus) välillä on tilastollisesti erittäin merkitsevää lineaarista riippuvuutta. Muodosta
paras yhden selittäjän lineaarinen regressiomalli, jolla selitetään kengännumeron vaihtelua (Mikä muuttuja korreloikaan eniten kengännumeron kanssa?). Tutki myös muodostamasi mallin jäännösten eli residuaalien (e i = y i ŷ i ) jakaumaa kuvien avulla, jotka saat Linear-proseduurin Plots-lisävalinnoilla Histogram ja Scatter > X: ZPRED ja Y:ZRESID Tulkitse mallisi tulokset: Millainen on malli? = x Ovatko regressiokertoimet tilastollisesti merkitseviä (= Coefficients-taulukon Sig-sarake)? Mallin tulkintaa: Miltä residuaalit vaikuttavat: Onko residuaalien jakauma normaalijakauma? Onko residuaalien keskiarvo 0? Onko residuaalien varianssi samanlainen eri ennustearvoilla (=homoskedastisuus)? 57. Muodostetaan laadullisesta muuttujasta dummy-muuttuja. Muodostetaan sellainen kahden selittäjän lineaarinen regressiomalli, jossa selittäjinä on yksi määrällinen ja yksi laadullinen muuttuja: Muodosta ns. dummy-muuttuja eli apumuuttujan sukupuolesta siten, että dummy-muuttujan arvo on 1, jos kyseessä on mies ja 0, jos kyseessä on nainen (esim. Transform-Recode Into Different Variables). Tee uusi malli kengännumeron selittämiseen niin, että lisäät pituuden lisäksi regressiomalliin selittäjäksi dummy-muuttuja. Tulkitse mallisi tulokset. Millainen on malli? = x x Ovatko regressiokertoimet tilastollisesti merkitseviä (= Coefficients-taulukon Sig-sarake)? Miten malli tulkitaan? Entäs residuaalit?
58. Tehdään selvitys siitä, onko yksisuuntaisen varianssianalyysin oletukset kunnossa. Tehdään yksisuuntainen varianssianalyysi, jotta voidaan vertailla kolmessa (tai useammassa) ryhmässä laskettuja määrällisen muuttujan keskiarvoja populaatioissakin: Tarkoitus olisi testata yksisuuntaisella varianssianalyysillä, onko kengännumeron keskiarvot yhtä suuret eri kotipaikoista kotoisin olevilla opiskelijoilla. Ensin pitäisi kuitenkin tarkistaa, onko kengännumeron jakauman olla normaalijakauma (tai edes symmetrinen) kussakin ryhmässä, jotta varianssianalyysi antaisi luotettavan tuloksen keskiarvojen eroista. Millainen on kengännumeron jakauma eri kotipaikkaryhmissä? 1 : 2 : 3: Ja koska varianssianalyysin oletukset ovat kunnossa, niin muodosta yksisuuntainen varianssianalyysi (Compare Means One-way Anova), jossa vertailet opiskelijoiden kengännumeron (Dependent) keskiarvoja kotipaikka-muuttujan eri luokissa (Factor). Vielä pitäisi tarkistaa, että kussakin ryhmässä kengännumeron varianssin on sama (valinta Option Statistics - Homogeneity of Variance Test). Tulosta näkyviin kuva (Options Means plot), jossa esitetään kengännumeron keskiarvot kotipaikkaryhmissä sekä taulukkoesitys ryhmien perustunnusluvuista (Options Statistics-Descriptives). Tulkitse analyysin tulokset. Jos keskiarvoilla on eroa, tutki tarkemmin Post Hoc lisävalinnalla (esim. Tukeyn testillä), mitkä ryhmät ovat samankaltaisia. otoskeskiarvot ovat: otoskeskihajonnat ovat: tilastoyksiköitä on Varianssitestissä H 0 : 1 2 = 2 2 = 3 2 ja H1 : ainakin yksi i 2 eroaa muista Levenen varianssitestissä F-testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään merkitsevyystasolla eli variansseja voidaan pitää. Varianssianalyysissä H 0 : µ 1 = µ 2 = µ 3 ja H 1 :. ANOVA-taulukon F-testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään merkitsevyystasolla eli keskiarvoja voidaan pitää. Post Hoc testituloksia:
59. Tehdään Mann-Whitneyn U-testi kahden ryhmän vertailemiseksi, koska kahden riippumattoman otoksen keskiarvotestin oletukset eivät ole kunnossa: Painoindeksi suhteuttaa painon ja pituuden, ja se voidaan laskea jakamalla paino (kiloina) pituuden (metreinä) neliöllä. Muodosta painoindeksimuuttuja (Transform-Compute Variable) Tutki, millainen on painoindeksin jakauma miesten joukossa. Entä naisten joukossa? Ja valitse tämän jälkeen sellainen testi, jonka avulla voit testata, onko opiskelijamiesten painoindeksi jakaumaltaan samanlainen kuin opiskelijanaisilla (Analyze Nonparametric Tests Legacy Dialog 2 Independent Samples). (Kahden riippumattoman otoksen keskiarvotesti ei siis käy. Miksi?) Tulkitse tuloksesi. Tee aiheesta vielä laatikko-viikset-kuvio. Testissä H 0 : painoindeksijakaumat ovat sijainneiltaan samanlaiset miehillä ja naisilla H 1 : painoindeksijakaumat eivät ole sijainneiltaan samanlaiset miehillä ja naisilla. Mann-Whitneyn-testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään 60. Tehdään Kruskal-Wallisin H-testi usean ryhmän vertailemiseksi, koska varianssianalyysin oletukset eivät ole kunnossa: Tarkoitus olisi testata, onko opiskelijoiden painon jakauma samanlainen eri vuosina. Tutki ensin, millainen on painon jakauma eri vuosina. Jatka sitten sopivalla testillä, jotta voit testata, onko vuosittainen painojakauma samanlainen. (Varianssianalyysi ei käy. Miksi?) Tulkitse tuloksesi. Muodosta aiheesta vielä laatikko-viiksetkuvio. Testissä H 0 : painojakaumat ovat sijainneiltaan samanlaiset eri vuosina ja H 1 : painojakaumat eivät ole sijainneiltaan samanlaiset eri vuosina. Kruskal-Wallisin testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään
Tarkastellaan vielä aineistoa kyselyb. 61. Aineiston tiivistäminen tekemällä keskiarvomuuttuja: Tiivistetään aineistoa: aineiston kaksi muuttujaa: Suomeen pitäisi rakentaa lisää ydinvoimaa ja Nykyisten ydinvoimaloiden toimilupia pitäisi rajoittaa mittaavat opiskelijan suhtautumista ydinvoimaan. Muodostetaan näiden muuttujan arvoista keskiarvomuuttuja /jos se on järkevää/. Ensin: käännä ensin toimiluparajoitus-muuttuja päinvastaiseen muotoon, tekemällä uusi muuttuja Nykyisten ydinvoimaloiden toimilupia EI pitäisi rajoittaa seuraavasti: vanha arvo uusi arvo 1 5 2 4 3 3 4 2 5 1 Sitten: tutki Cronbachin alfa tunnusluvulla, ovatko Suomeen pitäisi ja Nykyisten EI pitäisi yhteismitallisia (Analyze Scal -Reliablity Analysis). Ja lopuksi muodosta keskiarvomuuttuja (Transform-Compute Variable) (jos Cronbachin alfa on suurempi kuin 0.6) laskemalla yhteen muuttujien Suomeen pitäisi ja Nykyisten EI pitäisi arvot ja jakamalla summa luvulla 2 (koska kaksi termiä on yhteenlaskussa mukana). Aineistoon muodostui siis keskiarvomuuttuja (kohdellaan määrällisenä, vaikka alkuperäiset muuttujat ordinaaliasteikkoa), jonka arvo on pieni, jos opiskelija suhtautuu positiivisesti ydinvoimaan. Arvo on suuri silloin, kun opiskelija suhtautuu negatiivisesti ydinvoimaan. 62. Käytä edellisen tehtävän tuloksena saatua keskiarvomuuttujaa, kun tutkit ja testaat, ovatko eri vuosien opiskelijat suhtautuneet ydinvoimaan samalla tavalla.