TILP260 8. demot kevät 2012 Tehtävä 6. PISA-tutkimuksen monivaiheinen otanta Ositettu otanta Ositteina Ahvenanmaa, Uusimaa, Etelä-, Väli-, Itä- ja Pohjois-Suomi. Ositetun otannan avulla varmistetaan, että tutkimukseen valikoituu kouluja ympäri Suomea. Esim. yksinkertaisella satunnaisotannalla Ahvenanmaa jäisi todennäköisesti otoksen ulkopuolelle. PPS-ryväsotanta Tutkimukseen tulevat koulut valittiin ositteiden sisällä ryväsotannalla painottamalla kouluja niiden oppilasmäärillä. Ryväsotannalla vähennetään tiedonkeruun kustannuksia; tutkitaan kerralla aina koko koulu (tai siis max 35 oppilasta sieltä) eikä vain satunnaisesti arvottuja oppilaita eri kouluista. PPS takaa sen, että kaikilla oppilailla on sama todennäköisyys tulla valituksi. (Isossa koulussa oppilaalla pieni todennäköisyys tulla mukaan, mutta koululla on suuri todennäköisyys) Systemaattinen otanta Valituista kouluista valittiin 35 oppilasta otokseen käyttäen systemaattista otantaa. Jos 15-vuotiaita oli alle 36, otettiin kaikki. Systemaattinen otanta on yksinkertainen toteuttaa oppilaslistan mukaan. Tehtävät 7 & 8. Alkuhuomautus: risuaita eli # tekee R:ssä kommentin, eli jättää sen jälkeiset asiat huomiotta, lukijaa helpottanee, jos ottaa risuaidan jälkeiset asiat huomioon kaupungit <- read.table("http://users.jyu.fi/~nataanko/kaupunkidata.txt", header=true) kaupungit # mitä datassa on, viimeistä muuttujaa ei nyt itseasiassa käytetä Kaupunki Asukasluku Osite "Jyväskylä" 130816 1 "Jämsä" 22691 1 "Keuruu" 10666 1 "Saarijärvi" 10580 1 "Viitasaari" 7174 1 "Äänekoski" 20243 1 "Hankasalmi" 5542 0 "Joutsa" 5053 0 "Kannonkoski" 1577 0 "Karstula" 4507 0 "Kinnula" 1821 0 "Kivijärvi" 1364 0 "Konnevesi" 2963 0 "Kuhmoinen" 2554 0 "Kyyjärvi" 1508 0 "Laukaa" 18142 0 1
"Luhanka" 831 0 "Multia" 1919 0 "Muurame" 9256 0 "Petäjävesi" 4022 0 "Pihtipudas" 4563 0 "Toivakka" 2418 0 "Uurainen" 3455 0 # data sisältää ensin kaupungit aakkosjärjestyksessä, ja sitten muut aakkosjärjestyksessä # tasainen otantakiintiö: molemmista ositteista otetaan 8/2=4 kuntaa: # menetelmiä vertaillaksemme otetaan 2000 otosta simuloimalla ja # lasketaan jokaisesta otoksesta koko maakunnan asukasluvun estimaatti kokoast <- NULL # luo tyhjän vektorin asukasluvun estimaatteja varten kokootost <- list() # luo listan otoksia varten for(i in 1:2000){ otosk <-sample(1:6, 4, replace=false) otosm <-sample(7:23, 4, replace=false) # tekee tätä silmukkaa (aaltosulkujen sisällä olevat) 2000 kertaa # arpoo kaupungeista neljä # arpoo muista neljä kak <-mean(kaupungit$asukasluku[otosk]) # laskee asukaskeskiarvon otoksen kaupungeista kam <-mean(kaupungit$asukasluku[otosm]) # laskee asukaskeskiarvon otoksen ei-kaupungeista kokootost[[i]] <- c(otosk,otosm) kokoast[i] <- 6*kaK+17*kaM } # ottaa koko otoksen talteen listaan # ottaa asukasluvun estimaatin talteen vektoriin # suhteellinen otantakiintiö: # otoksessamme on 8/23 = 0.348 osuus kaikista Keski-Suomen kunnista, # joten otetaan molemmista ositteista noin 35 % kunnista # kaupungit: 6*8/23 = 2.086957, eli kaksi kaupunkia # muut: 17*8/23 = 5.913043, eli kuusi muuta # tämä tekee samat kuin äsken, ihan pienellä muutoksella (juuri se ero tasa- ja suhdekiintiöinnin välillä) kokoass <- NULL kokootoss <- list() for(i in 1:2000){ otosk <-sample(1:6, 2, replace=false) otosm <-sample(7:23, 6, replace=false) # arpoo kaupungeista kaksi # arpoo muista kuusi kak <-mean(kaupungit$asukasluku[otosk]) kam <-mean(kaupungit$asukasluku[otosm]) kokootoss[[i]] <- c(otosk,otosm) kokoass[i] <- 6*kaK+17*kaM } 2
# Esimerkkiotokset molemmista kiintiöineistä (tätä oikeastaan kysyttiin!) kaupungit$kaupunki[kokootost[[1]]] # se ensimmäinen arvottu # Keuruu Jyväskylä Viitasaari Saarijärvi Petäjävesi Karstula Kyyjärvi Uurainen kaupungit$asukasluku[kokootost[[1]]] # 10666 130816 7174 10580 4022 4507 1508 3455 # estimaatti asukasluvulle: 6*mean(c(10666,130816,7174,10580))+17*mean( c(4022,4507,1508,3455)) # 296195 kokoast[1] # 296195 # suhdekiintiöinti kaupungit$kaupunki[kokootoss[[1]]] # Äänekoski Jyväskylä Kyyjärvi Laukaa Kinnula Luhanka Joutsa Muurame kaupungit$asukasluku[kokootoss[[1]]] # 20243 130816 1508 18142 1821 831 5053 9256 # estimaatti asukasluvulle: 6*mean(c(20243, 130816))+17*mean( c(1508,18142,1821,831,5053,9256)) # 556908.2 kokoass[1] # 556908.2 # Nyt siis tasainen kiintiöinti osui paremmin (oikeastaan todella hyvin) kohdalleen # Menetelmien vertailua # on tehty siis molemmilla tavoilla 2000 kertaa estimointia # nyt siis todellakin tarkoitus vain vertailla menetelmiä, pelkkää # estimointia tehdäksemme olisi paljon viisaampaa ottaa mukaan vain kaikki Keski-Suomen kunnat min(kokoast); min(kokoass) #97181.25 83454.17 max(kokoast); max(kokoass) #436011.8 580600.5 # vaihteluväli suhteellisellä kiintiöinnillä suurempi, etenkin yläraja median(kokoast); median(kokoass) #306720.5 180966 # tasaisella kiintiöinnillä mediaani lähellä oikeaa arvoa # suhteellisella kiintiöinnillä mediaani todella kaukana oikeasta arvosta sd(kokoast); sd(kokoass) #90903.52 167936.8 3
Frequency 0 200 400 600 Frequency 0 100 200 300 400 500 600 1e+05 2e+05 3e+05 4e+05 5e+05 6e+05 # hajonta suhteellisella kiintiöinnillä paljon suurempaa mean(kokoast); mean(kokoass) #270722.7 274459 # keskiarvot molemmissa lähellä oikeaa tasakiintiöinti suhdekiintiöinti Tasakiintiöinti Suhdekiintiöinti 1e+05 2e+05 3e+05 4e+05 asukasluku 1e+05 3e+05 5e+05 asukasluku Histogrammit ovat mielenkiintoiset: nähdään, että suhteellisella kiintiöinnillä ei saada koskaan oikeaa arvoa lähellä olevia estimaatteja, vaan siinä kohdin pylväitä ei ole ollenkaan! Jyväskylä vaikuttaa estimaattien arvoihin todella paljon, ja sen valikoituminen otokseen on harvinaisempaa suhteellisessa kiintiöinnissä, ja kun Jyväskylä sattuu otokseen, on sillä suuri vaikutus kaupunkien keskiarvoon (suuri keskiarvo) ja sitä kautta myös koko maakunnan asukasluvun estimaattiin (suuri arvo). Nähdään suhteellisen kiintiöinnin jakaumassa kaksi erillistä jakaumaa, jotka varmastikin johtuvat Jyväskylästä (enemmän estimaatteja, jotka antavat liian pienen arvon). Tasaisella kiintiöinnillä näkyvissä myös kaksihuippuisuutta, mutta nyt Jyväskylä ei dominoi ihan yhtä paljon kuin suhteellisessa kiintiöinnissä, ja saadaan myös oikeaa arvoa lähellä olevia estimaatteja (vaikkakin aika vähän). 4
200 210 220 230 240 250 260 R-tehtävä vaste <-c(228, 207, 234, 220, 217, 228, 209, 221, 204, 220, 203, 219, 218, 245, 210, 211, 220, 211, 233, 219, 233, 226, 228, 216, 225, 200, 208, 198, 208, 203, 250, 237, 217, 206, 247, 228, 245, 232, 267, 261, 221, 219, 232, 209, 255) ryhmä <- gl(3,15) boxplot(vaste~ryhmä) # kolmas ryhmä voisi erota muista shapiro.test(vaste[ryhmä==1]) #p-value = 0.4816 shapiro.test(vaste[ryhmä==2]) #p-value = 0.5363 shapiro.test(vaste[ryhmä==3]) #p-value = 0.846 # isoja p-arvoja, eli normaalia on sd(vaste[ryhmä==1]); sd(vaste[ryhmä==2]);sd(vaste[ryhmä==3]) 1 2 3 # 11.58735, 11.51066, 18.77105 # viimeisellä ryhmällä kyllä isompi hajonta tulos <- aov(vaste~ryhmä) tulos summary(tulos) # tulos tilastollisesti merkitsevä (p=0.001397), joten testin mukaan # Kudzu-kasvin syöminen vaikuttaa luuntiheyteen # parittaiset vertailut: TukeyHSD(tulos) # kolmas ryhmä eroaa muista, sen ryhmän rotilla, joka söi suuria annoksia # Kudzu-kasvia on korkeampi luuntiheys 5