Yksinkertaista estimointia 1 Asetelmapainoa ja myöhemmin aivan vastaavalla tavalla muita otospainoja voidaan käyttää otosaineiston estimoinnissa. Tämä on periaatteessa varsin yksinkertaista jos kyse on piste-estimaatista. Otossurveyden tyypillisiä kiinnostuksen kohteita ovat totaali eli kokonaissumma tai kokonaismäärä ja keskiarvo, mutta toki myös monet muut kuten mediaani ja muut kvantiilipisteet. Huomaa, että kenties kaikkein käytetyin tunnusluku suhteellinen frekvenssi on luonteeltaan keskiarvo (esim. jos koodattu 1=kiinnostuksena oleva kategoria, 0=muut). Niinpä totaalin τ estimaatti tulosmuuttujalle y on yksinkertaisesti asetelmapainoilla t a y painotettu summa yli otoksen s k k Kaikki ohjelmistot antavat oikean tuloksen, kun muistaa laittaa mukaan painomuuttujaksi oikean painon. Ohessa painoa on merkitty a:lla mikä aluksi on asetelmapaino mutta käytännössä eli vastaajien aineistossa sen suoraviivainen muunnelma eli peruspaino. Myöhemmin tarkastelemme parempia painoja. Laskentatapa on silti sama. 99 s
Yksinkertaista estimointia 2 Vastaavasti voidaan laskea keskiarvon estimaatti jakamalla totaali painojen summalla eli kyseessä on tavallinen painotettu keskiarvo. ak y s y Piste-estimaattien lisäksi on siis välttämätöntä tuottaa myös ak väliestimaatteja (en vaadi kokeessa näiden yksityiskohtia s mutta voit osoittaa pätevyytesi silti). Lähtökohtana on estimoida piste-estimaatille varianssi ja sen jälkeen ottamalla tästä neliönjuuri saadaan keskivirhe ja edelleen tästä voidaan edetä luottamusväleihin. Varianssiestimaatin peruskaava y:n totaalille voidaan esittää muun muassa seuraavassa muodossa: var( t) ( fns 2 ay) Tässä s 2 (ay) on tavallinen otosvarianssi sulkeissa olevalle muuttujalle (siis otospainon ja tulosmuuttujan tulomuuttujalle) laskettuna siis otoksesta, ja f on äärellisen perusjoukon korjauskerroin = (N-n)/N, joka voidaan isommissa perusjoukoissa jättää huomioimatta. Lisäksi keskivirheeseen vaikuttavat ryvästys ja ositus mutta niiden tekniikkaa en tarkemmin käsittele. Ohjelmat hoitavat soveltajalle asian. 100
Yksinkertaista estimointia 3 Jos otanta-asetelma perustuu ositteisiin, niin lauseke on muodostettava kullekin ositteelle erikseen, vaikkei niissä ole sovellettu erilaista asetelmaa. Tämä johtuu siitä että kussakin ositteessa otos poimitaan riippumattomasti toisen ositteen poiminnasta. Tämä riippumattomuus toisaalta helpottaa jatkoa sillä koko totaalin varianssi saadaan yksinkertaisena ositevarianssien summana. Sama ei päde keskiarvon varianssiestimaatille. Siis keskiarvon varianssiestimaatti ei ole ositteiden varianssiestimaattien summa. Jos tavoiteperusjoukon koko N on tunnettu, niin keskiarvon varianssiestimaattori ositetussa otannassa on ositteiden totaalien varianssien summa jaettuna N 2 :lla. 2 _ f Ja yleisenä kaavana: hnhsh ( ay) h var( y) 2 N [n korvataan r:llä vastanneiden datassa, myös edellä] Huomaa kuitenkin, että piste-estimaatti on suoraan tuotettavissa vaikka sisältymistodennäköisyys ja sitä kautta asetelmapaino perustuisi ositteisiin ja yhteen tai useampaan asteeseen tai vaiheeseen. Käyttäjä siis vain sisällyttää oikean painomuuttujan analyysiin eikä hänen siis tarvitse perusteellisesti tietää miten se on muodostettu. 101
Näkökohta joka unohtui edeltä: Käytetään myös termiä implisiittinen ositus, missä tapauksessa ei siis eksplisiittisesti määritellä ositteita ja poimita niiden sisältä otosta, kutakin riippumattomasti. Vaan implisiittisyys syntyy siitä, että aineisto on jossain järjestyksessä tunnettujen muuttujien mukaan, kuten ainakin alueen ja usein myös iän ja ehkä sukupuolen tai perheen=osoitteen. Jos poiminta on tasavälistä, syntyy otos jossa on melko tarkasti samoissa suhteissa havaintoja noiden implisiittisten ositusmuuttujien mukaan. Käytännössä siis sisältymistodennäköisyydet ovat lähes samoja. Tätä voi käyttää hyväksi myös estimoinnissa. Painot voisi hyvä heti peruspainovaiheessa laskea sopivasti muodostettujen explisiittisten ositteiden mukaan, siis käyttäen implisiittisen osituksen muuttujia tyyliin: w h = N h /r h missä h on esimerkiksi sopiva alue tai alueen ja ikäryhmän muodostama osite. 102
Otosaineiston estimointi käytännön kannalta Otanta on siis sitä yksinkertaisempi, mitä vähemmän asteita tai vaiheita siinä on. Ositus ei lisää piste-estimoinnin monimutkaisuutta mutta varianssiestimointiin se vaikuttaa. Osittamisesta voidaan tuottaa oma DEFF jos halutaan, jolloin nähdään pienentääkö se keskivirhettä vai suurentaako se sitä. Ihmissurveyssä osittamisen vaikutus ei yleensä ole suuri mutta yrityssurveyssä on, erityisesti jos ositus perustuu yrityksen kokoon kuten yleensä on asianlaita. Otosten poimintaa helpottavat ohjelmat, kuten SAS:n SurveySelect, hoitavat otannan tekniikan jos tietää mitä haluaa, mutta ei useampiasteisessa (- vaiheisessa) otannassa yhdellä kertaa, vaan on edettävä aste (vaihe) kerrallaan ja hoidettava näiden yhteenveto itse. Eli ei asia hoidu täysin automaattisesti. Vastaavasti analyysivaiheessa, johon on käytettävissä SAS:n SurveyMeans, SurveyFreq ja SurveyLogistic ja SPSS:n vastaavat modulit Complex Samples kohdasta, ohjelma ymmärtää hyvin yhden ryvästymisen muttei kahta, se on varianssiestimoinnin kannalta hoidettava itse. Piste-estimointihan hoituu oikeaa painoa käyttämällä. Yksi ositus ohjelmistoissa on onneksi mukana. Puuttuneisuuden erityispiirteitä nämä ohjelmat eivät hoida automaattisesti. 103
Perusestimointi 1 Mallivaihtoehtoja survey-datalla tai muilla datoilla on niin paljon, etten tässä yritäkään kattaa koko kirjoa. Siksipä havainnollistan kolmella erilaisella analyysitypillä (ml. mallityypillä) ja erikompleksisilla datoilla, miten survey ja nimenomaan otossurvey vaikuttaa analyysiin. Ensimmäinen analyysityyppi on perusestimointi, joka voi tuottaa piste- ja väliestimaatteja koko tutkimusperusjoukolle kerrallaan tai sen osajoukoille tai osaryhmille. Englanninkielessä osaryhmiä kutsutaan sanalla domain mikä on myös ohjelmistoissa usein käytetty (tämä vastaa mallissa selittäjää). Yleiset periaatteet, jotka sopivat myös muille malleille: - Otospainojen käyttämättömyys takaa, että piste- ja väliestimaatteihin tulee harhaa, mutta sen suuruus ei aina ole valtaisa. Otospainon tulee myös olla oikea eli kuhunkin tilanteeseen parhaiten soveltuva. Analyysipaino on usein kätevämpi jos estimoidaan suhteita ja muita rakenteita, muttei totaaleja (henkilömääriä, rahasummia tms.). - Muut otanta-asetelman ja sen jälkeen tehdyt toiminnot on syytä myös sisällyttää analyysiin (ositus, ryväs, ryväskoko, haastattelija), jos suinkin mahdollista eli jos on ohjelmisto tähän tarkoitukseen olemassa. Tämä takaa paremman onnistumisen väliestimoinnissa (keskivirheet, luottamusvälit, p- arvot, virhemarginaalit, varianssiestimaatit; suhteellisina tai absoluuttisina). 104
Perusestimointi 2 Aloitetaan esimerkeillä joissa ei ole ryväsvaikutusta ja käytännössä siis vain tilanteista joissa keskivirheestä ei erityisemmin huolehdita vaan pyritään siis piste-estimaatin hyvään tuottamiseen. Tämä siis vaatii vain sen, että ohjelmaan asetetaan (sopiva) painomuuttuja. ESS-datassa on siis painomuuttujana DWEIGHT jonka keskiarvo kussakin maassa on = 1. Suomen ja muutaman muun maan integroidussa datassa kaikki painot ovat valitettavasti = 1 eli painomuuttujalla ei ole vaikutusta suhteellisiin tuloksiin. Jos haluaa estimoida määriä, on muodostettava oma paino mutta en tässä niin tee. Tein ajon onnellisuus = happy-muuttujalle jolloin poistin puuttuvat tiedot ennen tätä SAS-ajoa (Valitsin muutaman maan): proc means n mean stderr; class cntry essround; var happy ; weight dweight; run; 105
Perusestimointi 3 The MEANS Procedure Analysis Variable : HAPPY How happy are you ESS Country round N Obs N Mean Std Error DK 1 1506 1489 8.3243788 0.0368602 2 1487 1481 8.3119514 0.0369210 3 1505 1490 8.3261745 0.0361135 4 1610 1603 8.3674361 0.0334804 EE 2 1989 1978 6.2654196 0.0463131 3 1517 1484 6.7843666 0.0508161 4 1661 1644 6.6995134 0.0482318 FI 1 2000 1995 8.0300752 0.0327635 2 2022 2018 8.0564916 0.0313781 3 1896 1894 8.0036959 0.0327051 4 2195 2191 8.0187129 0.0305431 RU 3 2437 2390 6.0125917 0.0465232 4 2512 2475 6.1861183 0.0437582 SPSS:n ohjelmissa paino asetetaan kohdasta weight cases ennen kuin mennään itse ohjelmaan. Osiossa Complex Samples on laajempia mahdollisuuksia. 106
Perusestimointi 4 Report SPSS:llä onnistuin saamaan seuraavan tuloksen käyttäen Compare means-osiota. Tässä on sukupuoli mukana, edellisessä ESS-kierros. Tulkitse tulokset ml. katsoen tilastollisesti merkitsevät erot. How happy are you Country Gender Mean N Std. Error of Mean DK 1 8,32 3003,025 2 8,35 3059,026 Total 8,33 6062,018 EE 1 6,42 2152,043 2 6,66 2954,037 Total 6,56 5106,028 FI 1 7,87 3898,023 2 8,17 4200,021 Total 8,03 8098,016 RU 1 6,15 2041,049 2 6,07 2820,042 Total 6,10 4861,032 Total 1 7,39 11094,018 2 7,41 13033,018 Total 7,40 24127,013 Perusestimointiin otanta-asetelman puitteissa palataan puuttuneisuus- jakson jälkeen. 107
Puuttuneisuus 1 Tässä tunnettujen survey-tutkijoiden Bob Grovesin ja Mick Couperin kirjan pohjalta modifioimani kuvaus vastaamistilanteesta käyntihaastattelussa. Surveyn organisoijan kontrolloitavissa EI KYLLÄ Yhteiskunnallinen ja sosiaalinen ympäristö - Survey-ilma sto - Taloudellise t ehdot - Verkostoituminen Survey-asetelma - Aihe - Organisointi- ja hallinnointitapa - Tekniikka - Vastaajien valinta Vastaajakandidaatti - Rakenne (esim. kotitalous, yritys) - Sosio-demograafise t tekijät - Psykologinen asenne - Vastausrasite Haastattelija - Sosio-demograafise t tekijät - Kokemus/Osaaminen - Odotukset Haastateltavan ja haastattelijan vuorovaikutus ja keskinäinen luottamus Päätös osallistua tai kieltäytyä (osittain tai kokonaan) 108
Mitähän tästä puuttuu? Vastaus löytyy kun selailet eteenpäin. 109
Vastauskadon ja muun puuttuneisuuden syyt 1 Seuraavassa esitän eri lähteistä kokoamani luokittelun vastauskadon sekä muun puuttuneisuuden syille tai taustatekijöille. Luokittelun koodit ovat mahdollisimman pitkälle ongelman esiintymis- tai ilmaantumisjärjestyksen mukaisia. 0. Peittävyysongelmista johtuva puuttuneisuus: tämä on numeroitu 0:lla siksi, että se on hieman eri kategoriassa kuin tätä seuraavat syyt. Kysymys on alussa esitetyistä ylipeitosta ja alipeitosta, jotka on hyvä nähdä edelleen puuttuneisuuden lajeiksi. Ylipeitto on suhteellisen ongelmaton jos se havaitaan ja vastaavasti käsitellään oikein. Mutta alipeitto on oleva aina hyvin kiusallinen, erityisesti jos siihen ei saada otetta. Usein ylipeitto kertoo myös alipeitosta jotakin eli siis siitä, kuinka puutteellinen käytetty kehikko oli eli ali- ja ylipeiton suuruusluokka voi olla sama, mutta yleensä nämä kehikkovirheet kohdistuvat hyvin erilaisiin osaryhmiin (kuolleet vs. syntyneet; ulosmuuttaneet vs. sisäänmuuttaneet; exit vs. entry). 110
Vastauskadon ja muun puuttuneisuuden syyt 2 1. Osoite- tai muu yhteystieto ei ole oikea eikä vastaajaa tavoiteta missään tapauksessa. Yksikkövastauskato sattuu siis väistämättömästi. Tällöin ei ehkä tiedetä onko kohde enää tavoiteperusjoukon jäsen, joten kyse voi olla myös ylipeitosta. 2. Vastaajakandidaatti on väliaikaisesti tavoittamattomissa mutta häntä ei tavoiteta useista yrityksistä huolimatta tiedusteluun käytettävissä olevan ajan kuluessa. Ongelmat ovat suurin piirtein samat kuin edellisessä, mutta usein voidaan helpommin saada selville kuuluuko yksikkö vielä tavoiteperusjoukkoon. 3. Vastaajakandidaatti tavoitetaan mutta tämä on osittain tai kokonaan kykenemätön antamaan vastauksia tai ei halua niitä antaa. Syynä voi olla myös kieli- tai muu yhteydenpito-ongelma vastaajan tai haastattelijan välillä. Monet kyselyt, myös yrityskyselyt, ovat hyvin monimutkaisia, eivätkä kaikki kykene vaivattomasti antamaan oikeita tietoja. Seurauksena on täydellinen vastaamattomuus eli yksikkövastauskato, tai osittainen vastaamattomuus eli erävastauskato. Myös raportointivirheitä esiintyy mutta niihin on usein vaikea päästä kiinni. 111
Vastauskadon ja muun puuttuneisuuden syyt 3 4. Vastaajakandidaatti kieltäytyy osallistumasta tiedusteluun. Kieltäytyminen voi olla laadultaan tiukempi tai pehmeämpi. Syyt näihin voivat olla hyvin moninaiset mutta niihin ei tässä tarkemmin puututa. Tiukka kieltäytyjä ei tavallisesti vastaa mihinkään kysymykseen (yksikkövastauskato), mutta pehmeämpi antaa joitakin vastauksia tai kieltäytyy vain herkistä kysymyksistä (erävastauskato). Toisaalta herkät kysymykset voisi toteuttaa niinkin anonyymisti siten ettei edes haastattelija tiedä vastauksia. Tämä tapahtui ennen tietokoneaikaa tiputtamalla vastaukset vaaliuurnaan mutta nykyään voitaisiin ne näpytellä suoraan tietokoneelle. 5. Epäkelpo vastaus joko kokonaan tai osittain, mikä havaitaan jälkikäteisessä tarkastuksessa ja tapaus katsotaan parhaaksi sijoittaa vastauskadoksi. Tähän ryhmään voidaan sijoittaa myös muut edellä esiintymättömät tapaukset, kuten vastauksen katoaminen tai atkkäsittelyssä sattunut erehdys, joita ei toki saisi tulla. Myös tiedonkeruulaitteen rikkoutuminen voisi olla syy sisällyttää puuttuneisuus tähän ryhmään (esim. liikennevirtatutkimuksissa näin tapahtuu aika usein). 112
Vastauskadon ja muun puuttuneisuuden syyt 4 6. Yhteystieto vastaajasta taustatietoihin kadotetaan, johtuen vastaajan yksilöintitunnuksen katoamisesta jommallakummalla puolella (siis otoskehikkotiedostossa tai keruutiedostossa) tai että jommassakummassa on virhe eikä tietoja voida yhdistää. Tätä ongelmaa ei juuri voi olla käyntihaastatteluin tehdyissä tutkimuksissa mutta sen sijaan postitiedusteluissa on hyvinkin mahdollinen (ja usein tahallinen). Seurauksena on puutteellinen analyysi. 7. Epäselvät tapaukset, kuten epäselvyys siitä, onko kyseessä vastauskato vai ylipeitto. Vastaajan kykenemättömyys vastata (syy 3) tai pitkäaikainen poissaolo esimerkiksi ulkomailla voi oikeuttaa sijoittamaan tapauksen joko vastauskatoon tai ylipeittoon. Vastaavasti voidaan tarkentaa tavoiteperusjoukon ja sitä kautta tutkimusperusjoukon käsitettä. 113
Vastauskadon ja muun puuttuneisuuden syyt 5 8. Vastaus ei koske tutkimusyksikköä. Tämä ongelma on yleisempi yritystiedusteluissa kuin kotitaloustiedusteluissa, ja koskee lähinnä monitoimipaikkaisia kotimaisia ja vielä enemmän kansainvälisiä yrityksiä. Tässä on kaksi tyypillistä tilannetta: (i) saadut tiedot koskevat vain osaa toimipaikkoja, (ii) tiedot koskevat isompaa joukkoa, kuten toimipaikkakyselyssä koko yritystä tai yrityskyselyssä koko konsernia. Kummatkin ongelmat ovat erityishankalia eriteltäessä kansainvälisen yrityksen toimintaa tietyssä maassa. 9. Tarkoituksellinen puuttuneisuus. Aina ei ole järkevää kohdistaa tiettyjä tiedustelun osasia kaikille, vaan ottaa otos. Tilanne on tavallisin silloin, kun itse kysymyspatteristo on hankala mutta itse kysymysaihio ei ole kyselyn keskeisin. Osa-aineistosta tiedot saatetaan vastaavasti saada paremmin, koska tiedonkeruuoperaatiot voidaan resurssien puitteissa kohdistaa sinne paremmin. Myös voidaan osalle kohteista antaa suppeampi lomake jolloin tietty osa tiedoista jää puuttumaan. Yritystiedusteluissa pienille yrityksille annetaan monissa maissa suppeampi lomake kuin isoille (esim. tarkat kuluerittelyt kysytään vain isoilta). 114
Puuttuneisuuden mittaaminen 1 Kun aineisto koottu (tai myös jossain välivaiheessa), ja puuttuneisuus on koodattu siten, että kaikki erilaiset tapaukset (ks. edellinen luettelo, jolle voi tuottaa survey-spesifejä alajakoja) ovat eroteltavissa, niin on järkevää ryhtyä myös tuottamaan siitä lukuja sopivia mittareita käyttäen. Luvut ovat tässä vaiheessa laatumittareita, joita on kiintoisaa verrata aikaisempiin mahdollisiin saman alan surveyhin esimerkiksi. Kuten kaikkia lukuja, näitäkin voidaan tuottaa - absoluuttisina ja suhteellisina (rate, logit ym). En nyt käsittele tarkemmin absoluuttisia, koska oletan niiden olevan selviä kaikille. Suhteellisista luvuista yleensä, katso Liite 1. Ja tässä yhteydessä seuraavilta sivuilta jotka sisältävät puuttuneisuuden ydinmittarit. 115
Puuttuneisuuden mittaaminen 2 (1) Aloitan perussuhdeluvuista (rates), jolloin puuttuneisuus suhteutetaan riskijoukon määrään, mikä (i) yksinkertaisimmassa vaihtoehdossa toteutetaan ilman painoja - yksikkövastauskadon tapauksessa on tavoiteperusjoukkoon kuuluvien tutkimusyksiköiden määrä (merkitty havaintomatriisissa n:llä, siis ei ylipeittoa n(d) ) - erävastauskadon tapauksessa yksikkötason vastanneiden määrä ( r ). Näin ollen siis kokonaisvastausaste = r/n. Ylipeittoluku taas suhteutetaan n + n(d) -lukuun. Erävastausasteet ovat siis kullekin muuttujalle erikseen, nimittäjänä luku r. Kaikki luvut on hyvä tuottaa myös vastaamattomuuden syyn mukaan. Tavallisesti tällöin käytetään kolmea pääryhmää: tavoittamattomat, kieltäytyneet ja muut. Voidaan myös tuottaa kokonaisvastaamattomuuslukuja, jolloin muodostetaan yksikkövastauskadon ja erävastauskadon sopiva summa ja suhteutus n:ään. (ii) monimutkaisemmassa vaihtoehdossa painojen kanssa Samat luvut kuin edellä mutta painot ovat laskennassa mukana: - joko asetelmapainot tai asetelmapainojen ja jonkin yksikön tärkeyttä kuvaavan x-muuttujan yhdistelmä. Jälkimmäinen on hyödyllinen yrityssurveyssä, jolloin vastaamattomuus painotetaan yrityksen kokomuuttujalla. Silloin ilmenee puuttuneisuuden vaikuttavuus myös. 116
Puuttuneisuuden mittaaminen 3 (2) Perussuhdeluvut taustatekijöiden mukaan, jolloin edellä esitetyt luvut lasketaan erilaisissa taustaryhmissä. Yksikkövastauskadon tilanteessa nämä ovat x-muuttujia, mutta erävastauskadon tapauksessa myös sellaiset y-muuttujat joissa ei ole puuttuvuutta (tai on vähemmän puuttuvuutta) voivat tulla kyseeseen. Esimerkiksi - henkilösurveyssä sukupuoli, ikäryhmä, alue, koulutus, - yrityssurveyssä toimiala, yrityksen koko, alueellinen sijainti (rekisterin mukaan). (3) Monimuuttuja-analyysi jolloin vastausindikaattori (R=1 jos vastannut, =0 jollei) on selitettävänä muuttujana ja selittäjinä sellaisia joista kaikki tiedot ovat käytettävissä. Tähän tarkoitukseen sopivia malleja ovat erityisesti: - Logistinen (eli Logit-) regressio - Probit-regressio (katso myös Cloglog ja loglog Liitteestä). Monimuuttuja-analyysi on mitä hyödyllisin yksinkertaisten perustunnuslukujen laskemisen lisäksi. Pyri aina siihen, jos sinulla on useampia x-muuttujia käytettävissä. Huomaa, että oikeaoppisin tilanne on sellainen, jossa mallissa käytetään otospainoa (yksikkövastauskadon mallittamisessa asetelmapainoa, erävastauskadon mallittamissa peruspainoa). 117
Puuttuneisuuden mittaaminen 4 - Esimerkkejä 1a Ensin erävastauskato viiden muuttujan patterissa ESS-kierroksella 2. Vastaava harjoitus kierrokselta 4 luennolla demona käyttäen 5 opiskelijan valitsemia muuttujia. Tässä kullekin muuttujalle on tehty vastausindikaattori siten että jos muuttujan arvo on yli 10, niin arvo = 0, muuten = 1. Siis eri puuttuneisuuden ryhmät on yhdistetty. Analysoi ja Vertaa tuloksia tältä ja seuraavalta sivulta! Erävastauskato Suomessa ESS:n muutamassa muuttujassa kierroksella 2 23 Obs R happyres stfliferes stfecores stfgovres stfdemres COUNT PERCENT 1 0 0 0 0 0 0 1 0.0495 2 0 0 0 1 1 1 1 0.0495 3 0 0 1 1 0 1 1 0.0495 4 0 0 1 1 1 1 1 0.0495 5 0 1 0 0 0 0 1 0.0495 6 0 1 1 0 0 0 15 0.7418 7 0 1 1 0 0 1 3 0.1484 8 0 1 1 0 1 0 8 0.3956 9 0 1 1 0 1 1 8 0.3956 10 0 1 1 1 0 0 17 0.8408 11 0 1 1 1 0 1 21 1.0386 12 0 1 1 1 1 0 31 1.5331 13 1 1 1 1 1 1 1914 94.6588 118
Puuttuneisuuden mittaaminen 5 - Esimerkkejä 1b Erävastauskato ESS:n muutamassa muuttujassa kierroksella 2 25 Obs R happyres stfliferes stfecores stfgovres stfdemres COUNT PERCENT 1 0 0 0 0 0 0 32 0.0673 2 0 0 0 0 1 0 1 0.0021 3 0 0 0 0 1 1 3 0.0063 4 0 0 0 1 0 0 4 0.0084 5 0 0 0 1 0 1 2 0.0042 6 0 0 0 1 1 0 1 0.0021 7 0 0 0 1 1 1 13 0.0273 8 0 0 1 0 0 0 18 0.0379 9 0 0 1 0 0 1 5 0.0105 10 0 0 1 0 1 0 6 0.0126 11 0 0 1 0 1 1 9 0.0189 12 0 0 1 1 0 0 9 0.0189 13 0 0 1 1 0 1 14 0.0295 14 0 0 1 1 1 0 13 0.0273 15 0 0 1 1 1 1 157 0.3303 16 0 1 0 0 0 0 46 0.0968 17 0 1 0 0 0 1 5 0.0105 18 0 1 0 0 1 0 7 0.0147 19 0 1 0 0 1 1 12 0.0252 20 0 1 0 1 0 0 10 0.0210 21 0 1 0 1 0 1 3 0.0063 22 0 1 0 1 1 0 18 0.0379 23 0 1 0 1 1 1 69 0.1452 24 0 1 1 0 0 0 450 0.9466 25 0 1 1 0 0 1 188 0.3955 26 0 1 1 0 1 0 193 0.4060 27 0 1 1 0 1 1 485 1.0203 28 0 1 1 1 0 0 525 1.1044 29 0 1 1 1 0 1 973 2.0468 30 0 1 1 1 1 0 1163 2.4465 31 1 1 1 1 1 1 43103 90.6725 119
Puuttuneisuuden mittaaminen 6 - Esimerkkejä 2a Koska ESS:stä ei ole yksikkövastauskatotietoja käytettävissä, teen monimuuttujamallin jossa selitettävänä on sellainen vastausindikaattori R, joka = 1 jos henkilö vastasi kaikkiin edellä esitettyihin viiteen kysymykseen ja = 0 jos johonkin vastausta ei tullut. Seuraavassa tulostusta logistisella regressiolla. Kokeile myös probitilla. Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq CNTRY AT 1 1.1826 0.0869 1.0123 1.3530 185.06 <.0001 CNTRY BE 1 2.1670 0.1257 1.9206 2.4134 297.09 <.0001 CNTRY CH 1 1.6931 0.1018 1.4937 1.8926 276.78 <.0001 CNTRY CZ 1 1.2457 0.0803 1.0883 1.4030 240.75 <.0001 CNTRY DE 1 1.8518 0.0962 1.6632 2.0404 370.38 <.0001 CNTRY DK 1 1.5107 0.1120 1.2912 1.7301 182.06 <.0001 CNTRY EE 1 0.9064 0.0830 0.7437 1.0691 119.22 <.0001 CNTRY ES 1 1.2058 0.0976 1.0145 1.3971 152.59 <.0001 CNTRY FI 1 1.9396 0.1126 1.7189 2.1604 296.63 <.0001 CNTRY GB 1 1.7189 0.1064 1.5103 1.9274 260.86 <.0001 CNTRY GR 1 1.8924 0.1010 1.6944 2.0905 350.84 <.0001 CNTRY HU 1 1.7758 0.1181 1.5443 2.0074 225.97 <.0001 CNTRY IE 1 1.5366 0.0949 1.3506 1.7225 262.33 <.0001 CNTRY IS 1 1.2826 0.1571 0.9747 1.5905 66.65 <.0001 CNTRY LU 1 0.6014 0.0868 0.4313 0.7715 48.00 <.0001 CNTRY NL 1 2.2358 0.1287 1.9835 2.4880 301.75 <.0001 CNTRY NO 1 2.6659 0.1639 2.3447 2.9870 264.66 <.0001 CNTRY PL 1 1.3889 0.1006 1.1918 1.5860 190.79 <.0001 CNTRY PT 1 1.7964 0.1037 1.5931 1.9998 299.82 <.0001 CNTRY SE 1 1.5841 0.1029 1.3824 1.7858 236.93 <.0001 CNTRY SI 1 1.1068 0.0989 0.9131 1.3006 125.37 <.0001 CNTRY SK 1 1.1385 0.1000 0.9426 1.3345 129.66 <.0001 CNTRY TR 1 0.9441 0.0872 0.7733 1.1149 117.36 <.0001 CNTRY UA 0 0.0000 0.0000 0.0000 0.0000.. 120
Puuttuneisuuden mittaaminen 7 - Esimerkkejä 2b Jatkoa edelliseen (analysoi tulosta): Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq agegr 15 1-0.0501 0.1139-0.2734 0.1731 0.19 0.6598 agegr 20 1 0.5923 0.0983 0.3996 0.7851 36.27 <.0001 agegr 28 1 0.7347 0.0861 0.5660 0.9035 72.82 <.0001 agegr 40 1 0.7959 0.0807 0.6378 0.9540 97.35 <.0001 agegr 55 1 0.6931 0.0757 0.5447 0.8414 83.82 <.0001 agegr 63 1 0.5434 0.0697 0.4069 0.6799 60.86 <.0001 agegr 70 0 0.0000 0.0000 0.0000 0.0000.. MARITAL 1 1 1.2570 0.4089 0.4557 2.0584 9.45 0.0021 MARITAL 2 1 0.9113 0.4298 0.0688 1.7538 4.49 0.0340 MARITAL 3 1 1.1410 0.4141 0.3294 1.9527 7.59 0.0059 MARITAL 4 1 0.7132 0.4115-0.0934 1.5198 3.00 0.0831 MARITAL 5 1 1.1333 0.4098 0.3301 1.9366 7.65 0.0057 MARITAL 7 1 0.1009 0.4717-0.8235 1.0254 0.05 0.8305 MARITAL 8 1-0.3832 0.6012-1.5615 0.7950 0.41 0.5238 MARITAL 9 0 0.0000 0.0000 0.0000 0.0000.. activity disabled 1-0.4342 0.1679-0.7633-0.1051 6.69 0.0097 activity education 1 0.2505 0.1356-0.0152 0.5162 3.42 0.0646 activity employed 1 0.2546 0.1198 0.0198 0.4895 4.51 0.0336 activity housework 1-0.2443 0.1276-0.4943 0.0058 3.67 0.0555 activity missing 1-0.5706 0.4603-1.4728 0.3316 1.54 0.2151 activity other 1-0.5475 0.1630-0.8669-0.2280 11.28 0.0008 activity retired 1 0.0463 0.1315-0.2114 0.3041 0.12 0.7246 activity unemployed1 1 0.0201 0.1442-0.2625 0.3027 0.02 0.8891 activity unemployed2 0 0.0000 0.0000 0.0000 0.0000.. 121
Puuttuneisuuskuvan vastaus löytyy täältä. Mitä siis puuttui? Kuva on Canberran survey-tutkimuslaitoksen läheltä 122
Puuttuneisuuden mekanismit 1 Surveyhin osallistuminen, mieluiten korkealla tasolla tai ainakin siten että osallistumattomuus olisi mahdollisimman harmitonta on luonnollisesti tavoitteena. Tästä ilmiöstä käytetään nimeä mekanismi (mechanism). Se voidaan käsitellä joko positiivisesta suunnasta tai negatiivisesta suunnasta, mitkä kumpikin johtavat käytännössä samaan tulokseen. Positiivisesti ajatellen puhutaan vastausmekanismista (response mechanism), kun taas toisin päin ajatellen joko puuttuneisuusmekanismista tai vastaamattomuusmekanismista. Mekanismin luonteen hahmottaminen on hyvin tärkeä tietää kun lähdetään imputointiin ja uudelleenpainotukseen. Jos ja kun sitä ei hyvin tiedetä, joudutaan tekemään mahdollisimman hyvät oletukset sen luonteesta. Seuraavassa esitetään tärkeimmät perinteiset käsitteet tältä alueelta. Esitän ne tässä ilman kaavoja. Jos kiinnostaa, löydät helposti vastaavat kaavoina. 123
Puuttuneisuuden mekanismit 2 Puuttuneisuus on täysin satunnaista, MCAR (Missing Completely At Random): Tällöin siis puuttuneisuus on täysin satunnaista tai ajatellaan sellaiseksi vaikka ei olisikaan. Puuttuneisuus ei siis riipu mistään muuttujista (xeikä y-) tilastollisesti merkitsevästi. Näin monissa survey-tutkimuksissa valitettavasti toimitaan. Puuttuneisuus satunnaista otanta-asetelman puitteissa, MARS (Missing At Random Under Sampling Design): Tällöin puuttuneisuus riippuu vain otanta-asetelman muuttujista. Tyypillisin tilanne lienee se, että oletetaan ositetun otannan tapauksessa että ositteiden sisällä puuttuneisuus on satunnaista muttei ositteiden välillä. Tämä on edellistä paljon järkevämpi oletus. Jos otannassa on hyvä ositus, myös riittävän laaja ja ottaa huomioon odotettavissa olevan puuttuneisuuden, niin tämä strategia voi olla oikeinkin hyvä. 124
Puuttuneisuuden mekanismit 3 Puuttuneisuus on satunnaista ehdollisesti MAR (Missing At Random) Huomaat että en ole kääntänyt MAR:ia suoraan vaan laittanut ehdollisuuden mukaan. Tämä on edellisen täydennys. Nyt oletetaan että puuttuneisuus riippuu (tai voi riippua) sekä otanta-asetelman muuttujista että muista mahdollisista saatavissa olevista apumuuttujista X. Tämä strategia tarkoittaa käytännössä sitä, että puuttuneisuus mallitetaan ja mallin tulosta käytetään hyväksi imputoinnissa ja uudelleenpainotuksessa. Puuttuneisuus ei ole satunnaista MNAR (Missing Not At Random) Käytännön elämässä ei voida kuvitella että kaikki puuttuneisuus voidaan selittää eli jäljelle jää epäsatunnaista puuttuneisuutta. Toki tämän osuuden soisi olevan mahdollisimman vähäistä ja näin onkin jos riittävä valikoima apumuuttujia löytyy puuttuneisuutta mallittamaan. Faktamuuttujien osalta mallittaminen on yleensä helpompaa kuin asennemuuttujien osalta. 125
Puuttuneisuuden mekanismit 4 Näitä käsitteitä esitetään myös muissa muodoissa kuin edellä, ja MARS puuttuu kokonaan, koska on oma täydennykseni. Tämän käsitteen tarpeellisuus on mielestäni ilmeinen, koska usein luonnostaan toimitaan niin, että puuttuneisuus voidaan hahmottaa otanta-asetelman sisäisenä asiana. Tyypillinen esimerkki on ositettu otanta, jolloin ensivaiheessa melkein automaattisesti oletetaan, että puuttuneisuus on satunnaista ositteiden sisällä, muttei välttämättä ositteiden välillä. Ensimmäinen puuttuvuuden laji MCAR on harvoin toteutuva mutta toki sen pohjalta on hyödyllistä tehdä esimerkiksi imputointeja, ainakin siksi, että saisi alustavan näkökulman tilanteeseen. Otanta-asetelmassa kannattaa huomioida puuttuneisuuden vaihtelu. Siis kannattaa allokoida brutto-otos eli alkuperäinen otos mieluiten ottaen huomioon odotettavissa oleva vastauskato ja muu puuttuneisuus. Jos tämä vielä realisoituu käytännössä, niin MARS on voimassa. Huom. Kaikki eivät käytä aktiivisti em. termejä. Sanat informatiivinen (eli sellainen jota voidaan selittää) vs. epäinformatiivinen ovat myös käytetyt. 126