Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!).

Transkriptio

1 Uudelleenpainotus 1 Kertaus: Otospaino kuvaa sitä kuinka monta tilastoyksikköä yksi otosyksikkö vastaa tutkimusperusjoukossa joka toivon mukaan on lähellä tavoiteperusjoukkoa. Jos paino on yksi, on taustalla kokonaistutkimus, osite josta kaikki on valittu tai erityishavaintoarvo. Tällaisia painoja on useinkin yhteisötyyppisissä tiedusteluissa eli jos esimerkiksi kaikki isot yritykset ja kunnat ovat mukana otoksessa. Kotitaloustyyppisissä tiedusteluissa painot ovat hyvinkin isoja, satoja tai tuhansia tai jopa kymmeniä tuhansia. Siten yksi vastaaja edustaisi perusjoukossa painon ilmoittaman määrän yksikköjä. Ideaalitilanteessa kaikki hänen edustamansa yksiköt olisivat samanlaisia kuin hän, silloin saataisiin täysin luotettava tulos. Näin ei tietenkään juuri koskaan ole. Mutta vaihtelun tässä alaryhmässä tulisi ainakin olla pientä eli painon edustaman ryppään tulisi olla mahdollisimman homogeeninen. Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!). 152

2 Uudelleenpainotus 2 (b) Perusotospainot tai lyhyemmin peruspainot jotka vastaavat edellisiä painoja mutta nyt toimitaan vain vastaajien tasolla. Näiden avulla laskettavat t estimaatit tit ovat oikealla tasolla ja luotettavia, tt jos vastaamattomuus on harmitonta eikä kehikko-ongelmia ole (vastaa siis mekanismia MARS). Käytetään näistä painoista kuitenkin eri symbolia, w k, joka on esimerkiksi i ositetun t satunnaisotannan t tilanteessa t (kun n h vaihdetaan r h :een) w k =N h /r h On hyvä huomata, että tämä saadaan otanta-asetelmapainosta seuraavasti: w k =a k (n h /r h ) Painojen summa kussakin ositteessa on sama kuin asetelmapainoilla laskettuna. Painojen jakauma pysyy samana mikäli ylipeiton ja vastaamattomien summa on kussakin ositteessa suhteellisesti sama. Siten siis jos vastauskadon ja ylipeiton summa vaihtelee, myös painojen jakauma muuttuu. 153

3 Uudelleenpainotus 3 (c) Jälkiositukseen perustuva painotus (post-stratification). Tässä tapauksessa uusinta kehikkoa hyväksikäyttäen y muodostetaan uusi ositus (jos on jo esiositus niin sen päälle), jossa tavoitellaan löytää mahdollisimman homogeenisia osajoukkoja. Siis käytetään päivitettyä kehikkoa jos sellainen on olemassa mutta toimintaa voi toki toteuttaa myös alkuperäiselle kehikolle, jolloin harhan oikaiseminen on rajoitetumpaa. Jälkiositustiedon kehikosta tulisi olla laadukasta, muutoin menetelmä voi heikentää estimaattien tarkkuutta. Tavallisimmin jälkiositus perustuu helposti saatavissa oleviin taustamuuttujiin kuten kotitaloussurveyssä alueeseen, ikään, sukupuoleen ja ehkä sosioekonomisen aseman karkean muotoon. Yrityssurveyssä voidaan mennä esimerkiksi esiositusta tarkemmalle toimialatasolle. Jälkiositus on erityisesti kehikkovirheestä johtuvan harhan oikaisumenetelmä, mutta usein se myös oikaisee vastauskadosta johtuvaa harhaa. Sen avulla voidaan myös tarkentaa estimaatteja mutta taattua onnistuminen ei ole. 154

4 Uudelleenpainotus 4 Teknisesti jälkiosituspaino toimii seuraavasti tilanteessa jossa on jo esiositteet h (h=1,..,h). Merkitään jälkiositteita vaikkapa g:llä (g=1,,g). Jälkiositus voidaan tehdä vain esiositteiden sisälle, eli jälkiositteita on maksimissaan H*G kappaletta. Jos tätä otospainoa merkitään w k (post), niin se saadaan vastaavalla tavalla kuin esiosituspohjainen paino eli w k (post)= N hg /r hg Kuten kaavasta havaitaan, jälkiosituksen ehtona on tuntea perusjoukon koko N hg esi- ja jälkiositteiden muodostamissa soluissa. Jollei näitä tietoja ole riittävän luotettavasti saatavissa, ei jälkiositusta voi tehdä. Käytännössä harvoin jälkiositus voidaan pienotosongelmista johtuen toteuttaa siten, että kaikki H*G ositetta lopulta tulee käyttöön. Siis osaan esiositteista ei toteuteta jälkiositusta. Jälkiositus on helpommin mahdollista, jos esiositteita on vähän tai varsinaista esiositusta ei ole ollenkaan, tai siis on vain yksi kappale, kuten yksinkertaisen satunnaisotannan tai implisiittisen osituksen tapauksessa. 155

5 Jälkiositusesimerkki Historiatietoisuus Suomessa, bruttootos Osite Väestö määrä Bruttootoskoko Asetelma paino Fi_Other , Fi_Young ,592 Sv_Other ,9574 Sv_Young , Jälkiosite ikäryhmä*sukupuoli*kieli Ikäryhmä Sukupuoli Kieli Väestö Jälkiositettu Vastanneet otospaino Bruttootos Vastausprosentti ylipeitto mukana fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , Tämä on alkuosaltaan sama kuin aikaisemmin esitetty osite-esimerkki mutta vasemmassa taulukossa ovat myös asetelmapainot. Alempi tilanne on fiktiivinen jossa olen kuvitellut vastausaktiivisuuden vaihtelevan tietyllä tavalla. Olen sitten tutkinut vastanneiden aineistoa ja muodostanut 12 jälkiositetta. Näiden jälkiositteiden vastausaktiivisuus ilmenee taulukon oikeasta sarakkeesta. Vastaavasti olen laskenut rekisteristä kunkin jälkiositteen väestömäärät minkä jälkeen onkin helppo muodostaa painot. 156

6 Uudelleenpainotus 5 (d) Kalibrointi joka on jälkiosituksen laajennus eli jälkiositus on kalibroinnin perusmuoto. Kehikkoperusjoukkotason muuttujia voi olla useita eikä niitä tarvitse soveltaa ristiinluokittelemalla kuten jälkiosituksessa. Ristiinluokittelun ongelmanahan ovat usein liian pienet solut, mitattuna vastaajien määrillä. Vastaavasti painot voivat olla liian epäluotettavia. Kalibroinnin mukavin puoli on siinä, että sen avulla voidaan tietyt reunajakaumat (sellaiset jotka käyttäjä valitsee) määritellä juuri halutuiksi, mieluiten oikeiksi, jos sellaiset on tiedossa. Tavallisimmin tätä sovelletaan siten että surveystä saadaan väestön karkeat ikäjakaumat isohkoilla aluejaoilla sukupuolittain viimeisimmän väestötilaston (eli benchmark-aineiston) aineiston) mukaiseksi. Tämä luo luottamusta käyttäjissä. Muilla tasoilla ei yhteensopivuutta kuitenkaan voida taata kuin sellaisilla jotka on kalibrointimalliin sijoitettu. 157

7 Uudelleenpainotus 6 Kalibrointi voidaan toteuttaa minkä tahansa muun painotuksen pohjalle, jos ja kun toiminto toteutetaan riippumattomasti niistä. Olkoot seuraavassa nämä painot w. Jos vastaavasti kalibroituja otospainoja merkitään w(cal): lla, niin seuraava kalibrointiyhtälö täytyy päteä: x = k U xk w(cal) r k U Siis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossaon on saatava samat estimointitulokset benchmark-totuuden kanssa eli käyttäjän valitsemien reunajakaumien mukaiset estimointitulokset. On varsin helppo päätellä, että löytyy useita vaihtoehtoja yhtälön toteutumiselle. Siksi täytyy löytää lisäehtoja ja mielellään sellaisia joista on hyötyä varsinaiseen estimointiin eli y- muuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapa malliestimaatteihin. Klassinen lähestymistapa on käyttää etäisyysmittaa. Tässä muodostetaan etäisyysmitta aloituspainojen ja haluttujen painojen välille ja minimoidaan se siten että edellä mainittu ehto pätee. Siten siis painot ovat sellaiset että erot aloituspainojen ja kalibroitujen painojen välillä ovat tietyssä mielessä mahdollisimman pienet eli alkutila ei muutu liikaa mutta benchmark-etu saavutetaan eli tietyt estimaatit ovat sellaisia kuin käyttäjä on halunnut Painotusmenetelmät 2009, Seppo 158

8 Uudelleenpainotus 7 (e) Vastauskatomalliin (response propensity modelling) perustuva uudelleenpainotus. Tässä mallitetaan vastausmekanismi logistisella tai probitregressiolla, mallista otetaan ennustearvot kullekin vastaajalle ja näiden käänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopiva skaalaus. Oletuksena on siis että vastausmekanismi on MAR. Menetelmä toimii sitä paremmin mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta (siis koskien sekä vastanneita että vastaamattomia yksikkötasolla). Yleensä aputietoa tähän on enemmän käytettävissä kuin esimerkiksi jälkiositukseen, joka edellyttää perusjoukkotason agregoitua aputietoa. Tämä on menetelmän selkeä etu. Etuna on myös, että se suoraan pureutuu vastauskatoon. Itse käyttäisin tätä ainakin isoissa otoksissa, sehän voi sisältää parhaimmillaan myös jälkiosituksen ja/tai kalibroinnin. Huomaa, että pieniin aineistoihin, erityisesti isoja yrityksiä koskeviin, ei oikein mikään painotusmenetelmä sovi hyvin. Imputointi olisi parempi. 159

9 Uudelleenpainotus 8 Teknisesti vastaustodennäköisyysmallia hyödyntävä painotus toteutetaan seuraavasti. Koska tämä on riippumaton muista uudelleenpainotuksista, menetelmä voidaan toteuttaa mihin aikaisempaan painoon tahansa kytkettynä. Olkoon seuraavassa meillä ensin paino w k ja logistinen regressio antoi kullekin vastaajalle k estimoidut vastaustodennäköisyydet p k. Tällöin uudet painot saadaan seuraavasti: w k (res)= (w k /p k )q c, jossa q c = skaalaustekijä, jonka avulla painot täsmäytetään halutun benchmark-ryhmän ryhmän c tasolle. Tämä on usein helpointa tehdä ositustasolla (esiositus jollei jälkiositusta ole tehty, muuten jälkiositus) mutta voim myös muuta kalibrointia soveltaa. 160

10 Uudelleenpainotus 9 - Keskustelua 1 ESS:ssä on tällä hetkellä käytössä asetelmapaino-nimellä kulkeva skaalattu paino. Se ei vastaa minun asetelmapaino-käsitettäni, vaan kysymys on osin perusotospainosta tai sen keskiarvoistetusta versiosta eli analyysipainosta. On mahdollista, että paremmat painot tulevat käyttöön jos testausprojektit tuottavat riittäviä tuloksia. Nämähän voidaan melko helposti tuottaa jos on käytössä eri maiden väestötiedot (eli 15-vuotiaiden määrät) ikäryhmän, sukupuolen, alueen ja koulutustason mukaan (tämä on maksimimäärä mitä on kokeiltu). Uudet painot saadaan vertaamalla alkuperäisten painojen antamia tuloksia näihin oikeisiin tietoihin ja tämän jälkeen tehdään suhteellinen muunnos painoihin eli ositustyyppinen kalibrointi. Vastaustodennäköisyyksiä olisi myös mahdollista hyväksi käyttää, muttei kaikissa maissa, koska ne eivät kykene antamaan vastaamattomista hyödyllistä aputietoa (samat muuttujat kuin edellä ja mielellään vaikkapa talouden koosta jotain tai mitä vain vastaamattomuutta selittävää löytyy). Yritän vaikuttaa siihen, että tällaista t tietoa t kerättäisiin. ii Suomesta, Ruotsista, t ym. sellaista löytyy aika paljon rekistereistä, kysymys on vain vaivannäöstä että se linkattaisiin brutto-otokseen. 161

11 Uudelleenpainotus 10 - Keskustelua 2 Edellä esitetyt näkökohdat sopivat melkoisen moniin muihinkin surveyhin. Apumuuttujia pitäisi hankkia tarkoituksella aineistoihin, jotta puuttuvuutta ensin analysoitaisiin ja sitten siitä saatava informaatio liitettäisiin uuspainoihin. Käyttäjän kannalta hyvien ja huonojen painojen kanssa toimitaan pääosin samalla lailla, ainakin piste-estimoinnissa. Siten käyttäjän tulisi vaatia kunnon painoja, vaikkei osaisi sanoakaan miten ne on paras milloinkin tuottaa. Ilman vaativia käyttäjiä ei parannusta muutoinkaan synny. Ole siis tiukkana vastaanottamasi datan kanssa. Olen ollut itseni kanssa ainakin toistaiseksi tiukkana kun olen rakentanut otantatiedostoja uhritutkimukseen ja historiatutkimukseen. Tiedät että käytössä on oleva paljon apumuuttujia. Nyt on sitten porukallamme haaste hyödyntää ne hyvin. Keväällä 2010 olemme menestyksemme kanssa viisaampia sillä kenttädatat saadaan loppuvuodesta valmiiksi. 162

12 Esimerkki: Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla Tanskasta oli paras apumuuttujavalikoima käytettävissä ja esimerkki on siksi i sieltä. Suomen uhri- ja historiatutkimuksissa i k i apumuuttujia on siis vielä selvästi enemmän ja uudelleenpainotukselle tarjoutuu entistä paremmat edellytykset. Tarvekin on suuri, koska ainakin uhritutkimuksen nettiosassa on odotettavissa huomattavaa vastauskatoa ja sen valikoituneisuus on ilmeinen. Tanskan datassa käytin seuraavia muuttujia: sukupuoli, ikäryhmä, alue (varsin laaja), siviilisääty ja onko tausta tanskalainen vai muu. Mukana oli muutama yhdysvaikutustermi. Logistinen regressiomalli oli varsin tuloksekas mutta sen yksityiskohdat sivuutetaan tässä. Seuraavan sivun tulosteesta ilmenee muutamia kiintoisia seikkoja. 163

13 Esimerkki vastaustodennäköisyyksistä, Tanskan ESS data 3. kierros Ennustettu toden näköi syys 1 0,9 0,8 Tanskalaistaustaiset 0,7 0,6 0,5 0,4 Naimisissa olevat Lesket 0,3 0,2 Ulkomaalaistaustaisetl t i t 0, Kertymä Kyselytutkimuksen Metodiikkaa 2009 Seppo 164

14 Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla 3 Kuten edellisestä osiosta olet oppinut näiden ennustettujen vastaustodennäköisyyksien käänteisluvuilla kerrotaan peruspaino ja painot skaalataan tämän jälkeen tavoiteperusjoukon tasolle käyttäen 15-vuotiaiden id väestömääriä. ää Ohessa on keskeiset k ttulokset tkahdesta otospainosta. Tulkitse niiden anti. Mieti myös mikä vaikutus eri painoilla on itse estimaatteihin. Tanskan kaksi otospainoa: peruspaino p ja adjustoitu paino The MEANS Procedure Coeff of Variable N Sum Mean Variation Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ w_basic w_adj ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ! 165

15 Tilastollinen Editointi 1 Tilastollinen editointi on surveyn aikaa ja rahaa vievimpiä vaiheita. Jos siitä mahdollisimman iso osa on sijoitettu jo keruun yhteyteen, sen ei kuitenkaan tarvitse olla olennainen hidaste koko surveyprosessissa. Paperilomakkeisessa postitiedustelussa tämä vaihe voi viedä hyvinkin kauan ja rahaa kuluu. Tässä sessiossa esitän tilastollisen editoinnin periaatteet sekä valikoiman keinoja ja menetelmiä niiden käytännön toteuttamiseen. Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten muissa surveyssä ja laitoksissa tehtyä kehittämistyötä. Kehittää järjestelmää virheiden havaitsemiseksi, tarkistamiseksi ja korjaamiseksi erityisesti painottaen lopputulosten kannalta olennaisia puutteita (valikoiva editointi). Havaita, tarkistaa ja korjata mikrotason virheet riittävän hyvin, ja myös siten, että makrotason (eri agregaattitasojen) tulokset ovat uskottavia ja luotettavia. Puuttuvan tiedon käsittelyä, erityisesti imputointia, ei voida kokonaan hoitaa irrallaan editoinnista, mieluummin il i nämä äti toiminnot i tit integroidaan id toisiinsa. tiii Keskeisistä osioista tuotetaan indikaattoreita, joilla voidaan seurata aineiston alkuperäistä ja parannettua laatua sekä editoinnin määrää ja siihen kulunutta työmäärää. 166

16 Tilastollinen Editointi 2 Tilastollinen editointi on siis keskeinen osa laadun varmistusta, koskien sekä käsillä olevan surveyn prosessia että tulevaisuuden kehittämistarpeita. Tärkeitä äkiäovat myös tietotekniset i aineiston i ominaisuudet i kuten, että se tulisi lii olla esimerkiksi helposti käyttöönotettavissa erilaisissa ohjelmistoissa. - Kaikista prosessissa tehdyistä muutoksista tulisi jäädä jälki ja mielellään myös perustelu toteutetulle operaatiolle. Tällöin voidaan myös jälkikäteen arvioida kuinka perusteltu operaatio on ollut ja kenties muuttaa ratkaisua, jos se myöhemmän tiedon valossa katsotaan tarpeelliseksi. - Editointiprosessissa havaitut virheet on hyvä luokitella niiden kokonaismerkityksen mukaan ja vastaavasti tuottaa kustakin luokasta virhelukuja (suhteellisia ja absoluuttisia sekä painotettuja). Usein kolmekin virheluokkaa riittää: (a) fataalit eli hyvin keskeiset virheet, (b) pienet virheet, (c) varoitukset siitä että tähän on tarvittaessa kiinnitettävä huomiota (voisi olla osa paradataa). 167

17 Tilastollinen Editointi 3 Editoinnin keskeinen käsite on editointisääntö (edit rule). Editointisäännöt asetetaan mikäli mahdollista etukäteen ja sisällytetään surveyprosessin tuotantomalliin. Säännöt täytyy luonnollisestilli i perustella ja dokumentoida siten, että myös käyttäjät voivat saada tästä tietoa. Tavallisesti esitetään kolmenlaisia editointisääntöjä, koskien: (i) validiteettiä (esim. jos kysytään ikää ja vastaus on 311, kun on tarkoitettu lukua 31; tai jos on ilmoitettu sellainen vastausvaihtoehto jota ei voi olla). (ii) yhteensopivuutta tt (esim. lasten määrä perheessä = 2 ja aikuisten määrä =2, mutta perheen kooksi ilmoitetaan epäyhteensopiva luku = 5; jos yrityksen tulojen ja menojen erotus ei vastaa kokonaistulosta ; yrityksessä työssäolovuosien määrän tulee olla jossakin suhteessa ikään, esimerkiksi siten että palvelussuhteen l aloittaessaan täytyy olla vähintään ää 16-vuotias; palkan ja ammattinimikkeen i ikk on hyvä olla jossakin suhteessa toisiinsa _ missä? ), ja (iii) jakaumaa (esim. asetetaan että kokoaikaisen työntekijän viikkotyöajan tulee olla vähintään 30 tuntia; tai yrityksen liikevaihdon kasvu edellisestä tiedustelusta ehdolla että yritys on koostumukseltaan säilynyt ennallaan, ei saa olla alle -50% eikä yli 100% mikä on symmetrinen sääntö). 168

18 Tilastollinen Editointi 4 Editointisäännöt määrittelevät ns. veräjät tai ovet (gates). Editointisysteemiä luotaessa on pyrkimys löytää mahdollisimman järkevät ki kriteeriti näille ml. esimerkiksi i jakaumien laajuuden. Ideahan on, että mikäli saatu vastaus tai muu tieto ei mahdu tästä veräjästä sisään, se tulee virhelistalle eli tarkistettavaksi. Tarkistuksessa voidaan tulos korjata tai myös hyväksyä sellaisenaan, mikäli havaitaan oikeaksi. On hyvä havaita, että veräjän kapeus vs. leveys vaikuttaa tarkistusprosessiin. Leveästä veräjästä mahtuu paremmin läpi huonompikin tapaus. Siten mitä leveämpi veräjä, sitä nopeampi ja halvempi tarkistusprosessi. Toisaalta laatu helposti heikkenee. Veräjä tai veräjien joukko on siis paras määritellä optimaalisen leveäksi, mutta tämä on helpommin sanottu kuin toteutettu. Kokeilut erilaisilla vaihtoehdoilla auttavat asiaa. 169

19 Tilastollinen Editointi 5 Lista keskeisistä toiminnoista 1 (i) On syytä aloittaa tunnistimista eli identifioijista. Virheet näissä eivät haittaa jos survey-aineisto on täysin itsenäinen kokonaisuus eli aineisto käytetään sellaisenaan kuin on saatu. Mutta jos on tarvetta yhdistää tiedosto toiseen, on tunnistimen oltava sama ja oikea molemmissa aineistoissa. Muuten tulee puuttuvaa tietoa. Käytännössä on myös niinkin että sama tunnistin on kahteen kertaan aineistossa mutta ei tarkoita samaa yksikköä. Tällaiset tuplat ovat editoijalle kuisallisia. (ii) Toinen, jo edellä esitetty tarkistusmenetelmä on määritellä kullekin muuttujalle arvoalue ja katsoa ovatko vastaukset tällä arvoalueella. Tämä on syytä sisällyttää datan sisäänlukuun jolloin ongelmaan kiinnitetään ajoissa huomiota. Korjaaminen ei toki aina ole helppoa. (iii) Erikoishavaintoarvojen läpikäynti on selkeätä jatkoa edelliselle vaiheelle. Hyväksyttävällä alueella sijaitsevat havaintoarvot voivat olla kiusallisia, jos niiden vaikutus tuloksiin on liian suuri. Tämä koskee ns. ääriarvoja tai muita poikkeavia i arvoja. 170

20 Tilastollinen Editointi 6 Lista keskeisistä toiminnoista 2 Miten tulisi menetellä ääriarvojen kanssa? (a) Jos arvo on virheellinen tai väärään tulkintaan perustuva, se on pyrittävä korjaamaan mahdollisimman oikeaksi. (b) Poistaa havainto eli merkitä puuttuvaksi (trimmaus). i (c) Merkitä erityishavainnot omaan osajoukkoonsa ja päättää niiden käsittelystä myöhemmin ja mielellään tiimissä. (d) Siirtää havainto lähemmäksi muuta joukkoa (winsorointi). (e) Soveltaa analyysissä sellaisia menetelmiä joihin ääriarvot eivät vaikuta tai vaikuttavat vähän (robustointi). (f) Muuttaa yksikön painoa oheistiedon perusteella (yleensä pienentää). Tavallista otospainojen kautta. (g) Muuntaa muuttuja epätasavälisesti luokitelluksi, jolloin iso arvo kuuluu esimerkiksi ryhmään Tätä suuremmat. 171

21 Tilastollinen Editointi 7 Lista keskeisistä k i toiminnoista i i t 3 (iv) Neljäntenä editointitehtävänä haluan tuoda esiin ongelman puuttuvan, nollatiedon, ei-soveltuvan ja mahdottoman tiedon välillä. Eli on syytä löytää fiksu koodi kullekin. ESS-standardit ovat tyyppiä 8, 9, 88, 99 tai 6666, monet käyttävät myös negatiivisia koodeja kuten -1, -8 ja -9 (erottuvat paremmin kuin positiiviset koska kunnon havaintoarvot tai koodit ovat positiivisia). Älä siis käytä esimerkiksi koodia = 0 puuttuvalle havainnolle vaan vain jos arvo on tosiaan nolla (vaikkapa ettei ole kuluttanut rahaa lautapinoihin). (v) Kun edellä esitetyt perustarkistukset on tehty, voi siirtyä ristikkäis- eli yhteensopivuustarkistuksiin. Tällöin aloittaa voi ristiintaulukoista tai katsella vastaavia asioita jatkuvien muuttujien tapauksessa hajontakuviosta. (vi) Monimuuttuja-analyyseihin perustuvat tarkistukset, jotka luontevimmin tehdään aidon tutkimusasetelmaan sopivan mallin avulla, vaikkapa regressiomallin avulla. Residuaalit paljastavat outouksia ja toki kaikkea voidaan katsella graafisesti myös = graafinen editointi. Nyt on yhä enemmän monidimensionaalisia grafiikkoja tietokoneellistettu. 172

22 Tilastollinen Editointi 8 - Kommentteja Editointi on siis yksi osa datan puhdistamista. Olisi hyvä, jos se olisi mahdollisimman a automaattinen aatt eli tarkistukset set ja korjaukset tulisivat fiksusti mutta automaattisesti. Valikoiva editointi on eräs ratkaisu tähän. Siinä virheelle määritellään todennäköisyys. Suurin työpanos keskitetään ison todennäköisyyden tapauksiin joissa ei yleensä tehdä automaattista korjausta. Pienen virhetodennäköisyyden tapaukset sen sijaan hoidetaan automaattisesti tai kaikkia ei edes korjata koska niiden vaikutus kokonaisuuden kannalta on vähäinen. Jätetään siis jatkoanalysoijan huoleksi. Hyvinkin editoidussa datassa vaativa käyttäjä aina löytää puutteita. Esimerkiksi ESS-datat on johonkin rajaan asti editoituja, mutta voimme tutkia kurssin demossa löydämmekö jotain epäilyttää. Luulen että arvoalueet ovat kunnossa mutta yhteensopivuuksissa on varmasti epäilyttävyyksiä. Katsomme tätä muutaman ristiintaulukoinnin kautta. Mieti mitä olisi hyvä katsoa. 173

23 Imputointi 1 Imputointi on puuttuvan tai epäkelvon tiedon paikkaamista korvikearvolla. Sen käyttö on lisääntynyt huomattavasti viime aikoina. Syyt ovat monia. Yksi lienee se ikävä tosiasia, että kerättyihin aineistoihin on jäänyt yhä enemmän puuttuvuutta ja vastaavasti estimaattien laatu on heikentynyt. Jotta laatu paranisi imputoimalla, on imputointitoiminnon oltava riittävän hyvää. Huonolla imputoinnilla laatu voi heiketä. Toinen syy imputointitekniikkojen lisääntymiseen on ollut tietotekniikan kehittyminen, mikä antaa edellytyksiä hyvinkin vaativille ratkaisuille. Ohjelmistojakin j on ilmaantunut yhä enemmän, mutta yhtään yleispätevää ohjelmistoa ei ole olemassa. Kuhunkin tilanteeseen on löydettävä omansa tai ohjelmoida itse sopiva ratkaisu. Kolmas syy on imputointitutkimuksen lisääntyminen. Se on usein haasteellista, koska vaatii kovaa teoriaa, hyvää tietotekniikkaa ja datan ymmärtämistä. 174

24 Imputointi 2 Imputointi on tekniikka jonka tarkoitus on korvata puuttuvia tai muutoin epätäydellisiä ä havaintoarvoja a oja sellaisilla s a joiden (i) odotetaan mieluiten olevan mahdollisimman lähellä oikeita arvoja, tai jos tämä ei ihanteellisesti onnistu, niin (ii) näiden imputoitujen arvojen olisi hyvä olla mahdollisimman lähellä oikeiden arvojen jakaumaa, mutta jos tässäkin on vaikeuksia, niin (iii) imputointeihin perustuvien agregoitujen arvojen tulisi olla mahdollisimman lähellä vastaavia oikeita arvoja. Tavoitteena voi olla myös, (iv) että imputoitujen arvojen järjestys olisi mahdollisimman lähellä oikeata järjestystä. 175

25 Imputointi 3 Ensimmäinen on vaativin. Jos siinä onnistutaan hyvin, niin samalla yhteydet eri muuttujien välillä ä enemmän e tai vähemmän ä imputoitujen tuje ovat lähellä oikeita yhteyksiä. Jos tämä ei onnistu, on mahdollisuus pyrkiä toteuttamaan imputointi niin, että yhteydetkin ovat mahdollisimman oikeita. Olkoon tämä viides (v) vaatimus imputoinnille. Jos siis vaatimus (i) toteutuu hyvin, niin myös muut vaatimukset toteutuvat hyvin. Mutta vaatimukset (ii) ja (iii) ja siis myös vaatimus (iv) voivat toteutua hyvin, vaikka vaatimus (i) ei toteutuisikaan. Kussakin imputointitilanteessa on syytä miettiä ensin, mikä on minimivaatimus ja rakentaa imputoinnin strategia siten, että tämä vaatimus tulisi vähintäänkin täytetyksi. Vaatimattoman minimivaatimuksen toteuttaminen voi onnistua yksinkertaisellakin imputointimenetelmällä. Vaativa minimivaatimus ei kuitenkaan automaattisesti merkitse monimutkaisen menetelmän käyttöä, vaan fiksun. 176

26 Imputointi 4 Yleisin imputointimenetelmä (jota kaikki eivät kutsu imputointimenetelmäksi) on asettaa puuttuvalle havainnolle hyvä koodi. Editoinnin yhteydessä oli jo puhetta hyvistä koodeista. Idea on asettaa mahdollisuuksien mukaan eri koodi kullekin puuttuvuuden lajille. Näin koodattua (imputoitua) muuttujaa ei voi käyttää jatkuvana muuttujana eli laskien esimerkiksi keskiarvoja, keskihajontoja tai desiilipisteitä. Sen sijaan frekvenssityyppisiä estimaatteja tt tällaisesta t saa vaivattomasti. ti Jatkuva muuttuja voidaan toisaalta kategorisoida jolloin vaikkapa tulot luokitellaan tason mukaan järjestykseen ja lisäksi tulee puuttuvuusluokkia. Kategorista tai kategorisoitua muuttujaa voi käyttää selittäjänä malleissa jos ei vedä vääriä johtopäätöksiä puuttuvuuskoodilla imputoiduista selittäjistä. Voimme tässä mielessä sanoa että puuttuvat havaintoarvot on imputoitu. Se ei ole tietystikään varsinaista imputointia. 177

27 Imputointi 4 "##!$%&'()!!!!!!!!!! *+,!-."/!0$%1,(&$, 02$34!5%3,(!6%$!7'!8293!'237%'28!,8,137%':!-7'82'( 0.*;*<-=!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!-$,>&,'14!!!!!!0,$1,'3!!!!!!!! *+,!?237%'28!@%28737%'!02$34!!!!!!!!!!!!!!!!!!!!!!!!!ABC!!!!!!!!!!!!!!!!DEFAE!!!!25,8 *+,!#G,(79+!0,%H8,I9!02$34!J#00K!!!!!!!!!!!!!!!!!!L)!!!!!!!!!!!!!!!!!AFAL!!!!!!!5,3 M7N,$289:!J*+,!87N,$28!H2$34!%6!-7'82'(K!!!!!!!!!!!!D!!!!!!!!!!!!!!!!!OFOB! 0,1 *+,!@,'3$,!02$34!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!PCE!!!!!!!!!!!!!!!!DAF)C!!!!!21,3 *$&,!-7''9!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!B)!!!!!!!!!!!!!!!!!!!PF)E! 32 *+,!S$,,'!M,2T&,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DAD!!!!!!!!!!!!!!!!!!BFCL! 9,4-7''79+!#%1728!Q,R%1$2371!02$34!!!!!!!!!!!!!!!!!!ADB!!!!!!!!!!!!!!!D)FAB! 22,6 *+,!M,63!<8872'1,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!CB!!!!!!!!!!!!!!!!!)FAA! 0,3 *+,!@%RR&'793!V%$W,$9X!02$34!%6!-7'82'(!!!D!!!!!!!!!!!!!!!!!OFOB!!!!!!!!!0,1 Y3+,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DL!!!!!!!!!!!!!!!!!OFLL!!!!!!!!!1,2?%3!2HH8712N8,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!)UC!!!!!!!!!!!!!!!PPFPU!!!!!!!!!!.,6&928!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!!!!!!!! Q%'X3!W'%G!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOC!!!!!!!!!!!!!!!!)FCL!!!!?%!2'9G,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!! Tässä on tuloste jossa puuttuvat tiedot on imputoitu it eli koodattu useammalla ilmaisimella. Arvioi mitä mikäkin puuttuvan tiedon koodi merkitsee. Arvioi lisäksi mitä oikealla oleva sarake merkitsee. Ja mikä on sen puuttuvuusteoreettinen tausta. 178

28 Syrjähyppy jonka syynä on opiskelijan kiinnostus verrata puoluekannatusta vasemmistooikeistoakselin mukaan. Ohessa on sellainen taulukko. Voinet arvioida jotakin myös puuttuvia tietoja antaneista. Puolue p10 Keski arvo p90 Kaikki 3 5,7 8 The National Coalition Party 6 7,6 9 The Swedish People s Party (SPP) Liberals, (The liberal party of Finland) The Centre Party 5 6,7 9 True Finns 3 5,4 8 Christian Democrats 4 5,7 8 The Green League 3 4,8 7 Finnish Social Democratic Party 3 4,5 7 The Left Alliance ,7 5 Communist Party of Finland 0 1,5 3 The Communist Workers' Party of Finland Other Not applicable 4 5,4 8 Refusal 3 5,5 8 Don't know 3 5,4 7,5 No answer 3 5,

29 Imputointi 5 Yksikertainen ja monikertainen imputointi Tavallisinta on imputoida puuttuvan arvon tilalle yksi imputoitu arvo. Tätä kutsutaan yksikertaiseksi imputoinniksi tai yksittäisimputoinniksi (SI = single imputation). Voi olla myös perusteltua imputoida useampi arvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moniimputoinnista (MI = multiple imputation). Moni-imputoinnissa on kaksi strategiaa itse aineiston muodostamisen kannalta: (i) muodostetaan useita havaintoaineistoja joissa kussakin on siis omat imputoidut arvot, tai (ii) laajennetaan yhtä havaintoaineistoa siten, että siellä on siis samat tilastoyksiköt useampia kertoja imputoidun aineiston osalta. Tällä kurssilla en käsittele monikertaista imputointia vaikka se on muotia monissa sovellustieteissä. 180

30 Imputointi 6 Imputointi on prosessi joka tässä katsotaan koostuvan seuraavista 6 osatehtävästä: (i) Datan editointi (ii) Aputiedon hankinta ja huolto (iii) Imputointimallin rakentaminen (iv) Imputointitehtävä tai imputointitoiminto (v) Estimointi sisältäen piste-estimoinnin, otantavarianssin ja imputointivariansssin (vi) Täydennetyn aineiston luonti, sisältäen myös metatietona sen mitkä arvot on imputoitu (liputus). Näistä keskityn seuraavaksi kohtiin (iii) ja (iv). 181

31 Imputointi 7 Imputointimalli 1 Imputointimalli voi perustua viisaaseen tietoon ja hyviin oletukseen. Tällöin sitä ei estimoida vaan malli on sopiva funktiomuoto (imputoitu arvo = f(x)) tai loogisten päättelyjen kokonaisuus (jos näin ja niin, niin imputoitu arvo=noin). Mutta jos se estimoidaan, niin Selitettävä muuttuja imputointimallissa voi olla kahta tyyppiä: (i) Muuttuja jonka arvoja imputoidaan (voi olla jatkuva tai epäjatkuva ml. binäärinen tai multinomiaalinen, ks. Liite; vastaavasti imputointimallin tulee sopia tilanteeseen.) Tämä malli rakennetaan ja estimoidaan vastaajien aineistosta mutta itse imputointii i toteutetaan siis vastaamattomille. Mallin selittäjien tulee olla tunnettuja vastaamattomille. Malli voi olla tuotettu myös eri aineistosta kuin imputoitavasta mutta mallin muuttujien tulee tietysti olla samoja. 182

32 Imputointi 8 Imputointimalli 2 (ii) Puuttuneisuuden indikaattori koskien imputoitavaa muuttujaa (binäärinen: 1=ei puutu tai on kelpo ja 0=puuttuu/epäkelpo). Tällainen malli on tyypillisesti estimoitu logistisella tai probitregressiolla. Olet jo aikaisemmin nähnyt tällä kurssilla tällaisia malleja (kertaa näitä kohtia). Tuloksena on siis todennäköisyyksiä puuttuneisuudelle siinä joukossa jossa imputointia toteutetaan, vastaavasti todennäköisyyksiä imputoidulle arvolle. 183

33 Imputointi 9 Imputointimalli 3 Tavallisten mallien (regressio, logistinen) lisäksi malli voi olla myös epälineaarinen ja ei-parametrinen. Jälkimmäisistä kiinnostavia imputoinnissa ovat esimerkiksi puumallit ja neuroverkot. Puumalleja on kahdenlaisia, luokittelupuussa selitettävänä on (moni-)kategorinen muuttuja, kun taas regressiopuussa jatkuva muuttuja. Puumalli ja neuroverkko antavat mahdollisuuden luoda osaryhmiä, klustereita, ryppäitä, neuroneja tai millä nimellä niitä milloinkin halutaan kutsua. Pyrkimys on että nämä osaryhmät ovat homogeenisia selitettävän muuttujan suhteen. Imputointien kannalta klusterit ovat hyödyllisiä. Niitä kutsutaan joko imputointiluokiksi tai imputointisoluiksi. Idea on että kunkin tällaisen sisällä toteutetaan itse imputointi. Tämä parhaimmillaan tehostaa imputointia, erityisesti jos kunkin tällaisen luokan sisällä ehto MCAR pätee. Tehostusta tulee sitä enemmän, mitä homogeenisempia imputointisolut ovat. 184

34 Imputointi 10 Imputointitoiminto 1 Imputointitoiminnot voidaan jakaa vain kahteen isoon pääryhmään, kumpikin on ehdollinen käytetylle mallille: (i) Malliluovuttaja-menetelmässä (model-donor method) imputoidut id t arvot otetaan t suoraan mallista tai estimoidusta id t jakaumasta tai viisaan arvauksen funktiosta, eli eivät siis välttämättä havaittuja. (ii) Vastaajaluovuttaja-menetelmässä (real-donor method) imputoidut arvot ovat viimeisessä vaiheessa peräisin joltakin vastaajalta tai muulta aineiston yksiköltä, ja siis arvot ovat aina havaittuja arvoja. 185

35 Imputointi 11 Imputointitoiminto 2 Termi luovuttaja on suora käännös sanasta donor mikä on latinalaispohjainen viitaten myös antamiseen. Ajoittain esiintyy myös sana lainata. On syytä korostaa, että kun jokin yksikkö luovuttaa tai antaa arvon toiselle yksikölle, niin tämä yksikkö ei menetä omaa arvoaan. Siinä on siis kyse kopioinnista. Käytän kuitenkin termiä luovuttaja, koska tämä ei sulje pois sitä, että luovuttaessaan jotakin toiselle, ei itse menetä mitään. Pikemminkin molemmat tai jokin kokonaisuus, jossa molemmat toimivat, voivat hyötyä. Aivan kuten imputoinnissakin hyvä luovuttaminen tuottaa hyötyä estimaatin laadun parantumisen myötä. Näinhän on monissa tilanteissa elävässäkin elämässä, kun vaikkapa luovutat omaa osaamistietoasi toisille. Et menetä mitään, pikemminkin ymmärrät osaamistasi paremmin, ja toiset hyötyvät annistasi. 186

36 Imputointi 12 Imputointitoiminto 3 Kummassakin imputointitoiminnossa voi olla satunnaisuutta tai se on puhtaasti deterministinen. Jälkimmäisessä imputoitu arvo on täysin määritelty, mutta satunnaisessa (kutsutaan stokastiseksi) k i) vaihtoehdossa eri imputointi voi tuottaa eri arvon. Malliluovuttaja menetelmässä imputoitu arvo on joko (i) mallin ennustama arvo (deterministinen ratkaisu), tai se on (ii) mallin ennustama arvo plus virhetermi (stokastinen ratkaisu). 187

37 Imputointi 13 Imputointitoiminto 4 Vastaajaluovuttaja menetelmässä imputoitu arvo on vastaajalta lainattu. Jos etsinnän taustalla on satunnaisuutta, kyseessä on stokastinen, muuten deterministinen ratkaisu. Vastaaja (vastaajat monikertaisessa imputoinnissa) valitaan mieluiten sellaisten joukosta jotka ovat samankaltaisia vastaamattoman kanssa. Siten keskeinen tehtävä tässä lähestymistavassa on löytää jokin läheisyysmitta, jolla samankaltaisia etsitään. Läheisyysmitta voi olla peräisin mallista (ja myös malliluovuttaja-menetelmällä imputoiduista arvoista) tai siitä riippumaton (jolloin hyvällä viisaudella etsitään läheisyyden kriteerit). Hyvä imputointisolu antaa erinomaisen lähtökohdan läheisten vastaajien etsintään, koska sen sisällä on suurella todennäköisyydellä dellä samankaltaisia yksiköitä. Eli siis jos imputointisolut ovat homogeenisia, niin voidaan jopa toimia niin, että mikä tahansa solun vastaaja voi luovuttaa arvonsa vastaamattomalle; paras valita satunnaisesti. i Edellytys on luonnollisesti se, että solussa on riittävästi vastaajia. Jos siis sisältää vain vastaamattomia tai vähän vastaajia, tilanne on hankala. 188

38 Imputointi 14 Malli vs toiminto Mallivaihtoehtoja on siis kaksi. On hyvä huomata että jos vaihtoehto (ii), puuttuneisuuden binäärinen indikaattori, on käytetty, y imputointitoiminto voi olla vain vastaajaluovuttajamenetelmä. Sen sijaan jos malli (i) on pohjana, voidaan edetä joko malliluovuttaja- tai vastaajaluovuttajamenetelmällä kohti varsinaista imputointia. Malliluovuttajamenetelmällä imputointi tapahtuu suoraan, joko deterministisesti tai stokastisesti, mutta vastaajaluovuttajamenetelmällä mallin ennustetut arvot käytetään läheisyyden mittareina. 189

39 Imputointi ekstra Mitä marjoja ja montako on täällä? Imputoi! Mikä metodi? Mitä tässä 190

40 Imputointi 14 En käy laajasti imputoinnin yksityiskohtia läpi. Aluksi huomautan siitä, että imputoinnin siis pitäisi tuottaa etua vaihtoehtoiseen tilanteeseen ettei imputoida id verrattuna. Jollei imputoida, id voidaan havaintomäärissä menettää paljonkin ja myös estimaatit voivat olla liian harhaisia. Imputoinnin avulla siis harhaa pitäisi saada pienennettyä ja mielellään siten ettei estimaatin keskivirhe kasva. Valitettavasti imputoimalla saatetaan tuottaa harhainen keskivirhe, erityisesti jollei sen estimoinnissa oteta huomioon imputoinnista johtuvaa epävarmuutta eli imputointivarianssia. Näin tapahtuu jos aineistosta tuotetaan estimaatit tavalliseen tapaan eli olettamalla että imputoitu arvo on oikea havaintoarvo. Tosielämässä emme tiedä kuinka lähellä oikeaa se on mutta osaamme arvioida epävarmuuden ainakin periaatteessa. Stokastisessa imputoinnissa syntyy enemmän varianssia ja siksi keskivirheen harha on sellaisessa pienempi ilman erikoistoimenpiteitä. 191

41 Imputointi 15 Yhteenveto Imputointimenetelmät voidaan tiivistää näin, siis sisältäen periaatteessa neljänlaisia vaihtoehtoja. oja Kaikissa kohdissa voi taustalla olla myös sama imputointimalli (kuten regressio). Vastaa ajaluovut ttaja Malliluov vuttaja Deterministinen Stokastinen Yksikertainen Yksikertainen Monikertainen 192

42 Imputointi 16 Esimerkki Tein keinotekoisella datalla pienen testin. Imputointia vaatinut muuttuja y on jatkuva. Käytettävissä oli yksi selittäjä x. Näiden välillä oli melkoisen selkeä yhteys, korrelaation ollessa 0,92. Havaintoja 40. Vastaamattomien määräksi tuli 13. Se ei ollut satunnaista, pienillä ja suurilla y-arvoilla todennäköisyys oli keskiarvoja korkeampaa. Edellytykset hyvällekin imputoinnille olivat olemassa. Yksinkertaisin imputointimalli on y=keskiarvo, mutta neljässä muussa regressiomalli y=x. Tätä kokeilin myös satunnaistermin t i lisäyksellä. llä Tuloksia on alla ja seuraavalla sivulla on kuvioiden muodossa imputoituja arvoja eri menetelmillä. Havaintoja Keskiarvo Keskihajonta Oikea Vastaajat Malliluovuttaja Malli y=keskiarvo Malli y=x Malli y=x+e Vastaajaluovuttaja Malli y=x Malli y=x+e

43 Imputointi 16 Esimerkki 2 Oikeat Malliluovuttaja y=keskiarvo Malliluovuttaja y=x Malliluovuttaja y=x+e Vastaajaluovuttaja y=x Vastaajaluovuttaja y=x+e 194

44 Imputointi 17 Yksinkertaiset metodit esitetyssä kehikossa Edellä on jo viitattu keskiarvoimputointiin jossa puuttuva tieto korvataan keskiarvolla. Esittämäni kehikon puitteissa keskiarvopaikkaus merkitsee että imputointimallii i muodostuu vain yhdestä parametristä, kun taas jos keskiarvopaikkaus toteutetaan erikseen kussakin imputointisolussa, kyseessä on imputointimalli jossa on kategorinen muuttuja selittäjänä. Vastaavasti jos puuttuva arvo korvataan havaittujen arvojen mediaanilla, ill puhutaan mediaani-imputoinnista. Myös moodi-imputointia voidaan käyttää mutta lähinnä vain kategorisille tai kategorisoiduille muuttujille. Nämä ovat deterministisiä ja voivat aiheuttaa kiusallista systemaattista harhaa. Keskiarvoimputoinnin erityistapaus on ns. suhdeimputointi, jossa imputointimallin selittäjänä on suhde. Tämä sopii vain suhdeasteikon muuttujille. Jos mikroaineistossa on paneli- tai muu pitkittäisaineisto pohjalla, käytetään yleisesti malliluovuttajaimputointia jossa malli on joko y_imp=y_edellinen tai y_imp=y_edellinen*inflaattori (tai deflaattori). En suosittele tätä paitsi jos tästä johtuvan harhan uskotaan olevan vähäisen. 195

45 Imputointi 19 - Kommentti Usein imputoinnissa on tavoitteena menestyä hyvin myös muuttujien välisten yhteyksien kuvaamisessa. Tämä onnistuu jos kuhunkin muuttujaan sovellettu imputointi onnistuu hyvin. Monet menetelmät eivät kuitenkaan takaa tätä. Seuraavanlaisia ratkaisuja on sovellettu: (i) Ei imputoida ollenkaan vaan puuttuvat tiedot jätetään analyysistä pois. Tässä on ongelmana havaintomäärän supistuminen ja tästä johtuva tarkkuuden heikkeneminen sekä muussa kuin MCAR-tilanteessa myös tulosten vääristyminen. (ii) Käytetään analyysimenetelmää, jossa puuttuvuus on mukana. (iii) Puuttuvuudesta johtuva harha oikaistaan uudelleenpainotuksella (iv) Sovelletaan vastaajaluovuttaja -menetelmää siten, että samalta luovuttajalta otetaan tiedot kaikille kiinnostuksen kohteena oleville muuttujille. Tämä menetelmä vastaa uudelleenpainotusta, mutta rajoitettuun joukkoon. (v) Sovelletaan ns. jaksottaista imputointia jossa ensin imputoidaan yksi muuttuja, sitten seuraava läheinen käyttäen edellistä imputoitua arvoa apumuuttujana, ja niin edespäin. 196

46 Surveyn vaiheet 1 Eli lyhyt kertaus pääkohdista A.Tavoitteiden määrittely tutkimukselle ja sen pohjalta tarvittavalle surveylle ja aineistolle. On huomattava että useimmat tutkimukset sisältävät paljon muutakin kuin surveyn. Eli survey voi olla vain pieni i mutta tärkeä ä osa koko k hanketta. B.Survey-asetelman määrittely, johon sisältyvät periaatteessa kaikki jatkossa olevat kohdat, osa ei vielä kovin tarkasti. C.Tavoiteperusjoukon määrittely: tämä on tehtävä mahdollisimman täsmällisesti ja asiakkaan tarpeisiin mahdollisimman hyvin vastaten ja tämän kanssa keskustellen. Tätä ennen tutkijalla on mielessään kiinnostusperusjoukko joka realisoidaan tavoiteperusjoukoksi. 197

47 Surveyn vaiheet 2 D.Kehikkoperusjoukkopohjan määrittely ja itse kehikon luonti ml. tarvittavien apumuuttujien luonti ja niiden arvojen sisällyttäminen kehikkoon tai muuhun tiedostoon jatkokäyttöä varten. Hyvin tyypillinen ongelma on, ettei heti aluksi kerätä mahdollisia potentiaalisesti hyödyllisiä apumuuttujia aineistoon. Myöhemmin niiden hakeminen samastakin lähteestä voi tulla kalliimmaksi ja käytännössä hankalammaksi. Kehikkoperusjoukko päivitetään mikäli mahdollista estimointivaiheessa. E.Otanta-asetelman määrittely. Pyrkimys on saada kuhunkin tilanteeseen mahdollisimman yksinkertainen ja hyvin hallittavissa oleva asetelma. Tämä ei tarkoita sitä, etteikö olisi hyvä fokusoida otosta surveyn tavoitteiden mukaan. Taustalla on efektiivisen otoskoon käsite. Tältä pohjalta määritellään brutto-otos. F.Tiedonkeruun suunnittelu mukaan lukien tarvittava kenttätyö, tiedonkeruumuodot, d kustannukset, k tietosuojakysymykset k ja onko tarkoitus toistaa tutkimusta. Toistaa voidaan sekä poikkileikkaus- että pitkittäismielessä. Jälkimmäinen on vaativampi. 198

48 Surveyn vaiheet 3 G. Tietosisällön määrittely ja operationalisointi lomaketasolle ottaen huomioon ajatellun tiedonkeruutavan tai useita samallekin surveylle. Tämä tapahtuu tutkimustiimissä mikä voi olla laaja verkko, mutta vielä ei kontaktoida tutkimusyksikköjä. H. Lomakkeen ja tiedonkeruujärjestelmän j testaus (pilottitutkimukset) sekä parannukset tiedonkeruujärjestelmään ja lomakkeeseen. Alkutestaus tehdään omassa piirissä mutta myöhemmin kontaktoidaan tutkimusyksiköitä sekä keruuta toteuttavia tahoja. I.Otanta ja otanta-aineiston luonti: tähän siis sisältyy myös kaikki saatavissa oleva aputiedon kerääminen otoskehikkolähteestä. J.Tiedonkeruu id k organisoidusti id ija tehokkaasti, tarvittaessa virheitä korjaten saadun palautteen (esim. haastattelijoilta) tt ilt pohjalta. Muista metadatan expertit 199

49 Surveyn vaiheet 4 K.Tiedontallennus (jos mahdollista yhtäaikaisesti tiedonkeruun kanssa) ainakin siten, ettei mahdottomia tietoja tiedostoon synny siis tallennukseen yhdistetään mikäli mahdollista ensi vaiheen tilastollinen editointi, ja mikäli mahdollista kohtuullisesti automatisoituna (tallennusohjelma on siis intelligentti). L. Otantatiedoston viimeistely. Tiedosto kattaa brutto-otoksen ja sisältää otanta-asetelmassa käytettyjen muuttujien lisäksi muuta ulkopuolelta saatua aputietoa sekä kenttätyön yhteydessä kerättyä. Luonnollisesti myös surveyn tulostiedot ovat mukana eli ketkä kä vastasivat, ketkä kä eivät ja mistä syystä sekä ylipeiton. Aputietoa voidaan kerätä vielä lisää vaikkapa rekistereistä tai tilastoista. Myös kehikon päivitystiedot on syytä sisällyttää otantatiedostoon. M. Tilastollisen editoinnin systemaattiset muodot. Toteutetaan yleensä integroidusti imputoinnin kanssa. Tähän liittyy myös linjaus siitä mihin editointi painottuu ellei resurssien puitteissa ole mahdollista tehdä kaikkea yhtä laadukkaasti. Edelleen sen yhteydessä saadaan tietoa koko surveyprosessin evaluointiin, ja siis oppimiseen seuraavia surveytä varten. 200

50 Surveyn vaiheet 5 N. Puuttuvien tietojen käsittely siten että erottuvat muiden muassa nollatieto, puuttuva tieto ja mahdoton tieto. O. Imputointi eli puuttuvien tietojen paikkaus ja lisäeditointi jos tarpeen. P. Otos- ja muiden painojen muodostaminen aputietoja hyödyntäen. y Q. Aineiston asentaminen mahdollisimman käyttökelpoiseen muotoon sen analyysiä varten. Tällöin muodostetaan yksi tai useampi elektroninen tiedosto. Yleensä on hyvä tehdä tiedostomuoto jossa sitä tullaan eniten käyttämään, esimerkiksi SAS-, SPSS- tai Stata-tiedosto, mikseipä Excel:kin, ja lisäksi sellainen, josta se on luettavissa melkein millä välineellä tahansa myös tulevaisuudessa (tekstitiedosto plus sen lukuohjelma em. tiedostoille). Näin sinulla on PUHDISTETTU surveyn mikroaineisto eli sellainen jota voidaan ilman huolia ryhtyä analysoimaan otanta-asetelma oikein huomioiden. Seuraavalla sivulla kohtuullinen puhtaan datan esimerkki. Parempaan pääsee. 201

51 Tilastoyksikön tunnus Paradata Muuttujan nimi, alempana metadata Tutkijan laskema muuttuja ilman metadataa = kotitalouden koko Puuttuvuus ilman koodausta Puuttuvuuskoodeja Puhdasta ESS- dataa Miten järjestetty? Maapaino Otospaino = Analyysipaino i 202

52 Imputointi ekstran ratkaisu Kannattaa käydä däkarpalossa 203

53 Tässä aikaisempi kuva oikein päin Toivon että surveymetodeista on moni asia loksahtanut oikein päin. Kiitos. 204