Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!).

Samankaltaiset tiedostot
Imputoi puuttuvat kohdat

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011

Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Painotusmenetelmät survey aineiston muuttujien estimoimiseen

pitkittäisaineistoissa

pitkittäisaineistoissa

Osa 2: Otokset, otosjakaumat ja estimointi

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Imputointi 2009, Seppo 1

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

Kvantitatiiviset menetelmät

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

pisteet Frekvenssi frekvenssi Yhteensä

Sovellettu todennäköisyyslaskenta B

Matematiikan tukikurssi, kurssikerta 3

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

T Luonnollisten kielten tilastollinen käsittely

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Testejä suhdeasteikollisille muuttujille

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matematiikan tukikurssi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. Tilastollinen malli??

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Epävarmuuden hallinta bootstrap-menetelmillä

Testit järjestysasteikollisille muuttujille

30A02000 Tilastotieteen perusteet

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

Väliestimointi (jatkoa) Heliövaara 1

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Laskelmia puoluekannatuksesta Seppo

Sovellettu todennäköisyyslaskenta B

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kertauskaavio Imputointitoiminto

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

6. laskuharjoitusten vastaukset (viikot 10 11)

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen

Teema 8: Parametrien estimointi ja luottamusvälit

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harjoitukset 4 : Paneelidata (Palautus )

Otannasta ja mittaamisesta

Muuttujien määrittely

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ATH-koulutus THL ATH-koulutus / Tommi Härkänen 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Määrällisen aineiston esittämistapoja. Aki Taanila

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Jatkuvat satunnaismuuttujat

Puuttuvan tiedon käsittely aivosähkökäyrämittauksissa

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

Dynaamiset regressiomallit

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tietotekniikan valintakoe

Matematiikan tukikurssi, kurssikerta 2

Tutkimustiedonhallinnan peruskurssi

Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Mat Tilastollisen analyysin perusteet, kevät 2007

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti

Alkuarvot ja tyyppimuunnokset (1/5) Alkuarvot ja tyyppimuunnokset (2/5) Alkuarvot ja tyyppimuunnokset (3/5)

Transkriptio:

Uudelleenpainotus 1 Kertaus: Otospaino kuvaa sitä kuinka monta tilastoyksikköä yksi otosyksikkö vastaa tutkimusperusjoukossa joka toivon mukaan on lähellä tavoiteperusjoukkoa. Jos paino on yksi, on taustalla kokonaistutkimus, osite josta kaikki on valittu tai erityishavaintoarvo. Tällaisia painoja on useinkin yhteisötyyppisissä tiedusteluissa eli jos esimerkiksi kaikki isot yritykset ja kunnat ovat mukana otoksessa. Kotitaloustyyppisissä tiedusteluissa painot ovat hyvinkin isoja, satoja tai tuhansia tai jopa kymmeniä tuhansia. Siten yksi vastaaja edustaisi perusjoukossa painon ilmoittaman määrän yksikköjä. Ideaalitilanteessa kaikki hänen edustamansa yksiköt olisivat samanlaisia kuin hän, silloin saataisiin täysin luotettava tulos. Näin ei tietenkään juuri koskaan ole. Mutta vaihtelun tässä alaryhmässä tulisi ainakin olla pientä eli painon edustaman ryppään tulisi olla mahdollisimman homogeeninen. Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!). 152

Uudelleenpainotus 2 (b) Perusotospainot tai lyhyemmin peruspainot jotka vastaavat edellisiä painoja mutta nyt toimitaan vain vastaajien tasolla. Näiden avulla laskettavat t estimaatit tit ovat oikealla tasolla ja luotettavia, tt jos vastaamattomuus on harmitonta eikä kehikko-ongelmia ole (vastaa siis mekanismia MARS). Käytetään näistä painoista kuitenkin eri symbolia, w k, joka on esimerkiksi i ositetun t satunnaisotannan t tilanteessa t (kun n h vaihdetaan r h :een) w k =N h /r h On hyvä huomata, että tämä saadaan otanta-asetelmapainosta seuraavasti: w k =a k (n h /r h ) Painojen summa kussakin ositteessa on sama kuin asetelmapainoilla laskettuna. Painojen jakauma pysyy samana mikäli ylipeiton ja vastaamattomien summa on kussakin ositteessa suhteellisesti sama. Siten siis jos vastauskadon ja ylipeiton summa vaihtelee, myös painojen jakauma muuttuu. 153

Uudelleenpainotus 3 (c) Jälkiositukseen perustuva painotus (post-stratification). Tässä tapauksessa uusinta kehikkoa hyväksikäyttäen y muodostetaan uusi ositus (jos on jo esiositus niin sen päälle), jossa tavoitellaan löytää mahdollisimman homogeenisia osajoukkoja. Siis käytetään päivitettyä kehikkoa jos sellainen on olemassa mutta toimintaa voi toki toteuttaa myös alkuperäiselle kehikolle, jolloin harhan oikaiseminen on rajoitetumpaa. Jälkiositustiedon kehikosta tulisi olla laadukasta, muutoin menetelmä voi heikentää estimaattien tarkkuutta. Tavallisimmin jälkiositus perustuu helposti saatavissa oleviin taustamuuttujiin kuten kotitaloussurveyssä alueeseen, ikään, sukupuoleen ja ehkä sosioekonomisen aseman karkean muotoon. Yrityssurveyssä voidaan mennä esimerkiksi esiositusta tarkemmalle toimialatasolle. Jälkiositus on erityisesti kehikkovirheestä johtuvan harhan oikaisumenetelmä, mutta usein se myös oikaisee vastauskadosta johtuvaa harhaa. Sen avulla voidaan myös tarkentaa estimaatteja mutta taattua onnistuminen ei ole. 154

Uudelleenpainotus 4 Teknisesti jälkiosituspaino toimii seuraavasti tilanteessa jossa on jo esiositteet h (h=1,..,h). Merkitään jälkiositteita vaikkapa g:llä (g=1,,g). Jälkiositus voidaan tehdä vain esiositteiden sisälle, eli jälkiositteita on maksimissaan H*G kappaletta. Jos tätä otospainoa merkitään w k (post), niin se saadaan vastaavalla tavalla kuin esiosituspohjainen paino eli w k (post)= N hg /r hg Kuten kaavasta havaitaan, jälkiosituksen ehtona on tuntea perusjoukon koko N hg esi- ja jälkiositteiden muodostamissa soluissa. Jollei näitä tietoja ole riittävän luotettavasti saatavissa, ei jälkiositusta voi tehdä. Käytännössä harvoin jälkiositus voidaan pienotosongelmista johtuen toteuttaa siten, että kaikki H*G ositetta lopulta tulee käyttöön. Siis osaan esiositteista ei toteuteta jälkiositusta. Jälkiositus on helpommin mahdollista, jos esiositteita on vähän tai varsinaista esiositusta ei ole ollenkaan, tai siis on vain yksi kappale, kuten yksinkertaisen satunnaisotannan tai implisiittisen osituksen tapauksessa. 155

Jälkiositusesimerkki Historiatietoisuus Suomessa, bruttootos Osite Väestö määrä Bruttootoskoko Asetelma paino Fi_Other 3185530 2 160 1474,782782 Fi_Young 665868 655 1016,592 Sv_Other 182810 470 388,9574 Sv_Young 39423 145 271,8828 4073631 3430 Jälkiosite ikäryhmä*sukupuoli*kieli Ikäryhmä Sukupuoli Kieli Väestö Jälkiositettu Vastanneet otospaino Bruttootos Vastausprosentti ylipeitto mukana 15-24 1 fi 321313 119 2700,109244 317 37,53943 15-24 1 sv 19306 29 665,7241379 75 38,66667 15-24 2 fi 309045 130 2377,269231 285 45,61404 15-24 2 sv 18290 29 630,6896552 63 46,03175 25-50 1 fi 806154 317 2543,072555 583 54,37393 25-50 1 sv 44333 58 764,362069 109 53,21101 25-50 50 2 fi 784507 273 2873,652015 523 52,19885 25-50 2 sv 41009 61 672,2786885 111 54,95495 51+ 1 fi 777126 311 2498,797428 510 60,98039 51+ 1 sv 49268 71 693,915493 132 53,78788 51+ 2 fi 853636 245 3484,228571 598 40,9699 51+ 2 sv 49644 52 954,6923077 125 41,6 4073631 Tämä on alkuosaltaan sama kuin aikaisemmin esitetty osite-esimerkki mutta vasemmassa taulukossa ovat myös asetelmapainot. Alempi tilanne on fiktiivinen jossa olen kuvitellut vastausaktiivisuuden vaihtelevan tietyllä tavalla. Olen sitten tutkinut vastanneiden aineistoa ja muodostanut 12 jälkiositetta. Näiden jälkiositteiden vastausaktiivisuus ilme- nee taulukon oikeasta sarakkeesta. Vastaavasti olen laskenut rekisteristä kunkin jälkiositteen väestömäärät minkä jälkeen onkin helppo muodostaa painot. 156

Uudelleenpainotus 5 (d) Kalibrointi joka on jälkiosituksen laajennus eli jälkiositus on kalibroinnin perusmuoto. Kehikkoperusjoukkotason muuttujia voi olla useita eikä niitä tarvitse soveltaa ristiinluokittelemalla kuten jälkiosituksessa. Ristiinluokittelun ongelmanahan ovat usein liian pienet solut, mitattuna vastaajien määrillä. Vastaavasti painot voivat olla liian epäluotettavia. Kalibroinnin mukavin puoli on siinä, että sen avulla voidaan tietyt reunajakaumat (sellaiset jotka käyttäjä valitsee) määritellä juuri halutuiksi, mieluiten oikeiksi, jos sellaiset on tiedossa. Tavallisimmin tätä sovelletaan siten että surveystä saadaan väestön karkeat ikäjakaumat isohkoilla aluejaoilla sukupuolittain viimeisimmän väestötilaston (eli benchmark-aineiston) aineiston) mukaiseksi. Tämä luo luottamusta käyttäjissä. Muilla tasoilla ei yhteensopivuutta kuitenkaan voida taata kuin sellaisilla jotka on kalibrointimalliin sijoitettu. 157

Uudelleenpainotus 6 Kalibrointi voidaan toteuttaa minkä tahansa muun painotuksen pohjalle, jos ja kun toiminto toteutetaan riippumattomasti niistä. Olkoot seuraavassa nämä painot w. Jos vastaavasti kalibroituja otospainoja merkitään w(cal): lla, niin seuraava kalibrointiyhtälö täytyy päteä: x = k U xk w(cal) r k U Siis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossaon on saatava samat estimointitulokset benchmark-totuuden kanssa eli käyttäjän valitsemien reunajakaumien mukaiset estimointitulokset. On varsin helppo päätellä, että löytyy useita vaihtoehtoja yhtälön toteutumiselle. Siksi täytyy löytää lisäehtoja ja mielellään sellaisia joista on hyötyä varsinaiseen estimointiin eli y- muuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapa malliestimaatteihin. Klassinen lähestymistapa on käyttää etäisyysmittaa. Tässä muodostetaan etäisyysmitta aloituspainojen ja haluttujen painojen välille ja minimoidaan se siten että edellä mainittu ehto pätee. Siten siis painot ovat sellaiset että erot aloituspainojen ja kalibroitujen painojen välillä ovat tietyssä mielessä mahdollisimman pienet eli alkutila ei muutu liikaa mutta benchmark-etu saavutetaan eli tietyt estimaatit ovat sellaisia kuin käyttäjä on halunnut. 14.10.2009 Painotusmenetelmät 2009, Seppo 158

Uudelleenpainotus 7 (e) Vastauskatomalliin (response propensity modelling) perustuva uudelleenpainotus. Tässä mallitetaan vastausmekanismi logistisella tai probitregressiolla, mallista otetaan ennustearvot kullekin vastaajalle ja näiden käänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopiva skaalaus. Oletuksena on siis että vastausmekanismi on MAR. Menetelmä toimii sitä paremmin mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta (siis koskien sekä vastanneita että vastaamattomia yksikkötasolla). Yleensä aputietoa tähän on enemmän käytettävissä kuin esimerkiksi jälkiositukseen, joka edellyttää perusjoukkotason agregoitua aputietoa. Tämä on menetelmän selkeä etu. Etuna on myös, että se suoraan pureutuu vastauskatoon. Itse käyttäisin tätä ainakin isoissa otoksissa, sehän voi sisältää parhaimmillaan myös jälkiosituksen ja/tai kalibroinnin. Huomaa, että pieniin aineistoihin, erityisesti isoja yrityksiä koskeviin, ei oikein mikään painotusmenetelmä sovi hyvin. Imputointi olisi parempi. 159

Uudelleenpainotus 8 Teknisesti vastaustodennäköisyysmallia hyödyntävä painotus toteutetaan seuraavasti. Koska tämä on riippumaton muista uudelleenpainotuksista, menetelmä voidaan toteuttaa mihin aikaisempaan painoon tahansa kytkettynä. Olkoon seuraavassa meillä ensin paino w k ja logistinen regressio antoi kullekin vastaajalle k estimoidut vastaustodennäköisyydet p k. Tällöin uudet painot saadaan seuraavasti: w k (res)= (w k /p k )q c, jossa q c = skaalaustekijä, jonka avulla painot täsmäytetään halutun benchmark-ryhmän ryhmän c tasolle. Tämä on usein helpointa tehdä ositustasolla (esiositus jollei jälkiositusta ole tehty, muuten jälkiositus) mutta voim myös muuta kalibrointia soveltaa. 160

Uudelleenpainotus 9 - Keskustelua 1 ESS:ssä on tällä hetkellä käytössä asetelmapaino-nimellä kulkeva skaalattu paino. Se ei vastaa minun asetelmapaino-käsitettäni, vaan kysymys on osin perusotospainosta tai sen keskiarvoistetusta versiosta eli analyysipainosta. On mahdollista, että paremmat painot tulevat käyttöön jos testausprojektit tuottavat riittäviä tuloksia. Nämähän voidaan melko helposti tuottaa jos on käytössä eri maiden väestötiedot (eli 15-vuotiaiden määrät) ikäryhmän, sukupuolen, alueen ja koulutustason mukaan (tämä on maksimimäärä mitä on kokeiltu). Uudet painot saadaan vertaamalla alkuperäisten painojen antamia tuloksia näihin oikeisiin tietoihin ja tämän jälkeen tehdään suhteellinen muunnos painoihin eli ositustyyppinen kalibrointi. Vastaustodennäköisyyksiä olisi myös mahdollista hyväksi käyttää, muttei kaikissa maissa, koska ne eivät kykene antamaan vastaamattomista hyödyllistä aputietoa (samat muuttujat kuin edellä ja mielellään vaikkapa talouden koosta jotain tai mitä vain vastaamattomuutta selittävää löytyy). Yritän vaikuttaa siihen, että tällaista t tietoa t kerättäisiin. ii Suomesta, Ruotsista, t ym. sellaista löytyy aika paljon rekistereistä, kysymys on vain vaivannäöstä että se linkattaisiin brutto-otokseen. 161

Uudelleenpainotus 10 - Keskustelua 2 Edellä esitetyt näkökohdat sopivat melkoisen moniin muihinkin surveyhin. Apumuuttujia pitäisi hankkia tarkoituksella aineistoihin, jotta puuttuvuutta ensin analysoitaisiin ja sitten siitä saatava informaatio liitettäisiin uuspainoihin. Käyttäjän kannalta hyvien ja huonojen painojen kanssa toimitaan pääosin samalla lailla, ainakin piste-estimoinnissa. Siten käyttäjän tulisi vaatia kunnon painoja, vaikkei osaisi sanoakaan miten ne on paras milloinkin tuottaa. Ilman vaativia käyttäjiä ei parannusta muutoinkaan synny. Ole siis tiukkana vastaanottamasi datan kanssa. Olen ollut itseni kanssa ainakin toistaiseksi tiukkana kun olen rakentanut otantatiedostoja uhritutkimukseen ja historiatutkimukseen. Tiedät että käytössä on oleva paljon apumuuttujia. Nyt on sitten porukallamme haaste hyödyntää ne hyvin. Keväällä 2010 olemme menestyksemme kanssa viisaampia sillä kenttädatat saadaan loppuvuodesta valmiiksi. 162

Esimerkki: Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla Tanskasta oli paras apumuuttujavalikoima käytettävissä ja esimerkki on siksi i sieltä. Suomen uhri- ja historiatutkimuksissa i k i apumuuttujia on siis vielä selvästi enemmän ja uudelleenpainotukselle tarjoutuu entistä paremmat edellytykset. Tarvekin on suuri, koska ainakin uhritutkimuksen nettiosassa on odotettavissa huomattavaa vastauskatoa ja sen valikoituneisuus on ilmeinen. Tanskan datassa käytin seuraavia muuttujia: sukupuoli, ikäryhmä, alue (varsin laaja), siviilisääty ja onko tausta tanskalainen vai muu. Mukana oli muutama yhdysvaikutustermi. Logistinen regressiomalli oli varsin tuloksekas mutta sen yksityiskohdat sivuutetaan tässä. Seuraavan sivun tulosteesta ilmenee muutamia kiintoisia seikkoja. 163

Esimerkki vastaustodennäköisyyksistä, Tanskan ESS data 3. kierros Ennustettu toden näköi syys 1 0,9 0,8 Tanskalaistaustaiset 0,7 0,6 0,5 0,4 Naimisissa olevat Lesket 0,3 0,2 Ulkomaalaistaustaisetl t i t 0,1 0 0 20 40 60 80 100 Kertymä 14.10.2009 Kyselytutkimuksen Metodiikkaa 2009 Seppo 164

Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla 3 Kuten edellisestä osiosta olet oppinut näiden ennustettujen vastaustodennäköisyyksien käänteisluvuilla kerrotaan peruspaino ja painot skaalataan tämän jälkeen tavoiteperusjoukon tasolle käyttäen 15-vuotiaiden id väestömääriä. ää Ohessa on keskeiset k ttulokset tkahdesta otospainosta. Tulkitse niiden anti. Mieti myös mikä vaikutus eri painoilla on itse estimaatteihin. Tanskan kaksi otospainoa: peruspaino p ja adjustoitu paino The MEANS Procedure Coeff of Variable N Sum Mean Variation Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ w_basic2 1505 3900980.12 2592.01 10.2865442 2222.47 3053.80 w_adj 1505 3900980.12 2592.01 31.1934487 1378.93 15536.55 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ! 165

Tilastollinen Editointi 1 Tilastollinen editointi on surveyn aikaa ja rahaa vievimpiä vaiheita. Jos siitä mahdollisimman iso osa on sijoitettu jo keruun yhteyteen, sen ei kuitenkaan tarvitse olla olennainen hidaste koko surveyprosessissa. Paperilomakkeisessa postitiedustelussa tämä vaihe voi viedä hyvinkin kauan ja rahaa kuluu. Tässä sessiossa esitän tilastollisen editoinnin periaatteet sekä valikoiman keinoja ja menetelmiä niiden käytännön toteuttamiseen. Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten muissa surveyssä ja laitoksissa tehtyä kehittämistyötä. Kehittää järjestelmää virheiden havaitsemiseksi, tarkistamiseksi ja korjaamiseksi erityisesti painottaen lopputulosten kannalta olennaisia puutteita (valikoiva editointi). Havaita, tarkistaa ja korjata mikrotason virheet riittävän hyvin, ja myös siten, että makrotason (eri agregaattitasojen) tulokset ovat uskottavia ja luotettavia. Puuttuvan tiedon käsittelyä, erityisesti imputointia, ei voida kokonaan hoitaa irrallaan editoinnista, mieluummin il i nämä äti toiminnot i tit integroidaan id toisiinsa. tiii Keskeisistä osioista tuotetaan indikaattoreita, joilla voidaan seurata aineiston alkuperäistä ja parannettua laatua sekä editoinnin määrää ja siihen kulunutta työmäärää. 166

Tilastollinen Editointi 2 Tilastollinen editointi on siis keskeinen osa laadun varmistusta, koskien sekä käsillä olevan surveyn prosessia että tulevaisuuden kehittämistarpeita. Tärkeitä äkiäovat myös tietotekniset i aineiston i ominaisuudet i kuten, että se tulisi lii olla esimerkiksi helposti käyttöönotettavissa erilaisissa ohjelmistoissa. - Kaikista prosessissa tehdyistä muutoksista tulisi jäädä jälki ja mielellään myös perustelu toteutetulle operaatiolle. Tällöin voidaan myös jälkikäteen arvioida kuinka perusteltu operaatio on ollut ja kenties muuttaa ratkaisua, jos se myöhemmän tiedon valossa katsotaan tarpeelliseksi. - Editointiprosessissa havaitut virheet on hyvä luokitella niiden kokonaismerkityksen mukaan ja vastaavasti tuottaa kustakin luokasta virhelukuja (suhteellisia ja absoluuttisia sekä painotettuja). Usein kolmekin virheluokkaa riittää: (a) fataalit eli hyvin keskeiset virheet, (b) pienet virheet, (c) varoitukset siitä että tähän on tarvittaessa kiinnitettävä huomiota (voisi olla osa paradataa). 167

Tilastollinen Editointi 3 Editoinnin keskeinen käsite on editointisääntö (edit rule). Editointisäännöt asetetaan mikäli mahdollista etukäteen ja sisällytetään surveyprosessin tuotantomalliin. Säännöt täytyy luonnollisestilli i perustella ja dokumentoida siten, että myös käyttäjät voivat saada tästä tietoa. Tavallisesti esitetään kolmenlaisia editointisääntöjä, koskien: (i) validiteettiä (esim. jos kysytään ikää ja vastaus on 311, kun on tarkoitettu lukua 31; tai jos on ilmoitettu sellainen vastausvaihtoehto jota ei voi olla). (ii) yhteensopivuutta tt (esim. lasten määrä perheessä = 2 ja aikuisten määrä =2, mutta perheen kooksi ilmoitetaan epäyhteensopiva luku = 5; jos yrityksen tulojen ja menojen erotus ei vastaa kokonaistulosta ; yrityksessä työssäolovuosien määrän tulee olla jossakin suhteessa ikään, esimerkiksi siten että palvelussuhteen l aloittaessaan täytyy olla vähintään ää 16-vuotias; palkan ja ammattinimikkeen i ikk on hyvä olla jossakin suhteessa toisiinsa _ missä? ), ja (iii) jakaumaa (esim. asetetaan että kokoaikaisen työntekijän viikkotyöajan tulee olla vähintään 30 tuntia; tai yrityksen liikevaihdon kasvu edellisestä tiedustelusta ehdolla että yritys on koostumukseltaan säilynyt ennallaan, ei saa olla alle -50% eikä yli 100% mikä on symmetrinen sääntö). 168

Tilastollinen Editointi 4 Editointisäännöt määrittelevät ns. veräjät tai ovet (gates). Editointisysteemiä luotaessa on pyrkimys löytää mahdollisimman järkevät ki kriteeriti näille ml. esimerkiksi i jakaumien laajuuden. Ideahan on, että mikäli saatu vastaus tai muu tieto ei mahdu tästä veräjästä sisään, se tulee virhelistalle eli tarkistettavaksi. Tarkistuksessa voidaan tulos korjata tai myös hyväksyä sellaisenaan, mikäli havaitaan oikeaksi. On hyvä havaita, että veräjän kapeus vs. leveys vaikuttaa tarkistusprosessiin. Leveästä veräjästä mahtuu paremmin läpi huonompikin tapaus. Siten mitä leveämpi veräjä, sitä nopeampi ja halvempi tarkistusprosessi. Toisaalta laatu helposti heikkenee. Veräjä tai veräjien joukko on siis paras määritellä optimaalisen leveäksi, mutta tämä on helpommin sanottu kuin toteutettu. Kokeilut erilaisilla vaihtoehdoilla auttavat asiaa. 169

Tilastollinen Editointi 5 Lista keskeisistä toiminnoista 1 (i) On syytä aloittaa tunnistimista eli identifioijista. Virheet näissä eivät haittaa jos survey-aineisto on täysin itsenäinen kokonaisuus eli aineisto käytetään sellaisenaan kuin on saatu. Mutta jos on tarvetta yhdistää tiedosto toiseen, on tunnistimen oltava sama ja oikea molemmissa aineistoissa. Muuten tulee puuttuvaa tietoa. Käytännössä on myös niinkin että sama tunnistin on kahteen kertaan aineistossa mutta ei tarkoita samaa yksikköä. Tällaiset tuplat ovat editoijalle kuisallisia. (ii) Toinen, jo edellä esitetty tarkistusmenetelmä on määritellä kullekin muuttujalle arvoalue ja katsoa ovatko vastaukset tällä arvoalueella. Tämä on syytä sisällyttää datan sisäänlukuun jolloin ongelmaan kiinnitetään ajoissa huomiota. Korjaaminen ei toki aina ole helppoa. (iii) Erikoishavaintoarvojen läpikäynti on selkeätä jatkoa edelliselle vaiheelle. Hyväksyttävällä alueella sijaitsevat havaintoarvot voivat olla kiusallisia, jos niiden vaikutus tuloksiin on liian suuri. Tämä koskee ns. ääriarvoja tai muita poikkeavia i arvoja. 170

Tilastollinen Editointi 6 Lista keskeisistä toiminnoista 2 Miten tulisi menetellä ääriarvojen kanssa? (a) Jos arvo on virheellinen tai väärään tulkintaan perustuva, se on pyrittävä korjaamaan mahdollisimman oikeaksi. (b) Poistaa havainto eli merkitä puuttuvaksi (trimmaus). i (c) Merkitä erityishavainnot omaan osajoukkoonsa ja päättää niiden käsittelystä myöhemmin ja mielellään tiimissä. (d) Siirtää havainto lähemmäksi muuta joukkoa (winsorointi). (e) Soveltaa analyysissä sellaisia menetelmiä joihin ääriarvot eivät vaikuta tai vaikuttavat vähän (robustointi). (f) Muuttaa yksikön painoa oheistiedon perusteella (yleensä pienentää). Tavallista otospainojen kautta. (g) Muuntaa muuttuja epätasavälisesti luokitelluksi, jolloin iso arvo kuuluu esimerkiksi ryhmään Tätä suuremmat. 171

Tilastollinen Editointi 7 Lista keskeisistä k i toiminnoista i i t 3 (iv) Neljäntenä editointitehtävänä haluan tuoda esiin ongelman puuttuvan, nollatiedon, ei-soveltuvan ja mahdottoman tiedon välillä. Eli on syytä löytää fiksu koodi kullekin. ESS-standardit ovat tyyppiä 8, 9, 88, 99 tai 6666, monet käyttävät myös negatiivisia koodeja kuten -1, -8 ja -9 (erottuvat paremmin kuin positiiviset koska kunnon havaintoarvot tai koodit ovat positiivisia). Älä siis käytä esimerkiksi koodia = 0 puuttuvalle havainnolle vaan vain jos arvo on tosiaan nolla (vaikkapa ettei ole kuluttanut rahaa lautapinoihin). (v) Kun edellä esitetyt perustarkistukset on tehty, voi siirtyä ristikkäis- eli yhteensopivuustarkistuksiin. Tällöin aloittaa voi ristiintaulukoista tai katsella vastaavia asioita jatkuvien muuttujien tapauksessa hajontakuviosta. (vi) Monimuuttuja-analyyseihin perustuvat tarkistukset, jotka luontevimmin tehdään aidon tutkimusasetelmaan sopivan mallin avulla, vaikkapa regressiomallin avulla. Residuaalit paljastavat outouksia ja toki kaikkea voidaan katsella graafisesti myös = graafinen editointi. Nyt on yhä enemmän monidimensionaalisia grafiikkoja tietokoneellistettu. 172

Tilastollinen Editointi 8 - Kommentteja Editointi on siis yksi osa datan puhdistamista. Olisi hyvä, jos se olisi mahdollisimman a automaattinen aatt eli tarkistukset set ja korjaukset tulisivat fiksusti mutta automaattisesti. Valikoiva editointi on eräs ratkaisu tähän. Siinä virheelle määritellään todennäköisyys. Suurin työpanos keskitetään ison todennäköisyyden tapauksiin joissa ei yleensä tehdä automaattista korjausta. Pienen virhetodennäköisyyden tapaukset sen sijaan hoidetaan automaattisesti tai kaikkia ei edes korjata koska niiden vaikutus kokonaisuuden kannalta on vähäinen. Jätetään siis jatkoanalysoijan huoleksi. Hyvinkin editoidussa datassa vaativa käyttäjä aina löytää puutteita. Esimerkiksi ESS-datat on johonkin rajaan asti editoituja, mutta voimme tutkia kurssin demossa löydämmekö jotain epäilyttää. Luulen että arvoalueet ovat kunnossa mutta yhteensopivuuksissa on varmasti epäilyttävyyksiä. Katsomme tätä muutaman ristiintaulukoinnin kautta. Mieti mitä olisi hyvä katsoa. 173

Imputointi 1 Imputointi on puuttuvan tai epäkelvon tiedon paikkaamista korvikearvolla. Sen käyttö on lisääntynyt huomattavasti viime aikoina. Syyt ovat monia. Yksi lienee se ikävä tosiasia, että kerättyihin aineistoihin on jäänyt yhä enemmän puuttuvuutta ja vastaavasti estimaattien laatu on heikentynyt. Jotta laatu paranisi imputoimalla, on imputointitoiminnon oltava riittävän hyvää. Huonolla imputoinnilla laatu voi heiketä. Toinen syy imputointitekniikkojen lisääntymiseen on ollut tietotekniikan kehittyminen, mikä antaa edellytyksiä hyvinkin vaativille ratkaisuille. Ohjelmistojakin j on ilmaantunut yhä enemmän, mutta yhtään yleispätevää ohjelmistoa ei ole olemassa. Kuhunkin tilanteeseen on löydettävä omansa tai ohjelmoida itse sopiva ratkaisu. Kolmas syy on imputointitutkimuksen lisääntyminen. Se on usein haasteellista, koska vaatii kovaa teoriaa, hyvää tietotekniikkaa ja datan ymmärtämistä. 174

Imputointi 2 Imputointi on tekniikka jonka tarkoitus on korvata puuttuvia tai muutoin epätäydellisiä ä havaintoarvoja a oja sellaisilla s a joiden (i) odotetaan mieluiten olevan mahdollisimman lähellä oikeita arvoja, tai jos tämä ei ihanteellisesti onnistu, niin (ii) näiden imputoitujen arvojen olisi hyvä olla mahdollisimman lähellä oikeiden arvojen jakaumaa, mutta jos tässäkin on vaikeuksia, niin (iii) imputointeihin perustuvien agregoitujen arvojen tulisi olla mahdollisimman lähellä vastaavia oikeita arvoja. Tavoitteena voi olla myös, (iv) että imputoitujen arvojen järjestys olisi mahdollisimman lähellä oikeata järjestystä. 175

Imputointi 3 Ensimmäinen on vaativin. Jos siinä onnistutaan hyvin, niin samalla yhteydet eri muuttujien välillä ä enemmän e tai vähemmän ä imputoitujen tuje ovat lähellä oikeita yhteyksiä. Jos tämä ei onnistu, on mahdollisuus pyrkiä toteuttamaan imputointi niin, että yhteydetkin ovat mahdollisimman oikeita. Olkoon tämä viides (v) vaatimus imputoinnille. Jos siis vaatimus (i) toteutuu hyvin, niin myös muut vaatimukset toteutuvat hyvin. Mutta vaatimukset (ii) ja (iii) ja siis myös vaatimus (iv) voivat toteutua hyvin, vaikka vaatimus (i) ei toteutuisikaan. Kussakin imputointitilanteessa on syytä miettiä ensin, mikä on minimivaatimus ja rakentaa imputoinnin strategia siten, että tämä vaatimus tulisi vähintäänkin täytetyksi. Vaatimattoman minimivaatimuksen toteuttaminen voi onnistua yksinkertaisellakin imputointimenetelmällä. Vaativa minimivaatimus ei kuitenkaan automaattisesti merkitse monimutkaisen menetelmän käyttöä, vaan fiksun. 176

Imputointi 4 Yleisin imputointimenetelmä (jota kaikki eivät kutsu imputointimenetelmäksi) on asettaa puuttuvalle havainnolle hyvä koodi. Editoinnin yhteydessä oli jo puhetta hyvistä koodeista. Idea on asettaa mahdollisuuksien mukaan eri koodi kullekin puuttuvuuden lajille. Näin koodattua (imputoitua) muuttujaa ei voi käyttää jatkuvana muuttujana eli laskien esimerkiksi keskiarvoja, keskihajontoja tai desiilipisteitä. Sen sijaan frekvenssityyppisiä estimaatteja tt tällaisesta t saa vaivattomasti. ti Jatkuva muuttuja voidaan toisaalta kategorisoida jolloin vaikkapa tulot luokitellaan tason mukaan järjestykseen ja lisäksi tulee puuttuvuusluokkia. Kategorista tai kategorisoitua muuttujaa voi käyttää selittäjänä malleissa jos ei vedä vääriä johtopäätöksiä puuttuvuuskoodilla imputoiduista selittäjistä. Voimme tässä mielessä sanoa että puuttuvat havaintoarvot on imputoitu. Se ei ole tietystikään varsinaista imputointia. 177

Imputointi 4 "##!$%&'()!!!!!!!!!! *+,!-."/!0$%1,(&$, 02$34!5%3,(!6%$!7'!8293!'237%'28!,8,137%':!-7'82'( 0.*;*<-=!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!-$,>&,'14!!!!!!0,$1,'3!!!!!!!! *+,!?237%'28!@%28737%'!02$34!!!!!!!!!!!!!!!!!!!!!!!!!ABC!!!!!!!!!!!!!!!!DEFAE!!!!25,8 *+,!#G,(79+!0,%H8,I9!02$34!J#00K!!!!!!!!!!!!!!!!!!L)!!!!!!!!!!!!!!!!!AFAL!!!!!!!5,3 M7N,$289:!J*+,!87N,$28!H2$34!%6!-7'82'(K!!!!!!!!!!!!D!!!!!!!!!!!!!!!!!OFOB! 0,1 *+,!@,'3$,!02$34!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!PCE!!!!!!!!!!!!!!!!DAF)C!!!!!21,3 *$&,!-7''9!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!B)!!!!!!!!!!!!!!!!!!!PF)E! 3,9 @+$79372'!Q,R%1$239!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!))!!!!!!!!!!!!!!!!!!PFOO!!!!!!!3,2 32 *+,!S$,,'!M,2T&,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DAD!!!!!!!!!!!!!!!!!!BFCL! 9,4-7''79+!#%1728!Q,R%1$2371!02$34!!!!!!!!!!!!!!!!!!ADB!!!!!!!!!!!!!!!D)FAB! 22,6 *+,!M,63!<8872'1,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!CB!!!!!!!!!!!!!!!!!)FAA! 6,8 @%RR&'793!02$34!%6!-7'82'(!!!!!!!!!!!!!!!!!!!!!!!!!!!!)!!!!!!!!!!!!!!!!!OFDU!!!!!!!! 0,3 *+,!@%RR&'793!V%$W,$9X!02$34!%6!-7'82'(!!!D!!!!!!!!!!!!!!!!!OFOB!!!!!!!!!0,1 Y3+,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DL!!!!!!!!!!!!!!!!!OFLL!!!!!!!!!1,2?%3!2HH8712N8,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!)UC!!!!!!!!!!!!!!!PPFPU!!!!!!!!!!.,6&928!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!!!!!!!! Q%'X3!W'%G!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOC!!!!!!!!!!!!!!!!)FCL!!!!?%!2'9G,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!! Tässä on tuloste jossa puuttuvat tiedot on imputoitu it eli koodattu useammalla ilmaisimella. Arvioi mitä mikäkin puuttuvan tiedon koodi merkitsee. Arvioi lisäksi mitä oikealla oleva sarake merkitsee. Ja mikä on sen puuttuvuusteoreettinen tausta. 178

Syrjähyppy jonka syynä on opiskelijan kiinnostus verrata puoluekannatusta vasemmistooikeistoakselin mukaan. Ohessa on sellainen taulukko. Voinet arvioida jotakin myös puuttuvia tietoja antaneista. Puolue p10 Keski arvo p90 Kaikki 3 5,7 8 The National Coalition Party 6 7,6 9 The Swedish People s Party (SPP) 5 7 8 Liberals, (The liberal party of Finland) 7 7 7 The Centre Party 5 6,7 9 True Finns 3 5,4 8 Christian Democrats 4 5,7 8 The Green League 3 4,8 7 Finnish Social Democratic Party 3 4,5 7 The Left Alliance 0 27 2,7 5 Communist Party of Finland 0 1,5 3 The Communist Workers' Party of Finland 0 0 0 Other 4 6 8 Not applicable 4 5,4 8 Refusal 3 5,5 8 Don't know 3 5,4 7,5 No answer 3 5,6 8 179

Imputointi 5 Yksikertainen ja monikertainen imputointi Tavallisinta on imputoida puuttuvan arvon tilalle yksi imputoitu arvo. Tätä kutsutaan yksikertaiseksi imputoinniksi tai yksittäisimputoinniksi (SI = single imputation). Voi olla myös perusteltua imputoida useampi arvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moniimputoinnista (MI = multiple imputation). Moni-imputoinnissa on kaksi strategiaa itse aineiston muodostamisen kannalta: (i) muodostetaan useita havaintoaineistoja joissa kussakin on siis omat imputoidut arvot, tai (ii) laajennetaan yhtä havaintoaineistoa siten, että siellä on siis samat tilastoyksiköt useampia kertoja imputoidun aineiston osalta. Tällä kurssilla en käsittele monikertaista imputointia vaikka se on muotia monissa sovellustieteissä. 180

Imputointi 6 Imputointi on prosessi joka tässä katsotaan koostuvan seuraavista 6 osatehtävästä: (i) Datan editointi (ii) Aputiedon hankinta ja huolto (iii) Imputointimallin rakentaminen (iv) Imputointitehtävä tai imputointitoiminto (v) Estimointi sisältäen piste-estimoinnin, otantavarianssin ja imputointivariansssin (vi) Täydennetyn aineiston luonti, sisältäen myös metatietona sen mitkä arvot on imputoitu (liputus). Näistä keskityn seuraavaksi kohtiin (iii) ja (iv). 181

Imputointi 7 Imputointimalli 1 Imputointimalli voi perustua viisaaseen tietoon ja hyviin oletukseen. Tällöin sitä ei estimoida vaan malli on sopiva funktiomuoto (imputoitu arvo = f(x)) tai loogisten päättelyjen kokonaisuus (jos näin ja niin, niin imputoitu arvo=noin). Mutta jos se estimoidaan, niin Selitettävä muuttuja imputointimallissa voi olla kahta tyyppiä: (i) Muuttuja jonka arvoja imputoidaan (voi olla jatkuva tai epäjatkuva ml. binäärinen tai multinomiaalinen, ks. Liite; vastaavasti imputointimallin tulee sopia tilanteeseen.) Tämä malli rakennetaan ja estimoidaan vastaajien aineistosta mutta itse imputointii i toteutetaan siis vastaamattomille. Mallin selittäjien tulee olla tunnettuja vastaamattomille. Malli voi olla tuotettu myös eri aineistosta kuin imputoitavasta mutta mallin muuttujien tulee tietysti olla samoja. 182

Imputointi 8 Imputointimalli 2 (ii) Puuttuneisuuden indikaattori koskien imputoitavaa muuttujaa (binäärinen: 1=ei puutu tai on kelpo ja 0=puuttuu/epäkelpo). Tällainen malli on tyypillisesti estimoitu logistisella tai probit- regressiolla. Olet jo aikaisemmin nähnyt tällä kurssilla tällaisia malleja (kertaa näitä kohtia). Tuloksena on siis todennäköisyyksiä puuttuneisuudelle siinä joukossa jossa imputointia toteutetaan, vastaavasti todennäköisyyksiä imputoidulle arvolle. 183

Imputointi 9 Imputointimalli 3 Tavallisten mallien (regressio, logistinen) lisäksi malli voi olla myös epälineaarinen ja ei-parametrinen. Jälkimmäisistä kiinnostavia imputoinnissa ovat esimerkiksi puumallit ja neuroverkot. Puumalleja on kahdenlaisia, luokittelupuussa selitettävänä on (moni-)kategorinen muuttuja, kun taas regressiopuussa jatkuva muuttuja. Puumalli ja neuroverkko antavat mahdollisuuden luoda osaryhmiä, klustereita, ryppäitä, neuroneja tai millä nimellä niitä milloinkin halutaan kutsua. Pyrkimys on että nämä osaryhmät ovat homogeenisia selitettävän muuttujan suhteen. Imputointien kannalta klusterit ovat hyödyllisiä. Niitä kutsutaan joko imputointiluokiksi tai imputointisoluiksi. Idea on että kunkin tällaisen sisällä toteutetaan itse imputointi. Tämä parhaimmillaan tehostaa imputointia, erityisesti jos kunkin tällaisen luokan sisällä ehto MCAR pätee. Tehostusta tulee sitä enemmän, mitä homogeenisempia imputointisolut ovat. 184

Imputointi 10 Imputointitoiminto 1 Imputointitoiminnot voidaan jakaa vain kahteen isoon pääryhmään, kumpikin on ehdollinen käytetylle mallille: (i) Malliluovuttaja-menetelmässä (model-donor method) imputoidut id t arvot otetaan t suoraan mallista tai estimoidusta id t jakaumasta tai viisaan arvauksen funktiosta, eli eivät siis välttämättä havaittuja. (ii) Vastaajaluovuttaja-menetelmässä (real-donor method) imputoidut arvot ovat viimeisessä vaiheessa peräisin joltakin vastaajalta tai muulta aineiston yksiköltä, ja siis arvot ovat aina havaittuja arvoja. 185

Imputointi 11 Imputointitoiminto 2 Termi luovuttaja on suora käännös sanasta donor mikä on latinalaispohjainen viitaten myös antamiseen. Ajoittain esiintyy myös sana lainata. On syytä korostaa, että kun jokin yksikkö luovuttaa tai antaa arvon toiselle yksikölle, niin tämä yksikkö ei menetä omaa arvoaan. Siinä on siis kyse kopioinnista. Käytän kuitenkin termiä luovuttaja, koska tämä ei sulje pois sitä, että luovuttaessaan jotakin toiselle, ei itse menetä mitään. Pikemminkin molemmat tai jokin kokonaisuus, jossa molemmat toimivat, voivat hyötyä. Aivan kuten imputoinnissakin hyvä luovuttaminen tuottaa hyötyä estimaatin laadun parantumisen myötä. Näinhän on monissa tilanteissa elävässäkin elämässä, kun vaikkapa luovutat omaa osaamistietoasi toisille. Et menetä mitään, pikemminkin ymmärrät osaamistasi paremmin, ja toiset hyötyvät annistasi. 186

Imputointi 12 Imputointitoiminto 3 Kummassakin imputointitoiminnossa voi olla satunnaisuutta tai se on puhtaasti deterministinen. Jälkimmäisessä imputoitu arvo on täysin määritelty, mutta satunnaisessa (kutsutaan stokastiseksi) k i) vaihtoehdossa eri imputointi voi tuottaa eri arvon. Malliluovuttaja menetelmässä imputoitu arvo on joko (i) mallin ennustama arvo (deterministinen ratkaisu), tai se on (ii) mallin ennustama arvo plus virhetermi (stokastinen ratkaisu). 187

Imputointi 13 Imputointitoiminto 4 Vastaajaluovuttaja menetelmässä imputoitu arvo on vastaajalta lainattu. Jos etsinnän taustalla on satunnaisuutta, kyseessä on stokastinen, muuten deterministinen ratkaisu. Vastaaja (vastaajat monikertaisessa imputoinnissa) valitaan mieluiten sellaisten joukosta jotka ovat samankaltaisia vastaamattoman kanssa. Siten keskeinen tehtävä tässä lähestymistavassa on löytää jokin läheisyysmitta, jolla samankaltaisia etsitään. Läheisyysmitta voi olla peräisin mallista (ja myös malliluovuttaja-menetelmällä imputoiduista arvoista) tai siitä riippumaton (jolloin hyvällä viisaudella etsitään läheisyyden kriteerit). Hyvä imputointisolu antaa erinomaisen lähtökohdan läheisten vastaajien etsintään, koska sen sisällä on suurella todennäköisyydellä dellä samankaltaisia yksiköitä. Eli siis jos imputointisolut ovat homogeenisia, niin voidaan jopa toimia niin, että mikä tahansa solun vastaaja voi luovuttaa arvonsa vastaamattomalle; paras valita satunnaisesti. i Edellytys on luonnollisesti se, että solussa on riittävästi vastaajia. Jos siis sisältää vain vastaamattomia tai vähän vastaajia, tilanne on hankala. 188

Imputointi 14 Malli vs toiminto Mallivaihtoehtoja on siis kaksi. On hyvä huomata että jos vaihtoehto (ii), puuttuneisuuden binäärinen indikaattori, on käytetty, y imputointitoiminto voi olla vain vastaajaluovuttajamenetelmä. Sen sijaan jos malli (i) on pohjana, voidaan edetä joko malliluovuttaja- tai vastaajaluovuttajamenetelmällä kohti varsinaista imputointia. Malliluovuttajamenetelmällä imputointi tapahtuu suoraan, joko deterministisesti tai stokastisesti, mutta vastaajaluovuttajamenetelmällä mallin ennustetut arvot käytetään läheisyyden mittareina. 189

Imputointi ekstra Mitä marjoja ja montako on täällä? Imputoi! Mikä metodi? Mitä tässä 190

Imputointi 14 En käy laajasti imputoinnin yksityiskohtia läpi. Aluksi huomautan siitä, että imputoinnin siis pitäisi tuottaa etua vaihtoehtoiseen tilanteeseen ettei imputoida id verrattuna. Jollei imputoida, id voidaan havaintomäärissä menettää paljonkin ja myös estimaatit voivat olla liian harhaisia. Imputoinnin avulla siis harhaa pitäisi saada pienennettyä ja mielellään siten ettei estimaatin keskivirhe kasva. Valitettavasti imputoimalla saatetaan tuottaa harhainen keskivirhe, erityisesti jollei sen estimoinnissa oteta huomioon imputoinnista johtuvaa epävarmuutta eli imputointivarianssia. Näin tapahtuu jos aineistosta tuotetaan estimaatit tavalliseen tapaan eli olettamalla että imputoitu arvo on oikea havaintoarvo. Tosielämässä emme tiedä kuinka lähellä oikeaa se on mutta osaamme arvioida epävarmuuden ainakin periaatteessa. Stokastisessa imputoinnissa syntyy enemmän varianssia ja siksi keskivirheen harha on sellaisessa pienempi ilman erikoistoimenpiteitä. 191

Imputointi 15 Yhteenveto Imputointimenetelmät voidaan tiivistää näin, siis sisältäen periaatteessa neljänlaisia vaihtoehtoja. oja Kaikissa kohdissa voi taustalla olla myös sama imputointimalli (kuten regressio). Vastaa ajaluovut ttaja Malliluov vuttaja Deterministinen Stokastinen Yksikertainen Yksikertainen Monikertainen 192

Imputointi 16 Esimerkki Tein keinotekoisella datalla pienen testin. Imputointia vaatinut muuttuja y on jatkuva. Käytettävissä oli yksi selittäjä x. Näiden välillä oli melkoisen selkeä yhteys, korrelaation ollessa 0,92. Havaintoja 40. Vastaamattomien määräksi tuli 13. Se ei ollut satunnaista, pienillä ja suurilla y-arvoilla todennäköisyys oli keskiarvoja korkeampaa. Edellytykset hyvällekin imputoinnille olivat olemassa. Yksinkertaisin imputointimalli on y=keskiarvo, mutta neljässä muussa regressiomalli y=x. Tätä kokeilin myös satunnaistermin t i lisäyksellä. llä Tuloksia on alla ja seuraavalla sivulla on kuvioiden muodossa imputoituja arvoja eri menetelmillä. Havaintoja Keskiarvo Keskihajonta Oikea 40 507 317 Vastaajat 27 587 292 Malliluovuttaja Malli y=keskiarvo 40 587 238 Malli y=x 40 519 279 Malli y=x+e 40 516 295 Vastaajaluovuttaja Malli y=x 40 499 299 Malli y=x+e 40 534 299 193

Imputointi 16 Esimerkki 2 Oikeat Malliluovuttaja y=keskiarvo Malliluovuttaja y=x Malliluovuttaja y=x+e Vastaajaluovuttaja y=x Vastaajaluovuttaja y=x+e 194

Imputointi 17 Yksinkertaiset metodit esitetyssä kehikossa Edellä on jo viitattu keskiarvoimputointiin jossa puuttuva tieto korvataan keskiarvolla. Esittämäni kehikon puitteissa keskiarvopaikkaus merkitsee että imputointimallii i muodostuu vain yhdestä parametristä, kun taas jos keskiarvopaikkaus toteutetaan erikseen kussakin imputointisolussa, kyseessä on imputointimalli jossa on kategorinen muuttuja selittäjänä. Vastaavasti jos puuttuva arvo korvataan havaittujen arvojen mediaanilla, ill puhutaan mediaani-imputoinnista. Myös moodi-imputointia voidaan käyttää mutta lähinnä vain kategorisille tai kategorisoiduille muuttujille. Nämä ovat deterministisiä ja voivat aiheuttaa kiusallista systemaattista harhaa. Keskiarvoimputoinnin erityistapaus on ns. suhdeimputointi, jossa imputointimallin selittäjänä on suhde. Tämä sopii vain suhdeasteikon muuttujille. Jos mikroaineistossa on paneli- tai muu pitkittäisaineisto pohjalla, käytetään yleisesti malliluovuttajaimputointia jossa malli on joko y_imp=y_edellinen tai y_imp=y_edellinen*inflaattori (tai deflaattori). En suosittele tätä paitsi jos tästä johtuvan harhan uskotaan olevan vähäisen. 195

Imputointi 19 - Kommentti Usein imputoinnissa on tavoitteena menestyä hyvin myös muuttujien välisten yhteyksien kuvaamisessa. Tämä onnistuu jos kuhunkin muuttujaan sovellettu imputointi onnistuu hyvin. Monet menetelmät eivät kuitenkaan takaa tätä. Seuraavanlaisia ratkaisuja on sovellettu: (i) Ei imputoida ollenkaan vaan puuttuvat tiedot jätetään analyysistä pois. Tässä on ongelmana havaintomäärän supistuminen ja tästä johtuva tarkkuuden heikkeneminen sekä muussa kuin MCAR-tilanteessa myös tulosten vääristyminen. (ii) Käytetään analyysimenetelmää, jossa puuttuvuus on mukana. (iii) Puuttuvuudesta johtuva harha oikaistaan uudelleenpainotuksella (iv) Sovelletaan vastaajaluovuttaja -menetelmää siten, että samalta luovuttajalta otetaan tiedot kaikille kiinnostuksen kohteena oleville muuttujille. Tämä menetelmä vastaa uudelleenpainotusta, mutta rajoitettuun joukkoon. (v) Sovelletaan ns. jaksottaista imputointia jossa ensin imputoidaan yksi muuttuja, sitten seuraava läheinen käyttäen edellistä imputoitua arvoa apumuuttujana, ja niin edespäin. 196

Surveyn vaiheet 1 Eli lyhyt kertaus pääkohdista A.Tavoitteiden määrittely tutkimukselle ja sen pohjalta tarvittavalle surveylle ja aineistolle. On huomattava että useimmat tutkimukset sisältävät paljon muutakin kuin surveyn. Eli survey voi olla vain pieni i mutta tärkeä ä osa koko k hanketta. B.Survey-asetelman määrittely, johon sisältyvät periaatteessa kaikki jatkossa olevat kohdat, osa ei vielä kovin tarkasti. C.Tavoiteperusjoukon määrittely: tämä on tehtävä mahdollisimman täsmällisesti ja asiakkaan tarpeisiin mahdollisimman hyvin vastaten ja tämän kanssa keskustellen. Tätä ennen tutkijalla on mielessään kiinnostusperusjoukko joka realisoidaan tavoiteperusjoukoksi. 197

Surveyn vaiheet 2 D.Kehikkoperusjoukkopohjan määrittely ja itse kehikon luonti ml. tarvittavien apumuuttujien luonti ja niiden arvojen sisällyttäminen kehikkoon tai muuhun tiedostoon jatkokäyttöä varten. Hyvin tyypillinen ongelma on, ettei heti aluksi kerätä mahdollisia potentiaalisesti hyödyllisiä apumuuttujia aineistoon. Myöhemmin niiden hakeminen samastakin lähteestä voi tulla kalliimmaksi ja käytännössä hankalammaksi. Kehikkoperusjoukko päivitetään mikäli mahdollista estimointivaiheessa. E.Otanta-asetelman määrittely. Pyrkimys on saada kuhunkin tilanteeseen mahdollisimman yksinkertainen ja hyvin hallittavissa oleva asetelma. Tämä ei tarkoita sitä, etteikö olisi hyvä fokusoida otosta surveyn tavoitteiden mukaan. Taustalla on efektiivisen otoskoon käsite. Tältä pohjalta määritellään brutto-otos. F.Tiedonkeruun suunnittelu mukaan lukien tarvittava kenttätyö, tiedonkeruumuodot, d kustannukset, k tietosuojakysymykset k ja onko tarkoitus toistaa tutkimusta. Toistaa voidaan sekä poikkileikkaus- että pitkittäismielessä. Jälkimmäinen on vaativampi. 198

Surveyn vaiheet 3 G. Tietosisällön määrittely ja operationalisointi lomaketasolle ottaen huomioon ajatellun tiedonkeruutavan tai useita samallekin surveylle. Tämä tapahtuu tutkimustiimissä mikä voi olla laaja verkko, mutta vielä ei kontaktoida tutkimusyksikköjä. H. Lomakkeen ja tiedonkeruujärjestelmän j testaus (pilottitutkimukset) sekä parannukset tiedonkeruujärjestelmään ja lomakkeeseen. Alkutestaus tehdään omassa piirissä mutta myöhemmin kontaktoidaan tutkimusyksiköitä sekä keruuta toteuttavia tahoja. I.Otanta ja otanta-aineiston luonti: tähän siis sisältyy myös kaikki saatavissa oleva aputiedon kerääminen otoskehikkolähteestä. J.Tiedonkeruu id k organisoidusti id ija tehokkaasti, tarvittaessa virheitä korjaten saadun palautteen (esim. haastattelijoilta) tt ilt pohjalta. Muista metadatan expertit 199

Surveyn vaiheet 4 K.Tiedontallennus (jos mahdollista yhtäaikaisesti tiedonkeruun kanssa) ainakin siten, ettei mahdottomia tietoja tiedostoon synny siis tallennukseen yhdistetään mikäli mahdollista ensi vaiheen tilastollinen editointi, ja mikäli mahdollista kohtuullisesti automatisoituna (tallennusohjelma on siis intelligentti). L. Otantatiedoston viimeistely. Tiedosto kattaa brutto-otoksen ja sisältää otanta-asetelmassa käytettyjen muuttujien lisäksi muuta ulkopuolelta saatua aputietoa sekä kenttätyön yhteydessä kerättyä. Luonnollisesti myös surveyn tulostiedot ovat mukana eli ketkä kä vastasivat, ketkä kä eivät ja mistä syystä sekä ylipeiton. Aputietoa voidaan kerätä vielä lisää vaikkapa rekistereistä tai tilastoista. Myös kehikon päivitystiedot on syytä sisällyttää otantatiedostoon. M. Tilastollisen editoinnin systemaattiset muodot. Toteutetaan yleensä integroidusti imputoinnin kanssa. Tähän liittyy myös linjaus siitä mihin editointi painottuu ellei resurssien puitteissa ole mahdollista tehdä kaikkea yhtä laadukkaasti. Edelleen sen yhteydessä saadaan tietoa koko surveyprosessin evaluointiin, ja siis oppimiseen seuraavia surveytä varten. 200

Surveyn vaiheet 5 N. Puuttuvien tietojen käsittely siten että erottuvat muiden muassa nollatieto, puuttuva tieto ja mahdoton tieto. O. Imputointi eli puuttuvien tietojen paikkaus ja lisäeditointi jos tarpeen. P. Otos- ja muiden painojen muodostaminen aputietoja hyödyntäen. y Q. Aineiston asentaminen mahdollisimman käyttökelpoiseen muotoon sen analyysiä varten. Tällöin muodostetaan yksi tai useampi elektroninen tiedosto. Yleensä on hyvä tehdä tiedostomuoto jossa sitä tullaan eniten käyttämään, esimerkiksi SAS-, SPSS- tai Stata-tiedosto, mikseipä Excel:kin, ja lisäksi sellainen, josta se on luettavissa melkein millä välineellä tahansa myös tulevaisuudessa (tekstitiedosto plus sen lukuohjelma em. tiedostoille). Näin sinulla on PUHDISTETTU surveyn mikroaineisto eli sellainen jota voidaan ilman huolia ryhtyä analysoimaan otanta-asetelma oikein huomioiden. Seuraavalla sivulla kohtuullinen puhtaan datan esimerkki. Parempaan pääsee. 201

Tilastoyksikön tunnus Paradata Muuttujan nimi, alempana metadata Tutkijan laskema muuttuja ilman metadataa = kotitalouden koko Puuttuvuus ilman koodausta Puuttuvuuskoodeja Puhdasta ESS- dataa Miten järjestetty? Maapaino Otospaino = Analyysipaino i 202

Imputointi ekstran ratkaisu Kannattaa käydä däkarpalossa 203

Tässä aikaisempi kuva oikein päin Toivon että surveymetodeista on moni asia loksahtanut oikein päin. Kiitos. 204