Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2010 Seppo Laaksonen

Transkriptio

1 Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2010 Seppo Laaksonen Luennot ja harjoitukset neljänä keskiviikkona klo alkaen Muut kolme kertaa ovat 27.1., ja Välipäivinä on tuettua harjoittelua niin paljon kuin halutaan. Koe 3.3. samassa paikassa on kaksiosainen: käsitepainotteinen kirjallinen osa sekä määrättyjen painojen muodostaminen annettavasta tiedostosta SAS:lla. Kurssimateriaalin alkuosassa esitetään taustatiedon kertauksen lisäksi asetelmapainot ja peruspainot. Lisäksi on mukana kaikkiin otospainoihin liittyviä tilanteita. Sen jälkeen tulevat esille adjustoidut eli parannetut painot apumuuttujien sallimin ehdoin. Lopuksi on paneli- ja muiden pitkittäisaineistojen erityistapauksia painojen kannalta sekä keskustelua painojen käytöstä. Esimerkkejä SAS-koodeineen on runsaasti, painottuen ESS:ään (European Social Survey), Eurooppalaisen uhritutkimuksen suomalaispilottiin ja Historiatietoisuus Suomessa postitiedusteluun. Myös PISA on mukana. Yritysaineisto voi tulla esille Painotusmenetelmät 2010, Seppo 1

2 Otossurveyn perusasetelma painotukseen liittyen 1 Survey (tarkastelen asiaa laajemmassa muodossa eli otossurveynä, mutta jos oletat että kaikki sisältyvät otokseen, niin tämä koskee kaikenlaisia surveytä) koostuu seuraavista perustoiminnoista kun tarkastelen nimenomaan painotusta eli sivuutan monia muita osioita: (i) Tavoiteperusjoukon määrittely (ii) Otannan suunnittelu ja otannan asetelmasta päättäminen (iii) Otoksen luonti siten että muodostettuun aineistoon otetaan itse otannan kannalta tärkeiden muuttujien lisäksi muita tarpeellisia muuttujia eli ns. apumuuttujia (iv) Kenttätyö eli tiedon keruu otokseen sisällytetyiltä postitse, netitse, käyntihaastatteluin, puhelimitse tai imuroimalla vastaajan tiedostosta (v) Kenttätyöstä saadun tiedon kokoaminen kohdassa (iii) mainittuun tiedostoon Painotusmenetelmät 2010, Seppo 2

3 Otossurveyn perusasetelma painotukseen liittyen 2 Tuloksena on: (vi) Otos- tai otantatiedosto, joka koostuu kaikista brutto-otoksen yksiköistä ja joka sisältää seuraavia muuttujatyyppejä - tunnistimet (sekä tunnistettavat että tunnistamattomat) - otanta-asetelman muuttujat kuten osite, ensisijainen poimintayksikkö, kunkin asteen sisältymistodennäköisyydet ja kehikon väestö- tai muut kokotiedot siten että tavoiteperusjoukon tason estimointeja voidaan toteuttaa. - kenttätyön tulostiedot ml. vastaamattomuuden syyt - muut hankitut tiedot kenttätyön yhteydessä tai ulkopuolisista lähteistä (kuten rekistereistä tai tilastoista) kerätyt Esimerkki otostiedostosta on johdanto-osan lopussa Painotusmenetelmät 2010, Seppo 3

4 Otossurveyn perusasetelma painotukseen liittyen 3 (vii) Otostiedostoa voi käyttää useampiin tarkoituksiin: - vastausaineiston laadun arviointiin, erityisesti tutkittaessa ylipeiton ja vastaamattomuuden suuruutta, vastaamisen taustatekijöitä ja vastaamattomuuden syitä - puuttuvan tiedon imputointiin siltä osin kun apumuuttujia on käytettävissä - PAINOTUKSEEN mikä on tämän kurssin pääaihe. Tietysti tällöin kaikki aputieto on olennaisessa merkityksessä onnistumisen kannalta Painotusmenetelmät 2010, Seppo 4

5 Painotuksen tavoitteita ja taustatekijöitä 1 Aluksi hyvä todeta, että tällä kurssilla en varsinaisesti käsittele painotuksia joiden tavoitteena on esimerkiksi laskea useista muuttujista keskiarvo tai summa painottamalla eri muuttujat sopivaksi katsotulla (sinänsä fiksulla) tavalla. Sen sijaan tämän kurssin painotuksessa on aina kyse siitä, että voitaisiin mahdollisimman hyvin estimoida halutun tavoiteperusjoukon tunnuslukuja. Tavoiteperusjoukko on tarkasti myös aikaan sidottu (vaikkapa kuun tai vuoden loppu tai jokin aikaväli) pieni tai iso joukko joka voi olla useampi kuin yksitasoinen (esimerkiksi kotitalous vs kotitalouden jäsenet, yritys vs yrityksen työntekijät, koululuokka vs. luokan oppilaat). Käytännössä saman aineiston pohjalta voidaan estimoida useampien tavoiteperusjoukkojen tunnuslukuja myös muussa mielessä kuin eritasoisuusmielessä. Siis eri tavoiteperusjoukkoja varten voidaan tarvita eri painot. Tavoiteperusjoukkojen moninaisuus korostuu paneli- tai muussa pitkittäistutkimuksessa. Tällöin ei aina ole mahdollista löytää edes täysaitoa tavoiteperusjoukkoa Painotusmenetelmät 2010, Seppo 5

6 Painotuksen tavoitteita ja taustatekijöitä 2 Jotta tavoiteperusjoukkoon olisi mahdollista päästä käsiksi, on löydettävä sopiva kehikko josta otos poimitaan. Tällaista kehikkoa kutsutaan myös Kehikkoperusjoukoksi. Tämän yksiköt eivät välttämättä ole samoja kuin tavoiteperusjoukon yksiköt; tästä seuraa kiintoisuutta yksiköiden sisältymistodennäköisyyksien laskentaan. Kehikon yksiköitä kutsutaan poimintayksiköiksi kun taas tavoiteperusjoukon yksiköitä tutkimusyksiköiksi. Surveyssä voi olla useammanlaisia poiminta- ja tutkimusyksiköitä. Toisaalta on niin, että kehikkoperusjoukko on useimmiten hieman vanhemmalta ajalta eli siitä voi puuttua tarpeellisia yksiköitä (alipeitto) tai siinä voi olla niitä liikaa (ylipeitto). Siksi estimointivaiheessa, jonka osa on painotus, on hyödyllistä saada käyttöön tuoretta tietoa eli hankkia Päivitetty kehikkoperusjoukko. Yritysaineistojen käsittelyssä tällä on paljon suurempi merkitys kuin kotitalousaineistoissa, koska yritysmaailma elää dynaamisemmin Painotusmenetelmät 2010, Seppo 6

7 Surveyaineiston painotuksen vaihtoehdot yleisesti 1 Brutto-otokselle luotavia painoja kutsutaan nimellä asetelmapainot. Asetelmapainot määräytyvät otanta-asetelmasta. Yksinkertaisimmillaan jokainen paino = 1 ja painojen summa on siis tavoiteperusjoukon sekä myös brutto-otoksen koko, mikäli kehikko on kattava. Tällöin kaikki on poimittu otokseen. Muuten asetelmapainot lasketaan sisältymistodennäköisyyksistä, joista on tarkempi esitys vähän myöhemmin. Painojen summa on edelleen alkuperäisen kehikon avulla määriteltävissä olevan tavoiteperusjoukon koko. Brutto-otostason asetelmapainoja ei analyysissä käytetä, koska otos elää eli se supistuu vastauskadon ja muun puuttuneisuuden seurauksena. Siis estimoinnissa tarvitaan sellaiset painot jotka on määritelty jokaiselle vastaajalle eli netto-otokselle. Näin ollen painot ovat tarpeen vaikka brutto-otos olisi 100%:nen Painotusmenetelmät 2010, Seppo 7

8 Surveyaineiston painotuksen vaihtoehdot yleisesti 2 Asetelmapainot voidaan siirtää myös netto-otostasolle tietyin ehdoin. Tätä on toteutettu muun muassa ESS:ssä mutta ratkaisu ei ole aina kirkas. Helpointa toteutus on tekemällä painoille skaalaus siten että painojen keskiarvoksi määritellään = 1 netto-otostasolla. Palaan tähän esimerkein. Tavallisin tapa on kuitenkin muodostaa netto-otokselle eli vastaajille ns. peruspaino, jossa on otanta-asetelman lisäksi huomioitu puuttuvuus eli ylipeitto, vastauskato ja muu puuttuvuus. Tällöin oletetaan että puuttuvuus on satunnaista otanta-asetelman puitteissa. Tämä on luonnollisinta tehdä ositteittain eli olettaa puuttuvuus satunnaiseksi kussakin ositteessa mutta sallia puuttuvuus erilaiseksi ositteiden välillä. Toki tämä painokin on usein hyvä skaalata eli muodostaa vastaava analyysipaino, jolloin painojen summa = vastaajien määrä Painotusmenetelmät 2010, Seppo 8

9 Surveyaineiston painotuksen vaihtoehdot yleisesti 3 Myöhemmin kehikkoperusjoukko päivitetään ja joitakin tietojakin alipeitosta voidaan saada. Tämä ei ole ehkä kovin realistinen mutta ainakin on syytä arvioida alipeiton suuruutta ja vaikutusta. Samaan aikaan on tehty kaikki voitava virheiden poistamiseksi sekä erävastauskadon ja muun puuttuvuuden imputoimiseksi ja lisäksi on luotu aikaisempaa paremmat otospainot, joita kutsun adjustoiduiksi painoiksi tai parannetuiksi painoiksi tai yleisemmin uuspainoiksi. Toimintaa kutsutaan myös uudelleenpainotukseksi. Huomaa myös, että aineistoon voidaan muodostaa vertailupainoja. Tyypillinen esimerkki tällaisesta on monikansallisissa surveyssä käytetty maan kokoa (tavoiteperusjoukon tasolla) kuvaava paino. Eräissä tilanteissa estimoinnissa käytettävä paino ei ole mikään yksittäinen paino, vaan kahden painon kooste, joka yleisimmin saadaan yksittäisten painojen sopivana tulona Painotusmenetelmät 2010, Seppo 9

10 Surveyaineiston painotuksen vaihtoehdot yleisesti 4 Tilastoyksiköt 1 r n N Ylipeitto (kehikosta löydetty ylimäärä) Yksilöintitunnukset Otantaasetelman (apu)muuttujat X1 Muut apumuuttujat X2 Tulosmuuttujat Y Yksikkövastauskato Ei sisällytetty otokseen Asetelmapaino Peruspaino Parannettu paino Alipeitto (ei löydetty kehikosta) Tässä kaaviokuva tilanteestamme painojen rakentamiseksi. Aineistossa on myös erävastauskatoa ja virheellisiä havaintoja mutta niitä en tarkastele erityisesti Painotusmenetelmät 2010, Seppo 10

11 Surveyaineiston painotuksen vaihtoehdot yleisesti 5 Toki on olemassa monia muita painotustilanteita kuin kaavion poikkileikkausasetelma. Esimerkiksi tutkimus voi olla kaksivaiheinen, jolloin asetelma kaaviona voisi olla tällainen. Otoksen 1 nettoosa Otoksen 2 netto-osa Otos 2:n vastauskato Otos 2:sta poisjätetty Paras mahdollinen paino otokse 1 vastaajille Paino vastaajille 1 ja 2 Otos 1:n vastauskato Painotusmenetelmät 2010, Seppo 11

12 Surveyaineiston painotuksen vaihtoehdot yleisesti 6 Vastaavasti paneleihin voi olla tarpeen muodostaa hyvin monenlaisia painoja. Tässä yksinkertainen tilanne: Ylipeitto 1 Ylipeitto 2 Ylipeitto 3 Panelin Aalto 1:n netto-otos Aalto 2:n nettoosa Aalto 3:n nettoosa Aalto 3:n uusi Paino aallolle 1 Paino aaltojen 1&2 yhtesiosalle Paino aaltojen 1&2&3 tasapainotetulle panelille Aalto 2:n uusi vastauskato vastauskato Aalto 1:n vastauskato Painotusmenetelmät 2010, Seppo 12

13 Surveyaineiston painotuksen vaihtoehdot yleisesti 7 On usein järkevää myös tutkia vastauskatoa erityisellä vastauskatootoksella, erityisesti jos kato on suuri ja on pelkoa että se vääristää liikaa tuloksia. Tällöin asetelmaa voisi kuvata näin. Kehikkotason X muuttujat ml. otantaasetelmassa käytetyt Otostason X -muuttujat Varsinaiset vastaajat Y1 Osaotos Y1 Y2 Alkuperäinen paino Paino muuttujiin Y1 ja Y2 vastanneille Parannettu paino Perusvastauskato Muuttujien Y1 on hyvä olla tutkimuksen muutamia avainmuuttujia joihin olisi myös helppo vastata, ainakin henkilökohtaisella haastattelulla Painotusmenetelmät 2010, Seppo 13

14 Kommentteja 1 Varsinaisia muuttujia tilastoaineistossa on kahta tyyppiä, ns. X- muuttujia eli apu- tai lisämuuttujia ja Y-muuttujia eli tulos- tai tutkimusmuuttujia. Toki X-muuttujiakin voi käyttää tulosmuuttujina. Painotuksen onnistumisen kannalta olennaista on luonnollisesti se kuinka hyviä ovat käytettävissä olevat apumuuttujat. Ne on oltava olemassa myös vastaamattomille tai muille puuttuville yksiköille, muuten uuspainotukselle ei löydy eväitä. Huomaa, että näitä on kahdenlaisia: (i) kullekin yksikölle ikioma (esim. verotettu tulo) ja (ii) yksikön edustamalle ryhmälle eli aggregaatti (esim. henkilön asuinkunnan tai sosioekonomisen ryhmän keskimääräinen verotettu tulo). Edellisen tason tieto on tehokkaampi, mikäli se on luotettava. Aggregaattitieto on usein kuitenkin luotettavampi, mutta ei ole yleensä tehokas Painotusmenetelmät 2010, Seppo 14

15 Kommentteja 2 Kuten havaitset, apumuuttujia on kahdelta tasolta poikkileikkaustilanteessa: - Koko tavoite- tai käytännössä kehikkoperusjoukon tasolta ja - Poimitun otoksen tasolta eli siis vastanneista ja vastaamattomista. Edellinen tieto on luonnollisesti vankempaa koska siihen ei sisälly otantavirhettä. Muuta virhettä siinä toki voi olla paljonkin. Hyvää tällaista aputietoa ei ole helposti kovin paljoa käytettävissä, mutta esimerkiksi väestökyselyissä Suomessa saadaan melko luotettavat väestötiedot halutusta ikäryhmästä sukupuolittain ja alueittain. Yritystiedusteluja varten on käytettävissä Tilastokeskuksen ylläpitämä yritysrekisteri. Tämän ajantasaisuus on suurempi ongelma kuin väestörekisterin. Otostason tiedon laatu on usein saatavissa paremmaksi ja laajempi valikoima muuttujia on käytettävissä. Otantavirhe ei häiritse merkittävästi jos otos on poimittu asianmukaisesti. Tämän tiedon etu on se, että se on mikrotasoinen Painotusmenetelmät 2010, Seppo 15

16 Kommentteja 3 Hyvien apumuuttujien hankkimiseksi on syytä panostaa surveyn suunnitteluvaiheesta alkaen. Valitettavasti tämä usein laiminlyödään. Esimerkkejä: - Otantakehikossa (vaikkapa väestörekisterissä) on usein saatavana muitakin muuttujia kuin vain otantaan tarvittavat. Niitä ei kuitenkaan pyydetä vaikka saataisiin samaan hintaan. Monet jopa kadottavat aineistoistaan otanta-asetelman muuttujat. - Tunnistetieto (vaikkapa henkilötunnus) hävitetään otoksen poiminnan jälkeen. Tällöin ei ole mahdollista kerätä yksikkötason tietoa mahdollisista muista lähteistä, vaikka tietosuojaviranomaisten lupa saataisiinkin. Silti olisi mahdollista kerätä aggregaattitason aputietoa sellaisella tasolla josta on vastaamattomista tietoa (vaikkapa postinumero- tai seutukuntataso). - Idea pitkittäistutkimuksen tekemiseen herää jonkin aikaa edellisen tutkimuksen jälkeen, mutta edellisen tiedustelun yhteystietoja ei ole tallennettu eikä lupaa tällaisen tekoon kysytty. Koko homma kariutuu. Muuten käytettävissä olisi kiintoisaa apu- ja myös aitoa tutkimustietoa Painotusmenetelmät 2010, Seppo 16

17 Kommentteja 4 Painotusmenetelmät ovat pääosin tarkoitetut käytettäväksi yksikkövastaamis- vs. vastaamattomuustasolla, ei siis muuttuja- eli erätasolla. Periaatteessa ei ole esteitä rakentaa painoja muuttujatasolle ja niin on myös tilastotyössä tehty esimerkiksi Kanadassa. Ongelma tällöin on muuttujien välinen analyysi sekä myös eri estimaattien konsistenssi. Jos kauttaaltaan on samat painot, tätä ongelmaa ei esiinny. Mieti miksi näin? Kuvioissa näet myös termin imputointi eli puuttuvan tiedon paikkaus. Imputoinninkin tarkoitus on osin sama kuin painotuksen, siis kompensoida puuttuvaa tietoa. Ääriharvoin imputointia käytetään täyttämään otokseen sisältymättömien arvoja (eli siis asetelmapainojen korvikkeena), sen sijaan imputointi voi olla painottamisen kilpailija vastaamattomuudesta johtuvan harhan vähentämisessä. On ihan hyvä tietyissä hankalissa tilanteissa kokeilla molempia menetelmiä ja päättää kumpaa lopulta käyttää saatujen tulosten perusteella tai esittää molemmat tulokset Painotusmenetelmät 2010, Seppo 17

18 Otantatiedosto ja varsinainen tiedosto Kuten edellä on ilmennyt, otantatiedosto on brutto-otostiedosto joka sisältää tärkeitä otanta- ja muita apumuuttujatietoja. Siihen luodaan myös tarvittavat painot, lopullisten tullessa vastaajien tasolle. Seuraava operaatio on yhdistää tämä tiedosto varsinaiseen datatiedostoon, Y-muuttujatiedostoon. Tätä varten on oltava yhteinen tunniste. Aina ei näin täydellisesti ole vaikka on toimittu hyvin. Esimerkiksi postitiedustelussa vastaaja voi hävittää tunnisteen. Käyttötiedostoksi soveltuu yhdistetty tiedosto, mutta netto-otososa on riittävä. Bruttootos Painot Tunnistin Tunnistin Y-muuttujat Varsinainen tiedosto Otantatiedosto Painotusmenetelmät 2010, Seppo 18

19 Otantatiedosto Uhritutkimuksesta vielä ilman painoja Painotusmenetelmät 2010, Seppo 19

20 Otantatiedosto Uhritutkimuksesta 2 Edellisen sivun tiedosto sisältää melko hyvän otostiedoston, sellaisen mikä on ollut mahdollista nettikyselyssä. Tässä nettikysely lähetettiin vuotiaille suomenkielisille Suomessa asuville Ahvenanmaata lukuun ottamatta. Pyyntö lähetettiin postitse mutta asianomaisia pyydettiin vastaamaan netissä. Yksi postillinen ja yksi tekstiviestillinen (heille joiden kännykkäpuhelinnumero oli tiedossa) muistutuskirje lähetettiin kahden viikon kuluttua tiedustelun alusta. Nettikysely oli suljettu siten että vain asianomaisella henkilöllä oli mahdollisuus avata nettilomake. Tiedusteluun vastaaminen oli mahdollista keskeyttää mutta vastaamista voitiin jatkaa myöhemmin kätevällä tekniikalla. Kuitenkaan osa ei palannut koskaan vastaamaan kerran keskeytettyään. Siksi aineistossa on kaksi eri muuttujaa kenttätyön tulokselle: -resp_1 = 1 jos vastasi tiedustelun loppuun asti, muuten = 0 -resp_2 = 1 jos vastasi jonkinkin verran, muuten = 0. Siten resp_2 on useammin = 1 kuin edellinen ja jos resp_1=1 niin resp_2= Painotusmenetelmät 2010, Seppo 20

21 Otantatiedosto Uhritutkimuksesta 3 Tuossa nettikyselyn tiedostossa ei ole siis monipuolisia vastaamattomuuden syitä, koska niitä on hankala kerätä. Muutama virheellisen osoitteen ilmaisema tieto tuli mutta en ole sisällyttänyt tätä tuohon tiedostoon. Käyntihaastattelussa ja puhelinhaastattelussa on mahdollisuus kerätä tarkempaa tietoa vastaamattomuuden syistä. Myös postitiedustelu antaa hieman enemmän mahdollisuuksia jos on hyvin suunniteltu. Tuossa ulkopuolellekin annettavassa otantatiedostossa on myös: -Tietosuojattu kohdenumero konu. Käyttäjällä on myös sen tietosuojaamaton tunnus useassakin muodossa eli henkilötunnus, etunimi+sukunimi, osoite ml postinumero. - Otanta-asetelmaan liittyviä muuttujia: strata, psu, population_by_psu, population_by_strata, prob_psu, prob_unit. Selvitämme nämä tarkemmin luennoilla. - Joukko apumuuttujia joista on hyötyä aineiston laadun arvioinnissa, erityisesti vastaamattomuuden tutkimisessa, sekä painotuksessa. Ihan kaikkia Väestörekisteristä otettuja muuttujia ei mahtunut sivulle Painotusmenetelmät 2010, Seppo 21

22 Vastauskadon ja muun puuttuneisuuden syyt ja painotus Puuttuneisuuden syitä en tässä yksityiskohtaisesti tarkastele (ks. Surveymetodiikan kurssin materiaalista). On olennaista joka tapauksessa hahmottaa sen syy, koska syy voi vaikuttaa olennaisesti siihen mitä strategiaa sen korvaamisessa käytetään. Perusidea on kuitenkin, että jos puuttuneisuuden syy on sellainen, että tutkimusyksikön kaikki olennaiset tiedot jäävät puuttumaan, niin painotus on selkeästi perusratkaisu, jos taas puuttuneisuus on eräkohtaista, imputointi on perusratkaisu Painotusmenetelmät 2010, Seppo 22

23 Puuttuneisuuden mekanismit 1 Kertaus Surveyhin osallistuminen, mieluiten korkealla tasolla tai ainakin siten että osallistumattomuus olisi mahdollisimman harmitonta on luonnollisesti tavoitteena. Tästä ilmiöstä käytetään nimeä mekanismi (mechanism). Se voidaan käsitellä joko positiivisesta suunnasta tai negatiivisesta suunnasta, mitkä kumpikin johtavat käytännössä samaan tulokseen. Positiivisesti ajatellen puhutaan vastausmekanismista, kun taas toisin päin ajatellen joko puuttuneisuusmekanismista tai vastaamattomuusmekanismista. Mekanismin luonteen hahmottaminen on hyvin tärkeä arvioida tai jopa tietää kun lähdetään imputointiin ja uudelleenpainotukseen. Jos ja kun sitä ei hyvin tiedetä, joudutaan tekemään mahdollisimman hyvät oletukset sen luonteesta. Seuraavassa esitetään tärkeimmät perinteiset käsitteet tältä alueelta. Esitän ne tässä ilman kaavoja. Jos kiinnostaa, löydät helposti vastaavat kaavoina Painotusmenetelmät 2010, Seppo 23

24 Puuttuneisuuden mekanismit 2 Kertaus Puuttuneisuus on täysin satunnaista, MCAR (Missing Completely At Random): Tällöin siis puuttuneisuus on täysin satunnaista tai ajatellaan sellaiseksi vaikka ei olisikaan. Puuttuneisuus ei siis riipu mistään muuttujista (xeikä y-) tilastollisesti merkitsevästi. Näin monissa surveytutkimuksissa valitettavasti toimitaan. Puuttuneisuus satunnaista otanta-asetelman puitteissa, MARS (Missing At Random Under Sampling Design): Tällöin puuttuneisuus riippuu vain otanta-asetelman muuttujista. Tyypillisin tilanne lienee se, että oletetaan ositetun otannan tapauksessa että ositteiden sisällä puuttuneisuus on satunnaista muttei ositteiden välillä. Tämä on edellistä paljon järkevämpi oletus. Jos otannassa on hyvä ositus, myös riittävän laaja ja ottaa huomioon odotettavissa olevan puuttuneisuuden, niin tämä strategia voi olla oikeinkin hyvä Painotusmenetelmät 2010, Seppo 24

25 Puuttuneisuuden mekanismit 3 Kertaus Puuttuneisuus on satunnaista ehdollisesti MAR (Missing At Random) Huomaat että en ole kääntänyt MAR:ia suoraan vaan laittanut ehdollisuuden mukaan. Tämä on edellisen täydennys. Nyt oletetaan että puuttuneisuus riippuu (tai voi riippua) sekä otanta-asetelman muuttujista että muista mahdollisista saatavissa olevista apumuuttujista X. Tämä strategia tarkoittaa käytännössä sitä, että puuttuneisuus mallitetaan ja mallin tulosta käytetään hyväksi imputoinnissa ja uudelleenpainotuksessa. Puuttuneisuus ei ole satunnaista MNAR (Missing Not At Random) Käytännön elämässä ei voida kuvitella että kaikki puuttuneisuus voidaan selittää eli jäljelle jää epäsatunnaista puuttuneisuutta. Toki tämän osuuden soisi olevan mahdollisimman vähäistä ja näin onkin jos riittävä valikoima apumuuttujia löytyy puuttuneisuutta mallittamaan. Faktamuuttujien osalta mallittaminen on yleensä helpompaa kuin asennemuuttujien osalta Painotusmenetelmät 2010, Seppo 25

26 Puuttuneisuuden mekanismit 4 Kertaus Näitä käsitteitä esitetään myös muissa muodoissa kuin edellä, ja MARS puuttuu kokonaan, koska on oma täydennykseni. Tämän käsitteen tarpeellisuus on mielestäni ilmeinen, koska usein luonnostaan toimitaan niin, että puuttuneisuus voidaan hahmottaa otanta-asetelman sisäisenä asiana. Tyypillinen esimerkki on ositettu otanta, jolloin ensivaiheessa melkein automaattisesti oletetaan, että puuttuneisuus on satunnaista ositteiden sisällä, muttei välttämättä ositteiden välillä. Ensimmäinen puuttuvuuden laji MCAR on harvoin toteutuva mutta toki sen pohjalta on hyödyllistä tehdä esimerkiksi imputointeja, ainakin siksi, että saisi alustavan näkökulman tilanteeseen. Otanta-asetelmassa kannattaa huomioida puuttuneisuuden vaihtelu. Siis kannattaa allokoida brutto-otos eli alkuperäinen otos mieluiten ottaen huomioon odotettavissa oleva vastauskato ja muu puuttuneisuus. Jos tämä vielä realisoituu käytännössä, niin MARS on voimassa. Huom. Kaikki eivät käytä aktiivisti em. termejä. Sanat informatiivinen (eli sellainen jota voidaan selittää) vs. epäinformatiivinen ovat myös käytetyt Painotusmenetelmät 2010, Seppo 26

27 Painotuksen tavoitteiden oltava kirkkaat 1 Painotus on siis tarpeen aineistossa, joka ei kata koko tavoiteperusjoukkoa, mutta tuloksia halutaan esittää tavoiteperusjoukon tasolla. Sen avulla rakennetaan estimointimenetelmä, joka tuottaa mahdollisimman luotettavia estimaatteja tuon tavoiteperusjoukon ja sen konkretisoinnin eli tutkimusperusjoukon tasolle; estimointi sisältää sekä piste- että väliestimoinnin. Siis tavoiteperusjoukko on oltava kirkkaana mielessä tai jos aineistolla ei oikein kyetä hyvään estimointiin sillä tasolla, olisi hyvä olla rehellinen, ja supistaa tavoitettaan puhuen jostakin suppeammasta tutkimusperusjoukosta kuin siitä mikä oli alun perin tavoiteperusjoukkona. Tällaisista rehellisistä tutkijoista olen harvoin kuullut. Esiintyy myös paljon raportteja joissa mitään tavoiteperusjoukkoa ei ole määritelty vaan tulokset lasketaan suoraviivaisesti vastaajista ilman painotuksia. Tosin julkistuksessa näkyy karkeasti määritelty kohdejoukko. Tällöin ei ole kyse estimoinnista Painotusmenetelmät 2010, Seppo 27

28 Painotuksen tavoitteiden oltava kirkkaat 2 Painotus voidaan toteuttaa siis myös aineistossa johon on otettu 100%:nen otos eli kaikki tavoiteperusjoukosta, mutta kaikista ei ole saatu tietoa. Tällöin painotuksella kompensoidaan vain puuttuneisuutta (vastauskatoa ja alipeittoa). Jos, kuten yleensä, painotus tehdään aidolle otosaineistolle (vaikka joistakin ositteista voi olla poimittu kaikki), niin painotus tähtää kompensoimaan sekä otannan että puuttuneisuuden vaikutuksia. On huomattava että alipeiton kompensointi on usein hankalaa puuttuvan aputiedon takia. Päivitetty kehikko auttaa asiaa. Ylipeittoa ei sinänsä tarvitse kompensoida, koska se ei kuulu tavoiteperusjoukkoon, mutta se voi silti harhaistaa tulosta. Siksi painotus on myös sen vaikutuksen vähentämiseen Painotusmenetelmät 2010, Seppo 28

29 Painotuksen tavoitteiden oltava kirkkaat 3 On tärkeä korostaa sitä, että samassakin tutkimuksessa tavoiteperusjoukkoja voi olla useita. Paneli- ja muun pitkittäistutkimuksen tilanteessa tämä on helppo havaita, koska tavoiteperusjoukkoja on yleensä eri aikaväleille tai ajankohdille. Myös poikkileikkaustilanteissa voi olla useita tavoiteperusjoukkoja. Nämä ovat tyypillisesti eri tasoilta, kuten vaikkapa koskien ylemmältä tasolta kouluja, yrityksiä tai kotitalouksia ja alemmalta tasolta oppilaita, toimipaikkoja ja kotitalouden jäseniä. Kummankin tason estimointia varten tarvitaan sopivat painot. Jatkossa menettelen niin, että ensin harjoittelemme asetelmapainojen tuottamista ja tästä etenemme peruspainoihin ja tätä parempiin painoihin ensin poikkileikkausaineistossa. Lopuksi tarkastelen muutamia erityistilanteita painojen käytöstä Painotusmenetelmät 2010, Seppo 29

30 Asetelmapainot 1 Tämän osan käsittely tällä kurssilla on hieman ongelmallista, koska asetelmapainot muodostetaan otanta-asetelman pohjalta mutta kurssi ei varsinaisesti koske otanta-asetelmia. Perusidea on yksinkertainen: Asetelmapaino w k = 1/ π k (jotkut käyttävät symbolia a) on sisältymistodennäköisyyden käänteisluku. Tämä on myös otospaino. Se ilmaisee kuinka monta yksikköä painon omaava tutkimusyksikkö vastaa tavoiteperusjoukossa. Jos paino on yksi, se edustaa siis vain itseään, mutta jos paino = 1000, se ikään kuin edustaa 1000 yksikköä. Sama periaate pätee muille myöhemmin esitettäville otospainoille. On hyvä todeta, että jos otospaino on alle 1, jotain on pielessä, koska tämä tutkimusyksikkö ei edusta edes itseään kokonaan. Huonot tekniset ratkaisut voivat tuottaa jopa negatiivisia painoja Painotusmenetelmät 2010, Seppo 30

31 Asetelmapainot 2 Sisältymistodennäköisyys siis riippuu otannasta. Jos otannassa on vain yksi aste eli suoraan yhdellä otannalla löydetään tutkimusyksiköt, koko tutkimusyksikön sisältymistodennäköisyys muodostuu yhdestä sisältymistodennäköisyydestä, mutta jos asteita on useita, niin koko sisältymistodennäköisyys on usean sisältymistodennäköisyyden tulo, edellyttäen että eri otospoiminnat ovat toisistaan riippumattomia. Tällaiseen ratkaisuun kannattaa pyrkiä. Ainoa tyypillinen poikkeava tilanne on osittaminen, sillä kunkin ositteen sisällä toimitaan erillisesti, ikään kuin erillisissä perusjoukoissa. Tekniikan osalta aloitan ääriyksinkertaisesta painosta eli sellaisesta, jolloin otosyksiköt on poimittu yksinkertaisella satunnaisotannalla joko koko kehikosta tai ositteittaisesta kehikosta Painotusmenetelmät 2010, Seppo 31

32 Asetelmapainot 3 Siis sisältymistodennäköisyys saadaan kaavalla, mikä siis koostuu kahdesta tekijästä, kunkin kehikon yksikön k poimintatodennäköisyydestä ja valitusta otoskoosta n. k n 1 N n N Vastaavasti asetelmapaino on sen käänteisluku Kun tämä laajennetaan ositetasolle ja poiminta on siis satunnaista kunkin ositteen sisällä, saadaan Harjoittelemme näillä aluksi Painotusmenetelmät 2010, Seppo 32

33 Asetelmapainot 4 Toteutan tämän laskennan SAS:lla Espanjan ESS-datalla, jolloin tiedän maan 15+ -ikäisen väestön määrän = Toisaalta brutto-otoksen koko on Vastaavasti asetelmapaino on sen käänteisluku, joten SAS:lla asetelmapainot saadaan näin lähtien otostiedostosta ess.spain: data spain; set ess.spain (keep=idno prob1 prob2 psu strpopul outcome stratex1); if outcome=1 then resp=1; else resp=0; drop outcome; prob_srs=3290/ ; w_srs=1/prob_srs; run; Toki tuo luku 3290 voidaan laskea aineistosta omalla operaatiolla ja saada tuo paino ilman manuaalista kirjoittamista. Väestömäärän on oltava joko tiedossa tai otostiedostossa omana muuttujanaan valmiina Painotusmenetelmät 2010, Seppo 33

34 Asetelmapainot 5 Vastaavalla tavalla voidaan laskea ositetun otannan mukaiset painot vaikka Espanja ei tätä menetelmää käyttänyt. Ositteita oli tässä tapauksessa 65 kappaletta. Oheisessa ohjelmassa esitetään bruttopainojen w_str laskenta ja lopuksi tuotetaan perustunnusluvut kummastakin painosta. proc sort; by stratex1; proc summary; class stratex1; var strpopul resp; output out=spain_strata mean(strpopul)=popu_strata sum(resp)=rh; run; proc sort data=spain_strata; by stratex1; data spain_strata2; merge spain_strata spain; by stratex1; if _type_=1; n=_freq_; w_str=popu_strata/n; drop _type freq_; run; proc means n sum cv min max; var w_str w_srs; run; Coeff of Variable N Sum Variation Minimum Maximum w_str w_srs Painotusmenetelmät 2010, Seppo 34

35 Asetelmapainot 6 Kuten edellä on selostettu, on usein hyödyllistä muodostaa myös skaalatut eli analyysipainot. Siis jakaa varsinaiset painot niiden keskiarvolla. Tällöin ohjelma jatkuu edellisestä näin. Tulos on alempana vastaavasti: data spain_strata2; merge spain_strata spain; by stratex1; if _type_=1; n=_freq_; w_str=popu_strata/n; i=1; drop _type freq_; proc sort; by i; proc summary data=spain_strata2; var w_srs w_str; output out=wmean mean(w_srs w_str)=mean_w_srs mean_w_str; data wmean2; set wmean; i=1; proc sort; by i; data spain_strata3; merge spain_strata2 wmean2; by i; w_srs_scaled=w_srs/mean_w_srs; w_str_scaled=w_str/mean_w_str; drop i; run; Coeff of Variable N Sum Variation Minimum Maximum Mean w_str_scaled w_srs_scaled Painotusmenetelmät 2010, Seppo 35

36 Harjoitusosio 1 Liitteenä on erillisessä paikassa Tsekin otostiedosto joka sisältää asetelman mukaiset muuttujat. Kannattaa tutkia mikä asetelma voisi olla mutta siihen palataan pian. Nyt aloitetaan mahdollisimman yksinkertaisella tehtävällä olettaen että asetelma on joko srs tai satunnainen str, kuten edellisten sivujen esimerkissä Espanjalle. Tiedoksi maan 15+ -vuotiaiden väkiluku = sen mukaisena kuin sen olen saanut. 1. Laske tällä ehdolla asetelmapaino brutto-otokselle. 2. Kuten näet, on maassa sovellettu osittamista. Oletetaan että poiminta ositteiden sisällä on ollut satunnainen. Laske tämän mukainen brutto-otoksen asetelmapaino. 3. Laske vastaavat skaalatut asetelmapainot siten että painojen keskiarvo on yksi. Tarkista myös mikä on painojen summa. Paina myös jatkoa varten mieleen seuraavat tehtävät: 4. Laske edellisiä vastaavat painot netto-otokselle, myös skaalatut. 5. Laske oikean asetelman mukaiset vastaavat painot, myös skaalatut. 6. Vertaa kaikkien painojen ominaisuuksia Painotusmenetelmät 2010, Seppo 36

37 Asetelmapainot 7 Ennen kuin jatkan vaativampiin asetelmapainoihin, on hyvä huomata että ositettu satunnaisotanta on ehkä yleisin menetelmä. Se on täysin vallitseva yrityssurveyssä, missä ositteet rakennetaan toimialan ja yrityksen kokoluokan mukaan. Molemmat tiedot saadaan enemmän tai vähemmän ajantasaisesta rekisteristä. Käytännössä toimiala ja vielä useammin kokoluokka voi tiedusteluhetkellä olla muu. Jos koko kuitenkin on kokoluokan sisällä, ongelma on vähäinen. Kuitenkin päivitetystä kehikosta voi olla hyötyä uusien painojen muodostamisessa ja siis estimoinnissa. Ositettu satunnaisotanta oli puhtaasti sovellettu myös Historiatietoisuus Suomessa hankkeessa. Tällöin käytettiin neljää ositetta kahden muuttujan mukaan, Bruttokoko Vastaus% missä Young<25 vuotta, Fi_Other Fi_Young Fi=suomenkielinen Se_Other Se=ruotsinkielinen Se_Young Kaikki Painotusmenetelmät 2010, Seppo 37

38 From Design Weights to Basic (Initial) Weights 1 Design weights are created for a gross sample in principle, but in reality in-eligibles or over-coverage units are not important in estimation, and should be omitted later. It is possible straightforwardly to convert the design weights into a net sample, but usually the net-sample weights are called basic (base, initial) weights and these are not completely straightforwardly determined from the design weights. Instead, if we assume that missingness is MARS (see before), then the basic weights can be constructed similarly to the design weights. This is easy to show in the case of stratified random sampling and hence I present this case first. I leads to the formula Painotusmenetelmät 2010, Seppo 38

39 From Design Weights to Basic (Initial) Weights 2a This is the respective example for the Spanish sampling file. Note that I already calculated the number of respondents for stratum h = rh in the previous phase. Hence it is immediately possible to construct the basic weights for each stratum. This program is partially overlapping with the previous one: data spain_strata2; merge spain_strata spain; by stratex1; if _type_=1; n=_freq_; w_str=popu_strata/n; i=1;drop _type freq_; run; proc sort; by i; proc summary data=spain_strata2; var w_srs w_str; output out=wmean mean(w_srs w_str)=mean_w_srs mean_w_str; data wmean2; set wmean; i=1; proc sort; by i; data spain_strata3; merge spain_strata2 wmean2; by i; w_srs_scaled=w_srs/mean_w_srs; w_str_scaled=w_str/mean_w_str; if resp=1 then w_basic =popu_strata/rh; Painotusmenetelmät 2010, Seppo 39

40 From Design Weights to Basic (Initial) Weights 2b Continues: proc summary data=spain_strata3; var w_basic; output out=wmean3 mean(w_basic)=mean_w_basic; data wmean4; set wmean3; i=1; /*this variable i is technical for helping merging*/ proc sort; by i; data spain_strata4; merge spain_strata3 wmean4; by i; w_basic_scaled =w_basic/mean_w_basic; proc means n sum cv min max mean; var w_str w_str_scaled w_srs_scaled w_basic w_basic_scaled; run; Results include also the earlier ones. Interpret! Coeff of Variable N Sum Variation Minimum Maximum Mean w_str w_str_scaled w_srs_scaled w_basic w_basic_scaled Painotusmenetelmät 2010, Seppo 40

41 Design weights 8 Next the design weights for a more complex sample are presented. Respectively, the basic weights are presented and discussed. Usually, a complex sample means that there are at least two stages or phases applied for getting a good sample. I present first two-stage cluster sampling and then three-stage sampling, respectively. These two cases include most typical sampling designs overall in the world, although these are not common in traditional Finnish surveys. At contrast, our crime victim survey tests one of the alternatives, that is, there are 100 small area clusters in addition to 32 strata. Moreover, the whole sample has been divided into three different data collection panels (web, telephone and face-two-face). We return to details of this survey later during the course. Now I present first stratified two-stage cluster random sampling as it has been often used in the European Social Survey, and also in the PISA, etc. etc Painotusmenetelmät 2010, Seppo 41

42 Design weights 9 Now, within each stratum we need two inclusion probabilities: (i) For sampled first stage units and (ii) For study units selected from each sampled first stage unit. What can be these first stages: - Small areas of the target population area - School classes (or schools) - Enterprises or other business units. When sampling those stage units, pps (probability proportional to size) with replacement is usually applied. The inclusion probability for psu l (=1,, L) is in which variable x is the best possible psu size measure from the frame, n 1 = the decided sample size of the first stage Painotusmenetelmät 2010, Seppo 42

43 Design weights 10 The denominator is the sum of size in the universe or the frame population U. This universe consists of L stage units that can be interpreted as clusters. Hence we use the term cluster sampling. You see again that the inclusion probability has the two terms, proportional selection probability and the sample size. Comments: (i) Since this inclusion probability is based on with replacement, it is possible that the same cluster will be selected two or more times. That is, the inclusion probability is larger than one which is absolutely against the probability theory. Nevertheless, such probabilities are obtained e.g. in the ESS; fortunately after the second stage selection the problem disappears. You see on next page an example from the ESS 4 German Painotusmenetelmät 2010, Seppo 43

44 Design weights 11 Look at the German ESS4 and give your comments on the first-stage inclusion probabilities: Pps selection is not difficult to do manually but the SAS SurveySelect procedure is naturally easier if the information is electronic. Question: what to do if the inclusion probabilities are larger than one? Painotusmenetelmät 2010, Seppo 44

45 Design weights 12 (ii) In order to correctly compute the probability, it is needed statistics on the clusters. It is ideal if statistics are available from the target population units like 15+ old population in the ESS. Many countries cannot get such up-to-date statistics but instead somewhat old or from the other age groups such as 18+ years. This is not a hard problem if these proportional populations correspond to the target population proportions, or even a small bias is not really problematic compared with other survey problems. E.g. ESS population sizes are often only approximately correct Painotusmenetelmät 2010, Seppo 45

46 Design weights 13 There are a lot of alternatives in the second stage for sample selection but most common is purely random selection. Nevertheless, the sample size can vary or be equal within each stratum or even in all strata. It is very comfortable to use equal gross sample size at least within each stratum. This is used in most countries in the ESS, and was used in the PISA except if there were not found enough students (=35) from a cluster (due to too small schools). So, if the gross sample size is n 2 in the second stage then the inclusion probability for the study unit k is simply, within each stratum (I have omitted the stratum index such h from these formulas; you can add it easily if you wish): Painotusmenetelmät 2010, Seppo 46

47 Design weights 14 Since the sample selection of the first stage is independent of that of the second stage, the final inclusion probability is the product of the probabilities (I use a more concrete notation here). You see that we do not need really a cluster size here or respectively in the inverse of the inclusion probability = the design weight. You see also that the weights are equal within each stratum. This strategy is called self-weighting. Note that I have seen often (see e.g. the literature list and my Iraq survey article 2008; the Greek ESS 4 also includes only one n and one probability for two stages) that the cluster information is missing in the sampling file but the final inclusion probability is available. This is OK if the both probabilities have been really computed correctly but it is not ensured, and hence this survey has not been trusted Painotusmenetelmät 2010, Seppo 47

48 Design weights 15 Now I continue with the Spanish example. In fact the sampling file consists of the two inclusion probabilities prob1 and prob2. It is just the first task to multiply these and take the inverse and to get the design weight w_clu. data spain_strata4; merge spain_strata3 wmean4; by i; w_basic_scaled =w_basic/mean_w_basic; w_clu= 1/(prob1*prob2); proc sort; by i; /*this variable i is technical for helping merging*/ proc summary data=spain_strata4; var w_clu; output out=wmean5 mean(w_clu)=mean_w_clu; data wmean6; set wmean5; i=1; proc sort; by i; data spain_strata5; merge spain_strata4 wmean6; by i; w_clu_scaled =w_clu/mean_w_clu; proc means n sum cv min max mean; var w_str w_str_scaled w_basic w_basic_scaled w_clu w_clu_scaled; run; Painotusmenetelmät 2010, Seppo 48

49 Design weights 16 The results are here: Coeff of Variable N Sum Variation Minimum Maximum Mean w_str w_str_scaled w_basic w_basic_scaled w_clu w_clu_scaled Painotusmenetelmät 2010, Seppo 49

50 From Design Weights to Basic (Initial) Weights 3 In the case of two-stage cluster sampling it is not automatically clear how to construct the basic weights. It is not unclear that the sum of the weights should be equal to the estimated target population size, but how to take into account unit non-response? The first stage for this is not unclear unless the whole psu is missing. If a psu is missing like in few cases in some countries PISA, special techniques can be applied. I do not present these. In the ESS all small area clusters will be surveyed and some respondents found from each (!). The second stage can be handled so that the unit non-response are taken into account, but this leads to varying real inclusion probabilities and difficulties in variance estimation. This case can also been interpreted to belong to non-response adjustments which I will consider in the next sessions Painotusmenetelmät 2010, Seppo 50

51 From Design Weights to Basic (Initial) Weights 4 For the previous reasons, the basic weights are best to create so that the initial design weights are scaled first simply so that their sum over the respondents equals to one (resp_w_clu_scaled are the preliminary weights in the following Spanish example, and the weights w_basic_clu_scaled are the final ones). The latter ones are much used in the ESS since there are no proper basic weights in the micro data. Note that I am not presenting the results from these weights immediately but after the next session that considers the creation of the respective simple (real) basic weights Painotusmenetelmät 2010, Seppo 51

52 From Design Weights to Basic (Initial) Weights 5 The SAS program for the Spanish file. See the explanations from the previous page. data spain_strata5; merge spain_strata4 wmean6; by i; w_clu_scaled =w_clu/mean_w_clu; if resp=1 then resp_w_clu_scaled=w_clu_scaled; proc sort; by i; proc summary data=spain_strata5; var resp_w_clu_scaled; output out=wmean7 mean(resp_w_clu_scaled)=mean_resp_w_clu_scaled; data wmean8; set wmean7; i=1; proc sort; by i; data spain_strata6; merge spain_strata5 wmean8; by i; w_basic_clu_scaled =resp_w_clu_scaled/mean_resp_w_clu_scaled; proc means n sum cv min max mean; var w_str w_str_scaled w_basic w_basic_scaled w_clu w_clu_scaled w_basic_clu_scaled; run; Painotusmenetelmät 2010, Seppo 52

53 From Design Weights to Basic (Initial) Weights 6 Next, I thus present how to perform the basic weights. The strategy is simply extract the previous scaled weights into the target population level by strata. proc summary data=spain_strata6; where resp=1; class stratex1; var w_basic_clu_scaled; output out=basic sum(w_basic_clu_scaled)=sum_w_basic_clu_scaled; data basic2; set basic; if _type_=1; proc sort; by stratex1; proc sort data=spain_strata6; by stratex1; data spain_strata7; merge spain_strata6 basic; by stratex1; w_basic_clu =w_basic_clu_scaled/(sum_w_basic_clu_scaled/popu_strata); proc means n sum cv min max mean; var w_str w_str_scaled w_basic w_basic_scaled w_clu w_clu_scaled w_basic_clu_scaled w_basic_clu; run; Painotusmenetelmät 2010, Seppo 53

54 From Design Weights to Basic (Initial) Weights 7 Here are some results. You will see that some weights differ much, some only slightly from each other. Try to find reasons. Coeff of Variable N Sum Variation Minimum Maximum Mean w_str_scaled w_basic w_basic_scaled w_clu w_clu_scaled w_basic_clu_scaled w_basic_clu Painotusmenetelmät 2010, Seppo 54

55 Design weights 17 The last case in the series of design weights concerns three-stage sampling that is common in the ESS, too. This thus means that there are three inclusion probabilities and their product is the final inclusion probability A typical example is that in the second stage an optimal number of households or addresses have been selected but if these are not study units but a member of the selected household/address is instead, a new selection is required. In more formally, if m k = the number of the target population individuals within the household/address, then This looks easy but in practice, we do not know usually household/address sizes unless we contact these, and hence this variable is complete only for the respondents. Note that m k is also called secondary sampling unit (ssu). k Painotusmenetelmät 2010, Seppo m k

56 Design weights 18 The Spanish file is derived from the two-stage sampling, and hence I chose the Russian ESS 4 sampling file. You should understand this program with notes: data ess.russia_2; set russia; w_hh=1/(prob1*prob2); /*weights for households in gross sample*/ if outcome=1 then w_hh_resp=1/(prob1*prob2); /*weights for households in net sample */ if outcome=1 then w_mem_pre=1/(prob1*prob2*prob3); /* Preliminary weights for individuals in net sample */ proc sort; by stratex1; proc summary; class stratex1; var w_hh w_hh_resp; output out=p2 sum(w_hh w_hh_resp)=sum_w_hh sum_w_hh_resp; /* Comparison between household numbers by strata: real vs respondent based*/ data p2b; set p2; if _type_=1; drop _type_; proc sort; by stratex1; data russia_3; merge ess.russia_2 p2b; by stratex1; w_mem_basic=w_mem_pre*(sum_w_hh/sum_w_hh_resp); /*Adjustment from preliminary weights into 'real' ones*/ proc means sum n min max mean cv; var w_hh w_mem_pre w_mem_basic ; run; Painotusmenetelmät 2010, Seppo 56

57 Design weights 19 The Russian ESS 4 sampling file results below are somewhat surprising but we do not matter. What do you find? Help: the Wiki tells that the whole Russian population is about 142 million. Coeff. of Variable Sum N Minimum Maximum Mean Variation w_hh w_mem_pre w_mem_basic I suppose that they have interpreted some probabilities abnormally. Now we have completed this first part. That is, you can create the design weights as well as the basic or initial weights for the respondents. The next step is to try to adjust these weights better in order to reduce further for the bias in estimates Painotusmenetelmät 2010, Seppo 57

58 Weights and Bias 1 You know that the weights are required for reducing bias in estimates. It is not automatically ensured that all weights will reduce for the bias. On the other hand, estimates may be unbiased without weighting although this is not likely at all in complex surveys or if nonresponse is selective. In simply designed surveys and with MCAR missingness, equal weights can work well. So, it good to try to understand points behind bias and weighting. The well-known formula presented by Leslie Kish for the mean (maybe most common estimate) says that the well-weighted mean is essentially unbiased whereas the unweighted mean has bias given by where the denominator is the mean weight. Therefore, unless the weights are uncorrelated with the observations, the unweighted mean produces biased estimates. The sign minus just tell to which direction the bias goes Painotusmenetelmät 2010, Seppo 58

59 Weights and Bias 2 An example from the Danish ESS after a slight data modification concerning the variable happiness that was measured with the scale [0, 10]. I rescaled this into the interval [5, 99] so that a random variation was added in oder to get a more continuous variable that is more illustrative in graphs. The results themselves are similar in major points. I compare the two weights, the basic ones (w_basic) and the adjusted ones (w_adj). The adjustment method is presented later. What do you find? corr= (p-value=0.81) corr= (0.025) Painotusmenetelmät 2010, Seppo 59

60 Weights and Bias 3 The impact of good weights is not usually as dramatic in social surveys as in many business surveys. Below is an example where variable y = turnover or its logarithmic form = log_liikevaihto. There are two alternative adjustments. Give your comments. corr= 0.075(0.077) corr= (0.001) corr= (0.001) Painotusmenetelmät 2010, Seppo 60

61 Adjusted weights Painojen adjustoinnilla eli parantamisella siis tähdätään ottamaan hyötyä apumuuttujista enemmän kuin peruspainoissa. Tässä osastossa esitän tavallisimmat ratkaisut. Monilta osin on olemassa hyvinkin laajaa kirjallisuutta ehkä noin 20 vuodelta, joissa on esitetty runsaasti kilpailevia vaihtoehtoja, jotka tavallisimmissa käytännön tilanteissa eivät välttämättä tuota huomattavan erilaisia tuloksia. En pyri tyhjentävään esittelyyn, vaan painotan omia suosikkejani. Aloitusvaihtoehto on jälkiositus joka on esiosituksen eli otannan poiminnassa käytetyn osituksen kaltainen menetelmä estimointivaiheessa Painotusmenetelmät 2010, Seppo 61

62 Post-stratified weights 1 Post-stratification or creation of post-stratified weights aims at constructing a new stratification by exploiting a frame that is hopefully more fresh than the initial one (thus using an update of the frame). Naturally, it is necessary to look forward to the net sample and the missingness mechanism. It is good if the post-strata are homogenous subsets of the target population, homogenous from the point of view of the key estimates of the survey. If stratified sampling has been used in the survey, I call these subsets as prestrata, post-strata are conditional to those pre-strata. This means that each pre-stratum can be divided into two or more post-strata but post-strata cannot be created independently. Otherwise, the initial sampling design will be damaged. The post-stratified weights are constructed analogically to the pre-stratified weights, that is, they are where h=initial stratum and hg = post-stratum created within pre-stratum h N hg = frame population size. w k (post)= N hg /r hg Painotusmenetelmät 2010, Seppo 62

63 Post-stratified weights 2 The following scheme illustrates the conditionality between prestratification and post-stratification. Pre-stratum 1 Pre-stratum 2... Pre-stratum H Post-stratum 11 Post-stratum 12 Post-stratum = Pre-stratum... Post-stratum Post-stratum H1 H2 Post-stratum H3 In this example one pre-stratum has been divided into two post-strata, another into three but one has not been divided at all. Post-stratification is specially adjusting problems due to frame errors (it helps much if the frame data are accurate) but also due to unit non-response error. It is also a basic calibration method since the estimates on N h will be as accurate as these frame figures are, that is, the calibration is made for these counts. For example, in personal surveys, it is rather easy to calculate correct population figures by large region, age group and gender given that this kind of information is available from demographics statistics Painotusmenetelmät 2010, Seppo 63

64 Post-stratified weights 3 It is good to create pre-strata in most surveys but the allocation does not need to be always complex. Even implicit (close to equal allocation) stratification is useful if any reasons for unequal allocation are not found. This gives easily possibility to create poststrata, since there is factually only one stratum in the sample, and consequently there are no limitation for post-strata except that in each stratification it is necessary to avoid small counts in r h or r hg unless N h or N hg is as small (see an example in Finnish on next page). Otherwise, the weights will be too huge and problematic in estimation. A common solution is to merge small strata together Painotusmenetelmät 2010, Seppo 64

65 Jälkiosituspainot 4 Erityisesimerkki: Yritysaineistoissa esiositus toteutetaan usein siten että toisena luokittelijana on toimiala ja toisena yrityskoko (esim. alle 5 henkilöä, 5-9 henkilöä, henkilöä, henkilöä, henkilöä, henkilöä, henkilöä ja 500+ henkilöä). Poimintasuhteet kasvavat koon kasvaessa ja usein jostakin kokoluokasta lähtien, esimerkiksi 250+, poimintasuhde on 100 prosenttia. Itse surveyn tiedonkeruussa voidaan havaita, että jokin pieni yritys onkin huomattavan iso tai päinvastoin, josta syystä alkuperäinen osite ei ole enää kovin homogeeninen mikä on ollut tavoitteena. Päädytään jälkiositukseen vain näiden erityistapausten osalta. Siten esimerkiksi suureksi osoittautunut yritys voidaan sijoittaa omaan jälkiositteeseensa ja antaa tälle otospainoksi =1. Vastaavasti on tarkistettava esiosite josta yritys on lähtenyt ja poistettava N h :sta tämä yritys ja yritettävä myös poistaa vastaavien muiden yritysten vaikutus, niiden jotka eivät ole osuneet otokseen, tästä joukosta. Jälkimmäinen on usein hankala tehtävä, paitsi jos kehikon päivitys on tehty. Vastaavanlaista painon pienentämistä jälkiositusperustein olen soveltanut tulotutkimuksessa jos otokseen on osunut ääririkas eikä voida olettaa että heitä on painon ilmoittama määrä kuten Jokaisen edustavuus on kuitenkin vähintään yksi eli paino voisi olla minimissään = Painotusmenetelmät 2010, Seppo 65

66 Post-stratified weights 5 Example from the Historical attitudes survey. I already present on page 37 the stratified random sampling strategy of this survey. So, there are four pre-strata. Now I have created four new strata (post-strata from the two pre-strata but remained the two pre-strata). The new stratification with both weights is in the following table. Symbols: Ma=Male, Fe=Female, 39 = age 25-39, 40 = age 40+, Young =age below 25, Se = Swedish speaking, Fi = Finnish speaking. strata post_strata popu_strata popu_post_strata rh rhg w_str w_post Fi_Young Fi-Young , ,93 Fi_Other Fi_Other_Fe_ , ,024 Fi_Other Fi_Other_Fe_ , ,16 Fi_Other Fi_Other_Ma_ , ,089 Fi_Other Fi_Other_Ma_ , ,801 Se_Young Se-Young ,5 1250,5 Se_Other Se_Other_Fe , ,048 Se_Other Se_Other_Ma , ,8866 Consequently, some figures from the micro file on next page Painotusmenetelmät 2010, Seppo 66

67 Post-stratified weights 6 Coeff of Variable N Sum Minimum Maximum Variation Mean w_str w_str_scaled w_post w_post_scaled You see that the variation is a bit higher for post-stratified weights. Interestingly, the two sums are not exactly the same due to rounding Painotusmenetelmät 2010, Seppo 67

68 Kalibrointi 1 Kalibrointi on jälkiosituksen laajennus sikäli että jälkiositus on myös kalibrointimenetelmä. Kehikkoperusjoukkotason muuttujia voi olla useita eikä niitä tarvitse soveltaa ristiinluokittelemalla (kokonaan tai osittain) kuten jälkiosituksessa. Ristiinluokittelun ongelmanahan ovat usein liian pienet solut, mitattuna vastaajien määrillä. Ositteiden yhdistäminen toki auttaa, jottei painoista tule liian epäluotettavia. Kalibroinnin mukavin puoli on siinä, että sen avulla voidaan tietyt reunajakaumat (sellaiset jotka käyttäjä valitsee) määritellä juuri halutuiksi, mieluiten oikeiksi, jos sellaiset ovat tiedossa. Tavallisimmin tätä sovelletaan siten että surveystä saadaan väestön karkeat ikäjakaumat isohkoilla aluejaoilla sukupuolittain viimeisimmän väestötilaston (eli benchmarking-aineiston) mukaiseksi. Tämä luo luottamusta tilastoon käyttäjissä. Toki jälkiosituksen tavoite on sama. Kalibrointi on viime vuosina ollut suuren kiinnostuksen kohteena ja hyvin monenlaisia sovelluksia on tehty. Myös on ohjelmistoja jotka hoitavat tekniikan, vanhimman ranskalaisen Calmarin ensi version näin Painotusmenetelmät 2010, Seppo 68

69 Kalibrointi 2 Kalibrointi voidaan toteuttaa minkä tahansa muun painotuksen pohjalle, jos ja kun toiminto toteutetaan riippumattomasti niistä. Olkoot seuraavassa nämä painot w k. Jos vastaavasti kalibroituja otospainoja merkitään w k (cal):lla, niin seuraavan kalibrointiyhtälön täytyy päteä: w(cal) x x r k k U k Siis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossa on saatava samat estimointitulokset benchmark-totuuden kanssa eli käyttäjän valitsemien reunajakaumien mukaiset estimointitulokset tunnettujen tavoiteperusjoukon U tietojen mukaan. On varsin helppo päätellä, että löytyy useita vaihtoehtoja yhtälön toteutumiselle. Siksi täytyy löytää lisäehtoja ja mielellään sellaisia joista on hyötyä varsinaiseen estimointiin eli y-muuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapa malliestimaatteihin Painotusmenetelmät 2010, Seppo 69

70 Kalibrointi 3 Klassinen lähestymistapa on käyttää etäisyysmittaa. Tässä muodostetaan etäisyysmitta aloituspainojen ja haluttujen painojen välille ja minimoidaan se siten että edellä mainittu ehto pätee. Siten siis painot ovat sellaiset että erot aloituspainojen ja kalibroitujen painojen välillä ovat tietyssä mielessä mahdollisimman pienet eli alkutila ei muutu liikaa mutta benchmark-etu saavutetaan eli tietyt estimaatit ovat sellaisia kuin käyttäjä on halunnut. Kuten on myös helppo nähdä, etäisyysmittoja voi olla useita. Calmar 2 tarjoaa niitä viisi: - linear method: the calibrated estimator is the generalized regression estimator - exponential method: where all the calibration variables are qualitative (categorical), this is the raking ratio method - logit method: this method provides lower limits L and upper limits U - truncated linear method, very similar to the logit method - generalized hyperbolic sine Painotusmenetelmät 2010, Seppo 70

71 Kalibrointi 4 Uudemmassa kalibrointikirjallisuudessa (esim. Estevao&Särndal 2006) on otettu käyttöön yleisempi, ns. instrumenttivektorilähestymistapa. En esitä tätä tässä tarkemmin. Edellä mainittuista etäisyysmitoista kaksi huomiota: - Lineaarinen funktio siis tuottaa saman kuin yleistetty regressioestimaattori, jossa myös käytetään benchmark-tietoa x- muuttujien kautta. Tämä menetelmä on joskus kiusallinen, koska tuottaa negatiivisia painoja. Näiden välttämiseksi käytetään muita funktioita tai joskus katkaistuja ratkaisuja joista en itse pidä; yleensä huonot painot vain kylmästi rajoitetaan tietylle sopivalle välille winsorointimaisella subjektiivisella tavalla. - Edellä esiintyy myös Demingin jo 40-luvulla kehittämä menetelmä, ns. raking ratio. Tässäkin tietysti reunajakaumat pidetään haluttuina. Lisäksi käytetään otoksesta havaittuja x-muuttujien yhdysvaikutuksia ja painot muodostetaan siten että nämä suhteellisina pätevät myös perusjoukossa. Jos näitä on paljon, tehtävä ei ole helppo Painotusmenetelmät 2010, Seppo 71

72 Kalibrointi 5 Varsinainen kalibrointi vaatii käytännössä ohjelman kuten Calmar koska harva osaa ohjelmoida minimointia asiallisesti. Kuten sanottu jälkiositus on kalibrointia ja voidaan toteuttaa helpolla ohjelmoinnilla kunkin tilanteen mukaisesti ja myös kokeilla eri vaihtoehtoja. Eräässä kokouksessa britti Elliot esitti helpohkon ratkaisun, jossa ensin kalibroitiin yhdellä taustamuuttujalla reunajakaumat oikeiksi. Sitten samat operaatiot tehtiin toisella muuttujalla, ja edelleen kolmannella ja neljännellä. Hän palasi kierroksen jälkeen ensimmäiseen ja teki uuden kierroksen. Tulos ei ollut täydellinen kaikkien osalta mutta kohtuullinen. Metodin nimi oli CASCAD. Kokeile jos innostut. ** Wiki sanoo joka kuvaa termiä itse asiassa osuvasti: Kaskadi eli jännitteenkertaaja on Cockcroft-Walton generaattorista muunneltu yksinkertainen sähköinen piiri jolla vaihtovirran jännitettä voidaan nostaa kondensaattoreista ja diodeista rakennetun virtapiirin avulla virran muuttuessa samalla piirin ensimmäisen diodin jälkeen tasavirraksi Painotusmenetelmät 2010, Seppo 72

73 Kalibrointi 6 Kalibrointimenetelmät voidaan toteuttaa nykyään kahdellakin tasolla, kuten kotitalouksien ja sen jäsenten. Siis reunajakaumat voidaan saada oikeiksi molemmilla tasoilla samanaikaisesti. Tämä ei sinänsä ole teknisesti hankalaa, koska reunajakaumien välille saadaan yhteys. Jälkiositus tai laaja esiositus tuottavat jokaisella tasollaan yhtä oikeat estimaatit x-aggregaateille kuin data on. Jos ositus perustuu vaikkapa kategorisiin muuttujiin x 1, x 2 ja x 3, niin täydellisessä osituksessa taustalla on malli jossa selittäjänä on näiden kaikkien yhdysvaikutus. Perinteisessä kalibroinnissa sen sijaan selittäjät ovat suorina selittäjinä. Aputietovaatimukset jälkimmäisessä ovat vähäisemmät, koska oikeat tiedot tarvitaan kunkin erillisen selittäjän jakaumasta, ei yhdysluokista (-soluista). Toki kalibroinnissa voi olla myös yhdysvaikutuksia. Käytännössä kalibrointi on mahdollisempi useammille muuttujille koska reunatietoa on olemassa enemmän kuin yhdystietoa. Mutta on hyvä myös huomata, että kalibrointi ei takaa mitenkään että varsinaiset y-muuttujista tuotetut estimaatit olisivat hyviä, ne voivat jopa olla huonompia kuin alkuperäisillä painoilla. Jos erityisiä estimointitarpeita on, on syytä etsiä sille sopiva painotus. Kalibrointi ei myöskään suoraan pureudu vastauskatoon Painotusmenetelmät 2010, Seppo 73

74 Homogeeniset vastaajaryhmät Varsin pitkään on sovellettu ratkaisuja joissa vastaajat ja ei-vastaajat ryhmitellään mahdollisimman homogeenisiin ryhmiin (response homogeneity groups, adjustment cells). Ositus ja jälkiositus tähtäävät samaan päämäärään mutta ne toteutetaan perusjoukon aggregaattitasolla. Sama voidaan toteuttaa myös alemmalla tasolla, siis hyödyntäen otostason (ilman ylipeittoa) x- muuttujia. Sopivat ryhmät voidaan muodostaa kokeilemalla ja päättelemällä, mutta myös vaikkapa puumalleilla jolloin siis puun loppulehdet sopisivat näiksi ryhmiksi. Kun homogeeniset ryhmät/solut on saatu (enemmän tai vähemmän objektiivisin kriteerein), niin kullekin solulle ja homogeeniselle ryhmälle c lasketaan empiirinen vastausaste = rc nc Tämä on samannäköinen kuin jälkiositus mutta tässä nyt ei toimita perusjoukon tasolla kuten siinä, vaan poimitun otoksen tasolla. Jatko-operaatiot tapahtuvat periaatteessa samalla tavalla kuin seuraavassa osastossa, jossa ratkaisu lisäksi yleistetään siten ettei solua tai homogeenistä ryhmää tarvita Painotusmenetelmät 2010, Seppo 74

75 Adjustments by response propensity modeling 1 This technique consists of the following steps: (i) an initial weight for the respondents needs to be available. This weight may be whatever such as a basic weight, a post-stratified weight or weight based on homogenous groups. Naturally, if the initial weight is already good and there are no new auxiliary variables, the further adjustments do not make any difference or very little. (ii) The creation of a binary response indicator, let say resp, so that resp =1 for respondents and = 0 for non-respondents or deficiencies. The weight thus will be made for the respondents. (iii) Looking forward to good auxiliary variables to explain and to predict the variable resp, and estimate the respective model. The four different link functions can be used in this model: logit, probit, log-log or complementary log-log. So, choose one of these and estimate against your data set testing different forms of these explanatory variables (transformations, interactions) Painotusmenetelmät 2010, Seppo 75

76 Adjustments by response propensity modeling 2 (iv) Look at the estimates and try to find a such model specification that could predict response probabilities (and propensities) as well as possible. So, estimate these propensities too and include in the data set. The symbol for these probabilities is p k. Check also their distribution, especially outliers and how plausible these are, that is, which types of units they concern. Design weights are useful to exploit in estimating the model. (v) Compute the adjusted weights using the formula w k (res)= (w k /p k )q c Here q c = a scale or calibration factor that transforms the preliminary weights w k /p k so that the sum of the weights corresponds to the known population figures. This last requirement can be achieved with real calibration but in most cases the results are good if this scaling has been made at stratum level (either pre-stratum or post-stratum if the latter ones are available) Painotusmenetelmät 2010, Seppo 76

77 Bias Adjustments by response propensity modeling 3 In the case of stratification, for each stratum h, it is rather easy to scale or calibrate the preliminary weights with the following ratio which form has been used earlier in computing basic weights w q h h h w k / k p k (vi) Check the weights and compare those with possible other weights, and start to estimate that is exactly similar as with other weights except if you wish to take correctly into account non-response effects in standard errors. This is not an easy task since there are obviously more bias in non-adjusted based estimates than in respective adjusted ones. I do not go details but look below. Estimate with non-adjusted weights Estimate with adjusted weights Sampling error Painotusmenetelmät 2010, Seppo 77

78 Vastauskatomalliin perustuva painotus 1 Mallilla tuotetaan ennustearvot kullekin vastaajalle ja näiden käänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopiva skaalaus. Oletuksena on muun muassa että vastausmekanismi on MAR. Menetelmä toimii sitä paremmin mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta. Yleensä aputietoa tähän on enemmän käytettävissä kuin esimerkiksi jälkiositukseen, joka edellyttää perusjoukkotason aggregoitua aputietoa. Tämä on menetelmän selkeä etu. Etuna on myös, että se suoraan pureutuu vastauskatoon. Itse käyttäisin tätä ainakin isoissa otoksissa, sehän voi sisältää parhaimmillaan myös jälkiosituksen ja/tai kalibroinnin. Usein ihmettelen, että tätä käytetään maailmalla vähän. Huomaa, että pieniin aineistoihin, erityisesti isoja yrityksiä koskeviin, ei oikein mikään painotusmenetelmä sovi hyvin. Imputointi olisi parempi Painotusmenetelmät 2010, Seppo 78

79 Vastauskatomalliin perustuva painotus 2 Skaalaustekijä voidaan tuottaa myös muilla kalibroinneilla, jolloin voi otanta-asetelma häipyä ratkaisuista. Siis skaalaus voi perustua vaikkapa Calmarilla tehtyyn kalibrointiin jossa on eri tasotkin mukana. Olen hieman kuitenkin epäileväinen eli vastauskatomallin hyvät vaikutukset voivat osin kadota. Olisi mielenkiintoista tutkia tätä. Esitetyllä suhdepohjaisella skaalaustekijällä saa myös täsmäytettyä tulokset johonkin muuhun kuin lukumäärään eli siis johonkin x- muuttujien kombinaatioon. Jos ja kun tämä halutaan tehdä samoille osituksille kuin edellä, suhdeluku on yksinkertaisesti tämä q h h h ( w k w / k x p k k ) x k Tämä on periaatteessa sama kuin edellä kuvattu CASCAD-menetelmä jossa kuitenkin täsmäytystä jatketaan uusille x-muuttujille Painotusmenetelmät 2010, Seppo 79

80 Vastauskatomalliin perustuva painotus 3 On hyvä vielä huomauttaa, että kalibrointi siis tehdään x- muuttujatasolle. Se ei takaa että kaikki y-muuttujia koskevat estimaatit olisivat erinomaisia. Kun mukana on ennen tätä myös vastauskatomalli jossa on otostason selittäjiä, informaatio tulee laajemmin käytetyksi ja tulosten paraneminen on todennäköisempää. Tulosten huononeminenkin on aina mahdollista. Oman kokemukseni mukaan se on harvinaista. Lähinnä näin voi tapahtua, jos mallitus toteutetaan huonosti. Kannattaa aina katsoa esimerkiksi, miten estimoidut vastaustodennäköisyydet jakautuvat. Määritelmän mukaan kaikki ovat välillä (0, 1) eli mahdottomia painoja ei saada kuten on mahdollista lineaarisessa kalibroinnissa. Erittäin pienet vastaustodennäköisyydet voivat olla hälytysmerkki, koska ne merkitsevät sekä skaalaamattomien että skaalattujen painojen huomattavaa kasvua. Kannattaa katsoa keille nämä ovat tulleet. Jos syyt eivät kestä päivänvaloa (esim. x:n outlier on syynä), niin mallia on syytä muuttaa Painotusmenetelmät 2010, Seppo 80

81 Adjustments by response propensity modeling 4 Example from the Danish ESS data in which the patterns of auxiliary variables is rather good, better than in most other countries. I use here logistic regression proc logistic data=denmark descending; class gender agegrsample region citizen maritalsample; model resp= gender agegrsample* region gender*maritalsample citizen maritalsample; output out=denmark2 p=pred; data Denmark2b; set Denmark2; w_preadj=w_basic/pred; run; /*You see that the initial weight = w_basic.*/ You maybe can guess quite well what are the auxiliary variables in the model. Note that if citizen = 1 then he/she = Danish 0 non-danish Painotusmenetelmät 2010, Seppo 81

82 Adjustments by response propensity modeling 5 Continues (note that there is one stratum only) data Denmark2b; set Denmark2b; w_preadj=w_basic/pred; strata=1; proc sort; by strata;run; Proc summary data=denmark2b; class strata; var w_preadj w_basic;output out= DK_scale sum(w_preadj w_basic)=sum_w_preadj sum_w_basic; run; proc sort data=dk_scale; by strata; data denmark3; merge denmark2b DK_scale; by strata; w_adj=w_preadj/(sum_w_preadj/sum_w_basic); proc means data=denmark3 n sum mean cv min max; var w_design w_preadj w_adj;run; Some results on next page Painotusmenetelmät 2010, Seppo 82

83 Adjustments by response propensity modeling 6 After that the scaled weights can be provided as in earlier cases. The MEANS Procedure Coeff of Variable N Sum Mean Variation Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ w_design w_preadj w_adj ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ It is also good to check how response propensities vary in selected groups (or in the whole data set). On next page I chose four different groups and calculated the cumulative relative frequencies (like probabilities) for each. Analyze these variations. You do not find very small probabilities or what do you think? Painotusmenetelmät 2010, Seppo 83

84 Predicted response probability Adjustments by response propensity modeling 7 1 0,9 0,8 Danish 0,7 0,6 Married 0,5 0,4 0,3 0,2 Non-Danish Widowed 0, Cumulative distribution of a group Painotusmenetelmät 2010, Seppo 84

85 Vastauskatomalliin perustuva painotus 4 Estimaatin tarkkuus: Kalibroinnilla tehdyille totaalin ja keskiarvon estimaateille on kehitetty myös varianssit ja siis keskivirheet. En ole varma ottavatko ne kaikki epävarmuustekijät huomioon koska aihe ei ole loppuun asti kaluttu. Vastaustodennäköisyystilanteelle on kehitetty seuraava kaava (Ekholm and Laaksonen 1991): h r h s 2 h ( w k (res) y k ) 1 r n h h ( ave( w k ( res)) 2 h Kaavassa ave tarkoittaa sulkeen keskiarvoa, on tavallinen otosvarianssi sulkeissa olevalle lausekkeelle eli painon ja y-arvon tulolle. Summan ensiosa vastaa otannasta johtuvan varianssin kaavaa, kun taas jälkimmäinen osa tuo mukaan puuttuneisuudesta johtuvan lisäkomponentin. Jälkimmäisestä nähdään, että jos r h =n h, niin komponentti on nolla. Jos perusjoukon koko N tunnetaan, vastaava keskiarvon estimaatin varianssi saadaan jakamalla edellinen kaava koon neliöllä. Harvoin käytännössä tätä on käytetty eli on jätetty pois jälkimmäinen tekijä mistä syystä keskivirheet ilmoitetaan liian pieninä. 2 s h Painotusmenetelmät 2010, Seppo 85

86 Harjoitusosio Training Nyt emme tee enää kovin merkittävästi harjoituksia vaan keskitymme yhteen: Valitse alkupainoksi Tsekkidatasta jompikumpi tai molemmat peruspainosi, ja tuota adjustoitu paino vaikka datassa ei ole merkittävää määrää apumuuttujia, onneksi jotain. Luonnollisesti skaalaa paino ja vertaa muihin. Take one of your basic weights in the Czech data and create the adjusted sampling weights, and their scaled versions and compare your all weights with each other. There are not many auxiliary variables for you model, unfortunately, but some Painotusmenetelmät 2010, Seppo 86

87 Specific examples on using weights 1 PISA esimerkki 1 Usein painoja voidaan käyttää eri tasoilta. PISA:ssa on kaksi keräystasoakin eli koulut ja oppilaat ja molemmille on datassa valmiina painotkin. Tein seuraavan ohjelmapätkän Suomen datalle katsoakseni mitä painot ovat a_weight = skaalattu oppilaspaino, W_FSCHWT = skaalaamaton koulupaino eli kuvastaa oppilaiden määrää): proc means data=pisa.finlandstu n mean cv sum; var w_fstuwt W_FSCHWT a_weight; run; proc summary data=pisa.finlandstu; class schoolid; var W_FSCHWT a_weight; output out=schools mean(w_fschwt a_weight)=w_fschwt a_weight; data schools; set schools; if _type_=1; proc means data=schools n mean cv sum; var W_FSCHWT a_weight; run; Painotusmenetelmät 2010, Seppo 87

88 Specific examples on using weights 2 PISA esimerkki 2 Tulokset ovat tässä tulkittaviksi: The MEANS Procedure Coeff of Variable Label N Mean Variation Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ W_FSTUWT FINAL STUDENT WEIGHT W_FSCHWT Final school weight a_weight ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ The MEANS Procedure Coeff of Variable Label N Mean Variation Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ W_FSCHWT Final school weight a_weight ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Tein vielä yksinkertaisia analyysejä. Mitä tulokset tarkoittavat? Painotusmenetelmät 2010, Seppo 88

89 Specific examples on using weights 3 PISA esimerkki 3 Huomaa että kaksi jälkimmäistä muuttujaa ovat koulutasolta, meanscie sen sijaan oppilastasolta. proc surveymeans data=pisa.finlandstu mean cv; var meanscie SC13Q01 PCGIRLS; cluster schoolid; strata stratum; weight w_fstuwt; run; proc summary data=pisa.finlandstu; class schoolid; var W_FSCHWT meanscie SC13Q01 PCGIRLS; output out=schools mean(w_fschwt meanscie SC13Q01 PCGIRLS)= W_FSCHWT meanscie SC13Q01 PCGIRLS ; data schools; set schools; if _type_=1; proc means data=schools n mean cv sum; var meanscie SC13Q01 PCGIRLS; weight W_FSCHWT; run; Painotusmenetelmät 2010, Seppo 89

90 Specific examples on using weights 4 PISA esimerkki 4 The SURVEYMEANS Procedure Data Summary Number of Strata 12 Number of Clusters 155 Number of Observations 4714 Sum of Weights Statistics Std Error Coeff of Variable Label Mean of Mean Variation ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ meanscie SC13Q01 Computers altogether Q13a PCGIRLS Proportion of girls at school ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ The MEANS Procedure Coeff of Variable Label N Mean Variation Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ meanscie SC13Q01 Computers altogether Q13a PCGIRLS Proportion of girls at school ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Painotusmenetelmät 2010, Seppo 90

91 Specific examples on using weights 5 An exciting ESS example that can be possible in many surveys 1 The study unit of the ESS is an individual who is older than 15 years. It has been asked from each respondent who others are living in his/her household, even in so details that the age (and gender and education level) of each household member has been included in the data. It is very usual to calculate the distribution of household size across countries, for instance. Similarly, the mean household size is of interest. Think, how to calculate such estimates. I present an example using German data which includes three different strategies. dweight = scaled basic weight household_size = household size including younger than 15 years old in the household of respondent household_size_15 = number of members in the household older than 15 years Which method gives most correct estimates for household size Painotusmenetelmät 2010, Seppo 91

92 Specific examples on using weights 6 An exciting ESS example that can be possible in many surveys 2 Proc sort; by essround; data test; set germany; by essround; HH_dweight=dweight/household_size; HH_15_dweight=dweight/household_size_15; proc means mean cv max sum; class essround; var household_size; weight dweight; title Basic weight'; proc means mean cv max sum; class essround; var household_size; weight hh_dweight; title Basic_weight/household_size''; run; proc means mean cv max sum; class essround; var household_size; weight hh_15_dweight; title Basic_weight/household_size 15+'; run; Painotusmenetelmät 2010, Seppo 92

93 Specific examples on using weights 6 Yksikkö Muistio Nimi An exciting Yhteystiedot ESS example that can be possible in many surveys 2 Results Basic_weight The MEANS Procedure Analysis Variable : household_size ESS N Coeff of round Obs Mean Variation Maximum Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Basic_weight/household_size The MEANS Procedure Analysis Variable : household_size ESS N Coeff of round Obs Mean Variation Maximum Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Basic_weight/household_size 15+ The MEANS Procedure Analysis Variable : household_size ESS N Coeff of round Obs Mean Variation Maximum Sum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1(1) Painotusmenetelmät 2010, Seppo 93

94 Specific examples on using weights 7 Otan vielä toisen kotitalousdatan esimerkin mutta päinvastaisen kuin edellinen. Nyt kaikkien jäsenten tiedot ovat olemassa, ja siis vastaavasti koko kotitalouden tiedot jäsenten summana. Havainnollistan tilannetta klassisen tulotutkimuksen näkökulmasta. Tuloja ei voida, paitsi tuloeriä kuten palkkatuloja, laskea jäsentasolla muuten kuin olettamalla että kukin jäsen nauttii jollain tasavertaisella tavalla koko kotitalouden tuloista. Siten tulovertailut perustuvat kotitaloustason tuloihin. Mutta: suora kotitalouksien tulojen jakauma ei ole järkevä, koska tuloihin ja kulutukseen vaikuttaa kotitalouden koko. Nykyään ei liene sellaista tutkijaa jonka mielestä tulot pitäisi jakaa jäsentä kohti tasan eli muodostaa uusi tulokäsite: hh_income/hh_size. Jos näin tehtäisiin, pitäisi kotitalouspainot vastaavasti kertoa hh_size:llä. Tällöin tavoiteperusjoukon koko olisi väestömäärä. Sen sijaan nykykäytäntö on sellainen, että hh_size korvataan kotitalouden kulutusyksiköiden määrällä. Näitä muodostetaan hieman eri tavoilla siten että ensimmäinen kotitalouden aikuinen saa yhden kulutusyksikön, muut vähemmän, lapset vielä vähemmän. Painojen muodostaminen tapahtuu samalla tavalla kuin edellä. Eli siis kertomalla kotitalouden paino sen kulutusyksiköiden määrällä. Mikä on painojen summa? Painotusmenetelmät 2010, Seppo 94

95 Yleistys eritasoisten datojen painoista Muistutan vielä aikaisemmin esillä olleista esimerkeistä, joissa paino ei ole itsestään selvyys vaikka olisi kuinka hyvä. Jos data on eri tasolta kuin mitä estimaatit koskevat, on oltava tarkkana. Mitään ongelmaa ei ole, jos painot ovat tietyltä tasolta ja estimoinnit tehdään samalle tasolle. Silloin siis painotetaan normaalisti. * Jos painot ovat alemmalta tasolta (vrt. ESS:n 15+ -vuotiaiden aineisto) mutta tietoja on estimoidaan korkeammalla tasolla (vrt. 15+-vuotiaiden edustamat kotitaloudet ja niiden koot, niin me jaoimme 15+ -vuotiaiden painot 15+ -vuotiaiden määrällä kussakin yksikössä (yksilöillä). * Jos painot ovat korkeammalta tasolta (vrt. kotitalous, yritys, koulu), ja tuloksia halutaan samasta aineistosta estimoida yksilötasolla (jäsenet, työntekijät, oppilaat), niin jatko riippuu siitä, ovatko yksiköt samassa datassa. - Jos eivät, niin korkeamman tason paino on kerrottava alemman tason yksiköiden määrällä. - Jos ovat, niin samat korkeamman tason painot sijoitetaan kullekin alemman tason yksikölle, ja piste-estimointi on automaattista Painotusmenetelmät 2010, Seppo 95

96 Loppusanat Weighting is an essential step in survey data cleaning. Painojen luonti on keskeinen osa survey-datan puhdistamista. Puhdistaminen alkaa varsinaisesti silloin kun dataa tulee sisään mutta sitä ennen on jo kerätty aputietoa ja varauduttu sen lisäkeräämiseen sekä hiottu järjestelmät sellaiseksi että puhdistaminen sujuu. Puhdistamisessa vienee eniten aikaa tilastollinen editointi ja siihen kytkeytyvä imputointi mutta painojen muodostaminen voi olla myös iso tehtävä. Siihenhän liittyy myös aineiston heikkouksien arviointi sekä sisäisten että ulkopuolisten tietojen avulla. Puhdistamisen täydentää hyvän meta- ja paratiedon luonti mahdollisimman hyvää tietotekniikkaa hyväksi käyttäen ja lopulta varsinainen käyttötiedosto on valmis analysointiin. Tiedoston tulee olla myös niin hyvä että se voidaan tarvittaessa yhdistää olemassa olevien ja tulevaisuudessa syntyvien tiedostojen kanssa Painotusmenetelmät 2010, Seppo 96

97 This winter has been special. Larger and heavier weights have been found everywhere. I have liked it. What about you? Have a nice time! Painotusmenetelmät 2010, Seppo 97

Näytä lisää