Heisigi yliopisto Matematiia ja tilastotietee laitos Otatameetelmät Sysy 008 Uudelleepaiotus ja imputoiti Perusteita Prof. Risto Lehtoe, Helsigi yliopisto.1.008
Uudelleepaiotus Otostasoise tiedo äyttö 1 Tyypilliset otaasta riippumattomat virheet (osamplig errors Vastausato (orespose Peitto- ja ehiovirheet (coverage ad frame errors Mittausvirheet (measuremet errors Processig errors Tavoite: Vastausado vaiutuste arvioiti ja adjustoiti Vastausato viittaa ahtee tilateesee: Ysiöato (Uit orespose - Mitää tietoja ei ole saatu erättyä joiltai otosysiöiltä - Kaii tutimusmuuttujat saavat puuttuva tiedo arvo äille ysiöille Eräato (Item orespose - Joitai tietoja o jääyt eräämättä joiltai otosysiöiltä 1 Source: Lehtoe R. ad Pahie E. (003 Practical Methods for Desig ad Aalysis of Complex Surveys. Secod Editio. Chichester: Joh Wiley & Sos, Ltd (Chapter 4.
- Joti tutimusmuuttujat saavat puuttuva tiedo arvo äille ysiöille HUOM: Molemmat puuttuva tiedo tyypit voivat aiheuttaa harhaa estimoitii ESIMERKKI Ysiöato tyypillisissä survey-tutimusissa Table 4.1 Vastausprosetti eräissä otostutimusissa Name of the survey Samplig uit Sample size Respose rate (% (1 Mii-Filad Health Survey ( Occupatioal Health Care Survey Perso 8000 96 % Establishmet 154 88 % (3 Health Security Survey Household 6998 84 % (4 PISA 000 Survey School 6638 85 % (5 Passeger Trasport Survey Perso 1850 65 % (6 Wages Survey Busiess firm 157 80 % PISA 000: Media of coutry-level respose rate is preseted due to heavy coutry-level variatio 3
YKSIKKÖKATO (UNIT NONRESPONSE Estimoitava parametri Totaali T N 1 Y HT estimaattori t ht 1 y / π Otata-asetelma: SRSWOR Otosoo: aliota HT-estimaattori variassi (SRSWOR Vsrs ( tht N (1 / N S / Jaajaa aluperäie otosoo Vastausado vallitessa saadu aieisto oo pieeee Saadu aieisto oo: (r < Siis variassi asvaa! 4
YKSIKKÖKADON AIHEUTTAMA HARHA Alio vastaustodeäöisyys θ, 1,..., N Harmillie (o-igorable vastausato Little ad Rubi (1987: Vastaustodeäöisyys θ riippuu tulosmuuttuja y arvosta Y Harmito (igorable vastausato Vastaustodeäöisyys θ ei riipu tulosmuuttuja y arvosta Y Esimerisi: Igorable tilae Vastaustodeäöisyys alioille 1,,N θ o vaio aiille 5
ESIMERKKI Harmillie (o-igorable vastausato Oletetaa, että haastattelututimusessa ysi osajouo jättäytyy ooaisuudessaa tutimuse ulopuolelle Perusjouo voidaa tällöi jaaa ahtee osaperusjouoo A. Osallistuva osajouo, N 1 aliota B. Ei-osallistuva osajouo (ato N aliota Totaali T estimaattori t ht ( r N y ( r missä y (r o osajouosta A saadu aieisto esiarvo Tällöi E ( y (r Y 1 (osajouo A esiarvo 6
Jos Y1 Y ii estimaattori t ht ( r o harhaie BIAS ( t ht ( r E t ht r T NY1 ( N1Y 1 + NY N( Y1 Käytäössä harha suuruutta o vaiea arvioida ( ( Y Variassi sijasta variaatio mittaa tulisi äyttää esieliövirhettä MSE t V ( t + BIAS t, ( ht ( r p( s ht ( r ( ht ( r Jos harhaa ei tiedetä, ii MSE ei voida lasea 7
ESIMERKKI Vastausato ja harha datassa Provice 91 Oletetaa, että seuraavat 5 utaa uuluvat ato-osajouoo B: Kuhmoie, Joutsa, Luhaa, Leivomäi, Toivaa Osajouo A: N 17 Osajouo B (ato: N 5 T 1 14 475 N 7 Y 1 1 536. 11 T 63 N 5 Y 14. 60 T 15 098 N 3 Y 471. 81 SRSWOR-otos ( 8 utaa Estimaattori t ht ( r, odotusarvo: E t N Y 3 536.11 ( ht ( r 1 17 156. BIAS ( t ht (r E t ht ( r T N( Y1 Y 5 (536.11 14.60 eli varsi suuri ( 8 058
UUDELLEENPAINOTUS Reweightig Ysiöado (Uit o-respose hallita Lisäiformaatio äyttö Koo otosesta saatava lisäifo Perusjouo tasoie lisäifo Ysiertaie esimeri Oletus: Kaiie perusjouo alioide osallistumistodeäöisyys o vaio, eli θ θ aiille U Aieistosta estimoitu θ r / ( Uudelleepaiotettu HT-estimaattori ( r ( r t w y y /(θ π ht 1 1 tai missä ( ht (1/ θ 1 y / π (1/ θ r t t t ( r ht 1 y / π ht 9
Vaio-osallistumistodeäöisyyde oletus o äytäössä epärealistie 1 Disreetti lisäifo: RHG-meetelmä Respose Homogeeity Groups Jaetaa perusjouo tai oo otos vastaustodeäöisyyde suhtee sisäisesti homogeeisii osajouoihi äyttäe hyväsi perusjouosta tai oo otosesta äytettävissä olevaa lisäiformaatiota, joa orreloi osallistumisalttiude assa Otostasoie lisäifo: Osajouot: 1,,c,...,C Osajouoje otosoot: 1,..., c,..., C Saadu aieisto oot: 1 ( r,..., c( r,..., C( r Oletus: Vastaustodeäöisyys θ c o vaio ui osajouo sisällä, mutta voi vaihdella osajouoje välillä Estimoitu osajouo c osallistumist θ c /, c 1,,C c( r c 10
Uudelleepaiotettu HT-estimaattori t ( r C ( r w y 1 c c (1/ θ w rhg 1 rhg, 1 c c y c missä uusi paio o w (1/ θ w rhg, c c ja wc 1/ πc o asetelmapaio, c 1,..., C ja,..., 1 c ( r RHG-meetelmä o tehoas jos osajouoje ostruoiti oistuu ii, että sisäie homogeeisuusehto täyttyy Edellyttää lisäiformaatio hyvää saatavuutta ja (voimaasta orrelaatiota osallistumisalttiude assa RHG-meetelmä äyttää disreettiä lisäiformaatiota (yhde tai useamma otostasoise disreeti muuttuja äyttö osajouoje muodostamisessa 11
Jatuvatyyppie lisäiformaatio Jatuva lisäifomuuttuja z tuetaa aiilta otosalioilta 1,, Muuttuja orreloi voimaaasti osallistumisalttiude θ assa Uudet paiot (reweights w ] w rat, [( 1/ θ ( z / z( r missä z o muuttuja z esiarvo, joa o lasettu oo otosesta z (r o esiarvo, joa o lasettu saadusta aieistosta, θ r / ja w 1/ π ( Uudelleepaiotettu HT-estimaattori t z ( r ( r 1 w rat, y θ z rat Suhdetehosteie estimoiti/ Ratio estimatio ( r 1 w y 1
UUDELLEENPAINOTETUN HT- ESTIMAATTORIN VARIANSSIN ESTIMOINTI Uudelleepaiotusessa paiot ovat muotoa w 1/(πθ missä sisältymistodeäöisyydet π ovat tuettuja parametreja (ei satuaismuuttujia Estimoidut vastaustodeäöisyydet θ ovat satuaismuuttujia Uudelleepaiotetu HT-estimaattori asetelmavariassi o site muotoa V ( t ht Vsam( tht + Vrew ( tht missä V sam Asetelmavariassi (otatavirhee hallita rew V Lisävariassi (uudelleepaiotuse aiheuttama lisäepävarmuus 13
ESIMERKKI (Example 4. Provice 91 Populatio N 3 utaa SRSWOR otos, 8 utaa, π π 0. 5 Kasi atoutaa: Kuhmoie ja Toivaa Saadu data oo 6 utaa ( r Lisäiformaatiomuuttuja z (jatuva HOU85 Asutoutie lm 1985 Lisäifo tiedossa aiista otosuista Estimoitu vastaustodeäöisyys θ θ ( r / 6 / 8 0.75 RHG: Kaupugit c 1 θ 1 3 / 3 1. 00 Muut uat c θ 3 / 5. 60 14
Lisäifo: Koo otos ( 8 : z 5154. 75 Saatu data ( 6 : z 6490. 17 (1 Estimaattori t ht RHG: Koo otos Naiivi uudelleepaiotus: ( r w ht 1 /(π θ 1/(0.5 0.75 5.3333 ( Estimaattori t rhg RHG: Kaupugit / Muut uat Uudelleepaiotus: Kaupugit w rhg, 1 (1/1 4 4 Muut uat w (1/ 0.60 4 6. 6667 rhg, (3 Estimaattori t rat RHG: Koo otos Uudelleepaiotus: w w [(1/ θ ( rat, z z( r 5154.75 15 ] 4 (1/ 0.75 6490.17 4.359
Table 4. SRSWOR otos perusjouosta Provice 91. Sample desig idetifiers Elemet Respose data (Samp le Reweight by orespose model STR CLU WGHT LABEL UE91 HOU85 RHG REW_HT RHG RATIO w*ht w*rhg w*rat 1 18 4 Kuhmoie.. 1 463 0.0000 0.0000 0.0000 1 30 4 Toivaa.. 834 0.0000 0.0000 0.0000 1 6 4 Pihtipudas 331 1 946 5.3333 6.6667 4.359 1 31 4 Uuraie 19 93 5.3333 6.6667 4.359 1 15 4 Kogiagas 14 556 5.3333 6.6667 4.359 1 1 4 Jyväsylä 4 13 6 881 1 5.3333 4.0000 4.359 1 4 4 Keuruu 760 4 896 1 5.3333 4.0000 4.359 1 5 4 Saarijärvi 71 3 730 1 5.3333 4.0000 4.359 A missig value is deoted as.. 16
Uudelleepaiotusestimaattori variassi Totaaliestimaattori asetelmavariassi: V N sam( t N (1 S / ( r ( r missä S ( r N ( r 1 ( Y N Y ( r ( r 1 Asetelmavariassi estimaatti: ( (1 N v sam t N s ( r / ( r 8 3 3 (1 157.59 / 6 14 967 missä s ( r ( r 1 ( y ( r y ( r 1 V sam (t o sama aiille estimaattoreille (1-(3 17
(1 Estimaattori t ht Uudelleepaiotusesta johtuva variassiompoetti: V t N S ( r rew ( ht (1 ( r / ( r missä S ( r N ( r 1 ( Y N Y ( r ( r 1 Variassiompoeti estimaatti: ( r v rew tht N (1 ( 6 8 s 3 (1 157.59 / 6 ( r / ( r 9 978.18 18
( Estimaattori t rhg RHG: Kaupugit Otosoo 1 3 N ( / N (3 / 8 3 1 1 1 Muut uat Otosoo 5 N ( / N (5 / 8 3 0 Uudelleepaiotusesta johtuva variassiompoetti: V ( rew t rhg 1( N 1 (1 + N (1 r 1 ( r S S 1( r ( r / / 1( r ( r missä S h( r N h ( r 1 ( Y h N Y h( r h( r 1 19
Variassiompoeti estimaatti: v ( t rew rhg 1 + 0 (1 (1 3 5 3 3 195.99 95.04 / 3 / 3 0 + 694.07 694.07 0
(3 Estimaattori t rat Määritellää jääöset Y E Y Z ( r ( r ( r ( r Z( r Uudelleepaiotusesta johtuva variassiompoetti: V ( r rew ( trat N (1 SE ( / r ( r N( missä 1 ( ( /( ( 1 ( r SE E r E N r r ja E N( r E N. 1 ( r / ( r Estimoidut jääöset y ( r e ( r y ( r z ( r z ( r 1
Variassiompoeti estimaatti: ( ( 785.73 6 / 10.9 8 6 (1 3 / (1 ( ( r e r rat rew s N t v r missä 1 /( ( ( 1 ( ( ( ( r r r e e e s r r
Poimitasuhteet: Estimaattorit t ht ja t rat r ( / N 6 / 3 0.1875 Estimaattori t rhg Kaupugit 1( r / N1 3/1 0.5 Muut uat: ( r / N 3/0 0.15 Vertailuestimaattorit: (0 Estimaattori t ht ( r N y ( r Poimitasuhde / N 6 / 3 0. 1875 ( r (4 Estimaattori t ht "Full respose" Poimitasuhde /N 8/3 0.5 3
Table 4.3 Variassiompoetit ja ooaisvariassi eri estimaattoreille (Provice 91 populatio. Model ad estimator (0 Respodet data 6 t ht ( r ( ( r Estimate for a Total v 33 579 17 988 v sam v rew 17 988 0 (1 Reweighted estimator t ht 33 579 17 988 14 967 9978 ( Respose homogeeity group t rhg 7 09 14 983 14 967 694 (3 Ratio estimator t rat 6 669 14 988 14 967 786 (4 Full respose ( 8 t ht 6 440 13 8 13 8 0 4
IMPUTOINTI Imputatio Eräado (item o-respose hallita Tavoite: Täydellie datamatriisi Tulosmuuttuja y Puuttuva mittaustulos y aliolle Imputoitu arvo ŷ IMPUTOINTIMENETELMIÄ (1 Kesiarvoimputoiti Respodet mea method RM Jatuva tulosmuuttuja y Imputoitu arvo y y( r eli vastaeide esiarvo Kesiarvoimputoiti ei ole yleisesti suositeltava meetelmä 5
Kehittyeemmät meetelmät: Lisäiformaatio äyttö otosaieistosta tai perusjouosta ( Lähimmä aapuri meetelmä Nearest eighbor method NN Jatuva tulosmuuttuja y Puuttuva tieto y aliolle Jatuva lisäiformaatiomuuttuja z Tiedossa aiilta otosalioilta Lasetaa pareittaiset etäisyydet zl z, l Valitaa substituutti y y l jolle etäisyys o piei, missä y l o havaittu arvo Alio l o luovuttaja (door 6
(3 Suhde-estimoiti Ratio estimatio method RA Jatuva tulosmuuttuja y Puuttuva tieto y aliolle Jatuva lisäiformaatiomuuttuja z Tiedossa aiilta otosalioilta Imputoitu arvo y z ( y ( r / z( r missä y (r o tulosmuuttuja y esiarvo havaitussa aieistossa z (r o apumuuttuja z esiarvo havaitussa aieistossa 7
(4 Hot dec meetelmä HD Tulosmuuttuja y (jatuva tai disreetti Puuttuva tieto y aliolle Door l ja vastaava imputoitu arvo y y l valitaa satuaisesti havaittuje arvoje jouosta (5 Moi-imputoiti - Multiple imputatio MI Sigle imputatio: Meetelmät (1-(4 Alio puuttuva tieto y orvataa yhdellä imputoidulla arvolla ŷ Multiple imputatio: Alio puuttuva tieto y orvataa usealla imputoidulla arvolla y, y,..., y 1 m Saadaa m täydellistä havaitomatriisia Usei valitaa arvo m 5 8
TOTAALIESTIMAATTORIN VARIANSSIN ESTIMOINTI IMPUTOINNIN YHTEYDESSÄ Imputoiti tuottaa estimaattori variassilauseeesee lisäompoeti (vastaavasti ui uudelleepaiotusmeetelmie yhteydessä HT-estimaattori t 1 / π variassilausee ht y V ( t ht Vsam( tht + Vimp( tht missä V t o asetelmavariassi ( sam ht V ( imp tht o imputoii aiheuttama lisävariassi (imputoitivariassi Lisävariassi V ( imp tht lausee riippuu imputoitimeetelmästä 9
Moi-imputoiti Multiple imputatio (MI Variassiestimaattori v ( t v ( t + v mi sam mi imp ( t mi Aliolle imputoidaa m arvoa y 1,..., y j,..., y m jolloi saadaa m täydellistä datamatriisia Määritellää joaiselle m matriisille totaaliestimaattori t 1w y, j 1,..., m j missä w 1/ π HUOM: Osa arvoista y o imputoituja! Lasetaa totaaliestimaattie esiarvo t mi 1 m j m t 1 j 30
Määritellää variassiompoetit: Imputoitie sisäie variassiestimaattori 1 m m vsam tmi j 1 v p( s t j ( ( Imputoitie välie variassiestimaattori 1 m (1 + j m v imp tmi 1 ( ( t j t mi m 1 jolloi ooaisvariassi estimaattori o: v( t mi (1 + v sam 1 m 1 m ( t m j 1 mi + v m j 1 p( s ( t j v t imp mi m 1 ( t ( t mi j + 31
ESIMERKKI (Example 4.3 Provice 91 Populatio N 3 utaa SRSWOR otos, 8 utaa, π π 0. 5 Tulosmuuttuja y UE91 (työttömie luumäärä uassa Lisätietomuuttuja z HOU85 (asutoutie lm vuoa 1985, väestölaseta Tiedossa aiista uista Puuttuva tieto muuttujalta UE91 uista: Kuhmoie ja Toivaa Imputoitimeetelmät: (1 Kesiarvoimputoiti RM ( Lähimmä aapuri meetelmä NN (3 Suhde-estimoiti RA (4 Moi-imputoiti MI Puuttuva tieto aliolla 3
(1 Kesiarvoimputoiti RM Tulosmuuttuja y esiarvo saadussa datassa 6 ( ( r y( r y 1049.33 Imputoiti: Kuhmoie 18 y 18 1049.33 Toivaa 30 y 30 1049.33 ( Lähimmä aapuri meetelmä NN Tutitaa, millä aliolla l etäisyys zl z saavuttaa miimi. Imputoiti: Kuhmoie 18 Miimi o 1949 1463 486 Door: Pihtipudas y y 331 18 6 Toivaa 30 Miimi o 93 834 98 Door: Uuraie y y 19 30 31 33
(3 Suhde-estimoiti RA Lasetaa saadusta aieistosta suhde-estimaatti B r y ( r / z( 1049.33 / 6490.17 0.1617 Lasetaa sovitteet y B Imputoiti: z Kuhmoie 18 z 1463 y 36.57 18 0.1617 18 1463 Toivaa 30 z 834 y 134.86 30 30 0.1617 834 34
Table 4.4 Completed data sets obtaied by sigle imputatio methods (The Provice 91 populatio. ID Elemet LABEL Respose data (Sample UE91 HOU85 Imputed data sets by model (1 Respode t mea RM ( Nearest eighbour NN (3 Ratio estimatio RA Full respose 18 Kuhmoie 30 Toivaa.... 1463 834 1049.33* 1049.33* 331* 19* 36.57* 134.86* 187 17 1 4 5 15 Jyväsylä Keuruu Saarijärvi Kogi. 413 760 71 14 6 881 4 896 3 730 556 413 760 71 14 413 760 71 14 413 760 71 14 413 760 71 14 6 Pihtipudas 331 1 946 331 331 331 331 31 Uuraie 19 93 19 19 19 19 Imputed values are flagged with * ad missig values with.. Samplig rate for respodet data is 6/3 0.1875 Samplig rate for Full respose ad completed data sets is 8/3 0.500 35
Totaaliestimaattori variassi estimoiti Variassiestimaattori v ( t ht v ( t + v sam ht imp ht ( t Asetelmavariassi estimoiti: v sam ( t ht N 3 (1 (1 N s 8 3 ( r / ( r 157.59 / 6 14967 missä ( r s ( y y /( 1 ( r 1 ( r ( r o lasettu saadusta aieistosta v sam ( t o sama aiille estimaattoreille (1-(3 36
Imputoitivariassi estimoiti Variassiestimaattori: v imp ( t ht ( r ( r 1 N (1 ( e ( r e 1 / ( r missä ( r e 1 e / ( r o jääöste Jääöset: e y y esiarvo (1 RM: e y y( r. ( NN: e y y ( l missä y (l o doori y-arvo (3 RA: e y ( y( r / z( r z 37
Imputoitivariassi estimaatit: (1 RM (respodet mea: v ( t imp rm 6 3 (1 157.59 8 9978.18 / 6 ( NN (earest eighbour: 6 8 imp t 3 (1 1365.1 / 6 v ( 8917.51 (3 RA (ratio estimatio: 6 8 3 (1 10.9 / 6 v imp ( t ra 785.73. HUOM: Piei imputoitivariassi estimaatti o RAmeetelmälle 38
(4 Moi-imputoiti MI Käytetää HD-meetelmää (Hot Dec Muodostetaa m 5 täydellistä dataa Imputoidut datat: Table 4.5 Variassi estimoiti v ( t v ( t + v mi sam mi imp ( t mi Lasetaa totaaliestimaattie esiarvo t mi m t / m (1/ 5(879 + 31108 + 8944 + 44716 + 9100 j 1 j 353 39
Table 4.5 Imputed data sets obtaied by multiple imputatio (m5. Hot dec imputatio is used for each completed data set (The Provice 91 populatio. ID Elemet Respo se data (sample 18 30 Kuhm. Toivaa Repeated samples icludig imputed values ad flagged as * UE91 1 3 4 5.... 760* 14* 760* 71* 71* 19* 413* 760* 760* 19* Full respos e 187 17 1 Jyväsylä 413 413 413 413 413 413 413 4 Keuruu 760 760 760 760 760 760 760 5 Saarijärvi 71 71 71 71 71 71 71 15 Kogi. 14 14 14 14 14 14 14 6 Pihtipudas 331 331 331 331 331 331 331 31 Uuraie 19 19 19 19 19 19 19 Mea 1049.33 899.75 97.1 904,50 1397.38 909.37 86.5 STD (y 157.59 1330.71 198.98 135.4 1699.99 134.7 1355.15 40
41 Imputoitie sisäie variassiompoetti: 6 / 134.716 1699.989 135.416 198.98 (1330.715 3 3 8 (1 5 1 ( 1 1 + + + + m j j srswor sam t v m v 13758.87 Imputoitie välie variassiompoetti: 1 753.39 6876.444 1. 1 ( 1 (1 + m j mi j imp m t t m v Estimaattori mi t variassiestimaatti: 15686.86 753.39 13758.87 ( + + imp sam mi v v t v
Table 4.6 Estimates of a total ad its stadard error uder various imputatio methods (the Provice 91 populatio. Model type Estimator Estimate for a total v v sam v imp (0 No adj. 6 ( r t 33 579 17 988 ht ( r 17 988 0 (1 RM t 33 579 17 988 ma 14967 9 978 ( NN t 7 384 17 4 14967 8918 (3 RA t ra 6 669 14 988 14967 786 (4 MI m 5 t 3 53 15686 mi 13759 753 (5 Full 8 t 6 440 13 8 ht 13 8 0 4