Uudelleenpainotus ja imputointi Perusteita

Samankaltaiset tiedostot
LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI

, sanotaan niiden sääntöjen ja menetelmien kokonaisuutta, joilla otos poimitaan määritellystä perusjoukosta.

Otantamenetelmät. Syksy

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

9 Lukumäärien laskemisesta

Mat Tilastollisen analyysin perusteet, kevät 2007

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 6A Ratkaisuehdotuksia.

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Otanta-aineistojen analyysi

4.7 Todennäköisyysjakaumia

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MS-A0402 Diskreetin matematiikan perusteet Esimerkkejä ym., osa I

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Osa 2: Otokset, otosjakaumat ja estimointi

Tehtävä 11 : 1. Tehtävä 11 : 2

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

C (4) 1 x + C (4) 2 x 2 + C (4)

MS-A0402 Diskreetin matematiikan perusteet Yhteenveto ja esimerkkejä ym., osa I

MS-A0402 Diskreetin matematiikan perusteet Yhteenveto, osa I

Tilastolliset menetelmät: Varianssianalyysi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Diskreetin Matematiikan Paja Ratkaisuja viikolle 5. ( ) Jeremias Berg

MS-A0401 Diskreetin matematiikan perusteet Yhteenveto ja esimerkkejä ym., osa I

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Imputoi puuttuvat kohdat

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

A250A0050 Ekonometrian perusteet Tentti

MS-A0401 Diskreetin matematiikan perusteet Yhteenveto, osa I

Yhden selittäjän lineaarinen regressiomalli

Laskennallisen kombinatoriikan perusongelmia

[ ] [ 2 [ ] [ ] ( ) [ ] Tehtävä 1. ( ) ( ) ( ) ( ) ( ) ( ) 2( ) = 1. E v k 1( ) R E[ v k v k ] E e k e k e k e k. e k e k e k e k.

Todennäköisyysjakaumat 1/5 Sisältö ESITIEDOT: todennäköisyyslaskenta, määrätty integraali

Harha mallin arvioinnissa

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

M 2 M = sup E M 2 t. E X t = lim. niin martingaalikonvergenssilauseen oletukset ovat voimassa, eli löydämme satunnaismuuttujan M, joka toteuttaa ehdon

MAB7 Talousmatematiikka. Otavan Opisto / Kati Jordan

MS-A0402 Diskreetin matematiikan perusteet

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Vakuutusmatematiikan sovellukset klo 9-15

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

S Laskennallinen systeemibiologia

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 1. laskuharjoitus, ratkaisuehdotukset

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Osa 2: Otokset, otosjakaumat ja estimointi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Helsinki University of Technology Laboratory of Telecommunications Technology

Puuttuvan tiedon käsittely analyyseissä. Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY

Matematiikan tukikurssi

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Kiinteätuottoiset arvopaperit

V. POTENSSISARJAT. V.1. Abelin lause ja potenssisarjan suppenemisväli. a k (x x 0 ) k M

Tilastolliset luottamusvälit


Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

K-KS vakuutussumma on kiinteä euromäärä

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Kolmivaihejärjestelmän oikosulkuvirran laskemista ja vaikutuksia käsitellään standardeissa IEC-60909, , , 60781, ja

Osa 2: Otokset, otosjakaumat ja estimointi

funktiojono. Funktiosarja f k a k (x x 0 ) k

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen aineisto Luottamusväli

TAMPEREEN YLIOPISTO Pro gradu -tutkielma. Hannu Pajula. Stirlingin luvuista

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Luku kahden alkuluvun summana

pitkittäisaineistoissa

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

Sovellettu todennäköisyyslaskenta B

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

Estimaattoreiden asetelmaperusteinen

Estimointi Laajennettu Kalman-suodin. AS , Automaation signaalinkäsittelymenetelmät Laskuharjoitus 4

4.3 Erillisten joukkojen yhdisteet

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Sattuman matematiikkaa III

Luku 11. Jatkuvuus ja kompaktisuus

pisteet Frekvenssi frekvenssi Yhteensä

3. Jakaumien parametrien estimointi

Tilastolliset menetelmät: Varianssianalyysi

Todennäköisyyden ominaisuuksia

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

Transkriptio:

Heisigi yliopisto Matematiia ja tilastotietee laitos Otatameetelmät Sysy 008 Uudelleepaiotus ja imputoiti Perusteita Prof. Risto Lehtoe, Helsigi yliopisto.1.008

Uudelleepaiotus Otostasoise tiedo äyttö 1 Tyypilliset otaasta riippumattomat virheet (osamplig errors Vastausato (orespose Peitto- ja ehiovirheet (coverage ad frame errors Mittausvirheet (measuremet errors Processig errors Tavoite: Vastausado vaiutuste arvioiti ja adjustoiti Vastausato viittaa ahtee tilateesee: Ysiöato (Uit orespose - Mitää tietoja ei ole saatu erättyä joiltai otosysiöiltä - Kaii tutimusmuuttujat saavat puuttuva tiedo arvo äille ysiöille Eräato (Item orespose - Joitai tietoja o jääyt eräämättä joiltai otosysiöiltä 1 Source: Lehtoe R. ad Pahie E. (003 Practical Methods for Desig ad Aalysis of Complex Surveys. Secod Editio. Chichester: Joh Wiley & Sos, Ltd (Chapter 4.

- Joti tutimusmuuttujat saavat puuttuva tiedo arvo äille ysiöille HUOM: Molemmat puuttuva tiedo tyypit voivat aiheuttaa harhaa estimoitii ESIMERKKI Ysiöato tyypillisissä survey-tutimusissa Table 4.1 Vastausprosetti eräissä otostutimusissa Name of the survey Samplig uit Sample size Respose rate (% (1 Mii-Filad Health Survey ( Occupatioal Health Care Survey Perso 8000 96 % Establishmet 154 88 % (3 Health Security Survey Household 6998 84 % (4 PISA 000 Survey School 6638 85 % (5 Passeger Trasport Survey Perso 1850 65 % (6 Wages Survey Busiess firm 157 80 % PISA 000: Media of coutry-level respose rate is preseted due to heavy coutry-level variatio 3

YKSIKKÖKATO (UNIT NONRESPONSE Estimoitava parametri Totaali T N 1 Y HT estimaattori t ht 1 y / π Otata-asetelma: SRSWOR Otosoo: aliota HT-estimaattori variassi (SRSWOR Vsrs ( tht N (1 / N S / Jaajaa aluperäie otosoo Vastausado vallitessa saadu aieisto oo pieeee Saadu aieisto oo: (r < Siis variassi asvaa! 4

YKSIKKÖKADON AIHEUTTAMA HARHA Alio vastaustodeäöisyys θ, 1,..., N Harmillie (o-igorable vastausato Little ad Rubi (1987: Vastaustodeäöisyys θ riippuu tulosmuuttuja y arvosta Y Harmito (igorable vastausato Vastaustodeäöisyys θ ei riipu tulosmuuttuja y arvosta Y Esimerisi: Igorable tilae Vastaustodeäöisyys alioille 1,,N θ o vaio aiille 5

ESIMERKKI Harmillie (o-igorable vastausato Oletetaa, että haastattelututimusessa ysi osajouo jättäytyy ooaisuudessaa tutimuse ulopuolelle Perusjouo voidaa tällöi jaaa ahtee osaperusjouoo A. Osallistuva osajouo, N 1 aliota B. Ei-osallistuva osajouo (ato N aliota Totaali T estimaattori t ht ( r N y ( r missä y (r o osajouosta A saadu aieisto esiarvo Tällöi E ( y (r Y 1 (osajouo A esiarvo 6

Jos Y1 Y ii estimaattori t ht ( r o harhaie BIAS ( t ht ( r E t ht r T NY1 ( N1Y 1 + NY N( Y1 Käytäössä harha suuruutta o vaiea arvioida ( ( Y Variassi sijasta variaatio mittaa tulisi äyttää esieliövirhettä MSE t V ( t + BIAS t, ( ht ( r p( s ht ( r ( ht ( r Jos harhaa ei tiedetä, ii MSE ei voida lasea 7

ESIMERKKI Vastausato ja harha datassa Provice 91 Oletetaa, että seuraavat 5 utaa uuluvat ato-osajouoo B: Kuhmoie, Joutsa, Luhaa, Leivomäi, Toivaa Osajouo A: N 17 Osajouo B (ato: N 5 T 1 14 475 N 7 Y 1 1 536. 11 T 63 N 5 Y 14. 60 T 15 098 N 3 Y 471. 81 SRSWOR-otos ( 8 utaa Estimaattori t ht ( r, odotusarvo: E t N Y 3 536.11 ( ht ( r 1 17 156. BIAS ( t ht (r E t ht ( r T N( Y1 Y 5 (536.11 14.60 eli varsi suuri ( 8 058

UUDELLEENPAINOTUS Reweightig Ysiöado (Uit o-respose hallita Lisäiformaatio äyttö Koo otosesta saatava lisäifo Perusjouo tasoie lisäifo Ysiertaie esimeri Oletus: Kaiie perusjouo alioide osallistumistodeäöisyys o vaio, eli θ θ aiille U Aieistosta estimoitu θ r / ( Uudelleepaiotettu HT-estimaattori ( r ( r t w y y /(θ π ht 1 1 tai missä ( ht (1/ θ 1 y / π (1/ θ r t t t ( r ht 1 y / π ht 9

Vaio-osallistumistodeäöisyyde oletus o äytäössä epärealistie 1 Disreetti lisäifo: RHG-meetelmä Respose Homogeeity Groups Jaetaa perusjouo tai oo otos vastaustodeäöisyyde suhtee sisäisesti homogeeisii osajouoihi äyttäe hyväsi perusjouosta tai oo otosesta äytettävissä olevaa lisäiformaatiota, joa orreloi osallistumisalttiude assa Otostasoie lisäifo: Osajouot: 1,,c,...,C Osajouoje otosoot: 1,..., c,..., C Saadu aieisto oot: 1 ( r,..., c( r,..., C( r Oletus: Vastaustodeäöisyys θ c o vaio ui osajouo sisällä, mutta voi vaihdella osajouoje välillä Estimoitu osajouo c osallistumist θ c /, c 1,,C c( r c 10

Uudelleepaiotettu HT-estimaattori t ( r C ( r w y 1 c c (1/ θ w rhg 1 rhg, 1 c c y c missä uusi paio o w (1/ θ w rhg, c c ja wc 1/ πc o asetelmapaio, c 1,..., C ja,..., 1 c ( r RHG-meetelmä o tehoas jos osajouoje ostruoiti oistuu ii, että sisäie homogeeisuusehto täyttyy Edellyttää lisäiformaatio hyvää saatavuutta ja (voimaasta orrelaatiota osallistumisalttiude assa RHG-meetelmä äyttää disreettiä lisäiformaatiota (yhde tai useamma otostasoise disreeti muuttuja äyttö osajouoje muodostamisessa 11

Jatuvatyyppie lisäiformaatio Jatuva lisäifomuuttuja z tuetaa aiilta otosalioilta 1,, Muuttuja orreloi voimaaasti osallistumisalttiude θ assa Uudet paiot (reweights w ] w rat, [( 1/ θ ( z / z( r missä z o muuttuja z esiarvo, joa o lasettu oo otosesta z (r o esiarvo, joa o lasettu saadusta aieistosta, θ r / ja w 1/ π ( Uudelleepaiotettu HT-estimaattori t z ( r ( r 1 w rat, y θ z rat Suhdetehosteie estimoiti/ Ratio estimatio ( r 1 w y 1

UUDELLEENPAINOTETUN HT- ESTIMAATTORIN VARIANSSIN ESTIMOINTI Uudelleepaiotusessa paiot ovat muotoa w 1/(πθ missä sisältymistodeäöisyydet π ovat tuettuja parametreja (ei satuaismuuttujia Estimoidut vastaustodeäöisyydet θ ovat satuaismuuttujia Uudelleepaiotetu HT-estimaattori asetelmavariassi o site muotoa V ( t ht Vsam( tht + Vrew ( tht missä V sam Asetelmavariassi (otatavirhee hallita rew V Lisävariassi (uudelleepaiotuse aiheuttama lisäepävarmuus 13

ESIMERKKI (Example 4. Provice 91 Populatio N 3 utaa SRSWOR otos, 8 utaa, π π 0. 5 Kasi atoutaa: Kuhmoie ja Toivaa Saadu data oo 6 utaa ( r Lisäiformaatiomuuttuja z (jatuva HOU85 Asutoutie lm 1985 Lisäifo tiedossa aiista otosuista Estimoitu vastaustodeäöisyys θ θ ( r / 6 / 8 0.75 RHG: Kaupugit c 1 θ 1 3 / 3 1. 00 Muut uat c θ 3 / 5. 60 14

Lisäifo: Koo otos ( 8 : z 5154. 75 Saatu data ( 6 : z 6490. 17 (1 Estimaattori t ht RHG: Koo otos Naiivi uudelleepaiotus: ( r w ht 1 /(π θ 1/(0.5 0.75 5.3333 ( Estimaattori t rhg RHG: Kaupugit / Muut uat Uudelleepaiotus: Kaupugit w rhg, 1 (1/1 4 4 Muut uat w (1/ 0.60 4 6. 6667 rhg, (3 Estimaattori t rat RHG: Koo otos Uudelleepaiotus: w w [(1/ θ ( rat, z z( r 5154.75 15 ] 4 (1/ 0.75 6490.17 4.359

Table 4. SRSWOR otos perusjouosta Provice 91. Sample desig idetifiers Elemet Respose data (Samp le Reweight by orespose model STR CLU WGHT LABEL UE91 HOU85 RHG REW_HT RHG RATIO w*ht w*rhg w*rat 1 18 4 Kuhmoie.. 1 463 0.0000 0.0000 0.0000 1 30 4 Toivaa.. 834 0.0000 0.0000 0.0000 1 6 4 Pihtipudas 331 1 946 5.3333 6.6667 4.359 1 31 4 Uuraie 19 93 5.3333 6.6667 4.359 1 15 4 Kogiagas 14 556 5.3333 6.6667 4.359 1 1 4 Jyväsylä 4 13 6 881 1 5.3333 4.0000 4.359 1 4 4 Keuruu 760 4 896 1 5.3333 4.0000 4.359 1 5 4 Saarijärvi 71 3 730 1 5.3333 4.0000 4.359 A missig value is deoted as.. 16

Uudelleepaiotusestimaattori variassi Totaaliestimaattori asetelmavariassi: V N sam( t N (1 S / ( r ( r missä S ( r N ( r 1 ( Y N Y ( r ( r 1 Asetelmavariassi estimaatti: ( (1 N v sam t N s ( r / ( r 8 3 3 (1 157.59 / 6 14 967 missä s ( r ( r 1 ( y ( r y ( r 1 V sam (t o sama aiille estimaattoreille (1-(3 17

(1 Estimaattori t ht Uudelleepaiotusesta johtuva variassiompoetti: V t N S ( r rew ( ht (1 ( r / ( r missä S ( r N ( r 1 ( Y N Y ( r ( r 1 Variassiompoeti estimaatti: ( r v rew tht N (1 ( 6 8 s 3 (1 157.59 / 6 ( r / ( r 9 978.18 18

( Estimaattori t rhg RHG: Kaupugit Otosoo 1 3 N ( / N (3 / 8 3 1 1 1 Muut uat Otosoo 5 N ( / N (5 / 8 3 0 Uudelleepaiotusesta johtuva variassiompoetti: V ( rew t rhg 1( N 1 (1 + N (1 r 1 ( r S S 1( r ( r / / 1( r ( r missä S h( r N h ( r 1 ( Y h N Y h( r h( r 1 19

Variassiompoeti estimaatti: v ( t rew rhg 1 + 0 (1 (1 3 5 3 3 195.99 95.04 / 3 / 3 0 + 694.07 694.07 0

(3 Estimaattori t rat Määritellää jääöset Y E Y Z ( r ( r ( r ( r Z( r Uudelleepaiotusesta johtuva variassiompoetti: V ( r rew ( trat N (1 SE ( / r ( r N( missä 1 ( ( /( ( 1 ( r SE E r E N r r ja E N( r E N. 1 ( r / ( r Estimoidut jääöset y ( r e ( r y ( r z ( r z ( r 1

Variassiompoeti estimaatti: ( ( 785.73 6 / 10.9 8 6 (1 3 / (1 ( ( r e r rat rew s N t v r missä 1 /( ( ( 1 ( ( ( ( r r r e e e s r r

Poimitasuhteet: Estimaattorit t ht ja t rat r ( / N 6 / 3 0.1875 Estimaattori t rhg Kaupugit 1( r / N1 3/1 0.5 Muut uat: ( r / N 3/0 0.15 Vertailuestimaattorit: (0 Estimaattori t ht ( r N y ( r Poimitasuhde / N 6 / 3 0. 1875 ( r (4 Estimaattori t ht "Full respose" Poimitasuhde /N 8/3 0.5 3

Table 4.3 Variassiompoetit ja ooaisvariassi eri estimaattoreille (Provice 91 populatio. Model ad estimator (0 Respodet data 6 t ht ( r ( ( r Estimate for a Total v 33 579 17 988 v sam v rew 17 988 0 (1 Reweighted estimator t ht 33 579 17 988 14 967 9978 ( Respose homogeeity group t rhg 7 09 14 983 14 967 694 (3 Ratio estimator t rat 6 669 14 988 14 967 786 (4 Full respose ( 8 t ht 6 440 13 8 13 8 0 4

IMPUTOINTI Imputatio Eräado (item o-respose hallita Tavoite: Täydellie datamatriisi Tulosmuuttuja y Puuttuva mittaustulos y aliolle Imputoitu arvo ŷ IMPUTOINTIMENETELMIÄ (1 Kesiarvoimputoiti Respodet mea method RM Jatuva tulosmuuttuja y Imputoitu arvo y y( r eli vastaeide esiarvo Kesiarvoimputoiti ei ole yleisesti suositeltava meetelmä 5

Kehittyeemmät meetelmät: Lisäiformaatio äyttö otosaieistosta tai perusjouosta ( Lähimmä aapuri meetelmä Nearest eighbor method NN Jatuva tulosmuuttuja y Puuttuva tieto y aliolle Jatuva lisäiformaatiomuuttuja z Tiedossa aiilta otosalioilta Lasetaa pareittaiset etäisyydet zl z, l Valitaa substituutti y y l jolle etäisyys o piei, missä y l o havaittu arvo Alio l o luovuttaja (door 6

(3 Suhde-estimoiti Ratio estimatio method RA Jatuva tulosmuuttuja y Puuttuva tieto y aliolle Jatuva lisäiformaatiomuuttuja z Tiedossa aiilta otosalioilta Imputoitu arvo y z ( y ( r / z( r missä y (r o tulosmuuttuja y esiarvo havaitussa aieistossa z (r o apumuuttuja z esiarvo havaitussa aieistossa 7

(4 Hot dec meetelmä HD Tulosmuuttuja y (jatuva tai disreetti Puuttuva tieto y aliolle Door l ja vastaava imputoitu arvo y y l valitaa satuaisesti havaittuje arvoje jouosta (5 Moi-imputoiti - Multiple imputatio MI Sigle imputatio: Meetelmät (1-(4 Alio puuttuva tieto y orvataa yhdellä imputoidulla arvolla ŷ Multiple imputatio: Alio puuttuva tieto y orvataa usealla imputoidulla arvolla y, y,..., y 1 m Saadaa m täydellistä havaitomatriisia Usei valitaa arvo m 5 8

TOTAALIESTIMAATTORIN VARIANSSIN ESTIMOINTI IMPUTOINNIN YHTEYDESSÄ Imputoiti tuottaa estimaattori variassilauseeesee lisäompoeti (vastaavasti ui uudelleepaiotusmeetelmie yhteydessä HT-estimaattori t 1 / π variassilausee ht y V ( t ht Vsam( tht + Vimp( tht missä V t o asetelmavariassi ( sam ht V ( imp tht o imputoii aiheuttama lisävariassi (imputoitivariassi Lisävariassi V ( imp tht lausee riippuu imputoitimeetelmästä 9

Moi-imputoiti Multiple imputatio (MI Variassiestimaattori v ( t v ( t + v mi sam mi imp ( t mi Aliolle imputoidaa m arvoa y 1,..., y j,..., y m jolloi saadaa m täydellistä datamatriisia Määritellää joaiselle m matriisille totaaliestimaattori t 1w y, j 1,..., m j missä w 1/ π HUOM: Osa arvoista y o imputoituja! Lasetaa totaaliestimaattie esiarvo t mi 1 m j m t 1 j 30

Määritellää variassiompoetit: Imputoitie sisäie variassiestimaattori 1 m m vsam tmi j 1 v p( s t j ( ( Imputoitie välie variassiestimaattori 1 m (1 + j m v imp tmi 1 ( ( t j t mi m 1 jolloi ooaisvariassi estimaattori o: v( t mi (1 + v sam 1 m 1 m ( t m j 1 mi + v m j 1 p( s ( t j v t imp mi m 1 ( t ( t mi j + 31

ESIMERKKI (Example 4.3 Provice 91 Populatio N 3 utaa SRSWOR otos, 8 utaa, π π 0. 5 Tulosmuuttuja y UE91 (työttömie luumäärä uassa Lisätietomuuttuja z HOU85 (asutoutie lm vuoa 1985, väestölaseta Tiedossa aiista uista Puuttuva tieto muuttujalta UE91 uista: Kuhmoie ja Toivaa Imputoitimeetelmät: (1 Kesiarvoimputoiti RM ( Lähimmä aapuri meetelmä NN (3 Suhde-estimoiti RA (4 Moi-imputoiti MI Puuttuva tieto aliolla 3

(1 Kesiarvoimputoiti RM Tulosmuuttuja y esiarvo saadussa datassa 6 ( ( r y( r y 1049.33 Imputoiti: Kuhmoie 18 y 18 1049.33 Toivaa 30 y 30 1049.33 ( Lähimmä aapuri meetelmä NN Tutitaa, millä aliolla l etäisyys zl z saavuttaa miimi. Imputoiti: Kuhmoie 18 Miimi o 1949 1463 486 Door: Pihtipudas y y 331 18 6 Toivaa 30 Miimi o 93 834 98 Door: Uuraie y y 19 30 31 33

(3 Suhde-estimoiti RA Lasetaa saadusta aieistosta suhde-estimaatti B r y ( r / z( 1049.33 / 6490.17 0.1617 Lasetaa sovitteet y B Imputoiti: z Kuhmoie 18 z 1463 y 36.57 18 0.1617 18 1463 Toivaa 30 z 834 y 134.86 30 30 0.1617 834 34

Table 4.4 Completed data sets obtaied by sigle imputatio methods (The Provice 91 populatio. ID Elemet LABEL Respose data (Sample UE91 HOU85 Imputed data sets by model (1 Respode t mea RM ( Nearest eighbour NN (3 Ratio estimatio RA Full respose 18 Kuhmoie 30 Toivaa.... 1463 834 1049.33* 1049.33* 331* 19* 36.57* 134.86* 187 17 1 4 5 15 Jyväsylä Keuruu Saarijärvi Kogi. 413 760 71 14 6 881 4 896 3 730 556 413 760 71 14 413 760 71 14 413 760 71 14 413 760 71 14 6 Pihtipudas 331 1 946 331 331 331 331 31 Uuraie 19 93 19 19 19 19 Imputed values are flagged with * ad missig values with.. Samplig rate for respodet data is 6/3 0.1875 Samplig rate for Full respose ad completed data sets is 8/3 0.500 35

Totaaliestimaattori variassi estimoiti Variassiestimaattori v ( t ht v ( t + v sam ht imp ht ( t Asetelmavariassi estimoiti: v sam ( t ht N 3 (1 (1 N s 8 3 ( r / ( r 157.59 / 6 14967 missä ( r s ( y y /( 1 ( r 1 ( r ( r o lasettu saadusta aieistosta v sam ( t o sama aiille estimaattoreille (1-(3 36

Imputoitivariassi estimoiti Variassiestimaattori: v imp ( t ht ( r ( r 1 N (1 ( e ( r e 1 / ( r missä ( r e 1 e / ( r o jääöste Jääöset: e y y esiarvo (1 RM: e y y( r. ( NN: e y y ( l missä y (l o doori y-arvo (3 RA: e y ( y( r / z( r z 37

Imputoitivariassi estimaatit: (1 RM (respodet mea: v ( t imp rm 6 3 (1 157.59 8 9978.18 / 6 ( NN (earest eighbour: 6 8 imp t 3 (1 1365.1 / 6 v ( 8917.51 (3 RA (ratio estimatio: 6 8 3 (1 10.9 / 6 v imp ( t ra 785.73. HUOM: Piei imputoitivariassi estimaatti o RAmeetelmälle 38

(4 Moi-imputoiti MI Käytetää HD-meetelmää (Hot Dec Muodostetaa m 5 täydellistä dataa Imputoidut datat: Table 4.5 Variassi estimoiti v ( t v ( t + v mi sam mi imp ( t mi Lasetaa totaaliestimaattie esiarvo t mi m t / m (1/ 5(879 + 31108 + 8944 + 44716 + 9100 j 1 j 353 39

Table 4.5 Imputed data sets obtaied by multiple imputatio (m5. Hot dec imputatio is used for each completed data set (The Provice 91 populatio. ID Elemet Respo se data (sample 18 30 Kuhm. Toivaa Repeated samples icludig imputed values ad flagged as * UE91 1 3 4 5.... 760* 14* 760* 71* 71* 19* 413* 760* 760* 19* Full respos e 187 17 1 Jyväsylä 413 413 413 413 413 413 413 4 Keuruu 760 760 760 760 760 760 760 5 Saarijärvi 71 71 71 71 71 71 71 15 Kogi. 14 14 14 14 14 14 14 6 Pihtipudas 331 331 331 331 331 331 331 31 Uuraie 19 19 19 19 19 19 19 Mea 1049.33 899.75 97.1 904,50 1397.38 909.37 86.5 STD (y 157.59 1330.71 198.98 135.4 1699.99 134.7 1355.15 40

41 Imputoitie sisäie variassiompoetti: 6 / 134.716 1699.989 135.416 198.98 (1330.715 3 3 8 (1 5 1 ( 1 1 + + + + m j j srswor sam t v m v 13758.87 Imputoitie välie variassiompoetti: 1 753.39 6876.444 1. 1 ( 1 (1 + m j mi j imp m t t m v Estimaattori mi t variassiestimaatti: 15686.86 753.39 13758.87 ( + + imp sam mi v v t v

Table 4.6 Estimates of a total ad its stadard error uder various imputatio methods (the Provice 91 populatio. Model type Estimator Estimate for a total v v sam v imp (0 No adj. 6 ( r t 33 579 17 988 ht ( r 17 988 0 (1 RM t 33 579 17 988 ma 14967 9 978 ( NN t 7 384 17 4 14967 8918 (3 RA t ra 6 669 14 988 14967 786 (4 MI m 5 t 3 53 15686 mi 13759 753 (5 Full 8 t 6 440 13 8 ht 13 8 0 4