Otantamenetelmät (78143) Sysy 2008 OSA 2: Malliavusteinen estimointi Risto Lehtonen risto.lehtonen@helsini.fi
Lisätiedon äyttö estimointiasetelmassa Tavoitteena estimoinnin tehostaminen poimitulle otoselle Esim. SRSWOR-otos esivirheiden pienentäminen valitsemalla sopiva estimointiasetelma Malliavusteiset menetelmät Regressioestimointi Suhde-estimointi Kalibrointimenetelmät Jäliosittaminen SAS Proc SURVEYMEANS SAS Proc SURVEYREG
Strategia (1) Otanta-asetelman ja estimointiasetelman yhdistelmä Ks. Lehtonen-Pahinen (2004) Strategian määritelmä Laajennettu asetelmaertoimen määritelmä Strategian deff Table 3.12
Strategia (2) Lehtonen - Pahinen (2004) pp. 88-89: The concept of estimation strategy will be used referring to a combination of the sampling design and the appropriate estimator. The model-assisted strategies to be discussed are shown in Table 3.12. In the design-based reference strategies, no auxiliary information is used.
Strategia (3) Table 3.12 Estimation strategies for population total Strategy Auxiliary information Assisting model Design-based strategies SRSWOR Not used None SRSWR Not used None Model-assisted strategies Poststratification SRS*pos Discrete ANOVA Ratio estimation SRS*rat Continuous Regression (no intercept) Regression estimation SRS*reg Continuous Regression
Malliavusteinen estimointi Materiaali Lehtonen and Pahinen (2004) Section 3.3 Ratio estimation of population total Regression estimation of totals Teninen yhteenveto 2 Jaettu paperi VLISS Training Key 101 Regression estimation Monte Carlo simulation Training Key 104 Calibration of weights
TEKNINEN YHTEENVETO 2 Malliavusteinen estimointi Regressioestimointi Oletetaan lineaarinen regressiomalli (superpopulaatiomalli) y = α + βz + ε, V( y ) 2 = σ (varianssi) Äärellisen perusjouon vastineet parametreille α ja β ovat A ja B A ja B estimoidaan painotetulla PNS-menetelmällä (WLS) SRS-tilanne: Kulmaertoimen B estimaattori b ˆ = 2 sˆ yz / sˆ z Vaioparametrin A estimaattori aˆ = y bz
Koonaismäärän T regressioestimaattori: tˆ reg = N( y + bˆ( Z z)) = tˆ + bˆ( T tˆ ), missä z z on tulosmuuttujan y t n n ˆ = t ˆ = N y / π = N y / n = Ny HT = 1 = 1 oonaismäärän T N = Y HT-estimaattori (SRSWOR), = 1 ˆ n t / z = N z n= Nz on apumuuttujan z oonaismäärän = 1 T z N = Z HT-estimaattori (SRSWOR) = 1 Z = Tz / N Tarvittava lisätieto: Apumuuttujan oonaismäärä T z
Asetelmavarianssi (liimääräinen) missä V ( ˆ SRS t ) ( n 2 reg N 1 2 )( ) Sy ( yz ) N n ρ 2 1 1, ρ = S / S S on muuttujien y ja z perusjouon orrelaatio yz yz y Varianssiestimaattori (ysi vaihtoehto) z vˆ ( ˆ ) ( )( ) ˆ ( ˆ SRS t = n 2 reg N 1 2 sy yz ) N n ρ 2 1 1
Monimuuttujainen regressiomalli missä z β y z z z = β0 + β1 1 + β2 2 +... + βp p + ε = zβ + ε = (1, z,..., z ) = ( β, β,..., β ) 1 p 0 1 p Estimaattorit ja varianssiestimaattorit Perusmuoto tˆ = tˆ + bˆ( T tˆ ) + bˆ ( T tˆ ) +... + bˆ ( T tˆ ) (1) reg HT 1 z z 2 z z p z z 1 1 2 2 p p
PROC SURVEYREG-muoto tˆ = bˆ N + bt ˆ + bt ˆ +... + bˆ T (2) reg 0 1 z1 2 z2 p z p proc surveyreg data=sample total=32; model UE91=HOU85 URB85 / solution; weight SamplingWeight; estimate "UE91 Total" Intercept 32 HOU85 91753 URB85 7 / E; run;
GREG-muoto (Generalized regression estimator) missä N tˆ = yˆ + w ( y yˆ ) reg = 1 = 1 n (3) yˆ = zb ˆ HUOM: Termi Termi n = 1 N yˆ Synteettinen (malliperusteinen) = 1 totaalin estimaattori w ( ˆ y y) Harhan orjaustermi (jäännöstotaalin HT-estimaattori)
Kalibrointiestimaattori tˆ n * reg w y = 1 = (4) missä * w = g w on alibrointipaino w = 1/ π on asetelmapaino g on g-paino aliolle
Varianssiestimaattorit vt ˆ( ˆ ) = N (1 n/ N)(1/ ns ) ˆ (5) reg 2 2 eˆ missä missä n 2 2 eˆ = 1 sˆ = ( eˆ eˆ) /( n 1) eˆ = y yˆ n eˆ = eˆ / n = 1 yˆ = zb ˆ
ˆ n 1 n 1 vt ˆ( ) (1 )( )( ) ˆ reg = N s N n n p 2 2 eˆ* (6) missä sˆ = ( eˆ eˆ ) /( n 1) eˆ 2 * eˆ* * 2 = 1 * = ˆ g e (g-painotetut jäännöset) * * ˆ ˆ / n e = e n = 1
vt ˆ ˆ = N n N nsˆ Rˆ (7) 2 2 2 ( reg ) (1 / )(1/ ) y (1 ) missä 2 ˆR on yhteisorrelaatioertoimen neliö n 2 2 ˆ y = ( ) /( 1) = 1 s y y n
Kalibrointimenetelmä (Calibration) g-painot Tulosmuuttuja y Kalibrointiestimaattori missä tˆ n * reg w y = 1 =, w = g w, g on g-paino aliolle ja w = 1/ π * jolle pätee n N * reg = = = z = 1 = 1 tˆ w z Z T (alibrointiominaisuus)
Suhde-estimointi (Ratio estimation) Jatuva apumuuttuja z g = T t ˆz z Regressioestimointi (Regression estimation) Jatuva apumuuttuja z N Z z g = (1 + ( z z)) Nˆ ( n 1) sˆ z n
Jäliositus (Poststratification) Disreetti apumuuttuja (luoat g = 1,,G) g g N g =, g = 1,..., G Nˆ g missä Nˆ g n g = w on jäliositteen g estimoitu oo = 1 g
Malliavusteinen estimointi Menetelmien tausta Katso Lehtonen-Pahinen (2004) Section 3.3
Regressioestimointi - Esimeri Example 3.13 (Lehtonen Pahinen 2004) Ysi apumuuttuja Populaatio Province 91 Otosaineisto Aiaisemmin poimittu SRSWOR-otos, n = 8 untaa Strategia SRS*reg
Tauluo Province91- perusjouo N = 32 untaa Tulosmuuttuja UE91 Apumuuttujat STR osite Kuntamuoto HOU85 Kotitalousien lm Lähde: Lehtonen R. and Pahinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. Second Edition. Wiley.
Table 3.16 A simple random sample drawn without replacement from the Province 91 population prepared for regression estimation Auxiliary information Sample design identifiers WGHT STR WGHT Element LABEL Study var. UE91 Variable HOU85 Model group g-weight Final w* weight 1 4 Jyväsylä 4123 26 881 1 0.2844 1.1378 1 4 Keuruu 760 4896 1 1.0085 4.0341 1 4 Saarijärvi 721 3730 1 1.0469 4.1877 1 4 Konginangas 142 556 1 1.1057 4.6058 1 4 Kuhmoinen 187 1463 1 1.1216 4.4863 1 4 Pihtipudas 331 1946 1 1.1391 4.4227 1 4 Toivaa 127 834 1 1.1423 4.5691 1 4 Uurainen 219 932 1 1.1515 4.5562 Sampling rate = 8/32 = 0.25.
Regressioestimointi - Esimeri Tehdään regressioestimointi ahdella tavalla (saadaan sama numeerinen tulos) Perusaava (1) Kalibrointiestimaattori (4) Varianssiestimaattori (6) Tulosmuuttuja y UE91 Apumuuttuja z HOU85 (otitalousien lm unnassa 1985)
Regressioestimointi - Esimeri Tauluo 3.16 Asetelmaindiaattorit vastaavat SRSWOR-tilannetta Poimintasuhde on 0.25. Regressiomalli Selitettävä muuttuja UE91 Selittäjä HOU85 Estimoitu slope (ulmaerroin) = 0.152 Saadaan regressioestimaatti tˆ = tˆ+ bˆ ( T tˆ ) reg z z = 26440 + 0.152(91753 164952) = 15312
Regressioestimointi - Esimeri Sama piste-estimaatti saadaan alibrointiestimaattorilla s. Painot Table 3.16: t ˆ w y 15312 reg 8 * = = = 1
Regressioestimointi - Esimeri Varianssiestimaatti Kaava (6) tuottaa tulosesi n 1 n 1 vˆ t N s N n n p ( ˆ ) = 2 (1 )( )( ) ˆ 2 srs reg eˆ* 8 1 8 1 = 32 (1 )( )( )61.24 = 648 32 8 8 2 2 2 2
Regressioestimointi - Esimeri Lasenta SAS Procedure SURVEYREG Lasenta: Kaava (2) PROC SURVEYREG-muoto tˆ = bˆ N + bt ˆ + bt ˆ +... + bˆ T (2) reg 0 1 z1 2 z2 p z p
Proc SURVEYREG **Regression Estimation; proc surveyreg data=sample total=32; title2 "Regression estimation for the total of UE91, auxiliary variable HOU85"; model UE91=HOU85 / solution; weight SamplingWeight; estimate "UE91 Total" Intercept 32 HOU85 91753 / E; run;
Proc SURVEYREG Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept 42.6546808 22.1860968 1.92 0.0960 HOU85 0.1520142 0.0007745 196.29 <.0001
Proc SURVEYREG Coefficients of Estimate "UE91 Total" Effect Row 1 Intercept 32 HOU85 91753 Analysis of Estimable Functions Standard Parameter Estimate Error t Value Pr > t UE91 Total 15312.7108 648.160289 23.62 <.0001
Regressioestimointi - Esimeri Kasi apumuuttujaa Populaatio Province 91 Otosaineisto Aiaisemmin poimittu SRSWOR-otos, n = 8 untaa Strategia SRS*reg Tulosmuuttuja y UE91 Apumuuttujat z1 ja z2 HOU85 (otitalousien lm unnassa 1985) URB85 (1 = aupungit, 0 = muut unnat)
Regressioestimointi - Esimeri Regressiomalli Tulosmuuttuja y: UE91 Apumuuttujat z1: HOU85 z2: URB85 y = β + β z + β z + ε = z β + ε 0 1 1 2 2
Regressioestimointi - Esimeri Lasenta Perusaava (1) GREG-muoto (3) (Table 3.17) tˆ = tˆ + bˆ( T tˆ ) + bˆ ( T tˆ ) reg HT 1 z z 2 z z 1 1 2 2 = 26440 + 0.14956(91753 164952) + 68.107(7 12) = 15152
Regressioestimointi - Esimeri GREG-aava (Table 3.17) Tuottaa saman numeerisen tulosen (15152) uin (1) Varianssiestimaatti lasetaan aavalla (6) GREG-muoto 32 8 tˆ = yˆ + w ( y yˆ ) = 15152 reg = 1 = 1 missä yˆ = ˆ zb z = (1, z1, z2) ' b ˆ = ( bˆ, bˆ, b ˆ ) 0 1 2
Regressioestimointi - Esimeri Lasenta Perusaava (1) Lisäinfo: Perusjouon totaalitiedot HOU85 ja UEB85 GREG-aava (3) Lisäinfo: Ysiötason tiedot perusjouon aiilta alioilta
Proc SURVEYREG **Regression Estimation; proc surveyreg data=sample total=32; title2 "Regression estimation for the total of UE91, auxiliary variable HOU85 and URB85"; model UE91=HOU85 URB85 / solution; weight SamplingWeight; estimate "UE91 Total" Intercept 32 HOU85 91753 URB85 7 / E; run;
Proc SURVEYREG Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept 29.7768913 19.7517828 1.51 0.1754 HOU85 0.1495578 0.0023199 64.47 <.0001 URB85 68.1072704 62.7319985 1.09 0.3136
Proc SURVEYREG Coefficients of Estimate "UE91 Total" Effect Row 1 Intercept 32 HOU85 91753 URB85 7 Analysis of Estimable Functions Standard Parameter Estimate Error t Value Pr > t UE91 Total 15151.9849 568.987386 26.63 <.0001
Strategioiden vertailua Lehtonen-Pahinen (2004) Table 3.18 Malliavusteiset strategiat tehoaampia uin SRSWOR Tehoain estimointi Regressioestimaattori ahdella apumuuttujalla
Table 3.18 Estimates for the population total of UE91 under different estimation strategies: an SRSWOR sample of eight elements drawn from the Province 91 population. Estimation strategy Estimator Estimate s.e deff Desing-based SRSWOR 26 440 13 282 1.0000 SRSWR 26 440 15 095 1.2917 Design-based model-assisted Poststratified estimator SRS*pos 18 106 6021 0.3323 Ratio SRS*rat 14 707 892 0.0045 estimator Regression estimator one z-variable SRS*reg,1 15 312 648 0.0020 two z- variables SRS*reg,2 15 152 569 0.0018
Malliavusteinen estimointi ja GREG Mallin valinta GREG-estimaattorille Linearinen iinteiden teijöiden malli Linear fixed-effects model Jatuva tulosmuuttuja Logistinen iinteiden teijöiden malli Binäärinen/moniluoainen tulosmuuttuja Yleistetty lineaarinen malli Generalized linear model Yleistetty lineaarinen seamalli Generalized linear mixed model Pienalue-estimointi (small area estimation, SAE)
GREG-estimaattori, ten. tiivistelmä Pienalue-estimointi U 1,2,...,,..., N Perusjouo (äärellinen) = { } U1,..., Ud,..., UD Kiinostusen ohteena olevat pj:n osajouot Otanta-asetelma: PPS-WOR, otosoo n s U sd = s Ud Otos Osajouoon d uuluva otos π x1 = n Ux1 Sisältymistn aliolle U PPS-otannassa a = 1/ π Asetelmapaino aliolle s Tulosmuuttujan y havaitut arvot y aliolle s
Yleistetty lineaarinen iinteiden vaiutusten malli (1) Yhteinen malli aiille osajouoille d E ( y ) = f( x β) missä f (.) mallin funtionaalinen muoto x β β m = (1, x,..., x ), U 1 p j = ( β, β,..., β ) 0 1 p iinteät termit (yhteisiä aiille d) j = 0,..., p Mallilla lasetut sovitteet yˆ = f( x βˆ ), U
Yleistetty lineaarinen iinteiden vaiutusten malli (2) Osajouoohtaiset vaiotermit E ( y ) = f( x β) m missä f (.) mallin funtionaalinen muoto = ( I,..., I, x,..., x ), U x 1 D 1 p Id = 1 if Ud, Id = 0 muulloin, d = 1,..., D β = ( β,..., β, β,..., β ) β β 0d j 01 0D 1 osajouoohtaiset vaiotermit, d = 1,..., D yhteiset iinteät termit, j = 1,..., p Mallilla lasetut sovitteet yˆ = f( x βˆ ), U p
Yleistetty lineaarinen seamalli satunaistermitx = (1, x,..., ) sajouoohtaiets(random intercepts) Em( y xou ) = f( x ( β + ud)), d = 1,..., D d missä f (.) mallin funtionaalinen muoto β u 1 p = ( β, β,..., β ) iinteät termit 0 1 p = ( u,..., u ) satunnaistermit d 0d pd Mallilla lasetut sovitteet yˆ = f( x ( βˆ + uˆ )), U d
Erioistapausia (1) Logistinen iinteiden teijöiden malli E m ( y ) = exp( x β) 1+ exp( x β) exp( x βˆ ) Sovitteet yˆ =, U 1+ exp( x βˆ ) (2) Lineaarinen seamalli, satunnaiset vaiotermit E = m( y u ) xβ + u0d, d = 1,..., D d Sovitteet yˆ = x βˆ + ˆ u0d, U
Osajouojen totaalien GREGestimaattori Totaaliparametrit Y = y, d = 1,..., D Tulosmuuttuja y jatuva tai binäärinen d U d GREG-estimaattorit missä a = 1/ π (asetelmapainot) Yˆ = yˆ + a eˆ dgreg U s eˆ = y yˆ (jäännöstermit eli residuaalit) d d
Kirjallisuutta OPPIKIRJOJA Särndal C.-E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling. New Yor: Springer. Lehtonen R. and Pahinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. Chichester: Wiley. ARTIKKELEITA Lehtonen R., Särndal C.-E. and Veijanen A. (2003). The effect of model choice in estimation for domains, including small domains. Survey Methodology, 29, 33 44. Lehtonen R., Särndal C.-E. and Veijanen A. (2005). Does the model matter? Comparing model-assisted and model-dependent estimators of class frequencies for domains. Statistics in Transition, 7, 649 673 Lehtonen R. and Veijanen A. (1998). Logistic generalized regression estimators. Survey Methodology, 24, 51 55.