Otantamenetelmät (78143) Sysy 2009 TEEMA 2 risto.lehtonen@helsini.fi
Teema 2 LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI 2
Lisätiedon äyttö estimointiasetelmassa i t Malliavusteiset strategiat Model-assisted strategies Regressioestimointi Suhde-estimointi Kalibrointimenetelmät Jäliosittaminen Otosen ulopuolisen lisäinfon tuonti estimointiasetelmaan tilastollisen mallin avulla SAS Procedure SURVEYREG SAS maro CLAN 3
Estimointistrategioita perusjouon oonaismäärälle Strategia Lisäinformaatio Avustava malli Asetelmaperusteisia strategioita SRSWOR Ei ole Ei ole SRSWR Ei ole Ei ole STR Ositusmuuttuja Ei ole PPSWOR Koomuuttuja Ei ole Malliavusteisia strategioita Otanta-asetelma SRS Avustava malli: Lineaarinen iinteiden teijöiden malli Regressioestimointi Jatuva Regressiomalli SRS*reg Suhde-estimointi SRS*rat Jatuva Regressiomalli (ei vaiotermiä) Jäliositus SRS*pos Disreetti ANOVA 4
Malliavusteinen estimointi Materiaali Lehtonen and Pahinen (2004) Section 3.33 - Ratio estimation of population p total - Regression estimation of totals Teninen yhteenveto 2 - Jaettu paperi VLISS - Training Key 101 - Regression estimation - Monte Carlo simulation - Training Key 104 - Calibration of weights 5
TEKNINEN YHTEENVETO 2 Malliavusteinen estimointi Regressioestimointi Oletetaan lineaarinen regressiomalli (superpopulaatiomalli) y 2 = α + βz + ε, V ( y ) = σ (varianssi) Äärellisen perusjouon vastineet parametreille α ja β ovat A ja B A ja B estimoidaan painotetulla PNS-menetelmällä (WLS) SRS-tilanne: Kulmaertoimen B estimaattori b ˆ = 2 sˆ yz / sˆ z Vaioparametrin A estimaattori aˆ = y bz 6
Koonaismäärän T regressioestimaattori: tˆ reg = N( y + bˆ( Z z)) = tˆ + bˆ( T tˆ ), missä z z on tulosmuuttujan y t n n ˆ = t ˆ = N y / π = N y / n = Ny HT = 1 = 1 oonaismäärän T N = Y HT-estimaattori (SRSWOR), = 1 ˆ n t / z = N z n= Nz on apumuuttujan z oonaismäärän = 1 T z N Z HT ti tt i (SRSWOR) = 1 = HT-estimaattori (SRSWOR) Z = Tz / z N Tarvittava lisätieto: Apumuuttujan oonaismäärä T z 7
missä Asetelmavarianssi (liimääräinen) ρ ˆ n 1 V ( ) 2 ( )( ) 2 ( 2 SRS treg N 1 Sy 1 ρ yz ), N n yz = S / S yz y S Varianssiestimaattori (ysi vaihtoehto) z on muuttujien y ja z perusjouon orrelaatio ˆ n 1 vˆ ( ) 2 ( )( ) ˆ 2 ( ˆ 2 SRS t = reg N 1 sy 1 yz ) N n ρ 8
Monimuuttujainen regressiomalli y z z z = β0 + β1 1 + β2 2 +... + βp p + ε = zβ + ε missä z = (1, z1,..., z p) β = ( β, β,..., β ) 0 1 p Estimaattorit ja varianssiestimaattorit Perusmuoto tˆ = tˆ + bˆ ( T tˆ ) + bˆ ( T tˆ ) +... + bˆ ( T tˆ ) (1) reg HT 1 z z 2 z z p z z 1 1 2 2 p p 9
PROC SURVEYREG-muoto tˆ = bˆ N + bt ˆ + bt ˆ +... + bˆ T (2) reg 0 1 z1 2 z2 p z p proc surveyreg data=sample total=32; model UE91=HOU85 URB85 / solution; weight SamplingWeight; estimate "UE91 Total" run; Intercept 32 HOU85 91753 URB85 7 /E; 10
missä GREG-muoto (Generalized regression estimator) N tˆ = yˆ + w ( y yˆ ) reg = 1 = 1 n (3) yˆ = zb ˆ HUOM: Termi Termi n = 1 N yˆ Synteettinen (malliperusteinen) =11 w ( y yˆ ) totaalin estimaattori Harhan orjaustermi (jäännöstotaalin HT-estimaattori) 11
Kalibrointiestimaattori tˆ n * reg wy = 1 = (4) missä * w = g w on alibrointipaino w = 1/ π on asetelmapaino g on g-paino aliolle ll 12
Varianssiestimaattorit vt ˆ( ˆ ) = N (1 n/ N)(1/ ns ) ˆ (5) reg 2 2 eˆ missä missä n 2 2 eˆ =1 sˆ = ( eˆ eˆ) /( n 1) eˆ = y yˆ n = 1 yˆ = ˆ zb eˆ = eˆ / n 13
ˆ n 1 n 1 vt ˆ ( ) (1 )( )( ) ˆ reg = N s N n n p 2 2 eˆ* (6) missä n 2 * * 2 eˆ* = 1 * = ˆ sˆ = ( eˆ eˆ ) /( n 1) eˆ g e (g-painotetut jäännöset) * * ˆ n = ˆ / = 1 e e n 14
vt ˆ( ) = N (1 n/ N)(1/ ns ) (1 Rˆ ) (7) 2 2 2 ˆ ˆ reg y missä 2 ˆR on yhteisorrelaatioertoimen neliö n 2 2 ˆ = y ( y y ) /( 1) = 1 s y y n 15
g-painot Kalibrointimenetelmä (Calibration) Tulosmuuttuja y Kalibrointiestimaattori missä tˆ n * reg w y = 1 =, w = g w, g on g-paino aliolle ll ja w = 1/ π * jolle pätee n N * reg = = = z = 1 = 1 tˆ w z Z T (alibrointiominaisuus) 16
Suhde-estimointi estimointi (Ratio estimation) Jatuva apumuuttuja z g = T t t z ˆz Regressioestimointi (Regression estimation) Jatuva apumuuttuja z N Z z g = (1 + ( z z)) Nˆ ( n 1) sˆ z n 17
Jäliositus (Poststratification) Disreetti i iapumuuttuja (luoat g = 1,,G) g g N g =, g = 1,..., G Nˆ g n g missä N ˆ = w on jäliositteen itt g estimoitu it oo g = 1 g 18
Regressioestimointi - Esimeri Example 3.13 (Lehtonen Pahinen 2004) Ysi apumuuttuja Populaatio Province 91 Otosaineisto Aiaisemmin i i poimittu i SRSWOR-otos, n = 8 untaa Strategia SRS*reg 19
Tauluo Province91- perusjouo N = 32 untaa Tulosmuuttuja UE91 Apumuuttujat STR osite - Kuntamuoto HOU85 - Kotitalousien lm Lähde: Lehtonen R. and Pahinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. Second Edition. Wiley. 20
Table 3.16 A simple random sample drawn without replacement from the Province 91 population prepared for regression estimation Auxiliary information Sample design identifiers WGHT Study Final STR WGHT Element var. Variable Model w* LABEL UE91 HOU85 group g-weight g weight 1 4 Jyväsylä 4123 26 881 1 0.2844 1.1378 1 4 Keuruu 760 4896 1 1.0085 4.0341 1 4 Saarijärvi 721 3730 1 1.0469 4.1877 1 4 Konginangas 142 556 1 1.1057 4.6058 1 4 Kuhmoinen 187 1463 1 1.1216 4.4863 1 4 Pihtipudas 331 1946 1 1.1391 4.4227 1 4 Toivaa 127 834 1 1.1423 4.5691 1 4 Uurainen 219 932 1 1.1515 4.5562 Sampling rate = 8/32 = 0.25. 21
Regressioestimointi - Esimeri Tehdään regressioestimointi ahdella tavalla (saadaan sama numeerinen tulos) Perusaava (1) Kalibrointiestimaattori (4) Varianssiestimaattori a ssest aatto (6) Tulosmuuttuja y UE91 Apumuuttuja z HOU85 (otitalousien lm unnassa 1985) 22
Regressioestimointi - Esimeri Tauluo 3.16 Asetelmaindiaattorit vastaavat SRSWOR-tilannetta Poimintasuhde on 0.25. Regressiomalli Selitettävä muuttuja UE91 Selittäjä HOU85 Estimoitu slope (ulmaerroin) = 0.152 Saadaan regressioestimaatti: tˆ = tˆ+ bˆ ( T tˆ ) reg z z = 26440 + 0.152(91753 164952) = 15312 23
Regressioestimointi - Esimeri Sama piste-estimaatti saadaan alibrointiestimaattorilla s. Painot Table 3.16: 8 tˆ = w y = 15312 reg 1 = * 24
Regressioestimointi - Esimeri Varianssiestimaatti Kaava (6) tuottaa tulosesi n 1 n 1 vˆ t N s N n n p ( ˆ ) = 2 (1 )( )( ) ˆ 2 srs reg eˆ* 8 1 8 1 = 32 (1 )( )( )61.24 = 648 32 8 8 2 2 2 2 25
Regressioestimointi - Esimeri Lasenta SAS Procedure SURVEYREG Lasenta: Kaava (2) PROC SURVEYREG-muoto tˆ = bˆ N + bt ˆ + bt ˆ +... + bˆ T (2) () reg 0 1 z1 2 z2 p z p 26
Proc SURVEYREG **Regression Estimation; proc surveyreg data=sample total=32; title2 "Regression estimation for the total of UE91, auxiliary variable HOU85"; model UE91=HOU85 / solution; weight SamplingWeight; estimate "UE91 Total" Intercept 32 HOU85 91753 / E; run; 27
Proc SURVEYREG Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept 42.6546808 22.1860968 1.92 0.0960 HOU85 0.1520142 0.0007745 196.29 <.0001 28
Proc SURVEYREG Coefficients i of Estimate t "UE91 Total" Effect Row 1 Intercept 32 HOU85 91753 Analysis of Estimable Functions Standard Parameter Estimate Error t Value Pr > t UE91 Total 15312.7108 648.160289 23.62 <.0001 29
Regressioestimointi - Esimeri Kasi apumuuttujaa Populaatio Province 91 Otosaineisto - Aiaisemmin poimittu SRSWOR-otos, n = 8 untaa Strategia - SRS*reg Tulosmuuttuja y - UE91 Apumuuttujat z1 jaz2 HOU85 (otitalousien lm unnassa 1985) URB85 (1 = aupungit, 0 = muut unnat) 30
Regressioestimointi - Esimeri Regressiomalli Tulosmuuttuja y: UE91 Apumuuttujat z1: HOU85 z2: URB85 β + β + β + ε z β + ε y = + z + z + = + 0 1 1 2 2 31
Regressioestimointi - Esimeri Lasenta Perusaava (1) GREG-muoto (3) (Table 3.17) tˆ = tˆ + bˆ ( T tˆ ) + bˆ ( T tˆ ) reg HT 1 z z 2 z z 1 1 2 2 = 26440 + 0.14956(91753 164952) + 68.107(7 12) = 15152 32
Regressioestimointi i - Esimeri GREG-aava (Table 3.17) Tuottaa saman numeerisen tulosen (15152) uin (1) Varianssiestimaatti lasetaan aavalla (6) GREG-muoto 32 8 tˆ = yˆ + w ( y yˆ ) = 15152 = = reg 1 1 missä yˆ = b ˆ zb z = (1, z1, z2) ' b ˆ = ( bˆ, bˆ, b ˆ ) 0 1 2 33
Regressioestimointi - Esimeri Lasenta Perusaava (1) - Lisäinfo: Perusjouon totaalitiedot HOU85 ja URB85 GREG-aava (3) - Lisäinfo: Ysiötason tiedot perusjouon aiilta alioilta 34
Proc SURVEYREG **Regression Estimation; proc surveyreg data=sample total=32; title2 "Regression estimation for the total of UE91, auxiliary variable HOU85 and URB85"; model UE91=HOU85 URB85 / solution; weight SamplingWeight; estimate "UE91 Total" Intercept 32 HOU85 91753 URB85 7 / E; run; 35
Proc SURVEYREG Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept t 29.7768913 19.7517828 1.51 0.1754 HOU85 0.1495578 0.0023199 64.47 <.0001 URB85 68.1072704 62.7319985 1.09 0.3136 36
Proc SURVEYREG Coefficients of Estimate "UE91 Total" Effect Row 1 Intercept 32 HOU85 91753 URB85 7 Analysis of Estimable Functions Standard Parameter Estimate Error t Value Pr > t UE91 Total 15151.9849 568.987386 26.63 <.0001 37
Table 3.18 Estimates for the population total of UE91 under different estimation strategies: an SRSWOR sample of eight elements drawn from the Province 91 population. Estimation strategy Estimator Estimate s.e deff Desing-based SRSWOR 26 440 13 282 1.0000 SRSWR 26 440 15 095 1.2917 Design-based model-assisted Poststratified estimator SRS*pos 18 106 6021 0.3323 Ratio SRS*rat estimator 14 707 892 0.0045 Regression estimator one z-variable SRS*reg,1 15 312 648 0.0020 two z-variables SRS*reg,2 15 152 569 0.0018 38
GREG-estimaattoriperhe Mallin valinta GREG-estimaattorille ill Linearinen iinteiden teijöiden malli - Linear fixed-effects effects model - Jatuva tulosmuuttuja Logistinen iinteiden teijöiden malli - Binäärinen/moniluoainen tulosmuuttuja Yleistetty lineaarinen malli - Generalized linear model Yleistetty lineaarinen seamalli - Generalized linear mixed model - Pienalue-estimointi (small area estimation, SAE) Handboo of Statistics 39
GREG-estimaattori, ten. tiivistelmä Pienalue-estimointi i = { } U 1,2,...,,..., N Perusjouo (äärellinen) U1,..., Ud,..., UD Kiinostusen ohteena olevat pj:n osajouot Otanta-asetelma: PPS-WOR, otosoo n s U Otos s = s U Osajouoon d uuluva otos d d x1 π = n Sisältymistn aliolle U PPS-otannassa Ux1 a = 1/ π Asetelmapaino aliolle s Tulosmuuttujan y havaitut arvot y aliolle s 40
Yleistetty lineaarinen iinteiden vaiutusten t malli (1) Yhteinen malli aiille osajouoille d E ( y ) = f( x β) m missä f (.) mallin funtionaalinen muoto x β = (1, x,..., x ), U 1 p = ( β, β,..., β ) β 0 1 j j = p iinteät termit (yhteisiä aiille d) 0,..., p Mallilla lasetut sovitteet yˆ = f( x βˆ ), U 41
Yleistetty lineaarinen iinteiden vaiutusten t malli (2) Osajouoohtaiset vaiotermit E ( y ) = f( x β) missä m f (.) mallin funtionaalinen muoto = ( I,..., I, x,..., x ), U x 1 D 1 p Id = 1 if Ud, Id = 0 muulloin, d = 1,..., D = ( β,..., β, β,..., β ) β 01 0D 1 p β 0 d osajouoohtaiset vaiotermit, d = 1,..., D β j yhteiset iinteät termit, j = 1,..., p Mallilla lasetut sovitteet yˆ = f ( x βˆ ), U 42
Yleistetty lineaarinen saseamallioyleistetty lineaarinen seamalli jouoohtaisetsatunaistermit(random intercepts) x E ( y u ) = f ( x ( β + u )), d = 1,..., D m d d missä f (.) mallin funtionaalinen muoto β u = (1, x,..., x ) 1 p = ( β, β,..., β ) iinteät termit 0 1 p ( u,..., u ) satunnaistermit d = 0d pd Mallilla lasetut sovitteet yˆ = f( x ( β ˆ + uˆ )), U d 43
Ei Erioistapausiai i (1) Logistinen iinteiden teijöiden malli exp( x β) Em ( y ) = 1+ exp( x β) exp( x ˆ β ) Sovitteet yˆ =, U 1+ exp( x βˆ ) E m ( y u ) = x β + u0d, d = 1,..., D (2) Lineaarinen seamalli, satunnaiset vaiotermit d Sovitteet yˆ = x ˆ + ˆ β u 0 d, U 44
Osajouojen totaalien GREG-estimaattori tt i Totaaliparametrit T = d y, d = 1,..., D Tulosmuuttuja y jatuva tai binäärinen U d GREG-estimaattorit missä a = 1/ π (asetelmapainot) t ˆ = y ˆ + a e ˆ dgreg U s eˆ = y yˆ (jäännöstermit eli residuaalit) HUOM: Sovitteet ˆ lasetaan ulloisenin mallin avulla y d d 45
Kirjallisuutta OPPIKIRJOJA Särndal C. -E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling. New Yor: Springer. Lehtonen R. and Pahinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. 2nd Edition. Chichester: Wiley. ARTIKKELEITA Lehtonen R., Särndal C.-E. and Veijanen A. (2003). The effect of model choice in estimation for domains, including small domains. Survey Methodology, 29, 33 44. Lehtonen R., Särndal C.-E. and Veijanen A. (2005). Does the model matter? Comparing model-assisted and model-dependent estimators of class frequencies for domains. Statistics in Transition, 7, 649 673 Lehtonen R. and Veijanen A. (2009). Design-based methods of estimation for domains and small areas. Chapter 31 in Rao C.R. and Pfeffermann D. (Eds.). Handboo of Statistics. Sample Surveys: Inference and Analysis. Vol. 29B. New Yor: Elsevier. Lehtonen R. and Veijanen A. (1998). Logistic generalized regression estimators. Survey Methodology, 24, 51 55. 46