Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Helsingin yliopisto Sosiaalitieteien laitos 1 Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen OSA 4 Laajennettu GREG-estimaattoreien perhe Avustavat mallit Yleistetty lineaarinen malli Lineaarinen seamalli Yleistetty lineaarinen seamalli GREG-estimaattoreien teoreettisten ominaisuusien (harha, MSE) tutiminen empiirisesti Monte Carlo -simulointi

LAAJENNETT GREG-ESTIMAATTOREIDEN PERHE 2 GREG-tyyppiset estimaattorit joissa avustava malli on yleistettyjen lineaaristen mallien (GLMM, Generalize linear mixe moels) perheen jäsen Avustavat mallit (1) Yleistetty lineaarinen (iinteien teijöien) malli E ( Y ) f( ; ) = x β (51) m missä f (; β ) on annettu funtio (lineaarinen funtio, logistinen funtio), β on estimoitava parametrivetori ja E m viittaa ootusarvoon mallin suhteen Malli sovitetaan otosatalle {( y, x ); s} Saaaan parametrin B estimaatti ˆB, missä B on mallin parametrin β äärellisen perusjouon vastine ˆ Sovitteet yˆ = f( x; B ) lasetaan joaiselle äyttämällä vetoria ˆB ja apumuuttujavetoria x Logistisen mallin avustama GREG-estimaattori LGREG Lehtonen, R. an A. Veijanen (1998). Logistic generalize regression estimators. Survey Methoology 24, 51-55.

(2) Yleistetty lineaarinen seamalli 3 E ( Y u ) = f ( x ( β + u )) (52) m missä u on omain-spesifien satunnaistermien vetori ˆ Sovitteet yˆ ( ( ˆ = f x B+ u )) lasetaan joaiselle äyttämällä estimaattivetoreita ˆB, u ˆ ja apumuuttujavetoria x (a) Lineaarinen seamalli E ( Y u ) = x ( β + u ) m = ( β + u ) + ( β + u ) x +... + ( β + u ) x 0 0 1 1 1 J J J missä u = ( u0, u1,..., u J) on omain-spesifien satunnaistermien vetori (53) Käytännössä usein vain osa u-termeistä on mallissa: E ( Y ) = ( β + u ) + ( β + u ) x + β x u (54) m 0 0 1 1 1 2 2 Vastaava iinteien teijöien malli E ( Y ) β β x β x = + + (55) m 0 1 1 2 2 Lehtonen, R. an A. Veijanen (1999). Domain estimation with logistic generalize regression an relate estimators. Proceeings, IASS Satellite Conference on Small Area Estimation, Riga, August 1999. Riga: Latvian Council of Science, 121-128.

(b) Logistinen seamalli 4 Binominen logistinen seamalli on muotoa exp( x ( β + u)) Em( y u) = P{ y = 1 u} = 1 + exp( x ( β + u )) missä tulosmuuttuja y on binäärinen Esim: 0:Työllinen 1: Työtön (56) Tulosmuuttuja voi olla myös moniluoainen Multinomiaalinen logistinen seamalli Esim: 1: Työllinen 2: Työtön 3: Ei uulu työvoimaan Lehtonen, R., C.-E. Särnal, an A. Veijanen (2003). The effect of moel choice in estimation for omains, incluing small omains. Survey Methoology 29, 33-44. Lehtonen, R., C.-E. Särnal, an A. Veijanen (2005). Does the moel matter? Comparing moel-assiste an moel-epenent estimators of class frequencies for omains. Statistics in Transition 7, 649-673. HOM: Mallia (56) vastaava iinteien teijöien logitmalli on exp( x β) Em( y) = P{ y = 1} = 1 + exp( x β ) (57)

ESIMERKKI 5 Tutitaan osajouototaalien GREG-estimaattoreien teoreettisia ominaisuusia empiirisesti simulointioeien avulla Parametrit t = y, = 1,..., D Kiinnostusen ohteena estimaattorin t ˆ harha ja MSE Bias( tˆ ) ( ˆ = E t) t MSE( tˆ ) = E( tˆ t ) 2 Tutimusmenetelmä: Monte Carlo -oeet Otoset s ; v= 1,2,..., K v Kullein osajouolle lasetaan otosten perusteella: Absoluuttinen suhteellinen harha Absolute relative bias ARB ARB( tˆ ) = (1/ K) tˆ ( s ) t / t K v= 1 v Suhteellinen RMSE (Root MSE) Relative root mean square error RRMSE K 2 RRMSE( tˆ ) (1/ ) ( ˆ = K t ( ) ) / v 1 sv t t = Simuloinneissa poimitaan generoitavasta perusjouosta K = 1000 riippumatonta otosta

Keinoteoisen perusjouon generointi Perusjouon oo N = 1,000,000 Osajouot: D = 100 aliota 6 Osajouon oo N on suhteellinen luuun exp( q ) missä q generoiaan tasajaaumasta (0,2.9) Pienimmässä osajouossa N = 1721 Suurimmassa osajouossa N = 28614 Muuttuja x 1 generoiaan tasajaaumasta (1,11) Muuttuja x 2 generoiaan tasajaaumasta ( 5,5) Domain-ohtaiset satunnaistermit u ja ν i, i = 1,2 generoiaan multinormaalijaaumasta Varianssit Var( u ) = 1 Var ν = ( ) 0.125 i Korrelaatiot Corr( u, ν ) = 0.5 i Corr( v, ν ) = 0 1 2 Jäännöstermi ε generoiaan jaaumasta N(0,100)

Tulosmuuttujan y arvot generoiaan mallilla 7 missä y = (1 + u ) + (1 + ν ) x + (1 + ν ) x + ε 1 1 2 2 u satunnaiset vaiotermit (intercept) ν 1 ja ν 2 satunnaiset ulmaertoimet (slope) HOM: Mallin iinteät parametrit β0 = β1 = β2 = 1 Populaatioorrelaatiot: corr( y, x 1) = 0.44 corr( y, x 2) = 0.45 corr( x, x ) 0 1 2 Tulosmuuttujan omain-ohtaiset esiarvot olivat liimain yhtäsuuria Koonaismäärät poiesivat toisistaan paljon: Osajouon oo Kesimääräinen totaali perusjouossa Pieni 50,977 Kesisuuri 131,776 Suuri 263,979

Otanta-asetelma 8 Ei-suunnitellut (unplanne) osajouot Systemaattinen PPS-otanta (Sampling with probabilities proportional to size) PPS-otannan oomuuttuja x 1 Alion sisältymistoennäöisyys nx 1 Pr{ s} π = = x 1 Otosoo n = 10,000 Asetelmapainot a = 1/ π vaihteluväli 54.5-599.8 Osajouojen ooluoittelu Osajouo Otosoo Osajouoja Pieni < 70 47 Kesisuuri 70 119 19 Suuri >119 34 Yht. 100

Domain-totaalien estimaattorit 9 HOM: Ysiötason lisäinfo x 1 ja x 2 äytettävissä aiista perusjouon alioista estimointia varten GREG-estimaattorit tavanomaista muotoa: tˆ = yˆ + a e GREG s missä sovitteet y ˆ määräytyvät valitun mallin muaan Avustavat regressiomallit (1) Kiinteien vaiutusten D-mallit (esim. malli D1) Y = x β + ε, missä x = ( δ1, δ2,..., δ D, x1, x2), δ = 1 un, nolla muulloin β = ( β, β,..., β, β, β ) 01 02 0D 1 2 Mallien parametrien estimointi: WLS (2) Lineaariset seamallit (esim. malli B2) Y = x β + u + ε, missä x = (1, x1, x 2 ) ja β = 01 1 2 ( β, β, β ) Mallien parametrien estimointi: GWLS ja REML

Estimaattorit ja avustavat mallit 10 Estimaattori Malli GREG-A1 Y β0 ε MGREG-A2 Y β0 = +, = + u + ε, GREG-B1 Y β0 β2x2 ε = + +, MGREG-B2 Y β0 u β2x2 ε = + + +, GREG-C1 Y β0 β1x1 ε = + +, MGREG-C2 Y β0 u β1x1 ε = + + +, GREG-D1 Y β0 β1x1 β2x2 ε = + + +, MGREG-D2 Y β0 u β1x1 β2x2 ε = + + + +, GREG, avustavana mallina lineaarinen iinteien teijöien regressiomalli MGREG: Avustavana mallina lineaarinen seamalli (Mixe moel)

HOM: 11 Kaii mallit A-D ovat väärin spesifioituja Misi? A- ja B-mallit: Otanta-asetelma on informatiivinen (informative sampling) osa y-arvot riippuvat PPSotannan oomuuttujasta x 1 mutta muuttuja ei ole muana malleissa C- ja D-mallit: PPS-otannan oomuuttuja x 1 on muana Double-use of the auxiliary information (Särnal 1996) Osajouojen erojen huomioon ottaminen Mallit A1, B1, C1 ja D1 Kiinteät vaiotermit β 0, =1,,D Mallit A2, B2, C2 ja D2 Satunnaiset vaiotermit 0 β + u Kumpi tapa on parempi? Misi?

Tauluo 4. GREG-estimaattoreien esimääräinen absoluuttinen suhteellinen harha (Absolute relative bias ARB %) ja esimääräinen suhteellinen RMSE (Relative root mean square error RRMSE %) simulointioeissa. Kesimääräinen ARB (%) Kesimääräinen RRMSE (%) Avustava Otosen ooluoa Otosen ooluoa malli ja estimaattori Pieni Kesisuuri Suuri Pieni Kesisuuri Suuri (20-69) (70-119) (120+) (20-69) (70-119) (120+) Malli A1 Y = β0 + ε GREG-A1 1.2 0.7 0.3 20.2 11.9 8.5 Malli A2 Y = β0 + u + ε MGREG-A2 0.5 0.5 0.3 19.9 11.8 8.5 Malli B1 Y = β0 + β2x2 + ε GREG-B1 1.2 0.6 0.3 18.3 10.7 7.7 Malli B2 Y = β0 + u + β2x2 + ε MGREG-B2 0.5 0.4 0.2 18.0 10.6 7.7 Malli C1 Y = β0 + β1x1 + ε GREG-C1 0.4 0.3 0.2 17.5 10.3 7.5 Malli C2 Y = β0 + u + β1x1 + ε MGREG-C2 0.3 0.3 0.2 17.3 10.2 7.5 Malli D1 Y = β + β x + β x + ε 0 1 1 2 2 GREG-D1 0.4 0.3 0.2 15.3 8.8 6.5 Malli D2 Y = β + u + β x + β x + ε 0 1 1 2 2 MGREG-D2 0.3 0.3 0.2 15.1 8.7 6.5 12