Helsingin yliopisto Sosiaalitieteien laitos 1 Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen OSA 3 GREG-estimaattori Yleinen tilanne (unequal probability sampling) Komposiittiestimaattorit (Composite estimators) Estimointi SAS-proseuureilla SURVEYREG ja SURVEYMEANS Estimointi SAS-marolla EBLUPGREG Esimerejä Oheismateriaali: Lehtonen-Veijanen (2009) (eriseen jaettu paperi) HUOM: Tässä osassa merinnät uten Lehtonen & Veijanen (2009)
2 Tauluo 1. Estimaattorin tyypin ja osajouon tyypin tavallisimmat yhistelmät äytännön annalta Estimaattorin tyyppi Suora Direct Epäsuora Inirect Osajouon tyyppi Suunniteltu Planne Ositettu otanta HT Kiinteien teijöien D-malli D-tyypin GREG Eisuunniteltu Unplanne Mahollinen mutta ei ovin yleinen äytännössä Mahollinen mutta ei ovin yleinen äytännössä Kiinteien teijöien P-malli P-tyypin GREG Seamallin tyyppinen D-malli D-tyypin GREG
GREG-ESTIMAATTORI: YLEINEN TILANNE (Unequal probability sampling) 3 (1) Suunniteltujen osajouojen tilanne (Planne omains, otosoot n iinnitetty) GREG-estimaattori: (30) = yˆ + a e GREG U s Avustava regressiomalli: D-malli (omain-specific): Y = + ε x β (31) U, = (1, x1,..., x J) Var( ε ) x ja 2 2 2 Oletetaan vaiovarianssi σ = σ = σ Osajouon U parametrivetorin B WLS-estimaattori (weighte least squares): Sovitteet: Jäännöset: 1 B ˆ = a x x a x y (32) s s y ˆ ˆ = xb e = y yˆ HUOM: a = 1/ π (asetelmapaino)
GREG-estimaattorin vaihtoehtoiset muoot 4 missä = + ( ˆ ) ˆ GREG HT x x = HT s a y t t B (33) ( N,,..., ) 1 t = x = x x x U U U J = x s a x Kalibrointiestimaattori missä a g y = (34) GREG s g = I + I ( ˆ 1 ) ˆ t t M x (g-painot) x x t x = ( x,..., ) 1 x ja 1 x x1 x1 t x j Mˆ t t = x ja = U j a x x i s i i i I I{ U } t ˆ = ( t ˆ,..., t ˆ ) = j a x s x j = (omain-iniaattorit) Varinssiestimaattorit V ˆ t ˆ = ( a a a ) e e. 1 ( ) 2 (35) GREG l l l s l s ( ) Vˆ = ( a a a ) g e g e GREG l l l l s l s (36) missä a l on 2. ertaluvun sisältymistoennäöisyys
(2) Ei-suunniteltujen osajouojen tilanne (Unplanne omains, otosoot n satunnaismuuttujia) 5 GREG-estimaattori: (37) = yˆ + a e GREG U s Avustava regressiomalli: P-malli (population level): Y = + ε x β (38) 2 U ja Var( ε ) = σ 2 2 Oletetaan tässäin vaiovarianssi σ = σ Parametrivetorin B WLS-estimaattori: 1 B ˆ = a a y x x s x (39) s Sovitteet: Jäännöset: y = xb ˆ ˆ e = y yˆ HUOM: Vertaa aavaa (39) aavaan (32)!
GREG-estimaattorin vaihtoehtoiset muoot 6 missä = + ( ˆ ) ˆ GREG HT x x HT s t t B (40) = a y (HT-estimaattori) ( N,,..., ) 1 t = x = x x x U U U J (apumuuttujien tunnetut populaatiototaalit) a x (totaalien HT-estimaattorit) = x s Kalibrointiestimaattori t a g y = (41) ˆGREG s missä g = I + ( ˆ 1 ) ˆ t t M x (g-painot) x x t x = ( x,..., ) 1 x ja t 1 x = x1 x1 t x j t t = x ja U j Mˆ = a i s ixix i I I{ U } ˆ ( t ˆ,..., t ˆ ) = a x j x s j = (omain-iniaattorit) HUOM. Vertaa aavaa (41) estimaattoriin (34)
Varinssiestimaattorit 7 ( ˆ ) (42) vt ˆ = ( aa a) g ege GREG l l l l s l s missä a l on 2. ertaluvun sisältymistn HUOM: Varianssiestimaattorissa (42) asoissumma on yli oo otosen s Vaihtoehtoja (ohjelmassa Domest): (1) Summataan yli omain-otosen s Hiiroglou, M. A. an Z. Pata (2004). Domain estimation using linear regression. Survey Methoology 30, 67-78. (2) Käytetään omain-ohtaisia tulosmuuttujia y = I{ U } y mallin sovittamisessa Estevao, V. M., M. A. Hiiroglou, an C.-E. Särnal (1995). Methoological principles for a Generalize Estimation System at Statistics Canaa. Journal of Official Statistics 11, 181-204. (3) Sovitetaan malli aluperäisille arvoille y ja orvataan varianssiestimaattorissa jäännöset e omain-ohtaisilla jäännösillä { } e = I U y yˆ Lehtonen, R. an E. Pahinen (2004). Practical methos for esign an analysis of complex surveys. Secon Eition. John Wiley & Sons, Chichester, p. 39. Särnal, C.-E. (2001). Design-base methoologies for omain estimation. In: R. Lehtonen an K. Djerf, es., Proceeings of the Symposium on Avances in Domain Estimation. Statistics Finlan, Reviews 2001/5, p. 202. (4) Kuten (3) mutta 0 un ja e = s U SAS-yhistelmä SURVEYREG ja SURVEYMEANS/DOMAIN-lause
KAKSI ESIMERKKIÄ 8 Lehtonen an Veijanen (2009), s. jaetut paperit Estimointitilanne: Käytettävissä olevien tulojen oonaismäärän alueittainen estimointi Länsi-Suomen D =12 seutuunnassa Estimoitavat omain-ohtaiset parametrit: Käytettävissä olevien tulojen oonaismäärä t = U y Osajouot (omains) U, = 1,...,12 Populaatioata: N = 431,000 otitaloutta Lisäinformaatio tilastoreistereistä: EDUC: Kotitalouen jäsenten lm joilla on orea-asteen oulutus EMP: Kotitalouen jäsenten yhteenlasettu työllisyysuuausien määrä eellisenä vuonna Lisäsi (tässä peagogisessa tilanteessa) tieetään tulosmuuttujan arvot y aiilta perusjouon alioilta
Esimeri 1 Suora estimointi (irect estimation) Suunnitellut osajouot (planne omains) Kotitalousotos: Ositettu πps (WOR- tyyppinen PPS) Koomuuttuja: Kotitalouen jäsenten luumäärä Ositteet: Seutuunnat (omains) HUOM: Ositteien otosoot on iinnitetty otantaasetelmassa (suhteellinen iintiöinti) 9 Estimaattorit: HT, aava (21) = HT s a y ˆ ˆ 1 V t n a y n( n 1) s ( ) = ( ) 2 A HT HT Suora GREG, aavat (30) ja (36) t ˆ = y ˆ + a ( y y ˆ ) GREG U s 2 ( ) Vˆ = ( a a a ) g e g e GREG l l l l s l s GREG-estimaattorin avustavat D-mallit: Y EMP β0 β1 ε = + + (sarae 2) Y β β EMP β EDUC ε 0 1 2 = + + + (sarae 3)
Tauluo 2. Suorien HT- ja GREG-estimaattoreien esimääräinen absoluuttinen suhteellinen virhe (Mean absolute relative error MARE ) ja esimääräinen variaatioerroin (mean coefficient of variation MCV ) pienissä, esisuurissa ja suurissa omaineissa: Suunniteltujen omainien tilanne 10 Auxiliary information Domain sample size class Minor 8 n 33 Meium 34 n 45 Major 46 277 HT 1 None MARE MCV 2 Domain sizes an omain totals of EMP MARE MCV GREG 3 Domain sizes an omain totals of EMP an EDUC MARE MCV 11.5 11.9 5.8 7.7 6.4 6.8 7.6 9.0 3.7 8.0 3.6 8.1 n 12.5 5.2 4.3 4.7 5.2 3.7 HUOM: ARE( ) = t / t, = 1,...,12 CV( ) = s.e( ) /, = 1,...,12 MARE ja MCV ovat vastaavia esiarvoja ussain omainien ooluoassa
Esimeri 2 HT: Suora estimointi GREG: Epäsuora estimointi Ei-suunnitellut osajouot (unplanne omains) Kotitalousotos: πps (WOR- tyyppinen PPS) Koomuuttuja: Kotitalouen jäsenten luumäärä HUOM: Domainien otosooja ei ole iinnitetty otanta-asetelmassa (omainit eivät ole ositteina) 11 Estimaattorit: HT, aava (21) = HT s a y ˆ ˆ n V 1 ˆ / U t HT ay t n n ( ) = ( ) 2 s GREG, aavat (30) ja (42) t ˆ = y ˆ + a ( y y ˆ ) GREG U s ( ) Vˆ = ( a a a ) g e g e GREG l l l l s l s GREG-estimaattorin avustava P-malli: Y EMP β0 β1 ε = + + (sarae 2)
Tauluo 3. Suoran HT-estimaattorin ja epäsuoran GREGestimaattoreien esimääräinen absoluuttinen suhteellinen virhe (Mean absolute relative error MARE ) ja esimääräinen variaatioerroin (mean coefficient of variation MCV ) pienissä, esisuurissa ja suurissa omaineissa: Ei-suunniteltujen omainien tilanne 12 Auxiliary information Domain sample size class Minor 8 n 33 Meium 34 n 45 Major 46 277 HT 1 None MARE MCV GREG 2 Domain sizes an omain totals of EMP MARE MCV 11.5 28.3 7.6 9.0 7.6 20.3 3.8 8.1 n 12.5 9.6 4.1 5.0 HUOM: ARE( ) = t / t, = 1,...,12 CV( ) = s.e( ) /, = 1,...,12 MARE ja MCV ovat vastaavia esiarvoja ussain omainien ooluoassa
13 KOMPOSIITTITYYPPISET ESTIMAATTORIT (Composite estimators) Yhistelmäestimaattori on muotoa λ (1 λ ) = + (43) COMB GREG SYN joa on muoostettu asetelmaperusteisen GREGestimaattorin (44) = yˆ + a ( y yˆ ) GREG U s ja malliperusteisen synteettisen estimaattorin = yˆ = xb ˆ (45) SYN U U painotettuna summana Domainohtaiset painot λ (0 λ 1) valitaan niin, että λ on suurille omaineille ( suuri n ) lähellä yöstä ja lähestyy nollaa un n on pieni Pienille omaineille t ˆCOMB on lähellä SYNestimaattoria t ˆSYN Suurille omaineille t ˆCOMB on lähellä GREGestimaattoria t ˆGREG
Estimaattori (45) voiaan irjoittaa muotoon (46) = + λ a ( y yˆ ) COMB SYN s 14 HUOM: GREG-estimaattori un λ = 1 SYN-estimaattori un λ = 0 Esimeri 1. ( / ˆ ) ( ) (47) = yˆ + N N a y yˆ GREG( N ) U s missä N ˆ = a s (estimoiaan N ) Esimeri 2. Dampene regression estimator (Särnal an Hiiroglou 1989) ( ) c ˆ / 1 ( ) (48) = yˆ + N N a y yˆ DRE U s missä c = 0 un N ˆ N c = 2 un N ˆ < N
GREG-ESTIMOINTI SAS-PROSEDUUREILLA SURVEYREG JA SURVEYMEANS Ei-suunniteltujen omainien tilanne Metoi: (1) Kiinteien vaiutusten regressiomalli (P-malli) sovitetaan proseuurilla SURVEYREG (2) Lasetaan sovitteet y ˆ ja jäännöset e = y yˆ 15 (3) Lasetaan GREG-estimaatit t ˆGREG (4) Estimoiaan GREG-estimaattorin varianssi proseuurilla SURVEYMEANS äyttämällä y-muuttujana jäännösvetoria ja varianssiestimoinnissa DOMAIN-lausetta samaan tapaan uin HT-estimoinnissa tulosmuuttujalle y Varianssiestimaattori on muotoa (SRSWOR-tilanne) 2 ˆ n 1 ( e e) vˆ srs ( tgreg ) = N (1 )( ) N n n 1 s missä e = e un U ja s e = 0 un U ja s e e / n = jäännösten esiarvo oo otosessa s HUOM: Vertaa estimaattoriin (28) SAS 9.2: SURVEYREG ja DOMAIN-lause 2
ESIMERKKI Vaihe (1) 16 proc surveyreg ata=omaotos total=966; moel y=x; weight samplingweight; os output ParameterEstimates=beta(eep=estimate); run; Vaiheet (2) ja (4) proc transpose ata=beta out=beta2(rop=_name_ rename=(col1=b0 col2=b1)); run; ata pj; if _n_=1 then set beta2; set pj; yhat=b0+b1*x; ehat=y-yhat; run; proc surveymeans ata=pj nobs sum total=966; where in=1; weight SamplingWeight; var ehat; omain omain; run;
GREG-ESTIMOINTI SAS-MAKROLLA EBLUPGREG 17 GREG-estimaattori (49) t ˆ = y ˆ + a ( y y ˆ ) GREG U s Perustuu iinteien teijöien lineaariseen malliin Malli on P-malli: Y x x = β0 + β1 1 +... + βj J + ε = + ε x β (50) U, missä β β, β,..., β ) = ( 0 1 J Estimointi: WLS, muana painot a = 1/ π Preitiot: y ˆ ˆ = x β aiille U Varianssiestimaattori omainissa : Kaava (42)
ESIMERKKI 18 Ohjelmautsu: eblupgreg (sample=omaotos, population=pj, y=y, xlist=x, regionientifier=omain, test=1, estimatemeans=0, weights=samplingweight, convergencecrit=1e-8, maxiterations=200, initialsigma2=1, moules=moules.eurarea, parametersestimateby='reml', eblup=0, greg=1, synthetic=0, stratifie=0, output=greg ); HUOM: Vastaava estimointi tehään myös ohjelmalla Domest