Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Samankaltaiset tiedostot
Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Otantamenetelmät. Syksy

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

, sanotaan niiden sääntöjen ja menetelmien kokonaisuutta, joilla otos poimitaan määritellystä perusjoukosta.

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Kulutustutkimuksen alue-estimointi Pienalue-estimointimenetelmien vertailu Kulutustutkimus aineistossa

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

PIENALUE-ESTIMOINTIMENETELMÄT:

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Uudelleenpainotus ja imputointi Perusteita

Otantamenetelmät. (78143) Syksy 2010 TEEMA 1. Risto Lehtonen

Estimaattoreiden asetelmaperusteinen

Todennäköisyyden ominaisuuksia

Harha mallin arvioinnissa

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Estimointi Laajennettu Kalman-suodin. AS , Automaation signaalinkäsittelymenetelmät Laskuharjoitus 4

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Regressioanalyysi. Kuusinen/Heliövaara 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus regressioanalyysiin. Heliövaara 1

Differentiaali- ja integraalilaskenta 1 Ratkaisut 1. viikolle /

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

MS-A0402 Diskreetin matematiikan perusteet

Mat Tilastollisen analyysin perusteet, kevät 2007

[ ] [ 2 [ ] [ ] ( ) [ ] Tehtävä 1. ( ) ( ) ( ) ( ) ( ) ( ) 2( ) = 1. E v k 1( ) R E[ v k v k ] E e k e k e k e k. e k e k e k e k.

Matematiikan tukikurssi

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 1. laskuharjoitus, ratkaisuehdotukset

Olkoot X ja Y riippumattomia satunnaismuuttujia, joiden odotusarvot, varianssit ja kovarianssi ovat

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Vakuutusteknisistä riskeistä johtuvien suureiden laskemista varten käytettävä vakuutuslajiryhmittely.

Matemaattinen Analyysi

Otanta-aineistojen analyysi

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio


M 2 M = sup E M 2 t. E X t = lim. niin martingaalikonvergenssilauseen oletukset ovat voimassa, eli löydämme satunnaismuuttujan M, joka toteuttaa ehdon

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

V. POTENSSISARJAT. V.1. Abelin lause ja potenssisarjan suppenemisväli. a k (x x 0 ) k M

Luento 2. S Signaalit ja järjestelmät 5 op TKK Tietoliikenne Laboratorio 1. Jean Baptiste Joseph Fourier ( )

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

2. Teoriaharjoitukset

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

z z 0 (m 1)! g(m 1) (z0) k=0 Siksi kun funktioon f(z) sovelletaan Cauchyn integraalilausetta, on voimassa: sin(z 2 dz = (z i) n+1 k=0

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Todennäköisyysjakaumat 1/5 Sisältö ESITIEDOT: todennäköisyyslaskenta, määrätty integraali

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

Osa 2: Otokset, otosjakaumat ja estimointi

J1 (II.6.9) J2 (X.5.5) MATRIISILASKENTA(TFM) MALLIT AV 6

Otoskoon arviointi. Tero Vahlberg

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Parametrin estimointi ja bootstrap-otanta

Estimointi. Vilkkumaa / Kuusinen 1

4.0.2 Kuinka hyvä ennuste on?

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

JOHDATUS LUKUTEORIAAN (syksy 2017) HARJOITUS 1, MALLIRATKAISUT

(0 desimaalia, 2 merkitsevää numeroa).

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

K-KS vakuutussumma on kiinteä euromäärä

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Väliestimointi (jatkoa) Heliövaara 1

r = r f + r M r f (Todistus kirjassa sivulla 177 tai luennon 6 kalvoissa sivulla 6.) yhtälöön saadaan ns. CAPM:n hinnoittelun peruskaava Q P

Tehtävä 2 Todista luennoilla annettu kaava: jos lukujen n ja m alkulukuesitykset. ja m = k=1

2 Taylor-polynomit ja -sarjat

SÄÄTÖJÄRJESTELMIEN SUUNNITTELU

SYMBOLIVIRHETODENNÄKÖISYYDESTÄ BITTIVIRHETODENNÄKÖISYYTEEN

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

funktiojono. Funktiosarja f k a k (x x 0 ) k

5.7 Uskottavuusfunktioon perustuvia testejä II

Riemannin sarjateoreema

Frequencies. Frequency Table

805306A Johdatus monimuuttujamenetelmiin, 5 op

Transkriptio:

Helsingin yliopisto Sosiaalitieteien laitos 1 Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen OSA 3 GREG-estimaattori Yleinen tilanne (unequal probability sampling) Komposiittiestimaattorit (Composite estimators) Estimointi SAS-proseuureilla SURVEYREG ja SURVEYMEANS Estimointi SAS-marolla EBLUPGREG Esimerejä Oheismateriaali: Lehtonen-Veijanen (2009) (eriseen jaettu paperi) HUOM: Tässä osassa merinnät uten Lehtonen & Veijanen (2009)

2 Tauluo 1. Estimaattorin tyypin ja osajouon tyypin tavallisimmat yhistelmät äytännön annalta Estimaattorin tyyppi Suora Direct Epäsuora Inirect Osajouon tyyppi Suunniteltu Planne Ositettu otanta HT Kiinteien teijöien D-malli D-tyypin GREG Eisuunniteltu Unplanne Mahollinen mutta ei ovin yleinen äytännössä Mahollinen mutta ei ovin yleinen äytännössä Kiinteien teijöien P-malli P-tyypin GREG Seamallin tyyppinen D-malli D-tyypin GREG

GREG-ESTIMAATTORI: YLEINEN TILANNE (Unequal probability sampling) 3 (1) Suunniteltujen osajouojen tilanne (Planne omains, otosoot n iinnitetty) GREG-estimaattori: (30) = yˆ + a e GREG U s Avustava regressiomalli: D-malli (omain-specific): Y = + ε x β (31) U, = (1, x1,..., x J) Var( ε ) x ja 2 2 2 Oletetaan vaiovarianssi σ = σ = σ Osajouon U parametrivetorin B WLS-estimaattori (weighte least squares): Sovitteet: Jäännöset: 1 B ˆ = a x x a x y (32) s s y ˆ ˆ = xb e = y yˆ HUOM: a = 1/ π (asetelmapaino)

GREG-estimaattorin vaihtoehtoiset muoot 4 missä = + ( ˆ ) ˆ GREG HT x x = HT s a y t t B (33) ( N,,..., ) 1 t = x = x x x U U U J = x s a x Kalibrointiestimaattori missä a g y = (34) GREG s g = I + I ( ˆ 1 ) ˆ t t M x (g-painot) x x t x = ( x,..., ) 1 x ja 1 x x1 x1 t x j Mˆ t t = x ja = U j a x x i s i i i I I{ U } t ˆ = ( t ˆ,..., t ˆ ) = j a x s x j = (omain-iniaattorit) Varinssiestimaattorit V ˆ t ˆ = ( a a a ) e e. 1 ( ) 2 (35) GREG l l l s l s ( ) Vˆ = ( a a a ) g e g e GREG l l l l s l s (36) missä a l on 2. ertaluvun sisältymistoennäöisyys

(2) Ei-suunniteltujen osajouojen tilanne (Unplanne omains, otosoot n satunnaismuuttujia) 5 GREG-estimaattori: (37) = yˆ + a e GREG U s Avustava regressiomalli: P-malli (population level): Y = + ε x β (38) 2 U ja Var( ε ) = σ 2 2 Oletetaan tässäin vaiovarianssi σ = σ Parametrivetorin B WLS-estimaattori: 1 B ˆ = a a y x x s x (39) s Sovitteet: Jäännöset: y = xb ˆ ˆ e = y yˆ HUOM: Vertaa aavaa (39) aavaan (32)!

GREG-estimaattorin vaihtoehtoiset muoot 6 missä = + ( ˆ ) ˆ GREG HT x x HT s t t B (40) = a y (HT-estimaattori) ( N,,..., ) 1 t = x = x x x U U U J (apumuuttujien tunnetut populaatiototaalit) a x (totaalien HT-estimaattorit) = x s Kalibrointiestimaattori t a g y = (41) ˆGREG s missä g = I + ( ˆ 1 ) ˆ t t M x (g-painot) x x t x = ( x,..., ) 1 x ja t 1 x = x1 x1 t x j t t = x ja U j Mˆ = a i s ixix i I I{ U } ˆ ( t ˆ,..., t ˆ ) = a x j x s j = (omain-iniaattorit) HUOM. Vertaa aavaa (41) estimaattoriin (34)

Varinssiestimaattorit 7 ( ˆ ) (42) vt ˆ = ( aa a) g ege GREG l l l l s l s missä a l on 2. ertaluvun sisältymistn HUOM: Varianssiestimaattorissa (42) asoissumma on yli oo otosen s Vaihtoehtoja (ohjelmassa Domest): (1) Summataan yli omain-otosen s Hiiroglou, M. A. an Z. Pata (2004). Domain estimation using linear regression. Survey Methoology 30, 67-78. (2) Käytetään omain-ohtaisia tulosmuuttujia y = I{ U } y mallin sovittamisessa Estevao, V. M., M. A. Hiiroglou, an C.-E. Särnal (1995). Methoological principles for a Generalize Estimation System at Statistics Canaa. Journal of Official Statistics 11, 181-204. (3) Sovitetaan malli aluperäisille arvoille y ja orvataan varianssiestimaattorissa jäännöset e omain-ohtaisilla jäännösillä { } e = I U y yˆ Lehtonen, R. an E. Pahinen (2004). Practical methos for esign an analysis of complex surveys. Secon Eition. John Wiley & Sons, Chichester, p. 39. Särnal, C.-E. (2001). Design-base methoologies for omain estimation. In: R. Lehtonen an K. Djerf, es., Proceeings of the Symposium on Avances in Domain Estimation. Statistics Finlan, Reviews 2001/5, p. 202. (4) Kuten (3) mutta 0 un ja e = s U SAS-yhistelmä SURVEYREG ja SURVEYMEANS/DOMAIN-lause

KAKSI ESIMERKKIÄ 8 Lehtonen an Veijanen (2009), s. jaetut paperit Estimointitilanne: Käytettävissä olevien tulojen oonaismäärän alueittainen estimointi Länsi-Suomen D =12 seutuunnassa Estimoitavat omain-ohtaiset parametrit: Käytettävissä olevien tulojen oonaismäärä t = U y Osajouot (omains) U, = 1,...,12 Populaatioata: N = 431,000 otitaloutta Lisäinformaatio tilastoreistereistä: EDUC: Kotitalouen jäsenten lm joilla on orea-asteen oulutus EMP: Kotitalouen jäsenten yhteenlasettu työllisyysuuausien määrä eellisenä vuonna Lisäsi (tässä peagogisessa tilanteessa) tieetään tulosmuuttujan arvot y aiilta perusjouon alioilta

Esimeri 1 Suora estimointi (irect estimation) Suunnitellut osajouot (planne omains) Kotitalousotos: Ositettu πps (WOR- tyyppinen PPS) Koomuuttuja: Kotitalouen jäsenten luumäärä Ositteet: Seutuunnat (omains) HUOM: Ositteien otosoot on iinnitetty otantaasetelmassa (suhteellinen iintiöinti) 9 Estimaattorit: HT, aava (21) = HT s a y ˆ ˆ 1 V t n a y n( n 1) s ( ) = ( ) 2 A HT HT Suora GREG, aavat (30) ja (36) t ˆ = y ˆ + a ( y y ˆ ) GREG U s 2 ( ) Vˆ = ( a a a ) g e g e GREG l l l l s l s GREG-estimaattorin avustavat D-mallit: Y EMP β0 β1 ε = + + (sarae 2) Y β β EMP β EDUC ε 0 1 2 = + + + (sarae 3)

Tauluo 2. Suorien HT- ja GREG-estimaattoreien esimääräinen absoluuttinen suhteellinen virhe (Mean absolute relative error MARE ) ja esimääräinen variaatioerroin (mean coefficient of variation MCV ) pienissä, esisuurissa ja suurissa omaineissa: Suunniteltujen omainien tilanne 10 Auxiliary information Domain sample size class Minor 8 n 33 Meium 34 n 45 Major 46 277 HT 1 None MARE MCV 2 Domain sizes an omain totals of EMP MARE MCV GREG 3 Domain sizes an omain totals of EMP an EDUC MARE MCV 11.5 11.9 5.8 7.7 6.4 6.8 7.6 9.0 3.7 8.0 3.6 8.1 n 12.5 5.2 4.3 4.7 5.2 3.7 HUOM: ARE( ) = t / t, = 1,...,12 CV( ) = s.e( ) /, = 1,...,12 MARE ja MCV ovat vastaavia esiarvoja ussain omainien ooluoassa

Esimeri 2 HT: Suora estimointi GREG: Epäsuora estimointi Ei-suunnitellut osajouot (unplanne omains) Kotitalousotos: πps (WOR- tyyppinen PPS) Koomuuttuja: Kotitalouen jäsenten luumäärä HUOM: Domainien otosooja ei ole iinnitetty otanta-asetelmassa (omainit eivät ole ositteina) 11 Estimaattorit: HT, aava (21) = HT s a y ˆ ˆ n V 1 ˆ / U t HT ay t n n ( ) = ( ) 2 s GREG, aavat (30) ja (42) t ˆ = y ˆ + a ( y y ˆ ) GREG U s ( ) Vˆ = ( a a a ) g e g e GREG l l l l s l s GREG-estimaattorin avustava P-malli: Y EMP β0 β1 ε = + + (sarae 2)

Tauluo 3. Suoran HT-estimaattorin ja epäsuoran GREGestimaattoreien esimääräinen absoluuttinen suhteellinen virhe (Mean absolute relative error MARE ) ja esimääräinen variaatioerroin (mean coefficient of variation MCV ) pienissä, esisuurissa ja suurissa omaineissa: Ei-suunniteltujen omainien tilanne 12 Auxiliary information Domain sample size class Minor 8 n 33 Meium 34 n 45 Major 46 277 HT 1 None MARE MCV GREG 2 Domain sizes an omain totals of EMP MARE MCV 11.5 28.3 7.6 9.0 7.6 20.3 3.8 8.1 n 12.5 9.6 4.1 5.0 HUOM: ARE( ) = t / t, = 1,...,12 CV( ) = s.e( ) /, = 1,...,12 MARE ja MCV ovat vastaavia esiarvoja ussain omainien ooluoassa

13 KOMPOSIITTITYYPPISET ESTIMAATTORIT (Composite estimators) Yhistelmäestimaattori on muotoa λ (1 λ ) = + (43) COMB GREG SYN joa on muoostettu asetelmaperusteisen GREGestimaattorin (44) = yˆ + a ( y yˆ ) GREG U s ja malliperusteisen synteettisen estimaattorin = yˆ = xb ˆ (45) SYN U U painotettuna summana Domainohtaiset painot λ (0 λ 1) valitaan niin, että λ on suurille omaineille ( suuri n ) lähellä yöstä ja lähestyy nollaa un n on pieni Pienille omaineille t ˆCOMB on lähellä SYNestimaattoria t ˆSYN Suurille omaineille t ˆCOMB on lähellä GREGestimaattoria t ˆGREG

Estimaattori (45) voiaan irjoittaa muotoon (46) = + λ a ( y yˆ ) COMB SYN s 14 HUOM: GREG-estimaattori un λ = 1 SYN-estimaattori un λ = 0 Esimeri 1. ( / ˆ ) ( ) (47) = yˆ + N N a y yˆ GREG( N ) U s missä N ˆ = a s (estimoiaan N ) Esimeri 2. Dampene regression estimator (Särnal an Hiiroglou 1989) ( ) c ˆ / 1 ( ) (48) = yˆ + N N a y yˆ DRE U s missä c = 0 un N ˆ N c = 2 un N ˆ < N

GREG-ESTIMOINTI SAS-PROSEDUUREILLA SURVEYREG JA SURVEYMEANS Ei-suunniteltujen omainien tilanne Metoi: (1) Kiinteien vaiutusten regressiomalli (P-malli) sovitetaan proseuurilla SURVEYREG (2) Lasetaan sovitteet y ˆ ja jäännöset e = y yˆ 15 (3) Lasetaan GREG-estimaatit t ˆGREG (4) Estimoiaan GREG-estimaattorin varianssi proseuurilla SURVEYMEANS äyttämällä y-muuttujana jäännösvetoria ja varianssiestimoinnissa DOMAIN-lausetta samaan tapaan uin HT-estimoinnissa tulosmuuttujalle y Varianssiestimaattori on muotoa (SRSWOR-tilanne) 2 ˆ n 1 ( e e) vˆ srs ( tgreg ) = N (1 )( ) N n n 1 s missä e = e un U ja s e = 0 un U ja s e e / n = jäännösten esiarvo oo otosessa s HUOM: Vertaa estimaattoriin (28) SAS 9.2: SURVEYREG ja DOMAIN-lause 2

ESIMERKKI Vaihe (1) 16 proc surveyreg ata=omaotos total=966; moel y=x; weight samplingweight; os output ParameterEstimates=beta(eep=estimate); run; Vaiheet (2) ja (4) proc transpose ata=beta out=beta2(rop=_name_ rename=(col1=b0 col2=b1)); run; ata pj; if _n_=1 then set beta2; set pj; yhat=b0+b1*x; ehat=y-yhat; run; proc surveymeans ata=pj nobs sum total=966; where in=1; weight SamplingWeight; var ehat; omain omain; run;

GREG-ESTIMOINTI SAS-MAKROLLA EBLUPGREG 17 GREG-estimaattori (49) t ˆ = y ˆ + a ( y y ˆ ) GREG U s Perustuu iinteien teijöien lineaariseen malliin Malli on P-malli: Y x x = β0 + β1 1 +... + βj J + ε = + ε x β (50) U, missä β β, β,..., β ) = ( 0 1 J Estimointi: WLS, muana painot a = 1/ π Preitiot: y ˆ ˆ = x β aiille U Varianssiestimaattori omainissa : Kaava (42)

ESIMERKKI 18 Ohjelmautsu: eblupgreg (sample=omaotos, population=pj, y=y, xlist=x, regionientifier=omain, test=1, estimatemeans=0, weights=samplingweight, convergencecrit=1e-8, maxiterations=200, initialsigma2=1, moules=moules.eurarea, parametersestimateby='reml', eblup=0, greg=1, synthetic=0, stratifie=0, output=greg ); HUOM: Vastaava estimointi tehään myös ohjelmalla Domest