Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Samankaltaiset tiedostot
Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otantamenetelmät. Syksy

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI

, sanotaan niiden sääntöjen ja menetelmien kokonaisuutta, joilla otos poimitaan määritellystä perusjoukosta.

Otanta-aineistojen analyysi

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Harha mallin arvioinnissa

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Uudelleenpainotus ja imputointi Perusteita

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Osa 2: Otokset, otosjakaumat ja estimointi

4.0.2 Kuinka hyvä ennuste on?

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

PIENALUE-ESTIMOINTIMENETELMÄT:

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

805306A Johdatus monimuuttujamenetelmiin, 5 op

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Dynaamiset regressiomallit

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Otanta-aineistojen analyysi

Kulutustutkimuksen alue-estimointi Pienalue-estimointimenetelmien vertailu Kulutustutkimus aineistossa

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen aihehakemisto

2. Uskottavuus ja informaatio

Estimointi Laajennettu Kalman-suodin. AS , Automaation signaalinkäsittelymenetelmät Laskuharjoitus 4

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Load

Johdatus regressioanalyysiin. Heliövaara 1

1. Tilastollinen malli??

Luento 2. S Signaalit ja järjestelmät 5 op TKK Tietoliikenne Laboratorio 1. Jean Baptiste Joseph Fourier ( )

M 2 M = sup E M 2 t. E X t = lim. niin martingaalikonvergenssilauseen oletukset ovat voimassa, eli löydämme satunnaismuuttujan M, joka toteuttaa ehdon

Johdatus regressioanalyysiin

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

1. LINEAARISET LUOKITTIMET

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Olkoot X ja Y riippumattomia satunnaismuuttujia, joiden odotusarvot, varianssit ja kovarianssi ovat

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

Parametrin estimointi ja bootstrap-otanta

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

funktiojono. Funktiosarja f k a k (x x 0 ) k

4.3.6 Eräitä diskreettejä Markov-kenttiä

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Identifiointiprosessi

Sovellettu todennäköisyyslaskenta B

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Mat Tilastollisen analyysin perusteet, kevät 2007

Korrelaatiokertoinen määrittely 165

Tilastolliset menetelmät: Varianssianalyysi

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

z z 0 (m 1)! g(m 1) (z0) k=0 Siksi kun funktioon f(z) sovelletaan Cauchyn integraalilausetta, on voimassa: sin(z 2 dz = (z i) n+1 k=0

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

MS-A0402 Diskreetin matematiikan perusteet

Mat Tilastollisen analyysin perusteet, kevät 2007

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Sovellettu todennäköisyyslaskenta B

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

MS-A0402 Diskreetin matematiikan perusteet Esimerkkejä ym., osa I

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Todennäköisyyden ominaisuuksia

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

Pyramidi 3 Analyyttinen geometria tehtävien ratkaisut sivu 139 Päivitetty a) 402 Suplementtikulmille on voimassa

Tilastollinen aineisto Luottamusväli

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

2. Teoriaharjoitukset

[ ] [ 2 [ ] [ ] ( ) [ ] Tehtävä 1. ( ) ( ) ( ) ( ) ( ) ( ) 2( ) = 1. E v k 1( ) R E[ v k v k ] E e k e k e k e k. e k e k e k e k.

Testit laatueroasteikollisille muuttujille

, 3.7, 3.9. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Transkriptio:

Helsingin yliopisto Sosiaalitieteien laitos 1 Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen OSA 4 Laajennettu GREG-estimaattoreien perhe Avustavat mallit Yleistetty lineaarinen malli Lineaarinen seamalli Yleistetty lineaarinen seamalli GREG-estimaattoreien teoreettisten ominaisuusien (harha, MSE) tutiminen empiirisesti Monte Carlo -simulointi

LAAJENNETT GREG-ESTIMAATTOREIDEN PERHE 2 GREG-tyyppiset estimaattorit joissa avustava malli on yleistettyjen lineaaristen mallien (GLMM, Generalize linear mixe moels) perheen jäsen Avustavat mallit (1) Yleistetty lineaarinen (iinteien teijöien) malli E ( Y ) f( ; ) = x β (51) m missä f (; β ) on annettu funtio (lineaarinen funtio, logistinen funtio), β on estimoitava parametrivetori ja E m viittaa ootusarvoon mallin suhteen Malli sovitetaan otosatalle {( y, x ); s} Saaaan parametrin B estimaatti ˆB, missä B on mallin parametrin β äärellisen perusjouon vastine ˆ Sovitteet yˆ = f( x; B ) lasetaan joaiselle äyttämällä vetoria ˆB ja apumuuttujavetoria x Logistisen mallin avustama GREG-estimaattori LGREG Lehtonen, R. an A. Veijanen (1998). Logistic generalize regression estimators. Survey Methoology 24, 51-55.

(2) Yleistetty lineaarinen seamalli 3 E ( Y u ) = f ( x ( β + u )) (52) m missä u on omain-spesifien satunnaistermien vetori ˆ Sovitteet yˆ ( ( ˆ = f x B+ u )) lasetaan joaiselle äyttämällä estimaattivetoreita ˆB, u ˆ ja apumuuttujavetoria x (a) Lineaarinen seamalli E ( Y u ) = x ( β + u ) m = ( β + u ) + ( β + u ) x +... + ( β + u ) x 0 0 1 1 1 J J J missä u = ( u0, u1,..., u J) on omain-spesifien satunnaistermien vetori (53) Käytännössä usein vain osa u-termeistä on mallissa: E ( Y ) = ( β + u ) + ( β + u ) x + β x u (54) m 0 0 1 1 1 2 2 Vastaava iinteien teijöien malli E ( Y ) β β x β x = + + (55) m 0 1 1 2 2 Lehtonen, R. an A. Veijanen (1999). Domain estimation with logistic generalize regression an relate estimators. Proceeings, IASS Satellite Conference on Small Area Estimation, Riga, August 1999. Riga: Latvian Council of Science, 121-128.

(b) Logistinen seamalli 4 Binominen logistinen seamalli on muotoa exp( x ( β + u)) Em( y u) = P{ y = 1 u} = 1 + exp( x ( β + u )) missä tulosmuuttuja y on binäärinen Esim: 0:Työllinen 1: Työtön (56) Tulosmuuttuja voi olla myös moniluoainen Multinomiaalinen logistinen seamalli Esim: 1: Työllinen 2: Työtön 3: Ei uulu työvoimaan Lehtonen, R., C.-E. Särnal, an A. Veijanen (2003). The effect of moel choice in estimation for omains, incluing small omains. Survey Methoology 29, 33-44. Lehtonen, R., C.-E. Särnal, an A. Veijanen (2005). Does the moel matter? Comparing moel-assiste an moel-epenent estimators of class frequencies for omains. Statistics in Transition 7, 649-673. HOM: Mallia (56) vastaava iinteien teijöien logitmalli on exp( x β) Em( y) = P{ y = 1} = 1 + exp( x β ) (57)

ESIMERKKI 5 Tutitaan osajouototaalien GREG-estimaattoreien teoreettisia ominaisuusia empiirisesti simulointioeien avulla Parametrit t = y, = 1,..., D Kiinnostusen ohteena estimaattorin t ˆ harha ja MSE Bias( tˆ ) ( ˆ = E t) t MSE( tˆ ) = E( tˆ t ) 2 Tutimusmenetelmä: Monte Carlo -oeet Otoset s ; v= 1,2,..., K v Kullein osajouolle lasetaan otosten perusteella: Absoluuttinen suhteellinen harha Absolute relative bias ARB ARB( tˆ ) = (1/ K) tˆ ( s ) t / t K v= 1 v Suhteellinen RMSE (Root MSE) Relative root mean square error RRMSE K 2 RRMSE( tˆ ) (1/ ) ( ˆ = K t ( ) ) / v 1 sv t t = Simuloinneissa poimitaan generoitavasta perusjouosta K = 1000 riippumatonta otosta

Keinoteoisen perusjouon generointi Perusjouon oo N = 1,000,000 Osajouot: D = 100 aliota 6 Osajouon oo N on suhteellinen luuun exp( q ) missä q generoiaan tasajaaumasta (0,2.9) Pienimmässä osajouossa N = 1721 Suurimmassa osajouossa N = 28614 Muuttuja x 1 generoiaan tasajaaumasta (1,11) Muuttuja x 2 generoiaan tasajaaumasta ( 5,5) Domain-ohtaiset satunnaistermit u ja ν i, i = 1,2 generoiaan multinormaalijaaumasta Varianssit Var( u ) = 1 Var ν = ( ) 0.125 i Korrelaatiot Corr( u, ν ) = 0.5 i Corr( v, ν ) = 0 1 2 Jäännöstermi ε generoiaan jaaumasta N(0,100)

Tulosmuuttujan y arvot generoiaan mallilla 7 missä y = (1 + u ) + (1 + ν ) x + (1 + ν ) x + ε 1 1 2 2 u satunnaiset vaiotermit (intercept) ν 1 ja ν 2 satunnaiset ulmaertoimet (slope) HOM: Mallin iinteät parametrit β0 = β1 = β2 = 1 Populaatioorrelaatiot: corr( y, x 1) = 0.44 corr( y, x 2) = 0.45 corr( x, x ) 0 1 2 Tulosmuuttujan omain-ohtaiset esiarvot olivat liimain yhtäsuuria Koonaismäärät poiesivat toisistaan paljon: Osajouon oo Kesimääräinen totaali perusjouossa Pieni 50,977 Kesisuuri 131,776 Suuri 263,979

Otanta-asetelma 8 Ei-suunnitellut (unplanne) osajouot Systemaattinen PPS-otanta (Sampling with probabilities proportional to size) PPS-otannan oomuuttuja x 1 Alion sisältymistoennäöisyys nx 1 Pr{ s} π = = x 1 Otosoo n = 10,000 Asetelmapainot a = 1/ π vaihteluväli 54.5-599.8 Osajouojen ooluoittelu Osajouo Otosoo Osajouoja Pieni < 70 47 Kesisuuri 70 119 19 Suuri >119 34 Yht. 100

Domain-totaalien estimaattorit 9 HOM: Ysiötason lisäinfo x 1 ja x 2 äytettävissä aiista perusjouon alioista estimointia varten GREG-estimaattorit tavanomaista muotoa: tˆ = yˆ + a e GREG s missä sovitteet y ˆ määräytyvät valitun mallin muaan Avustavat regressiomallit (1) Kiinteien vaiutusten D-mallit (esim. malli D1) Y = x β + ε, missä x = ( δ1, δ2,..., δ D, x1, x2), δ = 1 un, nolla muulloin β = ( β, β,..., β, β, β ) 01 02 0D 1 2 Mallien parametrien estimointi: WLS (2) Lineaariset seamallit (esim. malli B2) Y = x β + u + ε, missä x = (1, x1, x 2 ) ja β = 01 1 2 ( β, β, β ) Mallien parametrien estimointi: GWLS ja REML

Estimaattorit ja avustavat mallit 10 Estimaattori Malli GREG-A1 Y β0 ε MGREG-A2 Y β0 = +, = + u + ε, GREG-B1 Y β0 β2x2 ε = + +, MGREG-B2 Y β0 u β2x2 ε = + + +, GREG-C1 Y β0 β1x1 ε = + +, MGREG-C2 Y β0 u β1x1 ε = + + +, GREG-D1 Y β0 β1x1 β2x2 ε = + + +, MGREG-D2 Y β0 u β1x1 β2x2 ε = + + + +, GREG, avustavana mallina lineaarinen iinteien teijöien regressiomalli MGREG: Avustavana mallina lineaarinen seamalli (Mixe moel)

HOM: 11 Kaii mallit A-D ovat väärin spesifioituja Misi? A- ja B-mallit: Otanta-asetelma on informatiivinen (informative sampling) osa y-arvot riippuvat PPSotannan oomuuttujasta x 1 mutta muuttuja ei ole muana malleissa C- ja D-mallit: PPS-otannan oomuuttuja x 1 on muana Double-use of the auxiliary information (Särnal 1996) Osajouojen erojen huomioon ottaminen Mallit A1, B1, C1 ja D1 Kiinteät vaiotermit β 0, =1,,D Mallit A2, B2, C2 ja D2 Satunnaiset vaiotermit 0 β + u Kumpi tapa on parempi? Misi?

Tauluo 4. GREG-estimaattoreien esimääräinen absoluuttinen suhteellinen harha (Absolute relative bias ARB %) ja esimääräinen suhteellinen RMSE (Relative root mean square error RRMSE %) simulointioeissa. Kesimääräinen ARB (%) Kesimääräinen RRMSE (%) Avustava Otosen ooluoa Otosen ooluoa malli ja estimaattori Pieni Kesisuuri Suuri Pieni Kesisuuri Suuri (20-69) (70-119) (120+) (20-69) (70-119) (120+) Malli A1 Y = β0 + ε GREG-A1 1.2 0.7 0.3 20.2 11.9 8.5 Malli A2 Y = β0 + u + ε MGREG-A2 0.5 0.5 0.3 19.9 11.8 8.5 Malli B1 Y = β0 + β2x2 + ε GREG-B1 1.2 0.6 0.3 18.3 10.7 7.7 Malli B2 Y = β0 + u + β2x2 + ε MGREG-B2 0.5 0.4 0.2 18.0 10.6 7.7 Malli C1 Y = β0 + β1x1 + ε GREG-C1 0.4 0.3 0.2 17.5 10.3 7.5 Malli C2 Y = β0 + u + β1x1 + ε MGREG-C2 0.3 0.3 0.2 17.3 10.2 7.5 Malli D1 Y = β + β x + β x + ε 0 1 1 2 2 GREG-D1 0.4 0.3 0.2 15.3 8.8 6.5 Malli D2 Y = β + u + β x + β x + ε 0 1 1 2 2 MGREG-D2 0.3 0.3 0.2 15.1 8.7 6.5 12