Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen Helsingin yliopisto
Pienalue-estimointi Kurssin kotisivu http://wiki.helsinki.fi/pages/viewpage.action?pagei=62430039 2
Hyöyllisiä taustatietoja Otantamenetelmät Lehtonen R. an Djerf K. (2008). Survey sampling reference guielines. Luxembourg: Eurostat Methoologies an Working papers Saatavilla vapaasti osoitteessa: http://epp.eurostat.ec.europa.eu/cache/ity_offpub/ks-ra-08-003/en/ks-ra-08-003-en.pdf Tilastollisten mallien perusteita Lineaariset mallit Yleistetyt lineaariset mallit 3
Maailmanlaajuinen treni Yhteiskunnassa on lisääntyvä tarve tuottaa luotettavia tietoja alueellisille ja muille populaation (perusjoukon) osajoukoille Estimation for omains Small area estimation EU:n tutkkimuksen puiteohjelmien projekteja EURAREA Project (2001-2004) http://www.statistics.gov.uk/eurarea/ AMELI Project (2008-2011) http://www.uni-trier.e/inex.php?i=24474&no_cache=1 SAMPLE Project (2008-2011) http://www.sample-project.eu/ 4
SAE Conferences EWORSAE European Working Group on Small Area Estimation http://sae.wzr.pl/ SAE2005 (University of Jyväskylä) SAE2007 (University of Pisa) SAE2009 (University of M. Hernanez, Elche) Forthcoming: SAE2011 (University of Trier) SAE2013 (Polan) 5
Kirjallisuutta Rao J.N.K. (2003). Small Area Estimation. New York: John Wiley & Sons. Lehtonen R. an Pahkinen E. (2004). Practical Methos for Design an Analysis of Complex Surveys. Secon Eition. Chichester: John Wiley & Sons. http://books.google.fi/books?i=xb-m5xg74f4c Web extension: VLISS-Virtual Laboratory in Survey Sampling http://mathstat.helsinki.fi/vliss/ 6
Kirjallisuutta Lehtonen R. an Djerf K. (es.) (2001). Lecture Notes on Estimation for Population Domains an Small Areas. Statistics Finlan: Reviews 2001/15. Lehtonen R. an Veijanen A. (2009). Designbase methos of estimation for omains an small areas. Chapter 31 in Rao C.R. an Pfeffermann D. (Es.). Hanbook of Statistics. Vol. 29B. Sample Surveys: Inference an Analysis. New York: Elsevier. 7
SAE: Laskentatyökaluja SAS 9.2 Proceures SURVEYMEANS Proceure SURVEYREG - DOMAIN-lause EURAREA-projekti SAS-makro Stanar estimators SAS-makro EBLUPGREG Ohjelma DOMEST Ari Veijanen & Risto Lehtonen R-kielisiä ohjelmia 8
JOHDANTO LÄHESTYMISTAPOJA 9
Käsitteitä ja määritelmiä Perusjoukon osajoukko Domain Pienalue Small area Lääni, maakunta, seutukunta, kunta Väestön emografiset ja sosioekonomiset osajoukot Yritysten toimialakohtaiset osajoukot Estimoiaan otosaineiston perusteella tunnuslukuja: Kokonaismääriä Totals Keskiaroja Means Osuuksia Proportions Meiaaneja määritellyille perusjoukon osajoukoille (omains, small areas) 10
Erikoistapaus - SAE Small area estimation, SAE Estimointi tilanteessa, jossa osajoukkojen otoskoko on pieni Vaihtoehtoinen määritelmä (Partha Lahiri): Small area = Domain of interest, for which the sample size is not aequate to prouce reliable irect estimates 11
Tyypillinen estimointitehtävä Määritellään ja ientifioiaan osajoukot Osajoukkojen U lkm D on yleensä suuri Spesifioiaan tulosmuuttujan y parametrit Osajoukkototaalit Keskiarvot Y t / N, 1,..., D missä t k U y k N on osajoukon koko pj:ssa 12
Esimerkkejä Työttömien kokonaismäärän estimointi alueittain sukupuolen ja ikäryhmän mukaan muoostetuissa osajoukoissa Tilastokeskuksen työvoimatutkimuksen aineisto Kotitalouksien käytettävissä olevien tulojen meiaanin estimointi kunnittain EU:n SILC-tutkimusaineisto Alueellisten köyhyysasteien estimointi EU:n SILC-tutkimusaineisto 13
Tärkeitä kysymyksiä Osajoukkojen tyyppi? Suunnitellut / Ei-suunnitellut osajoukot Planne omains / Unplanne omains Aineistolähteet? Otosaineisto Lisäinformaatio Estimaattorin tyyppi? Suora / Epäsuora Direct / Inirect Asetelmaperusteinen / Malliperusteinen Design base / Moel-base Mallin tyyppi? Lineaarinen / Epälineaarinen Linear / Non-linear Kiinteät vaikutukset / Sekamallit (Mixe moels) 14
Osajoukon tyyppi Suunnitellut osajoukot Planne omains Tärkeimmät osajoukkotyypit pyritään määrittelemään otanta-asetelmassa ositteiksi (strata) Osajoukkojen otoskoot on kiinnitetty Otoskoot hallitaan kiintiöintimenetelmillä (allocation) Liian pienet otoskoot voiaan välttää Ei-suunnitellut osajoukot Unplanne omains Osajoukkojen otoskoot ovat satunnaismuuttujia Voi tulla osajoukkoja joien otoskoko pieni Käytännössä yleinen tilanne (Miksi?) 15
U s U U Planne omains U U Population Population omain Domains = Strata s U Sample in omain Sample size n in omain is fixe 1,..., D 16
U s s U U Unplanne omains U s U Population Sample Population omain s s U Sample in omain Sample size n in omain is ranom 1,..., D 17
Suora ja epäsuora estimaattori Suora estimaattori Direct estimator Direct omain estimator uses values of the variable of interest y only from the time perio of interest an only from units in the omain of interest (Feeral Committee on Statistical Methoology, 1993) Suunniteltujen osajoukkorakenteien tilanne Epäsuora estimaattori Inirect estimator Inirect omain estimator uses values of the variable of interest y from a omain an/or time perio other than the omain an time perio of interest Ei-suunniteltujen osajoukkorakenteien tilanne 18
Esimerkki: Suora HT-estimaattori Asetelmaperusteinen Horvitz-Thompson estimaattori tˆ HT yk / k k s käyttää y-arvoja vain osajoukosta s t ˆHT on suora estimaattori 19
Esimerkki: Suora GREG-estimaattori Suora asetelmaperusteinen malliavusteinen GREG-estimaattori t ˆ y ˆ ( y y ˆ ) / GREG k U k k s k k k käyttää lineaarisia malleja jotka on spesifioitu erikseen kullekin osajoukolle: Y x β, k U, 1,..., D k k k missä β on osajoukkokohtainen, ja y x β ˆ ovat sovitteita, laskettu jokaiselle ˆk k k U 20
Esimerkki: Epäsuora GREG-estimaattori Epäsuora asetelmaperusteinen GREG-estimaattori t ˆ y ˆ ( y y ˆ ) / GREG k U k k s k k k käyttää lineaarista mallia Y x β, k U k k k jossa vektori β on yhteinen kaikille osajoukoille ja y x β ˆ lasketaan kaikille k U ˆk k 21
Esimerkki: Epäsuora SYN-estimaattori Epäsuora malliperusteinen synteettinen SYN-estimaattori tˆ SYN k U yˆ k käyttää lineaarista mallia Y x β, k U k k k jossa β on yhteinen kaikille osajoukoille ja y x β ˆ lasketaan kaikille k U ˆk k 22
Voiman lainaaminen Borrow strength Epäsuorat estimaattorit pyrkivät lainaamaan voimaa Muista osajoukoista (spatiaalinen imensio) Saman osajoukon aikaisemmista mittauksista (temporaalinen imensio) Tyypillistä erityisesti pienten osajoukkojen tilanteissa (pieni otoskoko) Borrowing strength käytetään usein malliperusteisissa SAE-tilanteissa 23
Estimointitehtävä Suuri osajoukko Large omain Osajoukko jossa on mahollista tuottaa riittävällä tarkkuuella asetelmaperusteinen suora (irect) estimaatti Tämän kurssin alue: Estimation for omains an small areas Pieni osajoukko Small omain Pieni osajoukko = Osajoukko jossa ei ole mahollista tuottaa riittävällä tarkkuuella asetelmaperusteinen suora (irect) estimaatti Tarvitaan malliperusteisia epäsuoria (inirect) estimaattoreita Voiman lainaaminen Borrowing strength 24
Lisäinformaatio Kaikissa tarkasteltavissa menetelmissä on olennaista: Perusjoukkoa koskevan lisäinformaation hyvä saatavuus - Auxiliary ata, auxiliary information - Rekistereistä saatavat lisätieot, apumuuttujat Lisäinformaation tuonti estimointiproseuuriin tilanteeseen soveltuvien tilastollisten mallien avulla - Lineaariset mallit, logistiset mallit, sekamallit - Yleistetyt lineaariset sekamallit (Generalize linear mixe moels) 25
Asetelmaperusteiset menetelmät Asetelmaperusteiset suorat estimaattorit Horvitz-Thompson (HT) estimaattorit Hájek-tyyppinen estimaattori Asetelmaperusteiset malliavusteiset estimaattorit Suoria tai epäsuoria estimaattoreita Yleistetyt regressioestimaattorit (generalize regression estimators) GREG Kalibrointiestimaattorit - Särnal, Swensson an Wretman (1992) - Lehtonen, Särnal an Veijanen (2003, 2005) - Lehtonen an Pahkinen (2004), luku 6 - Lehtonen an Veijanen (2009) 26
Malliperusteiset menetelmät Synteettiset estimaattorit SYN EBLUP- ja EBP-estimaattorit Empirical Best Linear Unbiase Preictor Empirical Best Preictor Rao (2003) EURAREA-projekti, Domest-ohjelma Bayes-menetelmät Empirical Bayes, Hierarchical Bayes Poverty mapping Worl Bank, Peter Lanjouw, Chris Elbers, PovMap Software 27
HUOM: Tilastollisen mallin rooli Asetelmaperusteinen GREG Malleja käytetään avustavina työkaluina GREG-estimaattorit ovat malliavusteisia (moel-assiste) Malliperusteinen SYN Nojautuu kokonaisuuessaan tilastolliseen malliin SYN-estimaattorit ovat malliperusteisia (moel-base) tai mallisionnaisia (moel-epenent) 28
Estimaattoreien ominaisuuksia Table 1 Asetelmaperusteiset estimaattorit HT, GREG Likimain harhattomia Varianssi voi kasvaa suureksi, jos osajoukon otoskoko on pieni - Varianssi pienenee otoskoon kasvaessa Malliperusteiset estimaattorit SYN, EBLUP, EBP Harhaisia määritelmän mukaan (All moels are wrong but some are useful). - Harha ei pienene otoskoon kasvaessa! Varianssi voi olla pieni myös pienissä osajoukoissa MSE voi olla suuri jos harha on ominoiva 29
Estimaattoreien tilastollisten ominaisuuksien vertailu Osajoukkojen totaalien t estimaattoreien vertailu: Harha: Bias Bias( tˆ ) ( ˆ E t ) t Varianssi: 2 Precision Var( tˆ ) ( ˆ ( ˆ E t E t )) Keskineliövirhe: Accuracy 2 2 MSE( tˆ ) E( tˆ t ) Var( tˆ ) Bias ( tˆ ) 30
Design-base properties of estimators Bias Precision (Variance) Accuracy (Mean Square Error, MSE) Confience intervals Design-base methos HT, GREG, MC Design unbiase (approximately) by the construction principle Large variance for small omains Variance ecreases with increasing sample size MSE = Variance (or nearly so) Vali esign-base CI can be constructe Moel-base methos SYN, EBLUP, EB Design biase Bias oes not necessarily approach zero with increasing sample size Small variance for small omains Variance ecreases with increasing sample size MSE = Variance + square Bias Accuracy can be poor if the bias is substantial Vali esign-base CI not necessarily obtaine 31
Estimaattoreien työnjako Asetelmaperusteisia estimaattoreita (HT, GREG) käytetään tyypillisesti suurille osajoukoille (suuri otoskoko, pieni varianssi). Malliperusteisia estimaattoreita (SYN, EBLUP) käytetään pienille osajoukoille, (pieni otoskoko, pieni varianssi) joissa asetelmaperusteiset estimaattorit toimivat huonosti (suuri varianssi).
Natural application areas of estimation approaches by omain sample size DOMAIN SAMPLE SIZE ESTIMATION APPROACH Minor Meium Major Moel-base Synthetic SYN ++ + 0 EBLUP, EBP +++ ++ ++ Design-base Horvitz-Thompson HT 0 + ++ GREG, MC + ++ +++ Applicability 0 Not at all + Low ++ Meium +++ High 33
Selecte literature - Design-base Särnal, C.-E., Swensson, B. an Wretman, J. (1992). Moel assiste survey sampling. New York: Springer. Lehtonen R. an Pahkinen E. (2004). Practical Methos for Design an Analysis of Complex Surveys. Secon Eition. Chichester: John Wiley & Sons. Chapter 6. Lehtonen R. an Veijanen A. (2009). Design-base methos of estimation for omains an small areas. Chapter 31 in Rao C.R. an Pfeffermann D. (Es.). Hanbook of Statistics. Sample Surveys: Inference an Analysis. Vol. 29B. New York: Elsevier. 34
35
Selecte literature - Design-base Lehtonen, R. an Veijanen, A. (1998). Logistic generalize regression estimators. Survey Methoology 24, 51 55. Lehtonen R., Särnal C.-E. an Veijanen, A. (2003). The effect of moel choice in estimation for omains, incluing small omains. Survey Methoology, 29, 33 44. Lehtonen R., Särnal C.-E. an Veijanen A. (2005). Does the moel matter? Comparing moel-assiste an moelepenent estimators of class frequencies for omains. Statistics in Transition, 7, 649 673. Särnal, C.-E. (2007). The calibration approach in survey theory an practice. Survey Methoology 33, 99 119. 36
Selecte literature - Moel-base Rao J.N.K. (2003). Small Area Estimation. New York: John Wiley & Sons. Longfor N. (2005). Missing Data an Small-area Estimation: Moern Analytical Equipment for the Survey Statistician. New York: Springer. Fay, R.E., an Herriot, R.A. (1979). Estimates of income for small places: an application of James-Stein proceure to census ata. JASA 74, 269 277. 37
Selecte literature - Moel-base Battese, G.E., Harter, R.M., an Fuller, W.A. (1988), An Error-Components Moel for Preiction of County Crop Areas Using Survey an Satellite Data, JASA 80, 28 36. Ghosh, M., an Rao, J.N.K. (1994). Small area estimation: an appraisal. Statistical Science 9, 55 93. Jiang J. an Lahiri P. (2006). Mixe moel preiction an small area estimation. TEST 15, 1 96. 38