Pienalue-estimointi (78189) Kevät 2011. Risto Lehtonen Helsingin yliopisto



Samankaltaiset tiedostot
(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Otanta-aineistojen analyysi

Otantamenetelmät. Syksy

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

MTTTP5, luento Luottamusväli, määritelmä

Kulutustutkimuksen alue-estimointi Pienalue-estimointimenetelmien vertailu Kulutustutkimus aineistossa

Harha mallin arvioinnissa

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

PIENALUE-ESTIMOINTIMENETELMÄT:

pitkittäisaineistoissa

Osa 2: Otokset, otosjakaumat ja estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimaattoreiden asetelmaperusteinen

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

LYTH-CONS CONSISTENCY TRANSMITTER

Gap-filling methods for CH 4 data

LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI

pitkittäisaineistoissa

Statistical design. Tuomas Selander

Other approaches to restrict multipliers

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Perusnäkymä yksisuuntaiseen ANOVAaan

Capacity Utilization

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Efficiency change over time

The relationship between leisuretime physical activity and work stress with special reference to heart rate variability analyses

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

Use of spatial data in the new production environment and in a data warehouse

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Regressioanalyysi. Vilkkumaa / Kuusinen 1

A250A0050 Ekonometrian perusteet Tentti

Tutkimustiedonhallinnan peruskurssi

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Sovellettu todennäköisyyslaskenta B

OP1. PreDP StudyPlan

Frequencies. Frequency Table

Asiakaspalautteen merkitys laboratoriovirheiden paljastamisessa. Taustaa

4.0.2 Kuinka hyvä ennuste on?

Otanta-aineistojen analyysi

UEF Statistics Teaching Bulletin, Fall 2017

The CCR Model and Production Correspondence

Regressioanalyysi. Kuusinen/Heliövaara 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Research plan for masters thesis in forest sciences. The PELLETime 2009 Symposium Mervi Juntunen

Missing data may bias your conclusions. Juha Karvanen Department of Mathematics and Statistics University of Jyväskylä

Parametrin estimointi ja bootstrap-otanta

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tilastollinen aineisto Luottamusväli

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Liite B. Suomi englanti-sanasto

805306A Johdatus monimuuttujamenetelmiin, 5 op

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

ELEMET- MOCASTRO. Effect of grain size on A 3 temperatures in C-Mn and low alloyed steels - Gleeble tests and predictions. Period

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

LX 70. Ominaisuuksien mittaustulokset 1-kerroksinen 2-kerroksinen. Fyysiset ominaisuudet, nimellisarvot. Kalvon ominaisuudet

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Additions, deletions and changes to courses for the academic year Mitä vanhoja kursseja uusi korvaa / kommentit

Monitasomallit koulututkimuksessa

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Otanta-aineistojen analyysi

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Tilastollisia peruskäsitteitä ja Monte Carlo

The BaltCICA Project Climate Change: Impacts, Costs and Adaptation in the Baltic Sea Region

Co-Design Yhteissuunnittelu

Olet vastuussa osaamisestasi

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

HARJOITUS- PAKETTI A

Stormwater filtration unit

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

Epävarmuuden hallinta bootstrap-menetelmillä

Increase of opioid use in Finland when is there enough key indicator data to state a trend?

SPSS ohje. Metropolia Business School/ Pepe Vilpas

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Jyrki Kontio, Ph.D

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

Transkriptio:

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen Helsingin yliopisto

Pienalue-estimointi Kurssin kotisivu http://wiki.helsinki.fi/pages/viewpage.action?pagei=62430039 2

Hyöyllisiä taustatietoja Otantamenetelmät Lehtonen R. an Djerf K. (2008). Survey sampling reference guielines. Luxembourg: Eurostat Methoologies an Working papers Saatavilla vapaasti osoitteessa: http://epp.eurostat.ec.europa.eu/cache/ity_offpub/ks-ra-08-003/en/ks-ra-08-003-en.pdf Tilastollisten mallien perusteita Lineaariset mallit Yleistetyt lineaariset mallit 3

Maailmanlaajuinen treni Yhteiskunnassa on lisääntyvä tarve tuottaa luotettavia tietoja alueellisille ja muille populaation (perusjoukon) osajoukoille Estimation for omains Small area estimation EU:n tutkkimuksen puiteohjelmien projekteja EURAREA Project (2001-2004) http://www.statistics.gov.uk/eurarea/ AMELI Project (2008-2011) http://www.uni-trier.e/inex.php?i=24474&no_cache=1 SAMPLE Project (2008-2011) http://www.sample-project.eu/ 4

SAE Conferences EWORSAE European Working Group on Small Area Estimation http://sae.wzr.pl/ SAE2005 (University of Jyväskylä) SAE2007 (University of Pisa) SAE2009 (University of M. Hernanez, Elche) Forthcoming: SAE2011 (University of Trier) SAE2013 (Polan) 5

Kirjallisuutta Rao J.N.K. (2003). Small Area Estimation. New York: John Wiley & Sons. Lehtonen R. an Pahkinen E. (2004). Practical Methos for Design an Analysis of Complex Surveys. Secon Eition. Chichester: John Wiley & Sons. http://books.google.fi/books?i=xb-m5xg74f4c Web extension: VLISS-Virtual Laboratory in Survey Sampling http://mathstat.helsinki.fi/vliss/ 6

Kirjallisuutta Lehtonen R. an Djerf K. (es.) (2001). Lecture Notes on Estimation for Population Domains an Small Areas. Statistics Finlan: Reviews 2001/15. Lehtonen R. an Veijanen A. (2009). Designbase methos of estimation for omains an small areas. Chapter 31 in Rao C.R. an Pfeffermann D. (Es.). Hanbook of Statistics. Vol. 29B. Sample Surveys: Inference an Analysis. New York: Elsevier. 7

SAE: Laskentatyökaluja SAS 9.2 Proceures SURVEYMEANS Proceure SURVEYREG - DOMAIN-lause EURAREA-projekti SAS-makro Stanar estimators SAS-makro EBLUPGREG Ohjelma DOMEST Ari Veijanen & Risto Lehtonen R-kielisiä ohjelmia 8

JOHDANTO LÄHESTYMISTAPOJA 9

Käsitteitä ja määritelmiä Perusjoukon osajoukko Domain Pienalue Small area Lääni, maakunta, seutukunta, kunta Väestön emografiset ja sosioekonomiset osajoukot Yritysten toimialakohtaiset osajoukot Estimoiaan otosaineiston perusteella tunnuslukuja: Kokonaismääriä Totals Keskiaroja Means Osuuksia Proportions Meiaaneja määritellyille perusjoukon osajoukoille (omains, small areas) 10

Erikoistapaus - SAE Small area estimation, SAE Estimointi tilanteessa, jossa osajoukkojen otoskoko on pieni Vaihtoehtoinen määritelmä (Partha Lahiri): Small area = Domain of interest, for which the sample size is not aequate to prouce reliable irect estimates 11

Tyypillinen estimointitehtävä Määritellään ja ientifioiaan osajoukot Osajoukkojen U lkm D on yleensä suuri Spesifioiaan tulosmuuttujan y parametrit Osajoukkototaalit Keskiarvot Y t / N, 1,..., D missä t k U y k N on osajoukon koko pj:ssa 12

Esimerkkejä Työttömien kokonaismäärän estimointi alueittain sukupuolen ja ikäryhmän mukaan muoostetuissa osajoukoissa Tilastokeskuksen työvoimatutkimuksen aineisto Kotitalouksien käytettävissä olevien tulojen meiaanin estimointi kunnittain EU:n SILC-tutkimusaineisto Alueellisten köyhyysasteien estimointi EU:n SILC-tutkimusaineisto 13

Tärkeitä kysymyksiä Osajoukkojen tyyppi? Suunnitellut / Ei-suunnitellut osajoukot Planne omains / Unplanne omains Aineistolähteet? Otosaineisto Lisäinformaatio Estimaattorin tyyppi? Suora / Epäsuora Direct / Inirect Asetelmaperusteinen / Malliperusteinen Design base / Moel-base Mallin tyyppi? Lineaarinen / Epälineaarinen Linear / Non-linear Kiinteät vaikutukset / Sekamallit (Mixe moels) 14

Osajoukon tyyppi Suunnitellut osajoukot Planne omains Tärkeimmät osajoukkotyypit pyritään määrittelemään otanta-asetelmassa ositteiksi (strata) Osajoukkojen otoskoot on kiinnitetty Otoskoot hallitaan kiintiöintimenetelmillä (allocation) Liian pienet otoskoot voiaan välttää Ei-suunnitellut osajoukot Unplanne omains Osajoukkojen otoskoot ovat satunnaismuuttujia Voi tulla osajoukkoja joien otoskoko pieni Käytännössä yleinen tilanne (Miksi?) 15

U s U U Planne omains U U Population Population omain Domains = Strata s U Sample in omain Sample size n in omain is fixe 1,..., D 16

U s s U U Unplanne omains U s U Population Sample Population omain s s U Sample in omain Sample size n in omain is ranom 1,..., D 17

Suora ja epäsuora estimaattori Suora estimaattori Direct estimator Direct omain estimator uses values of the variable of interest y only from the time perio of interest an only from units in the omain of interest (Feeral Committee on Statistical Methoology, 1993) Suunniteltujen osajoukkorakenteien tilanne Epäsuora estimaattori Inirect estimator Inirect omain estimator uses values of the variable of interest y from a omain an/or time perio other than the omain an time perio of interest Ei-suunniteltujen osajoukkorakenteien tilanne 18

Esimerkki: Suora HT-estimaattori Asetelmaperusteinen Horvitz-Thompson estimaattori tˆ HT yk / k k s käyttää y-arvoja vain osajoukosta s t ˆHT on suora estimaattori 19

Esimerkki: Suora GREG-estimaattori Suora asetelmaperusteinen malliavusteinen GREG-estimaattori t ˆ y ˆ ( y y ˆ ) / GREG k U k k s k k k käyttää lineaarisia malleja jotka on spesifioitu erikseen kullekin osajoukolle: Y x β, k U, 1,..., D k k k missä β on osajoukkokohtainen, ja y x β ˆ ovat sovitteita, laskettu jokaiselle ˆk k k U 20

Esimerkki: Epäsuora GREG-estimaattori Epäsuora asetelmaperusteinen GREG-estimaattori t ˆ y ˆ ( y y ˆ ) / GREG k U k k s k k k käyttää lineaarista mallia Y x β, k U k k k jossa vektori β on yhteinen kaikille osajoukoille ja y x β ˆ lasketaan kaikille k U ˆk k 21

Esimerkki: Epäsuora SYN-estimaattori Epäsuora malliperusteinen synteettinen SYN-estimaattori tˆ SYN k U yˆ k käyttää lineaarista mallia Y x β, k U k k k jossa β on yhteinen kaikille osajoukoille ja y x β ˆ lasketaan kaikille k U ˆk k 22

Voiman lainaaminen Borrow strength Epäsuorat estimaattorit pyrkivät lainaamaan voimaa Muista osajoukoista (spatiaalinen imensio) Saman osajoukon aikaisemmista mittauksista (temporaalinen imensio) Tyypillistä erityisesti pienten osajoukkojen tilanteissa (pieni otoskoko) Borrowing strength käytetään usein malliperusteisissa SAE-tilanteissa 23

Estimointitehtävä Suuri osajoukko Large omain Osajoukko jossa on mahollista tuottaa riittävällä tarkkuuella asetelmaperusteinen suora (irect) estimaatti Tämän kurssin alue: Estimation for omains an small areas Pieni osajoukko Small omain Pieni osajoukko = Osajoukko jossa ei ole mahollista tuottaa riittävällä tarkkuuella asetelmaperusteinen suora (irect) estimaatti Tarvitaan malliperusteisia epäsuoria (inirect) estimaattoreita Voiman lainaaminen Borrowing strength 24

Lisäinformaatio Kaikissa tarkasteltavissa menetelmissä on olennaista: Perusjoukkoa koskevan lisäinformaation hyvä saatavuus - Auxiliary ata, auxiliary information - Rekistereistä saatavat lisätieot, apumuuttujat Lisäinformaation tuonti estimointiproseuuriin tilanteeseen soveltuvien tilastollisten mallien avulla - Lineaariset mallit, logistiset mallit, sekamallit - Yleistetyt lineaariset sekamallit (Generalize linear mixe moels) 25

Asetelmaperusteiset menetelmät Asetelmaperusteiset suorat estimaattorit Horvitz-Thompson (HT) estimaattorit Hájek-tyyppinen estimaattori Asetelmaperusteiset malliavusteiset estimaattorit Suoria tai epäsuoria estimaattoreita Yleistetyt regressioestimaattorit (generalize regression estimators) GREG Kalibrointiestimaattorit - Särnal, Swensson an Wretman (1992) - Lehtonen, Särnal an Veijanen (2003, 2005) - Lehtonen an Pahkinen (2004), luku 6 - Lehtonen an Veijanen (2009) 26

Malliperusteiset menetelmät Synteettiset estimaattorit SYN EBLUP- ja EBP-estimaattorit Empirical Best Linear Unbiase Preictor Empirical Best Preictor Rao (2003) EURAREA-projekti, Domest-ohjelma Bayes-menetelmät Empirical Bayes, Hierarchical Bayes Poverty mapping Worl Bank, Peter Lanjouw, Chris Elbers, PovMap Software 27

HUOM: Tilastollisen mallin rooli Asetelmaperusteinen GREG Malleja käytetään avustavina työkaluina GREG-estimaattorit ovat malliavusteisia (moel-assiste) Malliperusteinen SYN Nojautuu kokonaisuuessaan tilastolliseen malliin SYN-estimaattorit ovat malliperusteisia (moel-base) tai mallisionnaisia (moel-epenent) 28

Estimaattoreien ominaisuuksia Table 1 Asetelmaperusteiset estimaattorit HT, GREG Likimain harhattomia Varianssi voi kasvaa suureksi, jos osajoukon otoskoko on pieni - Varianssi pienenee otoskoon kasvaessa Malliperusteiset estimaattorit SYN, EBLUP, EBP Harhaisia määritelmän mukaan (All moels are wrong but some are useful). - Harha ei pienene otoskoon kasvaessa! Varianssi voi olla pieni myös pienissä osajoukoissa MSE voi olla suuri jos harha on ominoiva 29

Estimaattoreien tilastollisten ominaisuuksien vertailu Osajoukkojen totaalien t estimaattoreien vertailu: Harha: Bias Bias( tˆ ) ( ˆ E t ) t Varianssi: 2 Precision Var( tˆ ) ( ˆ ( ˆ E t E t )) Keskineliövirhe: Accuracy 2 2 MSE( tˆ ) E( tˆ t ) Var( tˆ ) Bias ( tˆ ) 30

Design-base properties of estimators Bias Precision (Variance) Accuracy (Mean Square Error, MSE) Confience intervals Design-base methos HT, GREG, MC Design unbiase (approximately) by the construction principle Large variance for small omains Variance ecreases with increasing sample size MSE = Variance (or nearly so) Vali esign-base CI can be constructe Moel-base methos SYN, EBLUP, EB Design biase Bias oes not necessarily approach zero with increasing sample size Small variance for small omains Variance ecreases with increasing sample size MSE = Variance + square Bias Accuracy can be poor if the bias is substantial Vali esign-base CI not necessarily obtaine 31

Estimaattoreien työnjako Asetelmaperusteisia estimaattoreita (HT, GREG) käytetään tyypillisesti suurille osajoukoille (suuri otoskoko, pieni varianssi). Malliperusteisia estimaattoreita (SYN, EBLUP) käytetään pienille osajoukoille, (pieni otoskoko, pieni varianssi) joissa asetelmaperusteiset estimaattorit toimivat huonosti (suuri varianssi).

Natural application areas of estimation approaches by omain sample size DOMAIN SAMPLE SIZE ESTIMATION APPROACH Minor Meium Major Moel-base Synthetic SYN ++ + 0 EBLUP, EBP +++ ++ ++ Design-base Horvitz-Thompson HT 0 + ++ GREG, MC + ++ +++ Applicability 0 Not at all + Low ++ Meium +++ High 33

Selecte literature - Design-base Särnal, C.-E., Swensson, B. an Wretman, J. (1992). Moel assiste survey sampling. New York: Springer. Lehtonen R. an Pahkinen E. (2004). Practical Methos for Design an Analysis of Complex Surveys. Secon Eition. Chichester: John Wiley & Sons. Chapter 6. Lehtonen R. an Veijanen A. (2009). Design-base methos of estimation for omains an small areas. Chapter 31 in Rao C.R. an Pfeffermann D. (Es.). Hanbook of Statistics. Sample Surveys: Inference an Analysis. Vol. 29B. New York: Elsevier. 34

35

Selecte literature - Design-base Lehtonen, R. an Veijanen, A. (1998). Logistic generalize regression estimators. Survey Methoology 24, 51 55. Lehtonen R., Särnal C.-E. an Veijanen, A. (2003). The effect of moel choice in estimation for omains, incluing small omains. Survey Methoology, 29, 33 44. Lehtonen R., Särnal C.-E. an Veijanen A. (2005). Does the moel matter? Comparing moel-assiste an moelepenent estimators of class frequencies for omains. Statistics in Transition, 7, 649 673. Särnal, C.-E. (2007). The calibration approach in survey theory an practice. Survey Methoology 33, 99 119. 36

Selecte literature - Moel-base Rao J.N.K. (2003). Small Area Estimation. New York: John Wiley & Sons. Longfor N. (2005). Missing Data an Small-area Estimation: Moern Analytical Equipment for the Survey Statistician. New York: Springer. Fay, R.E., an Herriot, R.A. (1979). Estimates of income for small places: an application of James-Stein proceure to census ata. JASA 74, 269 277. 37

Selecte literature - Moel-base Battese, G.E., Harter, R.M., an Fuller, W.A. (1988), An Error-Components Moel for Preiction of County Crop Areas Using Survey an Satellite Data, JASA 80, 28 36. Ghosh, M., an Rao, J.N.K. (1994). Small area estimation: an appraisal. Statistical Science 9, 55 93. Jiang J. an Lahiri P. (2006). Mixe moel preiction an small area estimation. TEST 15, 1 96. 38