Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Samankaltaiset tiedostot
Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otantamenetelmät. Syksy

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Otanta-aineistojen analyysi

, sanotaan niiden sääntöjen ja menetelmien kokonaisuutta, joilla otos poimitaan määritellystä perusjoukosta.

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kulutustutkimuksen alue-estimointi Pienalue-estimointimenetelmien vertailu Kulutustutkimus aineistossa

Uudelleenpainotus ja imputointi Perusteita

Olkoot X ja Y riippumattomia satunnaismuuttujia, joiden odotusarvot, varianssit ja kovarianssi ovat

Harha mallin arvioinnissa

Todennäköisyysjakaumat 1/5 Sisältö ESITIEDOT: todennäköisyyslaskenta, määrätty integraali

2 Taylor-polynomit ja -sarjat

MS-A0402 Diskreetin matematiikan perusteet

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

PIENALUE-ESTIMOINTIMENETELMÄT:

ABHELSINKI UNIVERSITY OF TECHNOLOGY

[ ] [ 2 [ ] [ ] ( ) [ ] Tehtävä 1. ( ) ( ) ( ) ( ) ( ) ( ) 2( ) = 1. E v k 1( ) R E[ v k v k ] E e k e k e k e k. e k e k e k e k.

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Estimointi Laajennettu Kalman-suodin. AS , Automaation signaalinkäsittelymenetelmät Laskuharjoitus 4

z z 0 (m 1)! g(m 1) (z0) k=0 Siksi kun funktioon f(z) sovelletaan Cauchyn integraalilausetta, on voimassa: sin(z 2 dz = (z i) n+1 k=0

Johdatus regressioanalyysiin. Heliövaara 1

V. POTENSSISARJAT. V.1. Abelin lause ja potenssisarjan suppenemisväli. a k (x x 0 ) k M

Tehtävä 2 Todista luennoilla annettu kaava: jos lukujen n ja m alkulukuesitykset. ja m = k=1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

JOHDATUS LUKUTEORIAAN (syksy 2017) HARJOITUS 1, MALLIRATKAISUT

Regressioanalyysi. Kuusinen/Heliövaara 1

J1 (II.6.9) J2 (X.5.5) MATRIISILASKENTA(TFM) MALLIT AV 6

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Osa 2: Otokset, otosjakaumat ja estimointi

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Vakuutusmatematiikan sovellukset klo 9-15

MS-A0402 Diskreetin matematiikan perusteet Esimerkkejä ym., osa I

805306A Johdatus monimuuttujamenetelmiin, 5 op

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 1. laskuharjoitus, ratkaisuehdotukset

Differentiaali- ja integraalilaskenta 1 Ratkaisut 1. viikolle /

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

STOKASTISET DIFFERENTIAALIYHTÄLÖT 7

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

K-KS vakuutussumma on kiinteä euromäärä

Mat Tilastollisen analyysin perusteet, kevät 2007

DEE Lineaariset järjestelmät Harjoitus 5, harjoitustenpitäjille tarkoitetut ratkaisuehdotukset

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

M 2 M = sup E M 2 t. E X t = lim. niin martingaalikonvergenssilauseen oletukset ovat voimassa, eli löydämme satunnaismuuttujan M, joka toteuttaa ehdon

III. SARJATEORIAN ALKEITA. III.1. Sarjan suppeneminen. x k = x 1 + x 2 + x ,

Sovellettu todennäköisyyslaskenta B

Pyramidi 3 Analyyttinen geometria tehtävien ratkaisut sivu 139 Päivitetty a) 402 Suplementtikulmille on voimassa

Otanta-aineistojen analyysi

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

VÄRÄHTELYMEKANIIKKA SESSIO 19: Usean vapausasteen systeemin liikeyhtälöiden johto Newtonin lakia käyttäen

Mat Tilastollisen analyysin perusteet, kevät 2007

9 Lukumäärien laskemisesta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

HARMONINEN VÄRÄHTELIJÄ

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

3. Markovin prosessit ja vahva Markovin ominaisuus

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Matematiikan tukikurssi

DISKREETIN MATEMATIIKAN SOVELLUKSIA: KANAVA-EKVALISOINTI TIEDONSIIRROSSA. Taustaa

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Í«ª» ó «µ ³² ²º± ³ ±² ¼ <³ ²»²æ ±³»²»» ³< ²»²»³ ²»² µ» «

4.3 Erillisten joukkojen yhdisteet

1. Tilastollinen malli??

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 6A Ratkaisuehdotuksia.

Joulukuun vaativammat valmennustehtävät ratkaisut

SYMBOLIVIRHETODENNÄKÖISYYDESTÄ BITTIVIRHETODENNÄKÖISYYTEEN

(1 + i) + JA. t=1. t=1. (1 + i) n (1 + i) n. = H + k (1 + i)n 1 i(1 + i) n + JA

Dynaamiset regressiomallit

C (4) 1 x + C (4) 2 x 2 + C (4)

Harjoitus 9: Excel - Tilastollinen analyysi

r = r f + r M r f (Todistus kirjassa sivulla 177 tai luennon 6 kalvoissa sivulla 6.) yhtälöön saadaan ns. CAPM:n hinnoittelun peruskaava Q P

Yleistetyistä lineaarisista malleista

Vakuutusteknisistä riskeistä johtuvien suureiden laskemista varten käytettävä vakuutuslajiryhmittely.

MTTTP5, luento Luottamusväli, määritelmä

2. Teoriaharjoitukset

Tehtävä 3. Määrää seuraavien jonojen raja-arvot 1.

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

MAB7 Talousmatematiikka. Otavan Opisto / Kati Jordan

Sattuman matematiikkaa III

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Tilastollinen aineisto Luottamusväli

5.7 Uskottavuusfunktioon perustuvia testejä II

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Estimointi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

Helsingin yliopisto Sosiaalitieteien laitos 1 Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen 15.3.2011 OSA 1 Estimaattorin tyyppi Mallin valinta Asetelmaperusteinen estimointi Horvitz-Thompson (HT) Malliavusteinen estimointi Yleistetyt regressioestimaattorit Generalize Regression Estimator (GREG) Malliperusteinen estimointi Synteettiset estimaattorit (SYN) Esimerejä

ESTIMAATTORIN TYYPPI 2 Päätyypit 1. Asetelmaperusteiset estimaattorit Desig-base estimators a) Estimaattorit, joissa ei äytetä lisäinformaatiota HT-estimaattori Háje-estimaattori b) Malliavusteiset estimaattorit Moel assiste estimators Yleistetyt regressioestimaattorit Generalize regression (GREG) Mallialibrointiestimaattorit (MC) Moel calibration estimators c) Kalibrointiestimaattorit Moel-free calibration estimators 2. Malliperusteiset estimaattorit Moel base estimators a) Synteettiset (SYN) estimaattorit Synthetic estimators b) EBLUP-estimaattorit Empirical best linear unbiase preictor

Table 1. Malliavusteisten ja malliperusteisten estimaattoreien ominaisuusia (Lehtonen an Pahinen 2004) 3 Harha Bias Taruus Precision (Varianssi) Täsmällisyys Accuracy (MSE) Luottamusvälit Confience intervals Asetelmaperusteiset HT GREG Harhaton (ainain liimain) Varianssi voi olla suuri pienissä osajouoissa Varianssi pienenee osajouon otosoon asvaessa MSE = Variance (liimain) Asetelmaperusteiset luottamusvälit OK Malliperusteiset Syntettiset SYN EBLUP Harhainen Harha ei välttämättä lähene nollaa osajouon otosoon asvaessa Varianssi voi olla pieni myös pienissä osajouoissa Varianssi pienenee osajouon otosoon asvaessa MSE = Variance + square Bias Täsmällisyys voi olla huono jos harha on suuri Asetelmaperusteiset luottamusvälit ei välttämättä OK

Estimaattoreien teoreettisia ominaisuusia voiaan tutia empiirisesti simulointioeien avulla: 4 Harha Bias Bias( tˆ) E(ˆ t ) T Taruus Precision Var( tˆ) E(ˆ t E(ˆ)) t 2 Täsmällisyys Accuracy MSE(ˆ) t E(ˆ t T) 2 Var(ˆ) t Bias 2 (ˆ) t

MALLIN VALINTA 5 Kasi näöulmaa Mallin matemaattinen muoto Mallin parametrisointi ESIMERKKI: Matemaattinen muoto Jatuva tulosmuuttuja Lineaarinen malli Binäärinen tulosmuuttuja Binominen logistinen malli Moniluoainen tulosmuuttuja Multinomiaalinen logistinen malli Luumäärämuuttuja Poisson-regressiomalli HUOM: Mallit ovat yleistettyjen lineaaristen seamallien (Generalize Linear Mixe Moels GLMM) erioistapausia (McCulloch an Searle 2001)

6 Tilastolliset mallit matemaattisen muoon, tulosmuuttujan tyypin ja selittäjien tyypin muaan Epälineaariset mallit Lineaariset mallit Logistiset Logaritmiset (Poisson) -mallit Selittäjämuuttujat Tulosmuuttuja jatuva Tulosmuuttuja binäärinen tai moniluoainen Tulosmuuttuja luumäärämuuttuja Disreettejä Lineaarinen ANOVA Logit-ANOVA Logaritminen (Poisson) ANOVA Jatuvia Lineaarinen regressio Logit-regressio Logaritminen (Poisson) regressio Disreettejä ja jatuvia Lineaarinen ANCOVA Logit-ANCOVA Logaritminen (Poisson) ANCOVA

MALLIN PARAMETRISOINTI 7 Kasi perustyyppiä: Kiinteien teijöien malli Fixe-effects moel formulation Esimerisi: Lineaarinen malli y z 0 1 1 Kiinteät teijät 0 ja 1 Seamalli / Hierarinen malli / Monitasomalli Mixe moel / Hierarchical moel / Multilevel moel formulation Esimerisi: Lineaarinen malli y u z 0 0 1 1 Domain-ohtaiset satunnaistermit u 0 HUOM: Kutain mallia vastaava malliavusteinen (GREG; MC) ja malliperusteinen (SYN, EBLUP) estimaattori voiaan onstruoia

ESIMERKKI (Lehtonen, Särnal an Veijanen 2003) Table 3. Estimaattoreien luoittelu mallin valinnan ja estimaattorin tyypin muaan 8 Kiinteien teijöien mallit MALLIN VALINTA Aggregoinnin taso Population moels Mallin parametrisointi Matemaattinen muoto ESTIMAATTORIN TYYPPI 1. Lineaarinen SYN-P GREG-P 2. Logistinen LSYN-P LGREG-P Domain moels 3. Lineaarinen SYN-D GREG-D 4. Logistinen LSYN-D LGREG-D Seamallit Domain moels 5. Lineaarinen MSYN-D MGREG-D 6. Logistinen MLSYN-D Malliperusteinen Asetelmaperusteinen malliavusteinen MLGREG- D P-mallit (Perusjouon tasoinen): Kiinteien teijöien mallit, parametrisointi populaatiotasoisena D-mallit (Domain-tasoinen): Mallissa omain-ohtaisia parametreja (iinteitä tai satunnaisia)

TARKASTELUKEHIKKO JA PERUSTEITA 9 Notaatio Äärellinen perusjouo U 1,2,...,,..., N Toisensa poissulevat perusjouon osajouot (omains) U,..., U,..., U 1 Oletetaan ensin että aliotasoinen (unit-level) perusjouo U on äytettävissä ehioperusjouon muoossa Tilastoreisteri Väestöreisteri Yritysreisteri D Oletetaan että U sisältää joaiselle aliolle muuttujat: U Ientifiaatiomuuttuja (ID) Osajouoon uulumisiniaattorit Ositeiniaattorit Ryväsiniaattorit Apumuuttujatieot (z-muuttujat)

Tulosmuuttuja: y Y Tulosmuutujan (tuntematon) arvo aliolle 10 Koheparametrit: Osajouototaalit (Domain totals) Apumuuttujat: T Y, 1,..., D U z imensio J 1 ( z 1,..., z,..., z ) j J Domain-iniaattorivetori: δ ( 1,...,,..., ) D muulloin : Ositeiniaattorivetori: τ : = 1 un U, nolla τ h 1 un U h, h 1,..., H, nolla muulloin, missä U h viittaa ositteeseen h ja H on ositteien luumäärä.

HUOM: Vetori z oletetaan tunnetusi aiille alioille U 11 ESIMERKKI Henilötutimus: Vetori z sisältää muuttujat iä, suupuoli, verotustieot, oulutustieot, työllisyystieot ym. jatuvia ja isreettejä muuttujia henilölle Yritystutimus: Vetori z sisältää muuttujat liievaihto ja henilöstön luumäärä yrityselle Misi apumuuttujavetori z oletetaan tunnetusi? Joustavuusperiaate. Data voiaan tarvittaessa aggregoia osajouo- tai ositetasolle. Parhaat mallit saaaan aliotasoisina. HUOM: Ysinertaisimmissa tapausissa riittää että tunnetaan aggregaatteja, uten osajouojen totaalit T,..., apumuuttujille z j z T 1 z J Mallinnusvaiheessa tavallisesti oletetaan että vaio 1 on vetorin z ensimmäinen alio

Otanta ja tieoneruu 12 Satunnaisotos s ooa n poimitaan perusjouosta U äyttämällä otanta-asetelmaa p(s) jossa sisältymistoennäöisyys iinnitetään aliolle U Asetelmapaino: w 1/ Tulosmuuttujan arvot y mitataan otosalioilta s Vastausaon ajustointi Ysiöato (unit nonresponse): Uuelleenpainotus tarvittaessa Eräato (item nonresponse): Imputointi tarvittaessa

KAKSI VAIHTOEHTOISTA DOMAIN- RAKENNETTA 13 Osajouojen otoset: s U s, 1,..., D Ei-suunniteltu (unplanne) omain-raenne: Ósajouojen otosooja n s ei ole iinnitetty otanta-asetelmassa Otosoot n s ovat satunnaismuuttujia Suunniteltu (planne) omain-raenne: Osajouojen otosoot n on iinnitetty otanta-asetelmassa (ositettu otanta) Osajouojen otosoot n ovat iinteitä Ositettu otanta ja sopiva iintiöintimenetelmä Optimaalinen (Neyman) -iintiöinti Banier-iintiöinti Tasaiintiöinti

14 Table 4. Planne an unplanne omain structures in a stratifie sample of n elements, Lehtonen an Pahinen (2004) Unplanne omains 1 s11 2 s21... s 1... D s D 1 Strata (planne omains) 1 2 h H Sum n n s 12 ns 1 n h s 1 n H s 1 n n s 22 ns 2 n h s 2 n H s 2 n n s 2 n s n h s n H s n Sum 1 n 2 n s D 2 n s n Dh sdh n n h n H n n s D Stratum sample sizes n h, h = 1,,H, are fixe in the sampling esign. Thus, the strata are efine as planne omains. Sample sizes n, = 1,,D, for unplanne omains are not fixe s in avance an thus are ranom variables. Cell sample sizes n are ranom variables in both cases. s h

ESIMERKKI 15 Ei-suunniteltu raenne: Ootettu otosoo osajouossa, otanta-asetelmana SRSWOR: E( n ) n( N / N) s Suunniteltu raenne: Osajouot on määritelty ositteisi Oletetaan että tulosmuuttujan y variaatioertoimet C.Vy S y / Y tunnetaan aiissa osajouoissa, missä S y ja Y ovat perusjouon esihajonta ja esiarvo omainissa Banier-iintiöinti: Domain-otosoot ovat n, pow T C.V a z y n, D a 1 T C.V z y Vaio a = 0 tässä tapausessa.

Perusjouo: Occupational Health Care Survey (OHC), N 7841 henilöä 16 Parametrit: Domain-totaalit T Y, 1,..., D U Pitäaiaisesti sairaien luumäärä osajouoissa D 30 osajouoa Otos: SRSWOR, otosoo n 392 Horvitz-Thompson-estimaattori: tˆ HT w y, 1,..., D s missä w 1/ Laatuiniaattori: Estimaattorin variaatioerrtoin coefficient of variation C.V( t ˆ ) S.E(ˆ t ) / T HT HT

Table 5. HT-estimaattoreien CV (%) ei-suunnitellussa ja suunnitellussa omain-raenteessa (Lehtonen an Pahinen 2004). 17 Domain D N Domain-otosoo HT-estimaattoreien C.V (%) Eisuunniteltu raenne SRSWOR E ( n s ) Suunniteltu raenne Banieriintiöinti n Eisuunniteltu raenne SRSWOR C.V HT (ˆ t ) Suunniteltu raenne Banieriintiöinti C.V HT 10 81 4 11 84.10 38.88 20 101 5 12 78.41 40.54 18 129 6 13 72.69 42.38 3 133 7 15 81.04 45.63 8 141 7 16 81.03 46.54 30 146 7 15 74.80 45.03 21 153 8 12 62.87 41.15 23 156 8 11 57.65 39.05 16 165 8 13 64.94 43.19 1 181 9 17 75.90 48.78 11 187 9 14 63.52 44.52 6 188 9 13 60.37 43.22 28 194 10 10 50.52 38.69 24 200 10 13 58.68 43.39 22 242 12 10 44.27 38.30 15 252 13 14 55.68 45.50 7 292 15 17 60.34 50.06 4 295 15 15 53.92 47.04 13 305 15 13 46.00 43.04 12 311 16 12 44.50 42.38 5 323 16 16 53.50 48.23 25 339 17 11 40.57 41.03 2 352 18 14 46.80 45.74 26 364 18 11 38.87 40.88 29 365 18 11 38.25 40.45 9 366 18 14 45.99 45.85 17 426 21 12 36.67 41.62 14 447 22 13 37.95 43.37 19 490 24 11 33.60 41.22 27 517 26 10 30.68 39.34 Sum 7841 392 392 (ˆ t )

100 18 80 60 40 HT (SRSWOR) 20 80 141 165 194 292 323 365 490 HT (Power) Size of population omain Figure 1. (Lehtonen an Pahinen 2004) Horvitz-Thompson-estimaattorin variaatioerroin (%) SRSWOR-otannan tilanteessa (vastaa unplanne-raennetta) ja ositetun SRSWORotannan tilanteessa (Banier-iintiöinti, a = 0) (vastaa planne-raennetta).

BOX 1. Estimointiproseuurin operationaaliset vaiheet 19 Vaihe 1: Kehioperusjouon onstruointi. Muoostetaan N alion perusjouo U, joa sisältää seuraavat muuttujat: ID-tieto, omain-iniaattorit, ositeiniaattorit, sisältymistoennäöisyyet n alion otosta varten asetelmalla p(s), ja apumuuttujavetorit aiille alioille U. Vaihe2: Otanta ja mittaus. Poimitaan otos asetelmalla p(s) ja erätään tieot tulosmuuttujasta y. Muoostetaan otostieosto s(y), joa sisältää seuraavat muuttujat: ID-tieto, havaittu y-muuttujan arvo ja asetelmapainot aiille alioille s. Vaihe 3: Yhistetään U ja s(y). Muoostetaan yhistetty tieosto mirolinaamalla (merge) avaimen ID avulla ehiopj U ja otosaineisto s(y). Vaihe 4: Mallin valinta ja mallin sovitus. Mallin matemaattisen muoon valinta, parametrisointi ja sovittaminen otosaineistolle. Mallin iagnostiia. Lasetaan sovitetun mallin avulla tulosmuuttujan y sovitteet aiille pj:n alioille U seä resiuaalit aiille otosalioille s. Vaihe 5. Domain-estimaattoreien valinta ja estimointi. Käyttämällä sovitteita, resiuaaleja ja asetelmapainoja lasetaan estimaatit ullein osajouolle. Vaihe 6: Estimaattoreien laatuiniaattorit. Domainestimaattoreien varianssien, esivirheien ja variaatioertoimien estimointi. (Lehtonen an Pahinen 2004)

Table 6. Vaiheien 1, 3 ja 4 havainnollistaminen. 20 Vaihe 1: Kehioperusjouon U onstruointi Vaihe 3: Yhistetään U ja s(y) Vaihe 4: Lasetaan sovitteet ja resiuaalit Alio ID Domain δ Osite τ π Otos- Ini. I Apumuuttujat z Asetelmapainot w Tulosmuuttuja y Sovitteet ŷ Resiuaalit ê 1 2 3 4 5... δ 1 τ π 1 1 z 1 0 0... δ 2 τ π 2 2 z 2 0 0... δ 3 τ 3 3 π 3 z w 1 3 δ 4 τ π 4 4 z 0 0... 4 δ 5 τ π 5 5 z 5 w 1 5 ŷ... 1 ŷ... 2 y 3 ŷ 3 ê 3 ŷ... 4 ê y 5 ŷ 5 5... δ τ π z w 1 y ŷ ê N δ N τ N π N z 0 0... N ŷ... N Non-sample element

HUOM: 21 Apumuuttujavetorit z ( 1,..., ) z zj oletetaan tunnetusi aiille pj:n alioille Tällöin apumuuttujien totaalien vetori T (,..., ) z Tz T 1 z missä T J z j U z j, j 1,..., J, on tunnettu Kosa omain-iniaattorit tunnetaan, voiaan lasea apumuuttujien omain-totaalit T z z j, 1,..., D ja j 1,..., J j U Mallin sovitusvaiheessa lasetaan sovitteet yˆ aiille N aliolle U Resiuaalit eˆ y yˆ voiaan lasea vain otoshavainnoille s Sovitteet yˆ, U vaihtelevat spesifioiusta mallista riippuen.

DOMAIN-TOTAALIEN ESTIMAATTORIT 22 Osajouototaalien päätyypit: T y estimaattoreien U Horvitz-Thompson estimaattori HT t ˆ w y y / HT s s Synteettinen estimaattori SYN tˆ SYN yˆ (1) U Yleistetty regressioestimaattori GREG (Generalize regression estimator) (2) t ˆ y ˆ w ( y y ˆ ) GREG U s Yhistelmäestimaattori (Composite estimator) missä t ˆ y ˆ ˆ a ( y y ˆ ) w COMP U s 1/, s s U ja 1,..., D COMP-estimaattorissa ˆ on omain-spesifi paino, 0 ˆ 1, jota tarvitaan erityisesti EBLUPestimaattorin yhteyessä

23 ESTIMAATTOREIDEN KONSTRUOINTI JA MALLIN SPESIFIOINTI Työvaiheet: (1) Estimoiaan valitun mallin parametrit äyttämällä otosaineistoa s( y) ( y, z ); s. (2) Mallin parametriestimaattien ja apumuuttujavetoreien z avulla lasetaan sovitteet yˆ aiille perusjouon alioille (otosaliot ja otosen ulopuoliset aliot) (3) Domain-totaalin T estimaattia tˆ varten omainissa sijoitetaan sovitteetyˆ ; U ja otoshavainnot y ; s vastaaviin estimaattoriaavoihin (GREG, SYN, COMP tai EBLUP).

ESIMERKKI 24 a) Kiinteien teijöien lineaarinen malli: y z β missä β on mallin tuntematon parametrivetori ja resiuaalit ovat Sovitetaan malli, saaaan estimaatti βˆ Lasetaan sovitteet yˆ = z βˆ aiille b) Lineaarinen seamalli: y z ( β u ) U missä u on omain-spesifien satunnaistermien vetori Estimoiaan mallin parametrit ja lasetaan sovitteet yˆ z (ˆ β uˆ ) aiille U

MALLIN SPESIFIOINTI 25 Oloon (J+1)-imensioinen apumuuttujavetori z = ( 1, z 1,..., z,..., z ), j 1,..., J j J Vetoria tarvitaan sovitteien yˆ, varten U lasentaa (1) Kiinteien teijöien P-mallit Estimaattorit SYN-P ja GREG-P perustuvat lineaariseen malliin y 0 1z1... J zj zβ (3) U, missä β (, 1,..., J ) on iinteien teijöien vetori joa on määritelty oo populaatiolle 0 Malli (3) on iinteien teijöien P-malli

Mallin parametrien estimointi 26 Perusjouon tasolla: Vetorin β PNS-estimaattori: 1 B z z z y (4) U U Käytettävissä otosaineisto: Painotettu PNS (Weighte least-squares, WLS) estimaattori parametrille (4) lasetaan äyttämällä otoshavaintoja: 1 bˆ w z w y z z (5) s s missä w 1/ on alion asetelmapaino Sovitteet ovat: yˆ zbˆ, U (6)

HUOM: Epäsuora omain-estimaattori 27 Kun äytetään P-mallia ositteelle, myös muien osajouojen y-arvot vaiuttavat osajouon totaaliestimaattoreihin SYN-P ja GREG-P sijoitettaviin sovitteisiin y ˆ Tästä syystä iinteien teijöien P-malliin perustuvia estimaattoreita tˆ SYN P ja tˆ GREGP utsutaan epäsuorisi (inirect)

28 (2) Kiinteien teijöien D-mallit. Estimaattorit SYN-D ja GREG-D perustuvat samaan apumuuttujavetoriin z, mutta malli määritellään omainohtaisesi: y z β (7) U, 1,..., D, tai y D 1 z β (8) U, missä on alion omain-iniaattori: = 1 un U, nolla muulloin, 1,..., D, ja β on omain-ohtainen parametrivetori Malli (7) on iinteien teijöien D-malli PNS-estimaattori parametrille : 1,...,D 1 U B z z z y (9) U

Otosataan perustuva WLS estimaaattori: 29 1,...,D Sovitteet ovat: 1 s bˆ w z z w z y (10) s yˆ zbˆ (11) ; 1,..., D U Sijoittamalla sovitteet yˆ aavoihin (1) ja (2) saaaan vastaavat estimaattorit SYN-D ja GREG- D HUOM: Suora omain-estimaattori D-mallien sovitusessa ussain omainissa äytetään vain yseisen omainin y-arvoja Vastaavia estimaattoreita tˆsyn D ja tˆgreg D utsutaan suorisi (irect)

HUOM: 30 Estimaattorin (9) täyellisempi muoto on GLSestimaattori (Generalize least squares) 1 U / c B z z z y / c U missä c on muotoa c λz aliolle U ja (J+1)-vetori λ ei riipu arvosta. Käytännössä asetetaan usein c 1 aiille Kosa nyt c λ z 1, seuraa siitä että GREGestimaattorin jäännöstotaalin HT-estimaatti w ( y ˆ y ) 0 s Tästä seuraa että SYN-D ja GREG-D ovat ienttiset, eli tˆ SYN D = tˆ GREG D joaiselle otoselle s, un äytetään iinteien teijöien D-mallia

(3) Seamallit. Estimaattorit MSYN-D ja MGREG-D perustuvat lineaariseen asitasomalliin (seamalliin), jota utsumme lineaarisesi D-tyypin seamallisi 31 Mallissa on iinteitä teijöitä ja omainohtaisia satunnaisia teijöitä: y u U 0 0, 1,..., D ( 1 u1 ) z1 = ( β u... ( J u J ) z J z ) (12) Kuin mallin termi voiaan ajatella populaatiotasoisen iinteän teijän ja omainohtaisen satunnaisteijän summasi: 0 u0 vaiotermille (intercept) u, j = 1,..., J ulmaertoimille (slopes) j j Termit u ( u, u1,..., uj ) eustavat poieamia mallin iinteän osan parametreista 0 y z... z z β (13) 0 1 1 J J =

HUOM: 32 Käytännössä vai osa termeistä määritellään satunnaisisi, jolloin joillein j, u j 0 aiissa omaineissa Erioistapaus, jota äytetään paljon äytännön sovellusissa, on malli jossa on vain omainohtaiset satunnaiset vaiotermit u 0 : y ( u ) z... z 0 0 1 1 J J Sovitteet lasetaan aavalla yˆ z (ˆ β uˆ ) (14) Saaaan estimaattorit MSYN-D ja MGREG-D (Lehtonen an Veijanen 1999) D-malli (12) voiaan sovittaa esimerisi estimoimalla varianssiomponentit suurimman usottavuuen (ML) tai rajoitetulla suurimman usottavuuen (restricte maximum lielihoo REML) menetelmällä ja iinteät teijät GLSmenetelmällä eholla varianssiomponentit (esim. Golstein 2003 tai McCulloch an Searle 2001).

Yleistettyjen lineaaristen seamallien GLMM ehiossa voiaan irjoittaa malli: 33 E ( y u ) g( z ( βu )) m Erioistapausia: Lineaarinen malli (jatuva tulosmuuttuja): E ( y u ) z ( βu ) m Multinomiaalinen logistinen seamalli (moniluoainen tulosmuuttuja): E ( y u ) m i m exp( z ( βi ui )) 1 exp( z ( β u )) r2 r r (Lehtonen, Särnal an Veijanen 2003)

ESIMERKKI 34 Jatuvatyyppinen y, jona totaali T estimoiaan omaineille U, 1,..., D Oletetaan ysi jatuvatyyppinen apumuuttuja z Avustavat mallit: (1) Kiinteien teijöien P-mallit y, U : (1a) y 0 (1b) y 1 z (1c) z y 0 1 (2) Kiinteien teijöien D-mallit y, U, 1,..., D: (2a) y 0 (2b) y z 1 (2c) y 0 1 z (3) Seamallit y, U, 1,..., D: (3a) y 0 0 u0 (3b) z u y 0 1 0 0 1z

HUOM: 35 Mallit (1b) ja (2b): Suhetehosteinen estimointi (Ratio estimation) osajouoille Mallit (1c) ja (2c): Regressioestimointi osajouoille HUOM: Mallit (1) ja (3): Epäsuorat (Inirect) estimaattorit SYN ja GREG Malli (2): Suorat (Direct) estimaattorit SYN ja GREG

ESIMERKKI 36 P-malli (1b) SYN-estimaattori (1) totaaleille T : 1,..., D tˆ yˆ bˆ z SYN P U U 1 T bˆ T tˆ / tˆ z 1 z HT zht (18) Parametrin (slope) B 1 estimaattori on: b ˆ1 s s w w y z tˆ tˆ HT zht Ono tämä estimaattori suora (irect) vai epäsuora (inirect)? Estimaattori (18) on epäsuora. Misi? Estimaattori tˆ SYN P osajouolle äyttää y- muuttujan arvoja oo otosesta ja pyrii siten lainaamaan voimaa (borrowing strength) myös muista omaineista

HUOM: 37 SYN-estimaattorin (18) harha Estimaattorin aavalla tˆ harhaa approsimoiaan SYN P BIAS(ˆ tsyn P) E(ˆ tsyn P) T Tz ( B 1 B1 ) missä B 1 U y / U z on omain-ohtainen parametri (slope), 1,..., D B 1 U y / U z on perusjouotasoinen parametri Domainille harha on pieni, jos perusjouotasoinen parametri B 1 approsimoi hyvin osajouoohtaista parametria B 1 Merittävä harha seuraa jos ehto ei ole voimassa.

Vastaava epäsuora GREG-estimaattori (2) omain-totaaleille T : 38 tˆ GREGP U yˆ s w ( y yˆ ) t ˆ z ) ˆSYN P w ( y b1 s tˆ ˆ HT t ( ˆ HT Tz tzht ) (19) tˆ zht HUOM: Yritys lainata voimaa pätee myös tälle estimaattorille

39 Suorat estimaattorit SYN ja GREG tyyppiä (2b) äyttävät y-arvoja vain yseisestä omainista Korvataan ˆb 1 aavassa (18) omain-ohtaisella estimaattorilla bˆ 1 : b ˆ1 s s w w y z tˆ tˆ HT zht, 1,..., D, missä tˆ HT ja tˆ zht ovat totaalien T ja T z omainohtaisia HT-estimaattoreita Suora estimaattori SYN tˆ SYN D ˆ yˆ b z Tz tˆ HT / tˆ zht tsyn D U 1 U ˆ, 1,...,D. (20) Tässä tapausessa suora GREG-estimaattori tˆ GREG D on ienttinen suoran SYN-estimaattorin anssa, osa GREG-estimaattorin harhanorjaustermi on tällöin nolla.