Otatameetelmät (78143 Sysy 2010 TEEMA 2 risto.lehtoe@helsii.fi Teema 2 LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI 2 1
Lisätiedo äyttö estimoitiasetelmassa Malliavusteiset strategiat Model-assisted strategies Regressioestimoiti Suhde-estimoiti Jäliosittamie Kalibroitimeetelmät Otose ulopuolise lisäifo tuoti estimoitiasetelmaa tilastollise malli avulla SAS Procedure SURVEYREG SAS maro CLAN 3 Estimoitistrategioita perusjouo ooaismäärälle Strategia Lisäiformaatio Avustava malli Asetelmaperusteisia strategioita SRSWOR Ei ole Ei ole SRSWR Ei ole Ei ole STR Ositusmuuttuja Ei ole PPSWOR Koomuuttuja Ei ole Malliavusteisia strategioita Otata-asetelma SRS Avustava malli: Lieaarie iiteide teijöide malli Regressioestimoiti SRS*reg Jatuva Regressiomalli Suhde-estimoiti Jatuva Regressiomalli SRS*rat Jäliositus SRS*pos Disreetti (ei vaiotermiä ANOVA 4 2
Päämeetelmät Lisätiedo äyttö estimoitiasetelmassa Malliavusteie estimoiti Model assisted estimatio Yleistetyt regressioestimaattorit Geeralized regressio (GREG estimators Kalibroitimeetelmät Calibratio Mallista vapaa alibroiti Model-free calibratio Malliavusteie alibroiti Model calibratio 5 Malliavusteie estimoiti Ala lassio: Särdal C.-E, Swesso B. ad Wretma J. (1992. Model Assisted Survey Samplig. Spriger. Logistie regressioestimaattori LGREG: Lehtoe, R. ad A. Veijae (1998. Logistic geeralized regressio estimators. Survey Methodology 24, 51-55. Sovellus osajouo- ja piealue-estimoitii: Lehtoe R. ad Veijae A. (2009. Desig-based Methods of Estimatio for Domais ad Small Areas. I: Hadboo of Statistics 29B; Sample Surveys: Iferece ad Aalysis. Eds. D. Pfefferma ad C.R. Rao. North Hollad. pp. 219-249. 6 3
GREG-estimaattoriperhe Malli valita GREG-estimaattorille Liearie iiteide teijöide malli - Liear fixed-effects model - Jatuva tulosmuuttuja Logistie iiteide teijöide malli - Biäärie/moiluoaie tulosmuuttuja Yleistetty lieaarie malli - Geeralized liear model Yleistetty lieaarie seamalli - Geeralized liear mixed model GLMM - Piealue-estimoiti (small area estimatio, SAE Hadboo of Statistics 7 GREG-estimaattori, te. tiivistelmä Sovellusalaa piealue-estimoiti U 1,2,...,,..., N Perusjouo (äärellie U 1,..., U d,..., U D Kiiostuse ohteea olevat pj: osajouot Otata-asetelma: PPS-WOR, otosoo s U sd = s Ud x1 π = x Otos Osajouoo d uuluva otos Sisältymist aliolle U PPS-otaassa = { } U 1 a = 1/ π Asetelmapaio aliolle s Tulosmuuttuja y havaitut arvot y aliolle s 8 4
Yleistetty lieaarie iiteide vaiutuste malli (1 Yhteie malli aiille osajouoille d E = x m( y f ( β missä f (. malli futioaalie muoto x = (1, x1,..., xp, U β = ( β β β 0, 1,..., p β j iiteät termit (yhteisiä aiille d j = 0,..., p Mallilla lasetut sovitteet yˆ = f( x βˆ, U 9 Yleistetty lieaarie iiteide vaiutuste malli (2 Osajouoohtaiset vaiotermit E ( y = f( x β m missä f (. malli futioaalie muoto x = ( I1,..., ID, x1,..., xp, U Id = 1 if Ud, Id = 0 muulloi, d = 1,..., D β = ( β 01,...,, β 0 D, β 1,...,, β p β0d osajouoohtaiset vaiotermit, d = 1,..., D β j yhteiset iiteät termit, j = 1,..., p Mallilla lasetut sovitteet yˆ = f( x βˆ, U 10 5
as(radom iterceptsoyleistetty lieaarie seamalli jouoohtaisetsatuaistermit( p E ( y u = f( x ( β + u, d = 1,..., D m d d missä f (. malli futioaalie muoto = (1, x,..., x x 1 p β = ( β, β,..., β iiteät termit u 0 1 p = ( u,..., u satuaistermit d 0d pd Mallilla lasetut sovitteet yˆ = f( x ( βˆ + uˆ, U d 11 Erioistapausia (1 Logistie iiteide teijöide malli E m exp( x β ( y = 1+ exp( x β exp( x βˆ Sovitteet yˆ =, U 1+ exp( x βˆ (2 Lieaarie seamalli, satuaiset vaiotermit E = m( y u xβ + u0d, d = 1,..., D d Sovitteet yˆ = x βˆ + ˆ u0d, U 12 6
Osajouoje totaalie GREG-estimaattori Totaaliparametrit Td = y, d = 1,..., D Ud Tulosmuuttuja y jatuva tai biäärie GREG-estimaattorit tˆ = yˆ + a eˆ dgreg U s missä a = 1/ π (asetelmapaiot eˆ = ˆ y y (jääöstermit eli residuaalit HUOM: Sovitteet ˆ lasetaa ulloisei malli avulla y d d 13 Kalibroiti Calibratio Mallista vapaa alibroiti Model-free calibratio Särdal C.-E, Swesso B. ad Wretma J. (1992. Model Assisted Survey Samplig. Spriger. Särdal, C.-E. (2007. The calibratio approach i survey theory ad practice. Survey Methodology 33, 99-119. Malliavusteie alibroiti Model calibratio Lehtoe R., Särdal C.-E. ad Veijae A. (2008. Geeralized regressio ad model-calibratio estimatio for domais: Accuracy compariso. Ivited paper, BNU Worshop, August 2008, Kuressaare. 14 7
Mallista riippumato alibroiti Laseta SAS-maro CLAN (SCB, Ruotsi Adersso, C. ad L. Nordberg (1998. A User s Guide to CLAN 97 - a SAS-program for computatio of poit- ad stadard error estimates i sample surveys, Statistics Swede. SPSS-ohjelma g-calib (Belgia tilastovirasto SAS-maro CALMAR (INSEE; Rasa Bascula (CBS, Hollai tilastovirasto VLISS-esimeri Ks. jaettu moiste 15 Malliavusteie estimoiti ja alibroiti Materiaali Lehtoe ad Pahie (2004 Sectio 3.3 - Ratio estimatio of populatio total - Regressio estimatio of totals Teie yhteeveto 2 - Jaettu paperi VLISS - Traiig i Key 101 - Regressio estimatio - Mote Carlo simulatio - Traiig Key 104 - Calibratio of weights 16 8
TEKNINEN YHTEENVETO 2 Malliavusteie estimoiti Regressioestimoiti Oletetaa lieaarie regressiomalli (superpopulaatiomalli y = α + βz + ε, V( y 2 = σ (variassi Äärellise perusjouo vastieet parametreille α ja β ovat A ja B A ja B estimoidaa paiotetulla PNS-meetelmällä (WLS SRS-tilae: Kulmaertoime B estimaattori 2 b ˆ = sˆ yz / sˆ z Vaioparametri A estimaattori aˆ = y bz 17 Kooaismäärä T regressioestimaattori: tˆ reg = N( y + bˆ( Z z = tˆ + bˆ( T tˆ, missä z z o tulosmuuttuja y t ˆ = t ˆ = N y / π = N y / = Ny HT = 1 = 1 N = 1 ooaismäärä T = Y HT-estimaattori (SRSWOR, ˆ t / z = N z = Nz o apumuuttuja z ooaismäärä T z Z = Tz / = 1 N = 1 = Z HT-estimaattori (SRSWOR N Tarvittava lisätieto: Apumuuttuja ooaismäärä T z 18 9
Asetelmavariassi (liimääräie V ( ˆ SRS t ( 2 reg N 1 2 ( Sy ( yz N ρ 2 1 1, missä ρ = S / S S o muuttujie y ja z perusjouo orrelaatio yz yz y Variassiestimaattori (ysi vaihtoehto z ˆ ( ˆ ( 2 1 2 2 v ( ˆ ( ˆ SRS treg = N 1 s y 1 ρ yz N 19 Moimuuttujaie regressiomalli y z z z missä z (1, = z1,..., zp β = ( β, β,..., β = β0 + β1 1 + β2 2 +... + βp p + ε = zβ + ε 0 1 p Estimaattorit ja variassiestimaattorit Perusmuoto tˆ = tˆ + bˆ( T tˆ + bˆ ( T tˆ +... + bˆ ( T tˆ (1 reg HT 1 z z 2 z z p z z 1 1 2 2 p p 20 10
PROC SURVEYREG-muoto t ˆ = b ˆ N + bt ˆ + bt ˆ +... + b ˆ T (2 reg 0 1 z 1 2 z 2 p z p proc surveyreg data=sample total=32; model UE91=HOU85 URB85 / solutio; weight SampligWeight; estimate t "UE91 Total" ru; Itercept 32 HOU85 91753 URB85 7 / E; 21 missä GREG-muoto (Geeralized regressio estimator N tˆ = yˆ + w ( y yˆ reg = 1 = 1 (3 yˆ = zb ˆ HUOM: Termi Termi = 1 N yˆ Syteettie (malliperusteie = 1 w ( y yˆ totaali estimaattori Harha orjaustermi (jääöstotaali HT-estimaattori 22 11
Kalibroitiestimaattori * reg = w y (4 = 1 tˆ missä * w = g w o alibroitipaio w = 1/ π o asetelmapaio tl g o g-paio aliolle 23 Variassiestimaattorit vt ˆ( ˆ = N (1 / N(1/ s ˆ (5 reg 2 2 eˆ missä missä 2 2 eˆ = 1 sˆ = ( eˆ eˆ /( 1 eˆ = y yˆ eˆ = eˆ / = 1 yˆ = zb ˆ 24 12
ˆ 1 1 vt ˆ( (1 ( ( ˆ reg = N s N p 2 2 eˆ* (6 missä 2 * ˆ* e * 2 = 1 * = ˆ sˆ = ( eˆ eˆ /( 1 eˆ g e (g-paiotetut jääöset * * ˆ ˆ / = e e = 1 25 vt ˆ ˆ = N N sˆ Rˆ (7 2 2 2 ( reg (1 / (1/ y (1 missä 2 ˆR o yhteisorrelaatioertoime eliö 2 2 sˆ y = ( y y /( 1 = 1 26 13
g-paiot Kalibroitimeetelmä (Calibratio Tulosmuuttuja y Kalibroitiestimaattori missä * reg w y = 1 tˆ =, w = g w, g o g-paio aliolle ja w = 1/ π * jolle pätee N * reg = = = z = 1 = 1 (alibroitiomiaisuus tˆ w z Z T 27 Suhde-estimoiti (Ratio estimatio Jatuva apumuuttuja z g T z = t ˆ z Regressioestimoiti (Regressio estimatio Jatuva apumuuttuja z N Z z g = (1 + ( z z Nˆ ( 1 sˆ z 28 14
Jäliositus (Poststratificatio Disreetti apumuuttuja (luoat g = 1,,G g g N g =, g = 1,..., G Nˆ g missä N ˆ g g = w o jäliosittee g estimoitu oo = 1 g 29 Regressioestimoiti - Esimeri Example 3.13 (Lehtoe Pahie 2004 Ysi apumuuttuja Populaatio Provice 91 Otosaieisto Aiaisemmi poimittu SRSWOR-otos, = 8 utaa Strategia SRS*reg 30 15
Tauluo Provice91- perusjouo N = 32 utaa Tulosmuuttuja UE91 Apumuuttujat STR osite - Kutamuoto HOU85 - Kotitalousie lm Lähde: Lehtoe R. ad Pahie E. (2004. Practical Methods for Desig ad Aalysis of Complex Surveys. Secod Editio. Wiley. 31 Table 3.16 A simple radom sample draw without replacemet from the Provice 91 populatio prepared for regressio estimatio Auxiliary iformatio Sample desig idetifiers WGHT Study Fial STR WGHT Elemet var. Variable Model w* LABEL UE91 HOU85 group g-weight weight 1 4 Jyväsylä 4123 26 881 1 0.2844 1.1378 1 4 Keuruu 760 4896 1 1.0085 4.0341 1 4 Saarijärvi 721 3730 1 1.0469 4.1877 1 4 Kogiagas 142 556 1 1.1057 4.6058 1 4 Kuhmoie 187 1463 1 1.1216 4.4863 1 4 Pihtipudas 331 1946 1 1.1391 4.4227 1 4 Toivaa 127 834 1 1.1423 4.5691 1 4 Uuraie 219 932 1 1.1515 4.5562 Samplig rate = 8/32 = 0.25. 32 16
Regressioestimoiti - Esimeri Tehdää regressioestimoiti ahdella tavalla (saadaa sama umeerie tulos Perusaava (1 Kalibroitiestimaattori (4 Variassiestimaattori (6 Tulosmuuttuja y UE91 Apumuuttuja z HOU85 (otitalousie lm uassa 1985 33 Regressioestimoiti - Esimeri Tauluo 3.16 Asetelmaidiaattorit vastaavat SRSWOR-tilaetta Poimitasuhde o 0.25. Regressiomalli Selitettävä muuttuja UE91 Selittäjä HOU85 Estimoitu slope (ulmaerroi = 0.152 Saadaa regressioestimaatti: tˆ = tˆ+ bˆ ( T tˆ reg z z = 26440 + 0.152(91753 164952 = 15312 34 17
Regressioestimoiti - Esimeri Sama piste-estimaatti saadaa alibroitiestimaattorilla s. Paiot Table 3.16: 8 * t ˆ 15312 reg = w y 1 = = 35 Regressioestimoiti - Esimeri Variassiestimaatti Kaava (6 tuottaa tulosesi ˆ 1 1 ˆ ( (1 v t = N ( ( sˆ N p 2 2 srs reg eˆ* 8 1 8 1 = 32 (1 ( ( 61.24 = 648 32 8 8 2 2 2 2 36 18
Regressioestimoiti - Esimeri Laseta SAS Procedure SURVEYREG Laseta: Kaava (2 PROC SURVEYREG-muoto tˆ = bˆ N + bt ˆ + bt ˆ +... + bˆ T (2 reg 0 1 z1 2 z2 p z p 37 Proc SURVEYREG **Regressio Estimatio; proc surveyreg data=sample total=32; title2 "Regressio estimatio for the total of UE91, auxiliary variable HOU85"; model UE91=HOU85 / solutio; weight SampligWeight; g estimate "UE91 Total" Itercept 32 HOU85 91753 / E; ru; 38 19
Proc SURVEYREG Estimated Regressio Coefficiets Stadard Parameter Estimate Error t Value Pr > t Itercept 42.6546808 22.1860968 1.92 0.0960 HOU85 0.1520142 0.0007745 196.29 <.0001 39 Proc SURVEYREG Coefficiets of Estimate "UE91 Total" Effect Row 1 Itercept 32 HOU85 91753 Aalysis of Estimable Fuctios Stadard Parameter Estimate Error t Value Pr > t UE91 Total 15312.7108 648.160289 23.62 <.0001 40 20
Regressioestimoiti - Esimeri Kasi apumuuttujaa Populaatio Provice 91 Otosaieisto - Aiaisemmi poimittu SRSWOR-otos, = 8 utaa Strategia - SRS*reg Tulosmuuttuja y - UE91 Apumuuttujat z1 ja z2 HOU85 (otitalousie lm uassa 1985 URB85 (1 = aupugit, 0 = muut uat 41 Regressioestimoiti - Esimeri Regressiomalli Tulosmuuttuja y: UE91 Apumuuttujat z1: HOU85 z2: URB85 y = β + β z + β z + ε = z β + ε 0 1 1 2 2 42 21
Regressioestimoiti - Esimeri Laseta Perusaava (1 GREG-muoto (3 (Table 3.17 tˆ = tˆ + bˆ( T tˆ + bˆ ( T tˆ reg HT 1 z z 2 z z 1 1 2 2 = 26440 + 0.14956(91753 164952 + 68.107(7 12 = 15152 43 Regressioestimoiti - Esimeri GREG-aava (Table 3.17 Tuottaa sama umeerise tulose (15152 ui (1 Variassiestimaatti lasetaa aavalla (6 GREG-muoto 32 8 tˆ = yˆ + w ( y yˆ = 15152 reg = 1 = 1 missä yˆ = ˆ zb z = (1, z1, z2 ' b ˆ = ( bˆ, bˆ, b ˆ 0 1 2 44 22
Regressioestimoiti - Esimeri Laseta Perusaava (1 - Lisäifo: Perusjouo totaalitiedot HOU85 ja URB85 GREG-aava (3 - Lisäifo: Ysiötaso tiedot perusjouo aiilta alioilta SAS-laseta 45 Proc SURVEYREG **Regressio Estimatio; proc surveyreg data=sample total=32; title2 "Regressio estimatio for the total of UE91, auxiliary variable HOU85 ad URB85"; model UE91=HOU85 URB85 / solutio; weight SampligWeight; estimate "UE91 Total" Itercept 32 HOU85 91753 URB85 7 / E; ru; 46 23
Proc SURVEYREG Estimated Regressio Coefficiets Stadard Parameter Estimate Error t Value Pr > t Itercept 29.7768913 19.7517828 1.51 0.1754 HOU85 0.1495578 0.0023199 64.47 <.0001 URB85 68.1072704 62.7319985 1.09 0.3136 47 Proc SURVEYREG Coefficiets of Estimate "UE91 Total" Effect Row 1 Itercept 32 HOU85 91753 URB85 7 Aalysis of Estimable Fuctios Stadard Parameter Estimate Error t Value Pr > t UE91 Total 15151.9849 568.987386 26.63 <.0001 48 24
Table 3.18 Estimates for the populatio total of UE91 uder differet estimatio strategies: a SRSWOR sample of eight elemets draw from the Provice 91 populatio. Estimatio strategy Estimator Estimate s.e deff Desig-based SRSWOR 26 440 13 282 1.0000 SRSWR 26 440 15 095 1.2917 Desig-based model-assisted Poststratified estimator SRS*pos 18 106 6021 0.3323 Ratio SRS*rat estimator 14 707 892 0.0045 Regressio estimator oe z-variable SRS*reg,1 15 312 648 0.0020 two z-variables SRS*reg,2 15 152 569 0.0018 49 Kirjallisuutta OPPIKIRJOJA Särdal C.-E., Swesso B. ad Wretma J. (1992. Model Assisted Survey Samplig. New Yor: Spriger. Lehtoe R. ad Pahie E. (2004. Practical Methods for Desig ad Aalysis of Complex Surveys. 2d Editio. Chichester: Wiley. ARTIKKELEITA Lehtoe R., Särdal C.-E. ad Veijae A. (2003. The effect of model choice i estimatio for domais, icludig small domais. Survey Methodology, 29, 33 44. Lehtoe R., Särdal C.-E. ad Veijae A. (2005. Does the model matter? Comparig model-assisted ad model-depedet estimators of class frequecies for domais. Statistics i Trasitio, 7, 649 673 Lehtoe R. ad Veijae A. (2009. Desig-based methods of estimatio for domais ad small areas. Chapter 31 i Rao C.R. ad Pfefferma D. (Eds.. Hadboo of Statistics. Sample Surveys: Iferece ad Aalysis. Vol. 29B. New Yor: Elsevier. Lehtoe R. ad Veijae A. (1998. Logistic geeralized regressio estimators. Survey Methodology, 24, 51 55. 50 25