ATH-koulutus: Stata 11 THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1
Sisältö Otanta-asetelman kuvaaminen Stata 11:llä Perustunnusluvut Regressioanalyysit Mallivakiointi 16. 2. 2011 ATH-koulutus / Tommi Härkänen 2
Aineiston lataaminen ja muuttujan arvojen selitetekstit use "Q:\data\2010\demo\ath_demo.dta", clear label define genderlabel 1 "male" 2 "female", replace label values rg_gender genderlabel label define educlabel 1 "basic" 2 "middle" 3 "high", replace label values rg_educ educlabel 16. 2. 2011 ATH-koulutus / Tommi Härkänen 3
Otanta-asetelman kuvaaminen svyset [pw=w_analysis], strata(w_strata) fpc(w_n) Painokerroin w_analysis, ositusmja w_strata, perusjoukon koko ositteessa w_n. svyset [pw=w_analysis], strata(w_strata) fpc(w_n) pweight: w_analysis VCE: linearized Single unit: missing Strata 1: w_strata SU 1: <observations> FPC 1: w_n 16. 2. 2011 ATH-koulutus / Tommi Härkänen 4
Analyysit Otanta-asetelma huomioidaan svy: -etuliitteellä Esim. BMI:n keskiarvo svy: mean ath_bmi. svy: mean ath_bmi (running mean on estimation sample) Survey: Mean estimation Number of PSUs = 12054 Population size = 12114 Mean Std. Err. [95% Conf. Interval] ath_bmi 25.99508.0547458 25.88777 26.10239 16. 2. 2011 ATH-koulutus / Tommi Härkänen 5
Keskiarvo osajoukoittain Perustunnusluvuilla voi käyttää over() optiota Esim. sukupuolittaiset keskiarvot svy, over(rg_gender). svy, over(rg_gender): mean ath_bmi (running mean on estimation sample) Survey: Mean estimation Number of PSUs = 12054 Population size = 12114 male: rg_gender = male female: rg_gender = female Over Mean Std. Err. [95% Conf. Interval] ath_bmi male 26.40149.078499 26.24761 26.55536 female 25.60849.0767234 25.4581 25.75888 16. 2. 2011 ATH-koulutus / Tommi Härkänen 6
Keskiarvo osajoukoittain Perustunnusluvuilla voi käyttää myös subpop(if ) optiota Esim. miesten keskiarvo: svy, subpop(if rg_gender==1). svy, subpop(if rg_gender==1): mean ath_bmi (running mean on estimation sample) Survey: Mean estimation Number of strata = 28 Number of obs = 5222 Number of PSUs = 5222 Population size = 5905.62 Subpop. no. obs = 5222 Subpop. size = 5905.62 Design df = 5194 Mean Std. Err. [95% Conf. Interval] ath_bmi 26.40149.078499 26.24759 26.55538 Note: 28 strata omitted because they contain no subpopulation members. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 7
Luokitellut muuttujat Frekvenssitaulut saadaan tabulate-komennolla Esim. svy: tabulate ath_bmi_3 rg_gender Number of PSUs = 12054 Population size = 12113.964 body mass index (1:<25, sukupuoli (1:mies, 2:25-<30, 2:nainen) 3:30+) male female Total 1.1932.2688.462 2.2159.1602.3761 3.0784.0835.1619 Total.4875.5125 1 Key: cell proportions Pearson: Uncorrected chi2(2) = 243.1594 Design-based F(1.99, 23828.25)= 66.0554 P = 0.0000 16. 2. 2011 ATH-koulutus / Tommi Härkänen 8
Luokitellut muuttujat Tulostusta voi muokata esim. col -optiolla Esim. svy: tabulate ath_bmi_3 rg_gender, col Number of PSUs = 12054 Population size = 12113.964 body mass index (1:<25, sukupuoli (1:mies, 2:25-<30, 2:nainen) 3:30+) male female Total 1.3963.5245.462 2.4429.3125.3761 3.1608.163.1619 Total 1 1 1 Key: column proportions Pearson: Uncorrected chi2(2) = 243.1594 Design-based F(1.99, 23828.25)= 66.0554 P = 0.0000 16. 2. 2011 ATH-koulutus / Tommi Härkänen 9
Lineaarinen regressioanalyysi Luokiteltu selittäjä kuvataan käyttämällä i.-etuliitettä selittäjän edessä Esim. svy: regress ath_bmi i.rg_geo_area rg_gender rg_age_2 Number of PSUs = 12054 Population size = 12113.964 F( 4, 11995) = 96.22 Prob > F = 0.0000 R-squared = 0.0482 ath_bmi Coef. Std. Err. t P> t [95% Conf. Interval] rg_geo_area 2 -.2281944.1163227-1.96 0.050 -.4562057 -.0001832 3 -.4185488.1179537-3.55 0.000 -.6497572 -.1873405 rg_gender -.9109727.1067687-8.53 0.000-1.120256 -.7016888 rg_age_2.0488707.0028185 17.34 0.000.043346.0543953 _cons 25.29563.2322352 108.92 0.000 24.84041 25.75085 16. 2. 2011 ATH-koulutus / Tommi Härkänen 10
Lineaarinen regressioanalyysi Luokitellun selittäjän referenssiluokan voi vaihtaa käyttämällä bx.- etuliitettä, jossa x on halutun referenssiluokan arvo Esim. svy: regress ath_bmi b2.rg_geo_area rg_gender rg_age_2 Number of PSUs = 12054 Population size = 12113.964 F( 4, 11995) = 96.22 Prob > F = 0.0000 R-squared = 0.0482 ath_bmi Coef. Std. Err. t P> t [95% Conf. Interval] rg_geo_area 1.2281944.1163227 1.96 0.050.0001832.4562057 3 -.1903544.1199695-1.59 0.113 -.4255139.0448052 rg_gender -.9109727.1067687-8.53 0.000-1.120256 -.7016888 rg_age_2.0488707.0028185 17.34 0.000.043346.0543953 _cons 25.06744.2267785 110.54 0.000 24.62292 25.51196 16. 2. 2011 ATH-koulutus / Tommi Härkänen 11
Lineaarinen regressioanalyysi Yhdysvaikutus kuvataan # tai ## -merkinnöillä. Jälkimmäinen muodostaa myös päävaikutustermit Esim. svy: regress ath_bmi b2.rg_geo_area##rg_gender rg_age_2 Number of PSUs = 12054 Population size = 12113.964 F( 6, 11993) = 68.02 Prob > F = 0.0000 R-squared = 0.0491 ath_bmi Coef. Std. Err. t P> t [95% Conf. Interval] rg_geo_area 1.1389713.1636089 0.85 0.396 -.1817287.4596712 3.0769003.174038 0.44 0.659 -.2642424.4180431 2.rg_gender -.7627597.1692905-4.51 0.000-1.094597 -.4309229 rg_geo_area# rg_gender 1 2.1734295.2344373 0.74 0.459 -.2861055.6329645 3 2 -.5139656.2405845-2.14 0.033 -.9855501 -.0423811 rg_age_2.0489274.0028146 17.38 0.000.0434104.0544444 _cons 24.07911.1864396 129.15 0.000 23.71366 24.44456 16. 2. 2011 ATH-koulutus / Tommi Härkänen 12
Useamman parametrin testaaminen Waldin testi on hyödyllinen esim. luokiteltujen selittäjien vaikutuksen testaamisessa Esim. yhdysvaikutusparametreja voi olla useita, jolloin Waldin testillä voidaan testata niiden merkitsevyys samanaikaisesti. testparm rg_geo_area#rg_gender Adjusted Wald test ( 1) 1.rg_geo_area#2.rg_gender = 0 ( 2) 3.rg_geo_area#2.rg_gender = 0 F( 2, 11997) = 4.51 Prob > F = 0.0110 16. 2. 2011 ATH-koulutus / Tommi Härkänen 13
Logistinen regressiomalli Esim. svy: logistic ath_bmi_2 i.rg_geo_area rg_gender rg_age_2 Number of PSUs = 12054 Population size = 12113.964 F( 4, 11995) = 100.53 Prob > F = 0.0000 ath_bmi_2 Odds Ratio Std. Err. t P> t [95% Conf. Interval] rg_geo_area 2.9738005.0528254-0.49 0.625.8755693 1.083053 3.8383902.0471559-3.13 0.002.7508703.9361112 rg_gender.5518676.0288158-11.38 0.000.4981783.6113431 rg_age_2 1.023128.0014653 15.97 0.000 1.02026 1.026004 16. 2. 2011 ATH-koulutus / Tommi Härkänen 14
Moniluokkainen, järjestysasteikollinen vaste Esim. svy: ologit ath_bmi_3 i.rg_geo_area rg_gender rg_age_2, or (Huom.: tärkeää varmistaa mallioletusten realistisuus) Survey: Ordered logistic regression Number of PSUs = 12054 Population size = 12113.964 F( 4, 11995) = 97.15 Prob > F = 0.0000 ath_bmi_3 Odds Ratio Std. Err. t P> t [95% Conf. Interval] rg_geo_area 2.9604865.0472947-0.82 0.413.8721147 1.057813 3.855659.0439496-3.03 0.002.7737055.9462932 rg_gender.6441878.0303052-9.35 0.000.5874414.7064159 rg_age_2 1.021531.0012974 16.77 0.000 1.018991 1.024078 /cut1.1282411.1065425 1.20 0.229 -.0805994.3370817 /cut2 1.99353.1070174 18.63 0.000 1.783759 2.203302 16. 2. 2011 ATH-koulutus / Tommi Härkänen 15
Luokka-asteikollinen vaste Esim. svy: mlogit ath_bmi_3 i.rg_geo_area rg_gender rg_age_2, rrr Number of PSUs = 12054 Population size = 12113.964 F( 8, 11991) = 56.43 Prob > F = 0.0000 ath_bmi_3 RRR Std. Err. t P> t [95% Conf. Interval] 1 (base outcome) 2 rg_geo_area 2 1.005518.0590663 0.09 0.925.8961554 1.128226 3.8479324.0525701-2.66 0.008.7509017.9575012 rg_gender.4991175.0284082-12.21 0.000.4464267.5580272 rg_age_2 1.021179.0016138 13.26 0.000 1.01802 1.024347 3 rg_geo_area 2.9047771.0684453-1.32 0.186.7800864 1.049399 3.8172243.061254-2.69 0.007.7055603.9465606 rg_gender.6990558.0495321-5.05 0.000.6084057.8032123 rg_age_2 1.027529.0018677 14.94 0.000 1.023875 1.031197 16. 2. 2011 ATH-koulutus / Tommi Härkänen 16
Mallivakiointi Sovitetaan regressiomalli Esim. alueen ja sukupuolen yhdysvaikutus ja jatkuva-arvoinen ikä (toisen asteen polynomina): svy: regress ath_bmi i.rg_geo_area##i.rg_gender c.rg_age_2##c.rg_age_2 Käytetään margins-komentoa: Esim. iän suhteen vakioidut alue- ja sukupuolittaiset mallivakioidut keskiarvot: margins rg_geo_area#rg_gender, vce(unconditional) grand 16. 2. 2011 ATH-koulutus / Tommi Härkänen 17
Mallivakiointi Regressioanalyysin tulostus: Number of PSUs = 12054 Population size = 12113.964 F( 7, 11992) = 66.49 Prob > F = 0.0000 R-squared = 0.0662 ath_bmi Coef. Std. Err. t P> t [95% Conf. Interval] rg_geo_area 2 -.0502171.1632593-0.31 0.758 -.3702316.2697975 3.0689372.173353 0.40 0.691 -.2708628.4087371 2.rg_gender -.4820027.1625955-2.96 0.003 -.8007163 -.1632891 rg_geo_area# rg_gender 2 2 -.2539101.2336933-1.09 0.277 -.7119868.2041666 3 2 -.6669135.2348621-2.84 0.005-1.127281 -.2065457 rg_age_2.2293158.0158945 14.43 0.000.19816.2604715 c.rg_age_2# c.rg_age_2 -.0017951.0001466-12.24 0.000 -.0020825 -.0015076 _cons 20.16134.4229022 47.67 0.000 19.33239 20.9903 16. 2. 2011 ATH-koulutus / Tommi Härkänen 18
Mallivakiointi Mallivakioidut keskiarvot: tulokset kuvaavat tilannetta, jossa ikäjakauma olisi sama kaikissa alue- ja sp-ryhmissä Predictive margins Number of obs = 12054 Expression : Linear prediction, predict() Margin Std. Err. t P> t [95% Conf. Interval] rg_geo_area# rg_gender 1 1 26.42857.1185454 222.94 0.000 26.1962 26.66093 1 2 25.94656.1173802 221.05 0.000 25.71648 26.17665 2 1 26.37835.1149189 229.54 0.000 26.15309 26.60361 2 2 25.64244.1228754 208.69 0.000 25.40158 25.88329 3 1 26.4975.1286654 205.94 0.000 26.2453 26.74971 3 2 25.34859.1134482 223.44 0.000 25.12621 25.57096 _cons 25.99508.0547458 474.83 0.000 25.88777 26.10239 16. 2. 2011 ATH-koulutus / Tommi Härkänen 19
Mallivakiointi dikotomisella vasteella Regressiomallina logistinen malli, esim. Rg_age10 on luokiteltu ikä 20-29, 30-39, svy: logit ath_bmi_2 i.rg_educ##i.rg_age10##i.rg_gender i.rg_geo_area Tallennetaan mallivakioinnin tulokset post-optiolla: margins rg_educ#rg_gender, vce(unconditional) grand post Lasketaan esim. väestösyyosuus (PAR) joka kuvaa, miten suuri osa ylipainoisuudesta poistuisi, jos koko väestö olisi korkeasti koulutettujen naisten kaltaisia (ts. rg_educ==3 ja rg_gender==2): nlcom (PAR: 1 - _b[3.rg_educ#2.rg_gender] / _b[_cons]) 16. 2. 2011 ATH-koulutus / Tommi Härkänen 20
Mallivakiointi Regressioanalyysin tulostus (osa) Survey: Logistic regression Number of PSUs = 12054 Population size = 12113.964 F( 49, 11950) = 10.29 Prob > F = 0.0000 ath_bmi_2 Coef. Std. Err. t P> t [95% Conf. Interval] rg_educ 2 -.2342076.4010929-0.58 0.559-1.020414.5519993 3.206497.4582423 0.45 0.652 -.6917321 1.104726 rg_age10 3.7072323.5164182 1.37 0.171 -.3050309 1.719496 4 1.553904.4994407 3.11 0.002.5749196 2.532889 5.7767609.4275911 1.82 0.069 -.0613868 1.614909 6 1.298149.4070569 3.19 0.001.500252 2.096047 7.8849821.399825 2.21 0.027.1012605 1.668704 8.4789203.4070997 1.18 0.239 -.3190609 1.276902 9 1.064492.7196313 1.48 0.139 -.3461018 2.475086 rg_educ# rg_age10 2 3 -.0659309.5564554-0.12 0.906-1.156674 1.024812 2 4 -.4905623.5369054-0.91 0.361-1.542984.561859 2 5.3548269.4616239 0.77 0.442 -.5500306 1.259684 16. 2. 2011 ATH-koulutus / Tommi Härkänen 21
Mallivakiointi Mallivakioidut esiintyvyydet (prevalenssit) koulutus- ja sukupuoliryhmittäin ikä- ja aluevakioituina _cons rivi kuvaa kokonaisprevalenssia Expression : Pr(ath_bmi_2), predict() Margin Std. Err. t P> t [95% Conf. Interval] rg_educ# rg_gender 1 1.6487326.0271863 23.86 0.000.5954431.702022 1 2.5331616.0303993 17.54 0.000.473574.5927492 2 1.6049188.0136548 44.30 0.000.5781531.6316845 2 2.4992917.0124534 40.09 0.000.474881.5237023 3 1.5923475.0183882 32.21 0.000.5563037.6283913 3 2.4079617.0126473 32.26 0.000.3831709.4327525 _cons.5379961.0062709 85.79 0.000.5257041.5502882 16. 2. 2011 ATH-koulutus / Tommi Härkänen 22
Mallivakiointi Koulutuksen ja sukupuolen väestösyyosuus ylipainosta. nlcom (PAR: 1 - _b[3.rg_educ#2.rg_gender] / _b[_cons]) PAR: 1 - _b[3.rg_educ#2.rg_gender] / _b[_cons] Coef. Std. Err. t P> t [95% Conf. Interval] PAR.2417015.0219974 10.99 0.000.198583.28482 16. 2. 2011 ATH-koulutus / Tommi Härkänen 23