Johdatus Stata-ohjelmistoon Jani Erola Turun yliopisto, sosiaalitieteiden laitos 8.11.2010 Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 1 / 27
Sisällys 1 Miksi Stata? 2 Aloitus 3 Aineiston manipulointi 4 Analyysit Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 2 / 27
Miksi Stata? Kv. standardi sosiologeilla, sosiaalipoliitikoilla ja taloustieteilijöillä, jotka työskentelevät yksilödatan kanssa Monipuolisempi, avoimenpi ja halvempi kuin SPSS Kaikki menetelmät kaikkien käytettävissä Käyttäjien kirjoittamat paketit Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 3 / 27
Miksi Stata? Helpompi kuin R tai SAS Kieli helpompi Dokumentointi erinomainen Datan manipuloinnissa ylivoimainen Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 4 / 27
Hyviä käytäntöjä Projektin aluksi hyvä tehdä sille oma kansio, jossa tarkoituksenmukaisia alikansioita sekä lokikirja Suositeltavat kansiot ainakin: Work/Työ: kaikki työn alla/kesken olevat tiedostot Posted/Lähetetty: kaikki muille lähetettävät tiedostoversiot Delete/Poistettavat: projektin lopuksi siivottavat tiedostot Lisäksi tarvittaessa mahdolliset alakansiot ajotiedostoille, datoille, teksteille jne.. Lokikirjaan kirjataan päivän päätteeksi mitä on tehty Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 5 / 27
Statan avaaminen Kaksoisklikkaus ikonia! Command-ikkuna: kirjoita käsky, aja painamalla enter Review-ikkuna: listaa kaikki session aikana ajetut käskyt (onnistuneet ja epäonnistuneet Variables-ikkuna: kun data auki, aineistossa olevat muuttujat Avaa auto.dta-esimerkkiaineisto; File > datasets... Tarkastele aineistoa describe, summarize ja tabulate-käskyillä. Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 6 / 27
Keskeisiä käskyjä ndit - avaa haun help-tiedostoihin ja verkosta saataviin ohjelmiin (myös Help-valikon Search) query mem - käytetyn muistin määrä; set mem - käytetyn muistin määritteleminen doedit - vaikka pääosa käskyistä on ajettavissa valikoiden kautta, paras tapa käyttää Stataa on käyttää do-editoria (Window-valikon Do-le Editor) Määritä käytettävissä oleva muistiin 700 megaan. Avaa sen jälkeen do-editori. Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 7 / 27
Do-tiedoston aloittaminen, I Do-len alkuun on hyvä tehdä lyhyt kuvaus määritellään muisti set mem -käskyllä set mem 750m mikä käytät Stataa mikroluokissa, määritä ohjelmalle kansiot hankilökohtaisia ado-tiedostoja (PERSONAL) ja lisäosien (STBPLUS) esennusta varten sysdir set PERSONAL "\\utuhome.utu.\japeer\ado\personal" sysdir set STBPLUS "\\utuhome.utu.\japeer\ado\stbplus" Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 8 / 27
Do-tiedoston aloittaminen, II Tämän jälkeen määritellään työskentelykansio:, esim. cd c:\...\kansio cd "\\utuhome.utu.\japeer\kurssi\work" Seuraavaksi määritellään Statalle log-tiedosto: s capture log close log using harkka, text replace Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 9 / 27
Aineiston avaaminen Kun työskentelykansio on määritetty aluksi, aineiston ottaminen käyttöön on yksinkertaista use-käskyä käyttäen use ESS3e03.2_F1.dta, clear Huom! Ilman clear-asetusta virheilmoitus, jos jokin aineisto jo käytössä Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 10 / 27
Osa-aineiston määritteleminen, I drop-käskyllä kerrotaan, mitää muuttujia aineistosta pudetetaan keep-käskyllä kerrotaan, mitä muuttujia aineistossa pidetään drop name essrou regionat-supqyr keep ppltrs cntry pdwrkcr gndr age /* */ edulvl edulvlf edulvlm ipcrtiv-impfun Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 11 / 27
Osa-aineiston määritteleminen, II vastaavasti keep/drop if -käskyillä määritetään minkä kriteerien mukaan tapaukset pidetään aineistossa mikä tahansa analyysi voidaan rajoittaa vain osaan tapauksista pudottamatta tapauksia keep if age>20&age<=60 keep if cntry=="de" cntry=="fi" cntry=="gb" cntry=="se" mean ppltrs, over(gndr) mean ppltrs if age>40 & age<=50, over(gndr) Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 12 / 27
Muuttujien uudelleen nimeäminen rename (lyh. ren) vanhamuuttuja uusimuuttuja ren ppltrs trust ren pdwrkcr work Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 13 / 27
Muuttujan uudelleen koodaaminen luodaan ensin uusi tyhjä muuttuja gen-käskyllä sitten korvataan puuttuvat tiedot ehdollisesti sarjalla replace-käskyjä gen agegr=. replace agegr=1 if age>21&age<=30 replace agegr=2 if age>31&age<=40 replace agegr=3 if age>41&age<=50 replace agegr=4 if age>51&age<=60 Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 14 / 27
Muuttujien koodaaminen luupissa useita samankaltaisia muuttujia on helppo koodata luupissa foreach-käskyn avulla gen edu=. replace edu=0 if edulvl<=1 replace edu=1 if edulvl>=2 & edulvl<=4 replace edu=2 if edulvl>=5 & edulvl<=6 ta edu edulvl foreach t in f m { gen edu`t'=. replace edu`t'=0 if edulvl`t'<=1 replace edu`t'=1 if edulvl`t'>=2 & edulvl`t'<=4 replace edu`t'=2 if edulvl`t'>=5 & edulvl`t'<=6 ta edu`t' edulvl`t' } Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 15 / 27
Muuta kirjaimia sisältävät muuttujat numeerisiksi natiiveilla aineistoilla harvemmin tarvittu, käännetyissä useammin encode cntry, gen(cn) numlabel cn, add ta cn Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 16 / 27
Keskiarvot alaryhmissä Yhdistämällä mean-käsky over-option kanssa saadaan ryhmäkohtaiset keskiarvot mean trust age, over(cn) Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 17 / 27
Ristiintaulukointi 2-suuntainen ristiintaukointi tehdään ta-käskyllä (tabulate) ta eduf edu ta eduf edu, col nofreq ta eduf edu, row nofreq Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 18 / 27
Regressiomalli perusregressio tehdään Statalla regress-käskyllä 10-versiossa kategoriset muuttujien käyttö edellyttää xi-etuliitettä mallikäskyyn ja i.-etuliitettä itse kategoriselle muuttujalla regress trust gndr cn xi: regress trust gndr i.cn Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 19 / 27
Mallien tallentaminen Mallien estimaatit tallennetaan myöhempää käyttöä varten estimates store -käskyllä Toimii kaikissa malleissa estimates store regres1 xi: regress trust gndr i.cn i.edu estimates store regres2 xi: regress trust gndr i.cn*i.edu estimates store regres3 Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 20 / 27
Mallien vertailu Yksi Statan parhaita puolia on mahdollisuudet mallien vertailuun estimates stats mallien tunnuslukujen vertailuun, esttab, estout ja outreg estimaattien vertailuun estimates stats regres1 regres2 regres3 estimates table regres1 regres2 regres3, star(.05.01.001) style(oneline) estout regres1 regres2 regres3, /* */cells(b(star fmt(2)) se(fmt(2))) style(smcl) label stats(r2 bic N) Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 21 / 27
Logit-mallit yksinkertaisimmin logit-käskyä käyttäen replace work=0 if work==2 replace work=1 if work==1 xi: logit work i.cn gndr i.agegr estimates store logit1 xi: logit work i.cn gndr i.agegr i.edu estimates store logit2 xi: logit work i.cn gndr i.agegr i.edu i.eduf estimates store logit3 Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 22 / 27
Mallien vertailu estout-käskyn eform-optio antaa estimaatit vedonlyöntisuhteina estimates stats logit1 logit2 logit3 estout logit1 logit2 logit3, /* */cells(b(star fmt(2)) se(fmt(2))) eform style(smcl) label stats(chi2 bic N) Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 23 / 27
Multinomial logit mlogit käskyllä voidaan ajaa moniluokkaisia logit-malleja base-optiolla määritellään referenssikategoria xi: mlogit edu gndr i.agegr i.cn, base(0) estimates store mlogit1 xi: mlogit edu gndr i.agegr i.cn i.edum, base(0) estimates store mlogit2 xi: mlogit edu gndr i.agegr i.cn i.edum i.eduf, base(0) estimates store mlogit3 Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 24 / 27
Mallien vertailu Kuten edellä, unstack-optio jakaa saman mallin useaan sarakkeeseen estimates stats mlogit1 mlogit2 mlogit3 estout mlogit1 mlogit2 mlogit3, /* */cells(b(star fmt(2)) se(fmt(2))) eform style(smcl) label stats(chi2 bic N) unstack Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 25 / 27
Faktorointi & doktorointi faktorointi ja rotatointi tehdään Statalla eri käskyllä factor ipcrtiv imprich ipeqopt ipshabt impsafe impdi ipfrule, ml blanks(.3) rotate, kaiser blanks(.3) Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 26 / 27
Lopuksi Lisää vinkkejä http://data.princeton.edu/stata/ http://www.cpc.unc.edu/research/tools/data_analysis/ statatutorial/index.html http://www.ats.ucla.edu/stat/stata/ Jani Erola (Turun yliopisto) Stata 2010 8.11.2010 27 / 27