Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!).
|
|
- Arto Nurmi
- 7 vuotta sitten
- Katselukertoja:
Transkriptio
1 Uudelleenpainotus 1 Kertaus: Otospaino kuvaa sitä kuinka monta tilastoyksikköä yksi otosyksikkö vastaa tutkimusperusjoukossa joka toivon mukaan on lähellä tavoiteperusjoukkoa. Jos paino on yksi, on taustalla kokonaistutkimus, osite josta kaikki on valittu tai erityishavaintoarvo. Tällaisia painoja on useinkin yhteisötyyppisissä tiedusteluissa eli jos esimerkiksi kaikki isot yritykset ja kunnat ovat mukana otoksessa. Kotitaloustyyppisissä tiedusteluissa painot ovat hyvinkin isoja, satoja tai tuhansia tai jopa kymmeniä tuhansia. Siten yksi vastaaja edustaisi perusjoukossa painon ilmoittaman määrän yksikköjä. Ideaalitilanteessa kaikki hänen edustamansa yksiköt olisivat samanlaisia kuin hän, silloin saataisiin täysin luotettava tulos. Näin ei tietenkään juuri koskaan ole. Mutta vaihtelun tässä alaryhmässä tulisi ainakin olla pientä eli painon edustaman ryppään tulisi olla mahdollisimman homogeeninen. Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!). 152
2 Uudelleenpainotus 2 (b) Perusotospainot tai lyhyemmin peruspainot jotka vastaavat edellisiä painoja mutta nyt toimitaan vain vastaajien tasolla. Näiden avulla laskettavat t estimaatit tit ovat oikealla tasolla ja luotettavia, tt jos vastaamattomuus on harmitonta eikä kehikko-ongelmia ole (vastaa siis mekanismia MARS). Käytetään näistä painoista kuitenkin eri symbolia, w k, joka on esimerkiksi i ositetun t satunnaisotannan t tilanteessa t (kun n h vaihdetaan r h :een) w k =N h /r h On hyvä huomata, että tämä saadaan otanta-asetelmapainosta seuraavasti: w k =a k (n h /r h ) Painojen summa kussakin ositteessa on sama kuin asetelmapainoilla laskettuna. Painojen jakauma pysyy samana mikäli ylipeiton ja vastaamattomien summa on kussakin ositteessa suhteellisesti sama. Siten siis jos vastauskadon ja ylipeiton summa vaihtelee, myös painojen jakauma muuttuu. 153
3 Uudelleenpainotus 3 (c) Jälkiositukseen perustuva painotus (post-stratification). Tässä tapauksessa uusinta kehikkoa hyväksikäyttäen y muodostetaan uusi ositus (jos on jo esiositus niin sen päälle), jossa tavoitellaan löytää mahdollisimman homogeenisia osajoukkoja. Siis käytetään päivitettyä kehikkoa jos sellainen on olemassa mutta toimintaa voi toki toteuttaa myös alkuperäiselle kehikolle, jolloin harhan oikaiseminen on rajoitetumpaa. Jälkiositustiedon kehikosta tulisi olla laadukasta, muutoin menetelmä voi heikentää estimaattien tarkkuutta. Tavallisimmin jälkiositus perustuu helposti saatavissa oleviin taustamuuttujiin kuten kotitaloussurveyssä alueeseen, ikään, sukupuoleen ja ehkä sosioekonomisen aseman karkean muotoon. Yrityssurveyssä voidaan mennä esimerkiksi esiositusta tarkemmalle toimialatasolle. Jälkiositus on erityisesti kehikkovirheestä johtuvan harhan oikaisumenetelmä, mutta usein se myös oikaisee vastauskadosta johtuvaa harhaa. Sen avulla voidaan myös tarkentaa estimaatteja mutta taattua onnistuminen ei ole. 154
4 Uudelleenpainotus 4 Teknisesti jälkiosituspaino toimii seuraavasti tilanteessa jossa on jo esiositteet h (h=1,..,h). Merkitään jälkiositteita vaikkapa g:llä (g=1,,g). Jälkiositus voidaan tehdä vain esiositteiden sisälle, eli jälkiositteita on maksimissaan H*G kappaletta. Jos tätä otospainoa merkitään w k (post), niin se saadaan vastaavalla tavalla kuin esiosituspohjainen paino eli w k (post)= N hg /r hg Kuten kaavasta havaitaan, jälkiosituksen ehtona on tuntea perusjoukon koko N hg esi- ja jälkiositteiden muodostamissa soluissa. Jollei näitä tietoja ole riittävän luotettavasti saatavissa, ei jälkiositusta voi tehdä. Käytännössä harvoin jälkiositus voidaan pienotosongelmista johtuen toteuttaa siten, että kaikki H*G ositetta lopulta tulee käyttöön. Siis osaan esiositteista ei toteuteta jälkiositusta. Jälkiositus on helpommin mahdollista, jos esiositteita on vähän tai varsinaista esiositusta ei ole ollenkaan, tai siis on vain yksi kappale, kuten yksinkertaisen satunnaisotannan tai implisiittisen osituksen tapauksessa. 155
5 Jälkiositusesimerkki Historiatietoisuus Suomessa, bruttootos Osite Väestö määrä Bruttootoskoko Asetelma paino Fi_Other , Fi_Young ,592 Sv_Other ,9574 Sv_Young , Jälkiosite ikäryhmä*sukupuoli*kieli Ikäryhmä Sukupuoli Kieli Väestö Jälkiositettu Vastanneet otospaino Bruttootos Vastausprosentti ylipeitto mukana fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , Tämä on alkuosaltaan sama kuin aikaisemmin esitetty osite-esimerkki mutta vasemmassa taulukossa ovat myös asetelmapainot. Alempi tilanne on fiktiivinen jossa olen kuvitellut vastausaktiivisuuden vaihtelevan tietyllä tavalla. Olen sitten tutkinut vastanneiden aineistoa ja muodostanut 12 jälkiositetta. Näiden jälkiositteiden vastausaktiivisuus ilme- nee taulukon oikeasta sarakkeesta. Vastaavasti olen laskenut rekisteristä kunkin jälkiositteen väestömäärät minkä jälkeen onkin helppo muodostaa painot. 156
6 Uudelleenpainotus 5 (d) Kalibrointi joka on jälkiosituksen laajennus eli jälkiositus on kalibroinnin perusmuoto. Kehikkoperusjoukkotason muuttujia voi olla useita eikä niitä tarvitse soveltaa ristiinluokittelemalla kuten jälkiosituksessa. Ristiinluokittelun ongelmanahan ovat usein liian pienet solut, mitattuna vastaajien määrillä. Vastaavasti painot voivat olla liian epäluotettavia. Kalibroinnin mukavin puoli on siinä, että sen avulla voidaan tietyt reunajakaumat (sellaiset jotka käyttäjä valitsee) määritellä juuri halutuiksi, mieluiten oikeiksi, jos sellaiset on tiedossa. Tavallisimmin tätä sovelletaan siten että surveystä saadaan väestön karkeat ikäjakaumat isohkoilla aluejaoilla sukupuolittain viimeisimmän väestötilaston (eli benchmark-aineiston) aineiston) mukaiseksi. Tämä luo luottamusta käyttäjissä. Muilla tasoilla ei yhteensopivuutta kuitenkaan voida taata kuin sellaisilla jotka on kalibrointimalliin sijoitettu. 157
7 Uudelleenpainotus 6 Kalibrointi voidaan toteuttaa minkä tahansa muun painotuksen pohjalle, jos ja kun toiminto toteutetaan riippumattomasti niistä. Olkoot seuraavassa nämä painot w. Jos vastaavasti kalibroituja otospainoja merkitään w(cal): lla, niin seuraava kalibrointiyhtälö täytyy päteä: x = k U xk w(cal) r k U Siis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossaon on saatava samat estimointitulokset benchmark-totuuden kanssa eli käyttäjän valitsemien reunajakaumien mukaiset estimointitulokset. On varsin helppo päätellä, että löytyy useita vaihtoehtoja yhtälön toteutumiselle. Siksi täytyy löytää lisäehtoja ja mielellään sellaisia joista on hyötyä varsinaiseen estimointiin eli y- muuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapa malliestimaatteihin. Klassinen lähestymistapa on käyttää etäisyysmittaa. Tässä muodostetaan etäisyysmitta aloituspainojen ja haluttujen painojen välille ja minimoidaan se siten että edellä mainittu ehto pätee. Siten siis painot ovat sellaiset että erot aloituspainojen ja kalibroitujen painojen välillä ovat tietyssä mielessä mahdollisimman pienet eli alkutila ei muutu liikaa mutta benchmark-etu saavutetaan eli tietyt estimaatit ovat sellaisia kuin käyttäjä on halunnut Painotusmenetelmät 2009, Seppo 158
8 Uudelleenpainotus 7 (e) Vastauskatomalliin (response propensity modelling) perustuva uudelleenpainotus. Tässä mallitetaan vastausmekanismi logistisella tai probitregressiolla, mallista otetaan ennustearvot kullekin vastaajalle ja näiden käänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopiva skaalaus. Oletuksena on siis että vastausmekanismi on MAR. Menetelmä toimii sitä paremmin mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta (siis koskien sekä vastanneita että vastaamattomia yksikkötasolla). Yleensä aputietoa tähän on enemmän käytettävissä kuin esimerkiksi jälkiositukseen, joka edellyttää perusjoukkotason agregoitua aputietoa. Tämä on menetelmän selkeä etu. Etuna on myös, että se suoraan pureutuu vastauskatoon. Itse käyttäisin tätä ainakin isoissa otoksissa, sehän voi sisältää parhaimmillaan myös jälkiosituksen ja/tai kalibroinnin. Huomaa, että pieniin aineistoihin, erityisesti isoja yrityksiä koskeviin, ei oikein mikään painotusmenetelmä sovi hyvin. Imputointi olisi parempi. 159
9 Uudelleenpainotus 8 Teknisesti vastaustodennäköisyysmallia hyödyntävä painotus toteutetaan seuraavasti. Koska tämä on riippumaton muista uudelleenpainotuksista, menetelmä voidaan toteuttaa mihin aikaisempaan painoon tahansa kytkettynä. Olkoon seuraavassa meillä ensin paino w k ja logistinen regressio antoi kullekin vastaajalle k estimoidut vastaustodennäköisyydet p k. Tällöin uudet painot saadaan seuraavasti: w k (res)= (w k /p k )q c, jossa q c = skaalaustekijä, jonka avulla painot täsmäytetään halutun benchmark-ryhmän ryhmän c tasolle. Tämä on usein helpointa tehdä ositustasolla (esiositus jollei jälkiositusta ole tehty, muuten jälkiositus) mutta voim myös muuta kalibrointia soveltaa. 160
10 Uudelleenpainotus 9 - Keskustelua 1 ESS:ssä on tällä hetkellä käytössä asetelmapaino-nimellä kulkeva skaalattu paino. Se ei vastaa minun asetelmapaino-käsitettäni, vaan kysymys on osin perusotospainosta tai sen keskiarvoistetusta versiosta eli analyysipainosta. On mahdollista, että paremmat painot tulevat käyttöön jos testausprojektit tuottavat riittäviä tuloksia. Nämähän voidaan melko helposti tuottaa jos on käytössä eri maiden väestötiedot (eli 15-vuotiaiden määrät) ikäryhmän, sukupuolen, alueen ja koulutustason mukaan (tämä on maksimimäärä mitä on kokeiltu). Uudet painot saadaan vertaamalla alkuperäisten painojen antamia tuloksia näihin oikeisiin tietoihin ja tämän jälkeen tehdään suhteellinen muunnos painoihin eli ositustyyppinen kalibrointi. Vastaustodennäköisyyksiä olisi myös mahdollista hyväksi käyttää, muttei kaikissa maissa, koska ne eivät kykene antamaan vastaamattomista hyödyllistä aputietoa (samat muuttujat kuin edellä ja mielellään vaikkapa talouden koosta jotain tai mitä vain vastaamattomuutta selittävää löytyy). Yritän vaikuttaa siihen, että tällaista t tietoa t kerättäisiin. ii Suomesta, Ruotsista, t ym. sellaista löytyy aika paljon rekistereistä, kysymys on vain vaivannäöstä että se linkattaisiin brutto-otokseen. 161
11 Uudelleenpainotus 10 - Keskustelua 2 Edellä esitetyt näkökohdat sopivat melkoisen moniin muihinkin surveyhin. Apumuuttujia pitäisi hankkia tarkoituksella aineistoihin, jotta puuttuvuutta ensin analysoitaisiin ja sitten siitä saatava informaatio liitettäisiin uuspainoihin. Käyttäjän kannalta hyvien ja huonojen painojen kanssa toimitaan pääosin samalla lailla, ainakin piste-estimoinnissa. Siten käyttäjän tulisi vaatia kunnon painoja, vaikkei osaisi sanoakaan miten ne on paras milloinkin tuottaa. Ilman vaativia käyttäjiä ei parannusta muutoinkaan synny. Ole siis tiukkana vastaanottamasi datan kanssa. Olen ollut itseni kanssa ainakin toistaiseksi tiukkana kun olen rakentanut otantatiedostoja uhritutkimukseen ja historiatutkimukseen. Tiedät että käytössä on oleva paljon apumuuttujia. Nyt on sitten porukallamme haaste hyödyntää ne hyvin. Keväällä 2010 olemme menestyksemme kanssa viisaampia sillä kenttädatat saadaan loppuvuodesta valmiiksi. 162
12 Esimerkki: Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla Tanskasta oli paras apumuuttujavalikoima käytettävissä ja esimerkki on siksi i sieltä. Suomen uhri- ja historiatutkimuksissa i k i apumuuttujia on siis vielä selvästi enemmän ja uudelleenpainotukselle tarjoutuu entistä paremmat edellytykset. Tarvekin on suuri, koska ainakin uhritutkimuksen nettiosassa on odotettavissa huomattavaa vastauskatoa ja sen valikoituneisuus on ilmeinen. Tanskan datassa käytin seuraavia muuttujia: sukupuoli, ikäryhmä, alue (varsin laaja), siviilisääty ja onko tausta tanskalainen vai muu. Mukana oli muutama yhdysvaikutustermi. Logistinen regressiomalli oli varsin tuloksekas mutta sen yksityiskohdat sivuutetaan tässä. Seuraavan sivun tulosteesta ilmenee muutamia kiintoisia seikkoja. 163
13 Esimerkki vastaustodennäköisyyksistä, Tanskan ESS data 3. kierros Ennustettu toden näköi syys 1 0,9 0,8 Tanskalaistaustaiset 0,7 0,6 0,5 0,4 Naimisissa olevat Lesket 0,3 0,2 Ulkomaalaistaustaisetl t i t 0, Kertymä Kyselytutkimuksen Metodiikkaa 2009 Seppo 164
14 Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla 3 Kuten edellisestä osiosta olet oppinut näiden ennustettujen vastaustodennäköisyyksien käänteisluvuilla kerrotaan peruspaino ja painot skaalataan tämän jälkeen tavoiteperusjoukon tasolle käyttäen 15-vuotiaiden id väestömääriä. ää Ohessa on keskeiset k ttulokset tkahdesta otospainosta. Tulkitse niiden anti. Mieti myös mikä vaikutus eri painoilla on itse estimaatteihin. Tanskan kaksi otospainoa: peruspaino p ja adjustoitu paino The MEANS Procedure Coeff of Variable N Sum Mean Variation Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ w_basic w_adj ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ! 165
15 Tilastollinen Editointi 1 Tilastollinen editointi on surveyn aikaa ja rahaa vievimpiä vaiheita. Jos siitä mahdollisimman iso osa on sijoitettu jo keruun yhteyteen, sen ei kuitenkaan tarvitse olla olennainen hidaste koko surveyprosessissa. Paperilomakkeisessa postitiedustelussa tämä vaihe voi viedä hyvinkin kauan ja rahaa kuluu. Tässä sessiossa esitän tilastollisen editoinnin periaatteet sekä valikoiman keinoja ja menetelmiä niiden käytännön toteuttamiseen. Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten muissa surveyssä ja laitoksissa tehtyä kehittämistyötä. Kehittää järjestelmää virheiden havaitsemiseksi, tarkistamiseksi ja korjaamiseksi erityisesti painottaen lopputulosten kannalta olennaisia puutteita (valikoiva editointi). Havaita, tarkistaa ja korjata mikrotason virheet riittävän hyvin, ja myös siten, että makrotason (eri agregaattitasojen) tulokset ovat uskottavia ja luotettavia. Puuttuvan tiedon käsittelyä, erityisesti imputointia, ei voida kokonaan hoitaa irrallaan editoinnista, mieluummin il i nämä äti toiminnot i tit integroidaan id toisiinsa. tiii Keskeisistä osioista tuotetaan indikaattoreita, joilla voidaan seurata aineiston alkuperäistä ja parannettua laatua sekä editoinnin määrää ja siihen kulunutta työmäärää. 166
16 Tilastollinen Editointi 2 Tilastollinen editointi on siis keskeinen osa laadun varmistusta, koskien sekä käsillä olevan surveyn prosessia että tulevaisuuden kehittämistarpeita. Tärkeitä äkiäovat myös tietotekniset i aineiston i ominaisuudet i kuten, että se tulisi lii olla esimerkiksi helposti käyttöönotettavissa erilaisissa ohjelmistoissa. - Kaikista prosessissa tehdyistä muutoksista tulisi jäädä jälki ja mielellään myös perustelu toteutetulle operaatiolle. Tällöin voidaan myös jälkikäteen arvioida kuinka perusteltu operaatio on ollut ja kenties muuttaa ratkaisua, jos se myöhemmän tiedon valossa katsotaan tarpeelliseksi. - Editointiprosessissa havaitut virheet on hyvä luokitella niiden kokonaismerkityksen mukaan ja vastaavasti tuottaa kustakin luokasta virhelukuja (suhteellisia ja absoluuttisia sekä painotettuja). Usein kolmekin virheluokkaa riittää: (a) fataalit eli hyvin keskeiset virheet, (b) pienet virheet, (c) varoitukset siitä että tähän on tarvittaessa kiinnitettävä huomiota (voisi olla osa paradataa). 167
17 Tilastollinen Editointi 3 Editoinnin keskeinen käsite on editointisääntö (edit rule). Editointisäännöt asetetaan mikäli mahdollista etukäteen ja sisällytetään surveyprosessin tuotantomalliin. Säännöt täytyy luonnollisestilli i perustella ja dokumentoida siten, että myös käyttäjät voivat saada tästä tietoa. Tavallisesti esitetään kolmenlaisia editointisääntöjä, koskien: (i) validiteettiä (esim. jos kysytään ikää ja vastaus on 311, kun on tarkoitettu lukua 31; tai jos on ilmoitettu sellainen vastausvaihtoehto jota ei voi olla). (ii) yhteensopivuutta tt (esim. lasten määrä perheessä = 2 ja aikuisten määrä =2, mutta perheen kooksi ilmoitetaan epäyhteensopiva luku = 5; jos yrityksen tulojen ja menojen erotus ei vastaa kokonaistulosta ; yrityksessä työssäolovuosien määrän tulee olla jossakin suhteessa ikään, esimerkiksi siten että palvelussuhteen l aloittaessaan täytyy olla vähintään ää 16-vuotias; palkan ja ammattinimikkeen i ikk on hyvä olla jossakin suhteessa toisiinsa _ missä? ), ja (iii) jakaumaa (esim. asetetaan että kokoaikaisen työntekijän viikkotyöajan tulee olla vähintään 30 tuntia; tai yrityksen liikevaihdon kasvu edellisestä tiedustelusta ehdolla että yritys on koostumukseltaan säilynyt ennallaan, ei saa olla alle -50% eikä yli 100% mikä on symmetrinen sääntö). 168
18 Tilastollinen Editointi 4 Editointisäännöt määrittelevät ns. veräjät tai ovet (gates). Editointisysteemiä luotaessa on pyrkimys löytää mahdollisimman järkevät ki kriteeriti näille ml. esimerkiksi i jakaumien laajuuden. Ideahan on, että mikäli saatu vastaus tai muu tieto ei mahdu tästä veräjästä sisään, se tulee virhelistalle eli tarkistettavaksi. Tarkistuksessa voidaan tulos korjata tai myös hyväksyä sellaisenaan, mikäli havaitaan oikeaksi. On hyvä havaita, että veräjän kapeus vs. leveys vaikuttaa tarkistusprosessiin. Leveästä veräjästä mahtuu paremmin läpi huonompikin tapaus. Siten mitä leveämpi veräjä, sitä nopeampi ja halvempi tarkistusprosessi. Toisaalta laatu helposti heikkenee. Veräjä tai veräjien joukko on siis paras määritellä optimaalisen leveäksi, mutta tämä on helpommin sanottu kuin toteutettu. Kokeilut erilaisilla vaihtoehdoilla auttavat asiaa. 169
19 Tilastollinen Editointi 5 Lista keskeisistä toiminnoista 1 (i) On syytä aloittaa tunnistimista eli identifioijista. Virheet näissä eivät haittaa jos survey-aineisto on täysin itsenäinen kokonaisuus eli aineisto käytetään sellaisenaan kuin on saatu. Mutta jos on tarvetta yhdistää tiedosto toiseen, on tunnistimen oltava sama ja oikea molemmissa aineistoissa. Muuten tulee puuttuvaa tietoa. Käytännössä on myös niinkin että sama tunnistin on kahteen kertaan aineistossa mutta ei tarkoita samaa yksikköä. Tällaiset tuplat ovat editoijalle kuisallisia. (ii) Toinen, jo edellä esitetty tarkistusmenetelmä on määritellä kullekin muuttujalle arvoalue ja katsoa ovatko vastaukset tällä arvoalueella. Tämä on syytä sisällyttää datan sisäänlukuun jolloin ongelmaan kiinnitetään ajoissa huomiota. Korjaaminen ei toki aina ole helppoa. (iii) Erikoishavaintoarvojen läpikäynti on selkeätä jatkoa edelliselle vaiheelle. Hyväksyttävällä alueella sijaitsevat havaintoarvot voivat olla kiusallisia, jos niiden vaikutus tuloksiin on liian suuri. Tämä koskee ns. ääriarvoja tai muita poikkeavia i arvoja. 170
20 Tilastollinen Editointi 6 Lista keskeisistä toiminnoista 2 Miten tulisi menetellä ääriarvojen kanssa? (a) Jos arvo on virheellinen tai väärään tulkintaan perustuva, se on pyrittävä korjaamaan mahdollisimman oikeaksi. (b) Poistaa havainto eli merkitä puuttuvaksi (trimmaus). i (c) Merkitä erityishavainnot omaan osajoukkoonsa ja päättää niiden käsittelystä myöhemmin ja mielellään tiimissä. (d) Siirtää havainto lähemmäksi muuta joukkoa (winsorointi). (e) Soveltaa analyysissä sellaisia menetelmiä joihin ääriarvot eivät vaikuta tai vaikuttavat vähän (robustointi). (f) Muuttaa yksikön painoa oheistiedon perusteella (yleensä pienentää). Tavallista otospainojen kautta. (g) Muuntaa muuttuja epätasavälisesti luokitelluksi, jolloin iso arvo kuuluu esimerkiksi ryhmään Tätä suuremmat. 171
21 Tilastollinen Editointi 7 Lista keskeisistä k i toiminnoista i i t 3 (iv) Neljäntenä editointitehtävänä haluan tuoda esiin ongelman puuttuvan, nollatiedon, ei-soveltuvan ja mahdottoman tiedon välillä. Eli on syytä löytää fiksu koodi kullekin. ESS-standardit ovat tyyppiä 8, 9, 88, 99 tai 6666, monet käyttävät myös negatiivisia koodeja kuten -1, -8 ja -9 (erottuvat paremmin kuin positiiviset koska kunnon havaintoarvot tai koodit ovat positiivisia). Älä siis käytä esimerkiksi koodia = 0 puuttuvalle havainnolle vaan vain jos arvo on tosiaan nolla (vaikkapa ettei ole kuluttanut rahaa lautapinoihin). (v) Kun edellä esitetyt perustarkistukset on tehty, voi siirtyä ristikkäis- eli yhteensopivuustarkistuksiin. Tällöin aloittaa voi ristiintaulukoista tai katsella vastaavia asioita jatkuvien muuttujien tapauksessa hajontakuviosta. (vi) Monimuuttuja-analyyseihin perustuvat tarkistukset, jotka luontevimmin tehdään aidon tutkimusasetelmaan sopivan mallin avulla, vaikkapa regressiomallin avulla. Residuaalit paljastavat outouksia ja toki kaikkea voidaan katsella graafisesti myös = graafinen editointi. Nyt on yhä enemmän monidimensionaalisia grafiikkoja tietokoneellistettu. 172
22 Tilastollinen Editointi 8 - Kommentteja Editointi on siis yksi osa datan puhdistamista. Olisi hyvä, jos se olisi mahdollisimman a automaattinen aatt eli tarkistukset set ja korjaukset tulisivat fiksusti mutta automaattisesti. Valikoiva editointi on eräs ratkaisu tähän. Siinä virheelle määritellään todennäköisyys. Suurin työpanos keskitetään ison todennäköisyyden tapauksiin joissa ei yleensä tehdä automaattista korjausta. Pienen virhetodennäköisyyden tapaukset sen sijaan hoidetaan automaattisesti tai kaikkia ei edes korjata koska niiden vaikutus kokonaisuuden kannalta on vähäinen. Jätetään siis jatkoanalysoijan huoleksi. Hyvinkin editoidussa datassa vaativa käyttäjä aina löytää puutteita. Esimerkiksi ESS-datat on johonkin rajaan asti editoituja, mutta voimme tutkia kurssin demossa löydämmekö jotain epäilyttää. Luulen että arvoalueet ovat kunnossa mutta yhteensopivuuksissa on varmasti epäilyttävyyksiä. Katsomme tätä muutaman ristiintaulukoinnin kautta. Mieti mitä olisi hyvä katsoa. 173
23 Imputointi 1 Imputointi on puuttuvan tai epäkelvon tiedon paikkaamista korvikearvolla. Sen käyttö on lisääntynyt huomattavasti viime aikoina. Syyt ovat monia. Yksi lienee se ikävä tosiasia, että kerättyihin aineistoihin on jäänyt yhä enemmän puuttuvuutta ja vastaavasti estimaattien laatu on heikentynyt. Jotta laatu paranisi imputoimalla, on imputointitoiminnon oltava riittävän hyvää. Huonolla imputoinnilla laatu voi heiketä. Toinen syy imputointitekniikkojen lisääntymiseen on ollut tietotekniikan kehittyminen, mikä antaa edellytyksiä hyvinkin vaativille ratkaisuille. Ohjelmistojakin j on ilmaantunut yhä enemmän, mutta yhtään yleispätevää ohjelmistoa ei ole olemassa. Kuhunkin tilanteeseen on löydettävä omansa tai ohjelmoida itse sopiva ratkaisu. Kolmas syy on imputointitutkimuksen lisääntyminen. Se on usein haasteellista, koska vaatii kovaa teoriaa, hyvää tietotekniikkaa ja datan ymmärtämistä. 174
24 Imputointi 2 Imputointi on tekniikka jonka tarkoitus on korvata puuttuvia tai muutoin epätäydellisiä ä havaintoarvoja a oja sellaisilla s a joiden (i) odotetaan mieluiten olevan mahdollisimman lähellä oikeita arvoja, tai jos tämä ei ihanteellisesti onnistu, niin (ii) näiden imputoitujen arvojen olisi hyvä olla mahdollisimman lähellä oikeiden arvojen jakaumaa, mutta jos tässäkin on vaikeuksia, niin (iii) imputointeihin perustuvien agregoitujen arvojen tulisi olla mahdollisimman lähellä vastaavia oikeita arvoja. Tavoitteena voi olla myös, (iv) että imputoitujen arvojen järjestys olisi mahdollisimman lähellä oikeata järjestystä. 175
25 Imputointi 3 Ensimmäinen on vaativin. Jos siinä onnistutaan hyvin, niin samalla yhteydet eri muuttujien välillä ä enemmän e tai vähemmän ä imputoitujen tuje ovat lähellä oikeita yhteyksiä. Jos tämä ei onnistu, on mahdollisuus pyrkiä toteuttamaan imputointi niin, että yhteydetkin ovat mahdollisimman oikeita. Olkoon tämä viides (v) vaatimus imputoinnille. Jos siis vaatimus (i) toteutuu hyvin, niin myös muut vaatimukset toteutuvat hyvin. Mutta vaatimukset (ii) ja (iii) ja siis myös vaatimus (iv) voivat toteutua hyvin, vaikka vaatimus (i) ei toteutuisikaan. Kussakin imputointitilanteessa on syytä miettiä ensin, mikä on minimivaatimus ja rakentaa imputoinnin strategia siten, että tämä vaatimus tulisi vähintäänkin täytetyksi. Vaatimattoman minimivaatimuksen toteuttaminen voi onnistua yksinkertaisellakin imputointimenetelmällä. Vaativa minimivaatimus ei kuitenkaan automaattisesti merkitse monimutkaisen menetelmän käyttöä, vaan fiksun. 176
26 Imputointi 4 Yleisin imputointimenetelmä (jota kaikki eivät kutsu imputointimenetelmäksi) on asettaa puuttuvalle havainnolle hyvä koodi. Editoinnin yhteydessä oli jo puhetta hyvistä koodeista. Idea on asettaa mahdollisuuksien mukaan eri koodi kullekin puuttuvuuden lajille. Näin koodattua (imputoitua) muuttujaa ei voi käyttää jatkuvana muuttujana eli laskien esimerkiksi keskiarvoja, keskihajontoja tai desiilipisteitä. Sen sijaan frekvenssityyppisiä estimaatteja tt tällaisesta t saa vaivattomasti. ti Jatkuva muuttuja voidaan toisaalta kategorisoida jolloin vaikkapa tulot luokitellaan tason mukaan järjestykseen ja lisäksi tulee puuttuvuusluokkia. Kategorista tai kategorisoitua muuttujaa voi käyttää selittäjänä malleissa jos ei vedä vääriä johtopäätöksiä puuttuvuuskoodilla imputoiduista selittäjistä. Voimme tässä mielessä sanoa että puuttuvat havaintoarvot on imputoitu. Se ei ole tietystikään varsinaista imputointia. 177
27 Imputointi 4 "##!$%&'()!!!!!!!!!! *+,!-."/!0$%1,(&$, 02$34!5%3,(!6%$!7'!8293!'237%'28!,8,137%':!-7'82'( 0.*;*<-=!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!-$,>&,'14!!!!!!0,$1,'3!!!!!!!! *+,!?237%'28!@%28737%'!02$34!!!!!!!!!!!!!!!!!!!!!!!!!ABC!!!!!!!!!!!!!!!!DEFAE!!!!25,8 *+,!#G,(79+!0,%H8,I9!02$34!J#00K!!!!!!!!!!!!!!!!!!L)!!!!!!!!!!!!!!!!!AFAL!!!!!!!5,3 M7N,$289:!J*+,!87N,$28!H2$34!%6!-7'82'(K!!!!!!!!!!!!D!!!!!!!!!!!!!!!!!OFOB! 0,1 *+,!@,'3$,!02$34!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!PCE!!!!!!!!!!!!!!!!DAF)C!!!!!21,3 *$&,!-7''9!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!B)!!!!!!!!!!!!!!!!!!!PF)E! 32 *+,!S$,,'!M,2T&,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DAD!!!!!!!!!!!!!!!!!!BFCL! 9,4-7''79+!#%1728!Q,R%1$2371!02$34!!!!!!!!!!!!!!!!!!ADB!!!!!!!!!!!!!!!D)FAB! 22,6 *+,!M,63!<8872'1,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!CB!!!!!!!!!!!!!!!!!)FAA! 0,3 *+,!@%RR&'793!V%$W,$9X!02$34!%6!-7'82'(!!!D!!!!!!!!!!!!!!!!!OFOB!!!!!!!!!0,1 Y3+,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DL!!!!!!!!!!!!!!!!!OFLL!!!!!!!!!1,2?%3!2HH8712N8,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!)UC!!!!!!!!!!!!!!!PPFPU!!!!!!!!!!.,6&928!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!!!!!!!! Q%'X3!W'%G!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOC!!!!!!!!!!!!!!!!)FCL!!!!?%!2'9G,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!! Tässä on tuloste jossa puuttuvat tiedot on imputoitu it eli koodattu useammalla ilmaisimella. Arvioi mitä mikäkin puuttuvan tiedon koodi merkitsee. Arvioi lisäksi mitä oikealla oleva sarake merkitsee. Ja mikä on sen puuttuvuusteoreettinen tausta. 178
28 Syrjähyppy jonka syynä on opiskelijan kiinnostus verrata puoluekannatusta vasemmistooikeistoakselin mukaan. Ohessa on sellainen taulukko. Voinet arvioida jotakin myös puuttuvia tietoja antaneista. Puolue p10 Keski arvo p90 Kaikki 3 5,7 8 The National Coalition Party 6 7,6 9 The Swedish People s Party (SPP) Liberals, (The liberal party of Finland) The Centre Party 5 6,7 9 True Finns 3 5,4 8 Christian Democrats 4 5,7 8 The Green League 3 4,8 7 Finnish Social Democratic Party 3 4,5 7 The Left Alliance ,7 5 Communist Party of Finland 0 1,5 3 The Communist Workers' Party of Finland Other Not applicable 4 5,4 8 Refusal 3 5,5 8 Don't know 3 5,4 7,5 No answer 3 5,
29 Imputointi 5 Yksikertainen ja monikertainen imputointi Tavallisinta on imputoida puuttuvan arvon tilalle yksi imputoitu arvo. Tätä kutsutaan yksikertaiseksi imputoinniksi tai yksittäisimputoinniksi (SI = single imputation). Voi olla myös perusteltua imputoida useampi arvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moniimputoinnista (MI = multiple imputation). Moni-imputoinnissa on kaksi strategiaa itse aineiston muodostamisen kannalta: (i) muodostetaan useita havaintoaineistoja joissa kussakin on siis omat imputoidut arvot, tai (ii) laajennetaan yhtä havaintoaineistoa siten, että siellä on siis samat tilastoyksiköt useampia kertoja imputoidun aineiston osalta. Tällä kurssilla en käsittele monikertaista imputointia vaikka se on muotia monissa sovellustieteissä. 180
30 Imputointi 6 Imputointi on prosessi joka tässä katsotaan koostuvan seuraavista 6 osatehtävästä: (i) Datan editointi (ii) Aputiedon hankinta ja huolto (iii) Imputointimallin rakentaminen (iv) Imputointitehtävä tai imputointitoiminto (v) Estimointi sisältäen piste-estimoinnin, otantavarianssin ja imputointivariansssin (vi) Täydennetyn aineiston luonti, sisältäen myös metatietona sen mitkä arvot on imputoitu (liputus). Näistä keskityn seuraavaksi kohtiin (iii) ja (iv). 181
31 Imputointi 7 Imputointimalli 1 Imputointimalli voi perustua viisaaseen tietoon ja hyviin oletukseen. Tällöin sitä ei estimoida vaan malli on sopiva funktiomuoto (imputoitu arvo = f(x)) tai loogisten päättelyjen kokonaisuus (jos näin ja niin, niin imputoitu arvo=noin). Mutta jos se estimoidaan, niin Selitettävä muuttuja imputointimallissa voi olla kahta tyyppiä: (i) Muuttuja jonka arvoja imputoidaan (voi olla jatkuva tai epäjatkuva ml. binäärinen tai multinomiaalinen, ks. Liite; vastaavasti imputointimallin tulee sopia tilanteeseen.) Tämä malli rakennetaan ja estimoidaan vastaajien aineistosta mutta itse imputointii i toteutetaan siis vastaamattomille. Mallin selittäjien tulee olla tunnettuja vastaamattomille. Malli voi olla tuotettu myös eri aineistosta kuin imputoitavasta mutta mallin muuttujien tulee tietysti olla samoja. 182
32 Imputointi 8 Imputointimalli 2 (ii) Puuttuneisuuden indikaattori koskien imputoitavaa muuttujaa (binäärinen: 1=ei puutu tai on kelpo ja 0=puuttuu/epäkelpo). Tällainen malli on tyypillisesti estimoitu logistisella tai probit- regressiolla. Olet jo aikaisemmin nähnyt tällä kurssilla tällaisia malleja (kertaa näitä kohtia). Tuloksena on siis todennäköisyyksiä puuttuneisuudelle siinä joukossa jossa imputointia toteutetaan, vastaavasti todennäköisyyksiä imputoidulle arvolle. 183
33 Imputointi 9 Imputointimalli 3 Tavallisten mallien (regressio, logistinen) lisäksi malli voi olla myös epälineaarinen ja ei-parametrinen. Jälkimmäisistä kiinnostavia imputoinnissa ovat esimerkiksi puumallit ja neuroverkot. Puumalleja on kahdenlaisia, luokittelupuussa selitettävänä on (moni-)kategorinen muuttuja, kun taas regressiopuussa jatkuva muuttuja. Puumalli ja neuroverkko antavat mahdollisuuden luoda osaryhmiä, klustereita, ryppäitä, neuroneja tai millä nimellä niitä milloinkin halutaan kutsua. Pyrkimys on että nämä osaryhmät ovat homogeenisia selitettävän muuttujan suhteen. Imputointien kannalta klusterit ovat hyödyllisiä. Niitä kutsutaan joko imputointiluokiksi tai imputointisoluiksi. Idea on että kunkin tällaisen sisällä toteutetaan itse imputointi. Tämä parhaimmillaan tehostaa imputointia, erityisesti jos kunkin tällaisen luokan sisällä ehto MCAR pätee. Tehostusta tulee sitä enemmän, mitä homogeenisempia imputointisolut ovat. 184
34 Imputointi 10 Imputointitoiminto 1 Imputointitoiminnot voidaan jakaa vain kahteen isoon pääryhmään, kumpikin on ehdollinen käytetylle mallille: (i) Malliluovuttaja-menetelmässä (model-donor method) imputoidut id t arvot otetaan t suoraan mallista tai estimoidusta id t jakaumasta tai viisaan arvauksen funktiosta, eli eivät siis välttämättä havaittuja. (ii) Vastaajaluovuttaja-menetelmässä (real-donor method) imputoidut arvot ovat viimeisessä vaiheessa peräisin joltakin vastaajalta tai muulta aineiston yksiköltä, ja siis arvot ovat aina havaittuja arvoja. 185
35 Imputointi 11 Imputointitoiminto 2 Termi luovuttaja on suora käännös sanasta donor mikä on latinalaispohjainen viitaten myös antamiseen. Ajoittain esiintyy myös sana lainata. On syytä korostaa, että kun jokin yksikkö luovuttaa tai antaa arvon toiselle yksikölle, niin tämä yksikkö ei menetä omaa arvoaan. Siinä on siis kyse kopioinnista. Käytän kuitenkin termiä luovuttaja, koska tämä ei sulje pois sitä, että luovuttaessaan jotakin toiselle, ei itse menetä mitään. Pikemminkin molemmat tai jokin kokonaisuus, jossa molemmat toimivat, voivat hyötyä. Aivan kuten imputoinnissakin hyvä luovuttaminen tuottaa hyötyä estimaatin laadun parantumisen myötä. Näinhän on monissa tilanteissa elävässäkin elämässä, kun vaikkapa luovutat omaa osaamistietoasi toisille. Et menetä mitään, pikemminkin ymmärrät osaamistasi paremmin, ja toiset hyötyvät annistasi. 186
36 Imputointi 12 Imputointitoiminto 3 Kummassakin imputointitoiminnossa voi olla satunnaisuutta tai se on puhtaasti deterministinen. Jälkimmäisessä imputoitu arvo on täysin määritelty, mutta satunnaisessa (kutsutaan stokastiseksi) k i) vaihtoehdossa eri imputointi voi tuottaa eri arvon. Malliluovuttaja menetelmässä imputoitu arvo on joko (i) mallin ennustama arvo (deterministinen ratkaisu), tai se on (ii) mallin ennustama arvo plus virhetermi (stokastinen ratkaisu). 187
37 Imputointi 13 Imputointitoiminto 4 Vastaajaluovuttaja menetelmässä imputoitu arvo on vastaajalta lainattu. Jos etsinnän taustalla on satunnaisuutta, kyseessä on stokastinen, muuten deterministinen ratkaisu. Vastaaja (vastaajat monikertaisessa imputoinnissa) valitaan mieluiten sellaisten joukosta jotka ovat samankaltaisia vastaamattoman kanssa. Siten keskeinen tehtävä tässä lähestymistavassa on löytää jokin läheisyysmitta, jolla samankaltaisia etsitään. Läheisyysmitta voi olla peräisin mallista (ja myös malliluovuttaja-menetelmällä imputoiduista arvoista) tai siitä riippumaton (jolloin hyvällä viisaudella etsitään läheisyyden kriteerit). Hyvä imputointisolu antaa erinomaisen lähtökohdan läheisten vastaajien etsintään, koska sen sisällä on suurella todennäköisyydellä dellä samankaltaisia yksiköitä. Eli siis jos imputointisolut ovat homogeenisia, niin voidaan jopa toimia niin, että mikä tahansa solun vastaaja voi luovuttaa arvonsa vastaamattomalle; paras valita satunnaisesti. i Edellytys on luonnollisesti se, että solussa on riittävästi vastaajia. Jos siis sisältää vain vastaamattomia tai vähän vastaajia, tilanne on hankala. 188
38 Imputointi 14 Malli vs toiminto Mallivaihtoehtoja on siis kaksi. On hyvä huomata että jos vaihtoehto (ii), puuttuneisuuden binäärinen indikaattori, on käytetty, y imputointitoiminto voi olla vain vastaajaluovuttajamenetelmä. Sen sijaan jos malli (i) on pohjana, voidaan edetä joko malliluovuttaja- tai vastaajaluovuttajamenetelmällä kohti varsinaista imputointia. Malliluovuttajamenetelmällä imputointi tapahtuu suoraan, joko deterministisesti tai stokastisesti, mutta vastaajaluovuttajamenetelmällä mallin ennustetut arvot käytetään läheisyyden mittareina. 189
39 Imputointi ekstra Mitä marjoja ja montako on täällä? Imputoi! Mikä metodi? Mitä tässä 190
40 Imputointi 14 En käy laajasti imputoinnin yksityiskohtia läpi. Aluksi huomautan siitä, että imputoinnin siis pitäisi tuottaa etua vaihtoehtoiseen tilanteeseen ettei imputoida id verrattuna. Jollei imputoida, id voidaan havaintomäärissä menettää paljonkin ja myös estimaatit voivat olla liian harhaisia. Imputoinnin avulla siis harhaa pitäisi saada pienennettyä ja mielellään siten ettei estimaatin keskivirhe kasva. Valitettavasti imputoimalla saatetaan tuottaa harhainen keskivirhe, erityisesti jollei sen estimoinnissa oteta huomioon imputoinnista johtuvaa epävarmuutta eli imputointivarianssia. Näin tapahtuu jos aineistosta tuotetaan estimaatit tavalliseen tapaan eli olettamalla että imputoitu arvo on oikea havaintoarvo. Tosielämässä emme tiedä kuinka lähellä oikeaa se on mutta osaamme arvioida epävarmuuden ainakin periaatteessa. Stokastisessa imputoinnissa syntyy enemmän varianssia ja siksi keskivirheen harha on sellaisessa pienempi ilman erikoistoimenpiteitä. 191
41 Imputointi 15 Yhteenveto Imputointimenetelmät voidaan tiivistää näin, siis sisältäen periaatteessa neljänlaisia vaihtoehtoja. oja Kaikissa kohdissa voi taustalla olla myös sama imputointimalli (kuten regressio). Vastaa ajaluovut ttaja Malliluov vuttaja Deterministinen Stokastinen Yksikertainen Yksikertainen Monikertainen 192
42 Imputointi 16 Esimerkki Tein keinotekoisella datalla pienen testin. Imputointia vaatinut muuttuja y on jatkuva. Käytettävissä oli yksi selittäjä x. Näiden välillä oli melkoisen selkeä yhteys, korrelaation ollessa 0,92. Havaintoja 40. Vastaamattomien määräksi tuli 13. Se ei ollut satunnaista, pienillä ja suurilla y-arvoilla todennäköisyys oli keskiarvoja korkeampaa. Edellytykset hyvällekin imputoinnille olivat olemassa. Yksinkertaisin imputointimalli on y=keskiarvo, mutta neljässä muussa regressiomalli y=x. Tätä kokeilin myös satunnaistermin t i lisäyksellä. llä Tuloksia on alla ja seuraavalla sivulla on kuvioiden muodossa imputoituja arvoja eri menetelmillä. Havaintoja Keskiarvo Keskihajonta Oikea Vastaajat Malliluovuttaja Malli y=keskiarvo Malli y=x Malli y=x+e Vastaajaluovuttaja Malli y=x Malli y=x+e
43 Imputointi 16 Esimerkki 2 Oikeat Malliluovuttaja y=keskiarvo Malliluovuttaja y=x Malliluovuttaja y=x+e Vastaajaluovuttaja y=x Vastaajaluovuttaja y=x+e 194
44 Imputointi 17 Yksinkertaiset metodit esitetyssä kehikossa Edellä on jo viitattu keskiarvoimputointiin jossa puuttuva tieto korvataan keskiarvolla. Esittämäni kehikon puitteissa keskiarvopaikkaus merkitsee että imputointimallii i muodostuu vain yhdestä parametristä, kun taas jos keskiarvopaikkaus toteutetaan erikseen kussakin imputointisolussa, kyseessä on imputointimalli jossa on kategorinen muuttuja selittäjänä. Vastaavasti jos puuttuva arvo korvataan havaittujen arvojen mediaanilla, ill puhutaan mediaani-imputoinnista. Myös moodi-imputointia voidaan käyttää mutta lähinnä vain kategorisille tai kategorisoiduille muuttujille. Nämä ovat deterministisiä ja voivat aiheuttaa kiusallista systemaattista harhaa. Keskiarvoimputoinnin erityistapaus on ns. suhdeimputointi, jossa imputointimallin selittäjänä on suhde. Tämä sopii vain suhdeasteikon muuttujille. Jos mikroaineistossa on paneli- tai muu pitkittäisaineisto pohjalla, käytetään yleisesti malliluovuttajaimputointia jossa malli on joko y_imp=y_edellinen tai y_imp=y_edellinen*inflaattori (tai deflaattori). En suosittele tätä paitsi jos tästä johtuvan harhan uskotaan olevan vähäisen. 195
45 Imputointi 19 - Kommentti Usein imputoinnissa on tavoitteena menestyä hyvin myös muuttujien välisten yhteyksien kuvaamisessa. Tämä onnistuu jos kuhunkin muuttujaan sovellettu imputointi onnistuu hyvin. Monet menetelmät eivät kuitenkaan takaa tätä. Seuraavanlaisia ratkaisuja on sovellettu: (i) Ei imputoida ollenkaan vaan puuttuvat tiedot jätetään analyysistä pois. Tässä on ongelmana havaintomäärän supistuminen ja tästä johtuva tarkkuuden heikkeneminen sekä muussa kuin MCAR-tilanteessa myös tulosten vääristyminen. (ii) Käytetään analyysimenetelmää, jossa puuttuvuus on mukana. (iii) Puuttuvuudesta johtuva harha oikaistaan uudelleenpainotuksella (iv) Sovelletaan vastaajaluovuttaja -menetelmää siten, että samalta luovuttajalta otetaan tiedot kaikille kiinnostuksen kohteena oleville muuttujille. Tämä menetelmä vastaa uudelleenpainotusta, mutta rajoitettuun joukkoon. (v) Sovelletaan ns. jaksottaista imputointia jossa ensin imputoidaan yksi muuttuja, sitten seuraava läheinen käyttäen edellistä imputoitua arvoa apumuuttujana, ja niin edespäin. 196
46 Surveyn vaiheet 1 Eli lyhyt kertaus pääkohdista A.Tavoitteiden määrittely tutkimukselle ja sen pohjalta tarvittavalle surveylle ja aineistolle. On huomattava että useimmat tutkimukset sisältävät paljon muutakin kuin surveyn. Eli survey voi olla vain pieni i mutta tärkeä ä osa koko k hanketta. B.Survey-asetelman määrittely, johon sisältyvät periaatteessa kaikki jatkossa olevat kohdat, osa ei vielä kovin tarkasti. C.Tavoiteperusjoukon määrittely: tämä on tehtävä mahdollisimman täsmällisesti ja asiakkaan tarpeisiin mahdollisimman hyvin vastaten ja tämän kanssa keskustellen. Tätä ennen tutkijalla on mielessään kiinnostusperusjoukko joka realisoidaan tavoiteperusjoukoksi. 197
47 Surveyn vaiheet 2 D.Kehikkoperusjoukkopohjan määrittely ja itse kehikon luonti ml. tarvittavien apumuuttujien luonti ja niiden arvojen sisällyttäminen kehikkoon tai muuhun tiedostoon jatkokäyttöä varten. Hyvin tyypillinen ongelma on, ettei heti aluksi kerätä mahdollisia potentiaalisesti hyödyllisiä apumuuttujia aineistoon. Myöhemmin niiden hakeminen samastakin lähteestä voi tulla kalliimmaksi ja käytännössä hankalammaksi. Kehikkoperusjoukko päivitetään mikäli mahdollista estimointivaiheessa. E.Otanta-asetelman määrittely. Pyrkimys on saada kuhunkin tilanteeseen mahdollisimman yksinkertainen ja hyvin hallittavissa oleva asetelma. Tämä ei tarkoita sitä, etteikö olisi hyvä fokusoida otosta surveyn tavoitteiden mukaan. Taustalla on efektiivisen otoskoon käsite. Tältä pohjalta määritellään brutto-otos. F.Tiedonkeruun suunnittelu mukaan lukien tarvittava kenttätyö, tiedonkeruumuodot, d kustannukset, k tietosuojakysymykset k ja onko tarkoitus toistaa tutkimusta. Toistaa voidaan sekä poikkileikkaus- että pitkittäismielessä. Jälkimmäinen on vaativampi. 198
48 Surveyn vaiheet 3 G. Tietosisällön määrittely ja operationalisointi lomaketasolle ottaen huomioon ajatellun tiedonkeruutavan tai useita samallekin surveylle. Tämä tapahtuu tutkimustiimissä mikä voi olla laaja verkko, mutta vielä ei kontaktoida tutkimusyksikköjä. H. Lomakkeen ja tiedonkeruujärjestelmän j testaus (pilottitutkimukset) sekä parannukset tiedonkeruujärjestelmään ja lomakkeeseen. Alkutestaus tehdään omassa piirissä mutta myöhemmin kontaktoidaan tutkimusyksiköitä sekä keruuta toteuttavia tahoja. I.Otanta ja otanta-aineiston luonti: tähän siis sisältyy myös kaikki saatavissa oleva aputiedon kerääminen otoskehikkolähteestä. J.Tiedonkeruu id k organisoidusti id ija tehokkaasti, tarvittaessa virheitä korjaten saadun palautteen (esim. haastattelijoilta) tt ilt pohjalta. Muista metadatan expertit 199
49 Surveyn vaiheet 4 K.Tiedontallennus (jos mahdollista yhtäaikaisesti tiedonkeruun kanssa) ainakin siten, ettei mahdottomia tietoja tiedostoon synny siis tallennukseen yhdistetään mikäli mahdollista ensi vaiheen tilastollinen editointi, ja mikäli mahdollista kohtuullisesti automatisoituna (tallennusohjelma on siis intelligentti). L. Otantatiedoston viimeistely. Tiedosto kattaa brutto-otoksen ja sisältää otanta-asetelmassa käytettyjen muuttujien lisäksi muuta ulkopuolelta saatua aputietoa sekä kenttätyön yhteydessä kerättyä. Luonnollisesti myös surveyn tulostiedot ovat mukana eli ketkä kä vastasivat, ketkä kä eivät ja mistä syystä sekä ylipeiton. Aputietoa voidaan kerätä vielä lisää vaikkapa rekistereistä tai tilastoista. Myös kehikon päivitystiedot on syytä sisällyttää otantatiedostoon. M. Tilastollisen editoinnin systemaattiset muodot. Toteutetaan yleensä integroidusti imputoinnin kanssa. Tähän liittyy myös linjaus siitä mihin editointi painottuu ellei resurssien puitteissa ole mahdollista tehdä kaikkea yhtä laadukkaasti. Edelleen sen yhteydessä saadaan tietoa koko surveyprosessin evaluointiin, ja siis oppimiseen seuraavia surveytä varten. 200
50 Surveyn vaiheet 5 N. Puuttuvien tietojen käsittely siten että erottuvat muiden muassa nollatieto, puuttuva tieto ja mahdoton tieto. O. Imputointi eli puuttuvien tietojen paikkaus ja lisäeditointi jos tarpeen. P. Otos- ja muiden painojen muodostaminen aputietoja hyödyntäen. y Q. Aineiston asentaminen mahdollisimman käyttökelpoiseen muotoon sen analyysiä varten. Tällöin muodostetaan yksi tai useampi elektroninen tiedosto. Yleensä on hyvä tehdä tiedostomuoto jossa sitä tullaan eniten käyttämään, esimerkiksi SAS-, SPSS- tai Stata-tiedosto, mikseipä Excel:kin, ja lisäksi sellainen, josta se on luettavissa melkein millä välineellä tahansa myös tulevaisuudessa (tekstitiedosto plus sen lukuohjelma em. tiedostoille). Näin sinulla on PUHDISTETTU surveyn mikroaineisto eli sellainen jota voidaan ilman huolia ryhtyä analysoimaan otanta-asetelma oikein huomioiden. Seuraavalla sivulla kohtuullinen puhtaan datan esimerkki. Parempaan pääsee. 201
51 Tilastoyksikön tunnus Paradata Muuttujan nimi, alempana metadata Tutkijan laskema muuttuja ilman metadataa = kotitalouden koko Puuttuvuus ilman koodausta Puuttuvuuskoodeja Puhdasta ESS- dataa Miten järjestetty? Maapaino Otospaino = Analyysipaino i 202
52 Imputointi ekstran ratkaisu Kannattaa käydä däkarpalossa 203
53 Tässä aikaisempi kuva oikein päin Toivon että surveymetodeista on moni asia loksahtanut oikein päin. Kiitos. 204
Imputoi puuttuvat kohdat
Imputoi puuttuvat kohdat Imputointi tarkoittaa tai määritellyn tiedon paikkaamista sellaisella korvikearvolla joka estimaatin laatua verrattuna siihen mikä saataisiin ilman eli jättämällä tuo tieto käsittelystä
LisätiedotEditointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011
Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011 Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten
LisätiedotSurveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen
Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen). Laajempi
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotPainotusmenetelmät survey aineiston muuttujien estimoimiseen
Painotusmenetelmät survey aineiston muuttujien estimoimiseen Ville Veikko Helminen Helsingin yliopisto Valtiotieteellinen tiedekunta Tilastotiede Pro gradu -tutkielma Toukokuu 2017 HELSINGIN YLIOPISTO
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotImputointi 2009, Seppo 1
Imputoinnin perusteet Helsingin yliopisto, kevät 2009 Seppo Laaksonen Luennot ja harjoitukset keskiviikkoisin klo 16-19: kaksi kertaa+ tauko+kaksi kertaa. Alussa pääosa ajasta luentoja, myöhemmin harjoitukset
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Lisätiedottilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
LisätiedotTilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
LisätiedotKvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
LisätiedotEU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula 24.2.2010
(Turvallisuus Suomessa) - pilottitutkimus Vastauskato ja painotus Jenni Nikula 24.2.2010 Tutkimuksen tausta Eurostatin / Euroopan komission rahoittama hanke, jossa eurooppalaisten asiantuntijoiden yhdessä
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Lisätiedotpisteet Frekvenssi frekvenssi Yhteensä
806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
LisätiedotMatematiikan tukikurssi, kurssikerta 3
Matematiikan tukikurssi, kurssikerta 3 1 Epäyhtälöitä Aivan aluksi lienee syytä esittää luvun itseisarvon määritelmä: { x kun x 0 x = x kun x < 0 Siispä esimerkiksi 10 = 10 ja 10 = 10. Seuraavaksi listaus
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotT Luonnollisten kielten tilastollinen käsittely
T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Lisätiedot1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.
Algoritmien DP ja MF vertaileminen tapahtuu suoraviivaisesti kirjoittamalla kummankin leskimääräinen kustannus eksplisiittisesti todennäköisyyksien avulla. Lause T MF ave = 1 + 2 1 i
Lisätiedot1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
LisätiedotMatematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
Lisätiedot1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotEpävarmuuden hallinta bootstrap-menetelmillä
1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn
LisätiedotTestit järjestysasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten
Lisätiedot30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
Lisätiedot/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:
4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2
Lisätiedot/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:
2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2
Lisätiedot1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...
JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotHarjoitukset 3 : Monimuuttujaregressio 2 (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus 7.2.2017) Tämän harjoituskerran tehtävät
LisätiedotLaskelmia puoluekannatuksesta Seppo
Laskelmia puoluekannatuksesta Seppo 19.10.2011 Taustalla on luonnollisesti surveyaineisto. Sen tavoiteperusjoukko on itse vaaleissa 18+ -vuotias suomalainen rekisterin mukaan. Ulkomaalaisillakin on tietyin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3
Lisätiedot2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2
.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. Toisen asteen yhtälön a + b + c 0 ratkaisukaavassa neliöjuuren alla olevaa lauseketta b b 4ac + a b b 4ac a D b 4 ac sanotaan yhtälön
Lisätiedot¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.
10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn
LisätiedotTilastollisen analyysin perusteet Luento 7: Lineaarinen regressio
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla
LisätiedotTilastollisten menetelmien käyttö Kelan tutkimustoiminnassa
Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotKertauskaavio Imputointitoiminto
Kertauskaavio Imputointitoiminto Imputointimallin ja toiminnon paketille on tosiasiassa vain kolme vaihtoehtoa: Mallin selitettävä (a) Malliluovuttaja (b) Vastaajaluovuttaja (i) Muuttuja jota imputoidaan
LisätiedotMS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
Lisätiedot6. laskuharjoitusten vastaukset (viikot 10 11)
6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotTA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen
LisätiedotJos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan
17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
LisätiedotJos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden
1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella
LisätiedotLuentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012
Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko
LisätiedotImputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen
Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen Luennot ja harjoitukset tiistaisin klo 16-19 Tässä osassa tarkennetaan englanninkielistä kokonaisesitystä. Keskitymme muutamaan tärkeimpään
LisätiedotTeema 8: Parametrien estimointi ja luottamusvälit
Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.
LisätiedotJärvi 1 Valkjärvi. Järvi 2 Sysijärvi
Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Todennäköisyyslaskennan käsitteitä Satunnaisuus ja deterministisyys Deterministisessä ilmiössä alkutila määrää lopputilan yksikäsitteisesti. Satunnaisilmiö puolestaan arpoo - yhdestä alkutilasta voi päätyä
LisätiedotHarjoitukset 4 : Paneelidata (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 4 : Paneelidata (Palautus 7.3.2017) Tämän harjoituskerran tarkoitus on perehtyä
LisätiedotOtannasta ja mittaamisesta
Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,
LisätiedotMuuttujien määrittely
Tarja Heikkilä Muuttujien määrittely Määrittele muuttujat SPSS-ohjelmaan lomakkeen kysymyksistä. Harjoitusta varten lomakkeeseen on muokattu kysymyksiä kahdesta opiskelijoiden tekemästä Joupiskan rinneravintolaa
LisätiedotMetsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3
LisätiedotJohdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
LisätiedotJohdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)
LisätiedotOtoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden
1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotATH-koulutus THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1
ATH-koulutus THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelma Ositus ja 75 vuotta täyttäneiden ylipoiminta Painokertoimet Tulosten esittäminen: mallivakiointi Esimerkit
LisätiedotMTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
LisätiedotMäärällisen aineiston esittämistapoja. Aki Taanila
Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi
LisätiedotALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6
Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11
LisätiedotJatkuvat satunnaismuuttujat
Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään
LisätiedotPuuttuvan tiedon käsittely aivosähkökäyrämittauksissa
Tilastotieteen pro gradu tutkielma Puuttuvan tiedon käsittely aivosähkökäyrämittauksissa Lauri Era Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos 25. Toukokuuta 2016 JYVÄSKYLÄN YLIOPISTO Matematiikan
Lisätiedotk=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu
LIS AYKSI A kirjaan Reaalimuuttujan analyysi 1.6. Numeerinen integrointi: Gaussin kaavat Edella kasitellyt numeerisen integroinnin kaavat eli kvadratuurikaavat Riemannin summa, puolisuunnikassaanto ja
LisätiedotDynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu
10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2
Lisätiedotedellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾
ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotTietotekniikan valintakoe
Jyväskylän yliopisto Tietotekniikan laitos Tietotekniikan valintakoe 2..22 Vastaa kahteen seuraavista kolmesta tehtävästä. Kukin tehtävä arvostellaan kokonaislukuasteikolla - 25. Jos vastaat useampaan
LisätiedotMatematiikan tukikurssi, kurssikerta 2
Matematiikan tukikurssi kurssikerta 1 Relaatioista Oletetaan kaksi alkiota a ja b. Näistä kumpikin kuuluu johonkin tiettyyn joukkoon mahdollisesti ne kuuluvat eri joukkoihin; merkitään a A ja b B. Voidaan
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
LisätiedotTutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen
Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen 29.10.2009 Survey aineistot (lomaketutkimukset) Kyselyaineistot posti(kirje)kysely informoitu kysely tietokoneavusteinen
Lisätiedot(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?
6.10.2006 1. Keppi, jonka pituus on m, taitetaan kahtia täysin satunnaisesti valitusta kohdasta ja muodostetaan kolmio, jonka kateetteina ovat syntyneet palaset. Kolmion pinta-ala on satunnaismuuttuja.
LisätiedotMännyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003
Männyn laaturajojen integrointi runkokäyrän ennustamisessa Laura Koskela Tampereen yliopisto 9.6.2003 Johdantoa Pohjoismaisen käytännön mukaan rungot katkaistaan tukeiksi jo metsässä. Katkonnan ohjauksessa
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
LisätiedotVirhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.
Virhearviointi Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhelajit A. Tilastolliset virheet= satunnaisvirheet, joita voi arvioida tilastollisin menetelmin B. Systemaattiset virheet = virheet, joita
LisätiedotKäsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti
Käsitteistä Reliabiliteetti, validiteetti ja yleistäminen KE 62 Ilpo Koskinen 28.11.05 empiirisessä tutkimuksessa puhutaan peruskurssien jälkeen harvoin "todesta" ja "väärästä" tiedosta (tai näiden modernimmista
LisätiedotAlkuarvot ja tyyppimuunnokset (1/5) Alkuarvot ja tyyppimuunnokset (2/5) Alkuarvot ja tyyppimuunnokset (3/5)
Alkuarvot ja tyyppimuunnokset (1/5) Aiemmin olemme jo antaneet muuttujille alkuarvoja, esimerkiksi: int luku = 123; Alkuarvon on oltava muuttujan tietotyypin mukainen, esimerkiksi int-muuttujilla kokonaisluku,
Lisätiedot