Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!).

Koko: px
Aloita esitys sivulta:

Download "Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!)."

Transkriptio

1 Uudelleenpainotus 1 Kertaus: Otospaino kuvaa sitä kuinka monta tilastoyksikköä yksi otosyksikkö vastaa tutkimusperusjoukossa joka toivon mukaan on lähellä tavoiteperusjoukkoa. Jos paino on yksi, on taustalla kokonaistutkimus, osite josta kaikki on valittu tai erityishavaintoarvo. Tällaisia painoja on useinkin yhteisötyyppisissä tiedusteluissa eli jos esimerkiksi kaikki isot yritykset ja kunnat ovat mukana otoksessa. Kotitaloustyyppisissä tiedusteluissa painot ovat hyvinkin isoja, satoja tai tuhansia tai jopa kymmeniä tuhansia. Siten yksi vastaaja edustaisi perusjoukossa painon ilmoittaman määrän yksikköjä. Ideaalitilanteessa kaikki hänen edustamansa yksiköt olisivat samanlaisia kuin hän, silloin saataisiin täysin luotettava tulos. Näin ei tietenkään juuri koskaan ole. Mutta vaihtelun tässä alaryhmässä tulisi ainakin olla pientä eli painon edustaman ryppään tulisi olla mahdollisimman homogeeninen. Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetyn asetelmapainon (symboli a k ) lisäksi (Kertaa sen idea!). 152

2 Uudelleenpainotus 2 (b) Perusotospainot tai lyhyemmin peruspainot jotka vastaavat edellisiä painoja mutta nyt toimitaan vain vastaajien tasolla. Näiden avulla laskettavat t estimaatit tit ovat oikealla tasolla ja luotettavia, tt jos vastaamattomuus on harmitonta eikä kehikko-ongelmia ole (vastaa siis mekanismia MARS). Käytetään näistä painoista kuitenkin eri symbolia, w k, joka on esimerkiksi i ositetun t satunnaisotannan t tilanteessa t (kun n h vaihdetaan r h :een) w k =N h /r h On hyvä huomata, että tämä saadaan otanta-asetelmapainosta seuraavasti: w k =a k (n h /r h ) Painojen summa kussakin ositteessa on sama kuin asetelmapainoilla laskettuna. Painojen jakauma pysyy samana mikäli ylipeiton ja vastaamattomien summa on kussakin ositteessa suhteellisesti sama. Siten siis jos vastauskadon ja ylipeiton summa vaihtelee, myös painojen jakauma muuttuu. 153

3 Uudelleenpainotus 3 (c) Jälkiositukseen perustuva painotus (post-stratification). Tässä tapauksessa uusinta kehikkoa hyväksikäyttäen y muodostetaan uusi ositus (jos on jo esiositus niin sen päälle), jossa tavoitellaan löytää mahdollisimman homogeenisia osajoukkoja. Siis käytetään päivitettyä kehikkoa jos sellainen on olemassa mutta toimintaa voi toki toteuttaa myös alkuperäiselle kehikolle, jolloin harhan oikaiseminen on rajoitetumpaa. Jälkiositustiedon kehikosta tulisi olla laadukasta, muutoin menetelmä voi heikentää estimaattien tarkkuutta. Tavallisimmin jälkiositus perustuu helposti saatavissa oleviin taustamuuttujiin kuten kotitaloussurveyssä alueeseen, ikään, sukupuoleen ja ehkä sosioekonomisen aseman karkean muotoon. Yrityssurveyssä voidaan mennä esimerkiksi esiositusta tarkemmalle toimialatasolle. Jälkiositus on erityisesti kehikkovirheestä johtuvan harhan oikaisumenetelmä, mutta usein se myös oikaisee vastauskadosta johtuvaa harhaa. Sen avulla voidaan myös tarkentaa estimaatteja mutta taattua onnistuminen ei ole. 154

4 Uudelleenpainotus 4 Teknisesti jälkiosituspaino toimii seuraavasti tilanteessa jossa on jo esiositteet h (h=1,..,h). Merkitään jälkiositteita vaikkapa g:llä (g=1,,g). Jälkiositus voidaan tehdä vain esiositteiden sisälle, eli jälkiositteita on maksimissaan H*G kappaletta. Jos tätä otospainoa merkitään w k (post), niin se saadaan vastaavalla tavalla kuin esiosituspohjainen paino eli w k (post)= N hg /r hg Kuten kaavasta havaitaan, jälkiosituksen ehtona on tuntea perusjoukon koko N hg esi- ja jälkiositteiden muodostamissa soluissa. Jollei näitä tietoja ole riittävän luotettavasti saatavissa, ei jälkiositusta voi tehdä. Käytännössä harvoin jälkiositus voidaan pienotosongelmista johtuen toteuttaa siten, että kaikki H*G ositetta lopulta tulee käyttöön. Siis osaan esiositteista ei toteuteta jälkiositusta. Jälkiositus on helpommin mahdollista, jos esiositteita on vähän tai varsinaista esiositusta ei ole ollenkaan, tai siis on vain yksi kappale, kuten yksinkertaisen satunnaisotannan tai implisiittisen osituksen tapauksessa. 155

5 Jälkiositusesimerkki Historiatietoisuus Suomessa, bruttootos Osite Väestö määrä Bruttootoskoko Asetelma paino Fi_Other , Fi_Young ,592 Sv_Other ,9574 Sv_Young , Jälkiosite ikäryhmä*sukupuoli*kieli Ikäryhmä Sukupuoli Kieli Väestö Jälkiositettu Vastanneet otospaino Bruttootos Vastausprosentti ylipeitto mukana fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , fi , , sv , , Tämä on alkuosaltaan sama kuin aikaisemmin esitetty osite-esimerkki mutta vasemmassa taulukossa ovat myös asetelmapainot. Alempi tilanne on fiktiivinen jossa olen kuvitellut vastausaktiivisuuden vaihtelevan tietyllä tavalla. Olen sitten tutkinut vastanneiden aineistoa ja muodostanut 12 jälkiositetta. Näiden jälkiositteiden vastausaktiivisuus ilme- nee taulukon oikeasta sarakkeesta. Vastaavasti olen laskenut rekisteristä kunkin jälkiositteen väestömäärät minkä jälkeen onkin helppo muodostaa painot. 156

6 Uudelleenpainotus 5 (d) Kalibrointi joka on jälkiosituksen laajennus eli jälkiositus on kalibroinnin perusmuoto. Kehikkoperusjoukkotason muuttujia voi olla useita eikä niitä tarvitse soveltaa ristiinluokittelemalla kuten jälkiosituksessa. Ristiinluokittelun ongelmanahan ovat usein liian pienet solut, mitattuna vastaajien määrillä. Vastaavasti painot voivat olla liian epäluotettavia. Kalibroinnin mukavin puoli on siinä, että sen avulla voidaan tietyt reunajakaumat (sellaiset jotka käyttäjä valitsee) määritellä juuri halutuiksi, mieluiten oikeiksi, jos sellaiset on tiedossa. Tavallisimmin tätä sovelletaan siten että surveystä saadaan väestön karkeat ikäjakaumat isohkoilla aluejaoilla sukupuolittain viimeisimmän väestötilaston (eli benchmark-aineiston) aineiston) mukaiseksi. Tämä luo luottamusta käyttäjissä. Muilla tasoilla ei yhteensopivuutta kuitenkaan voida taata kuin sellaisilla jotka on kalibrointimalliin sijoitettu. 157

7 Uudelleenpainotus 6 Kalibrointi voidaan toteuttaa minkä tahansa muun painotuksen pohjalle, jos ja kun toiminto toteutetaan riippumattomasti niistä. Olkoot seuraavassa nämä painot w. Jos vastaavasti kalibroituja otospainoja merkitään w(cal): lla, niin seuraava kalibrointiyhtälö täytyy päteä: x = k U xk w(cal) r k U Siis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossaon on saatava samat estimointitulokset benchmark-totuuden kanssa eli käyttäjän valitsemien reunajakaumien mukaiset estimointitulokset. On varsin helppo päätellä, että löytyy useita vaihtoehtoja yhtälön toteutumiselle. Siksi täytyy löytää lisäehtoja ja mielellään sellaisia joista on hyötyä varsinaiseen estimointiin eli y- muuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapa malliestimaatteihin. Klassinen lähestymistapa on käyttää etäisyysmittaa. Tässä muodostetaan etäisyysmitta aloituspainojen ja haluttujen painojen välille ja minimoidaan se siten että edellä mainittu ehto pätee. Siten siis painot ovat sellaiset että erot aloituspainojen ja kalibroitujen painojen välillä ovat tietyssä mielessä mahdollisimman pienet eli alkutila ei muutu liikaa mutta benchmark-etu saavutetaan eli tietyt estimaatit ovat sellaisia kuin käyttäjä on halunnut Painotusmenetelmät 2009, Seppo 158

8 Uudelleenpainotus 7 (e) Vastauskatomalliin (response propensity modelling) perustuva uudelleenpainotus. Tässä mallitetaan vastausmekanismi logistisella tai probitregressiolla, mallista otetaan ennustearvot kullekin vastaajalle ja näiden käänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopiva skaalaus. Oletuksena on siis että vastausmekanismi on MAR. Menetelmä toimii sitä paremmin mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta (siis koskien sekä vastanneita että vastaamattomia yksikkötasolla). Yleensä aputietoa tähän on enemmän käytettävissä kuin esimerkiksi jälkiositukseen, joka edellyttää perusjoukkotason agregoitua aputietoa. Tämä on menetelmän selkeä etu. Etuna on myös, että se suoraan pureutuu vastauskatoon. Itse käyttäisin tätä ainakin isoissa otoksissa, sehän voi sisältää parhaimmillaan myös jälkiosituksen ja/tai kalibroinnin. Huomaa, että pieniin aineistoihin, erityisesti isoja yrityksiä koskeviin, ei oikein mikään painotusmenetelmä sovi hyvin. Imputointi olisi parempi. 159

9 Uudelleenpainotus 8 Teknisesti vastaustodennäköisyysmallia hyödyntävä painotus toteutetaan seuraavasti. Koska tämä on riippumaton muista uudelleenpainotuksista, menetelmä voidaan toteuttaa mihin aikaisempaan painoon tahansa kytkettynä. Olkoon seuraavassa meillä ensin paino w k ja logistinen regressio antoi kullekin vastaajalle k estimoidut vastaustodennäköisyydet p k. Tällöin uudet painot saadaan seuraavasti: w k (res)= (w k /p k )q c, jossa q c = skaalaustekijä, jonka avulla painot täsmäytetään halutun benchmark-ryhmän ryhmän c tasolle. Tämä on usein helpointa tehdä ositustasolla (esiositus jollei jälkiositusta ole tehty, muuten jälkiositus) mutta voim myös muuta kalibrointia soveltaa. 160

10 Uudelleenpainotus 9 - Keskustelua 1 ESS:ssä on tällä hetkellä käytössä asetelmapaino-nimellä kulkeva skaalattu paino. Se ei vastaa minun asetelmapaino-käsitettäni, vaan kysymys on osin perusotospainosta tai sen keskiarvoistetusta versiosta eli analyysipainosta. On mahdollista, että paremmat painot tulevat käyttöön jos testausprojektit tuottavat riittäviä tuloksia. Nämähän voidaan melko helposti tuottaa jos on käytössä eri maiden väestötiedot (eli 15-vuotiaiden määrät) ikäryhmän, sukupuolen, alueen ja koulutustason mukaan (tämä on maksimimäärä mitä on kokeiltu). Uudet painot saadaan vertaamalla alkuperäisten painojen antamia tuloksia näihin oikeisiin tietoihin ja tämän jälkeen tehdään suhteellinen muunnos painoihin eli ositustyyppinen kalibrointi. Vastaustodennäköisyyksiä olisi myös mahdollista hyväksi käyttää, muttei kaikissa maissa, koska ne eivät kykene antamaan vastaamattomista hyödyllistä aputietoa (samat muuttujat kuin edellä ja mielellään vaikkapa talouden koosta jotain tai mitä vain vastaamattomuutta selittävää löytyy). Yritän vaikuttaa siihen, että tällaista t tietoa t kerättäisiin. ii Suomesta, Ruotsista, t ym. sellaista löytyy aika paljon rekistereistä, kysymys on vain vaivannäöstä että se linkattaisiin brutto-otokseen. 161

11 Uudelleenpainotus 10 - Keskustelua 2 Edellä esitetyt näkökohdat sopivat melkoisen moniin muihinkin surveyhin. Apumuuttujia pitäisi hankkia tarkoituksella aineistoihin, jotta puuttuvuutta ensin analysoitaisiin ja sitten siitä saatava informaatio liitettäisiin uuspainoihin. Käyttäjän kannalta hyvien ja huonojen painojen kanssa toimitaan pääosin samalla lailla, ainakin piste-estimoinnissa. Siten käyttäjän tulisi vaatia kunnon painoja, vaikkei osaisi sanoakaan miten ne on paras milloinkin tuottaa. Ilman vaativia käyttäjiä ei parannusta muutoinkaan synny. Ole siis tiukkana vastaanottamasi datan kanssa. Olen ollut itseni kanssa ainakin toistaiseksi tiukkana kun olen rakentanut otantatiedostoja uhritutkimukseen ja historiatutkimukseen. Tiedät että käytössä on oleva paljon apumuuttujia. Nyt on sitten porukallamme haaste hyödyntää ne hyvin. Keväällä 2010 olemme menestyksemme kanssa viisaampia sillä kenttädatat saadaan loppuvuodesta valmiiksi. 162

12 Esimerkki: Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla Tanskasta oli paras apumuuttujavalikoima käytettävissä ja esimerkki on siksi i sieltä. Suomen uhri- ja historiatutkimuksissa i k i apumuuttujia on siis vielä selvästi enemmän ja uudelleenpainotukselle tarjoutuu entistä paremmat edellytykset. Tarvekin on suuri, koska ainakin uhritutkimuksen nettiosassa on odotettavissa huomattavaa vastauskatoa ja sen valikoituneisuus on ilmeinen. Tanskan datassa käytin seuraavia muuttujia: sukupuoli, ikäryhmä, alue (varsin laaja), siviilisääty ja onko tausta tanskalainen vai muu. Mukana oli muutama yhdysvaikutustermi. Logistinen regressiomalli oli varsin tuloksekas mutta sen yksityiskohdat sivuutetaan tässä. Seuraavan sivun tulosteesta ilmenee muutamia kiintoisia seikkoja. 163

13 Esimerkki vastaustodennäköisyyksistä, Tanskan ESS data 3. kierros Ennustettu toden näköi syys 1 0,9 0,8 Tanskalaistaustaiset 0,7 0,6 0,5 0,4 Naimisissa olevat Lesket 0,3 0,2 Ulkomaalaistaustaisetl t i t 0, Kertymä Kyselytutkimuksen Metodiikkaa 2009 Seppo 164

14 Vastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla 3 Kuten edellisestä osiosta olet oppinut näiden ennustettujen vastaustodennäköisyyksien käänteisluvuilla kerrotaan peruspaino ja painot skaalataan tämän jälkeen tavoiteperusjoukon tasolle käyttäen 15-vuotiaiden id väestömääriä. ää Ohessa on keskeiset k ttulokset tkahdesta otospainosta. Tulkitse niiden anti. Mieti myös mikä vaikutus eri painoilla on itse estimaatteihin. Tanskan kaksi otospainoa: peruspaino p ja adjustoitu paino The MEANS Procedure Coeff of Variable N Sum Mean Variation Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ w_basic w_adj ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ! 165

15 Tilastollinen Editointi 1 Tilastollinen editointi on surveyn aikaa ja rahaa vievimpiä vaiheita. Jos siitä mahdollisimman iso osa on sijoitettu jo keruun yhteyteen, sen ei kuitenkaan tarvitse olla olennainen hidaste koko surveyprosessissa. Paperilomakkeisessa postitiedustelussa tämä vaihe voi viedä hyvinkin kauan ja rahaa kuluu. Tässä sessiossa esitän tilastollisen editoinnin periaatteet sekä valikoiman keinoja ja menetelmiä niiden käytännön toteuttamiseen. Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten muissa surveyssä ja laitoksissa tehtyä kehittämistyötä. Kehittää järjestelmää virheiden havaitsemiseksi, tarkistamiseksi ja korjaamiseksi erityisesti painottaen lopputulosten kannalta olennaisia puutteita (valikoiva editointi). Havaita, tarkistaa ja korjata mikrotason virheet riittävän hyvin, ja myös siten, että makrotason (eri agregaattitasojen) tulokset ovat uskottavia ja luotettavia. Puuttuvan tiedon käsittelyä, erityisesti imputointia, ei voida kokonaan hoitaa irrallaan editoinnista, mieluummin il i nämä äti toiminnot i tit integroidaan id toisiinsa. tiii Keskeisistä osioista tuotetaan indikaattoreita, joilla voidaan seurata aineiston alkuperäistä ja parannettua laatua sekä editoinnin määrää ja siihen kulunutta työmäärää. 166

16 Tilastollinen Editointi 2 Tilastollinen editointi on siis keskeinen osa laadun varmistusta, koskien sekä käsillä olevan surveyn prosessia että tulevaisuuden kehittämistarpeita. Tärkeitä äkiäovat myös tietotekniset i aineiston i ominaisuudet i kuten, että se tulisi lii olla esimerkiksi helposti käyttöönotettavissa erilaisissa ohjelmistoissa. - Kaikista prosessissa tehdyistä muutoksista tulisi jäädä jälki ja mielellään myös perustelu toteutetulle operaatiolle. Tällöin voidaan myös jälkikäteen arvioida kuinka perusteltu operaatio on ollut ja kenties muuttaa ratkaisua, jos se myöhemmän tiedon valossa katsotaan tarpeelliseksi. - Editointiprosessissa havaitut virheet on hyvä luokitella niiden kokonaismerkityksen mukaan ja vastaavasti tuottaa kustakin luokasta virhelukuja (suhteellisia ja absoluuttisia sekä painotettuja). Usein kolmekin virheluokkaa riittää: (a) fataalit eli hyvin keskeiset virheet, (b) pienet virheet, (c) varoitukset siitä että tähän on tarvittaessa kiinnitettävä huomiota (voisi olla osa paradataa). 167

17 Tilastollinen Editointi 3 Editoinnin keskeinen käsite on editointisääntö (edit rule). Editointisäännöt asetetaan mikäli mahdollista etukäteen ja sisällytetään surveyprosessin tuotantomalliin. Säännöt täytyy luonnollisestilli i perustella ja dokumentoida siten, että myös käyttäjät voivat saada tästä tietoa. Tavallisesti esitetään kolmenlaisia editointisääntöjä, koskien: (i) validiteettiä (esim. jos kysytään ikää ja vastaus on 311, kun on tarkoitettu lukua 31; tai jos on ilmoitettu sellainen vastausvaihtoehto jota ei voi olla). (ii) yhteensopivuutta tt (esim. lasten määrä perheessä = 2 ja aikuisten määrä =2, mutta perheen kooksi ilmoitetaan epäyhteensopiva luku = 5; jos yrityksen tulojen ja menojen erotus ei vastaa kokonaistulosta ; yrityksessä työssäolovuosien määrän tulee olla jossakin suhteessa ikään, esimerkiksi siten että palvelussuhteen l aloittaessaan täytyy olla vähintään ää 16-vuotias; palkan ja ammattinimikkeen i ikk on hyvä olla jossakin suhteessa toisiinsa _ missä? ), ja (iii) jakaumaa (esim. asetetaan että kokoaikaisen työntekijän viikkotyöajan tulee olla vähintään 30 tuntia; tai yrityksen liikevaihdon kasvu edellisestä tiedustelusta ehdolla että yritys on koostumukseltaan säilynyt ennallaan, ei saa olla alle -50% eikä yli 100% mikä on symmetrinen sääntö). 168

18 Tilastollinen Editointi 4 Editointisäännöt määrittelevät ns. veräjät tai ovet (gates). Editointisysteemiä luotaessa on pyrkimys löytää mahdollisimman järkevät ki kriteeriti näille ml. esimerkiksi i jakaumien laajuuden. Ideahan on, että mikäli saatu vastaus tai muu tieto ei mahdu tästä veräjästä sisään, se tulee virhelistalle eli tarkistettavaksi. Tarkistuksessa voidaan tulos korjata tai myös hyväksyä sellaisenaan, mikäli havaitaan oikeaksi. On hyvä havaita, että veräjän kapeus vs. leveys vaikuttaa tarkistusprosessiin. Leveästä veräjästä mahtuu paremmin läpi huonompikin tapaus. Siten mitä leveämpi veräjä, sitä nopeampi ja halvempi tarkistusprosessi. Toisaalta laatu helposti heikkenee. Veräjä tai veräjien joukko on siis paras määritellä optimaalisen leveäksi, mutta tämä on helpommin sanottu kuin toteutettu. Kokeilut erilaisilla vaihtoehdoilla auttavat asiaa. 169

19 Tilastollinen Editointi 5 Lista keskeisistä toiminnoista 1 (i) On syytä aloittaa tunnistimista eli identifioijista. Virheet näissä eivät haittaa jos survey-aineisto on täysin itsenäinen kokonaisuus eli aineisto käytetään sellaisenaan kuin on saatu. Mutta jos on tarvetta yhdistää tiedosto toiseen, on tunnistimen oltava sama ja oikea molemmissa aineistoissa. Muuten tulee puuttuvaa tietoa. Käytännössä on myös niinkin että sama tunnistin on kahteen kertaan aineistossa mutta ei tarkoita samaa yksikköä. Tällaiset tuplat ovat editoijalle kuisallisia. (ii) Toinen, jo edellä esitetty tarkistusmenetelmä on määritellä kullekin muuttujalle arvoalue ja katsoa ovatko vastaukset tällä arvoalueella. Tämä on syytä sisällyttää datan sisäänlukuun jolloin ongelmaan kiinnitetään ajoissa huomiota. Korjaaminen ei toki aina ole helppoa. (iii) Erikoishavaintoarvojen läpikäynti on selkeätä jatkoa edelliselle vaiheelle. Hyväksyttävällä alueella sijaitsevat havaintoarvot voivat olla kiusallisia, jos niiden vaikutus tuloksiin on liian suuri. Tämä koskee ns. ääriarvoja tai muita poikkeavia i arvoja. 170

20 Tilastollinen Editointi 6 Lista keskeisistä toiminnoista 2 Miten tulisi menetellä ääriarvojen kanssa? (a) Jos arvo on virheellinen tai väärään tulkintaan perustuva, se on pyrittävä korjaamaan mahdollisimman oikeaksi. (b) Poistaa havainto eli merkitä puuttuvaksi (trimmaus). i (c) Merkitä erityishavainnot omaan osajoukkoonsa ja päättää niiden käsittelystä myöhemmin ja mielellään tiimissä. (d) Siirtää havainto lähemmäksi muuta joukkoa (winsorointi). (e) Soveltaa analyysissä sellaisia menetelmiä joihin ääriarvot eivät vaikuta tai vaikuttavat vähän (robustointi). (f) Muuttaa yksikön painoa oheistiedon perusteella (yleensä pienentää). Tavallista otospainojen kautta. (g) Muuntaa muuttuja epätasavälisesti luokitelluksi, jolloin iso arvo kuuluu esimerkiksi ryhmään Tätä suuremmat. 171

21 Tilastollinen Editointi 7 Lista keskeisistä k i toiminnoista i i t 3 (iv) Neljäntenä editointitehtävänä haluan tuoda esiin ongelman puuttuvan, nollatiedon, ei-soveltuvan ja mahdottoman tiedon välillä. Eli on syytä löytää fiksu koodi kullekin. ESS-standardit ovat tyyppiä 8, 9, 88, 99 tai 6666, monet käyttävät myös negatiivisia koodeja kuten -1, -8 ja -9 (erottuvat paremmin kuin positiiviset koska kunnon havaintoarvot tai koodit ovat positiivisia). Älä siis käytä esimerkiksi koodia = 0 puuttuvalle havainnolle vaan vain jos arvo on tosiaan nolla (vaikkapa ettei ole kuluttanut rahaa lautapinoihin). (v) Kun edellä esitetyt perustarkistukset on tehty, voi siirtyä ristikkäis- eli yhteensopivuustarkistuksiin. Tällöin aloittaa voi ristiintaulukoista tai katsella vastaavia asioita jatkuvien muuttujien tapauksessa hajontakuviosta. (vi) Monimuuttuja-analyyseihin perustuvat tarkistukset, jotka luontevimmin tehdään aidon tutkimusasetelmaan sopivan mallin avulla, vaikkapa regressiomallin avulla. Residuaalit paljastavat outouksia ja toki kaikkea voidaan katsella graafisesti myös = graafinen editointi. Nyt on yhä enemmän monidimensionaalisia grafiikkoja tietokoneellistettu. 172

22 Tilastollinen Editointi 8 - Kommentteja Editointi on siis yksi osa datan puhdistamista. Olisi hyvä, jos se olisi mahdollisimman a automaattinen aatt eli tarkistukset set ja korjaukset tulisivat fiksusti mutta automaattisesti. Valikoiva editointi on eräs ratkaisu tähän. Siinä virheelle määritellään todennäköisyys. Suurin työpanos keskitetään ison todennäköisyyden tapauksiin joissa ei yleensä tehdä automaattista korjausta. Pienen virhetodennäköisyyden tapaukset sen sijaan hoidetaan automaattisesti tai kaikkia ei edes korjata koska niiden vaikutus kokonaisuuden kannalta on vähäinen. Jätetään siis jatkoanalysoijan huoleksi. Hyvinkin editoidussa datassa vaativa käyttäjä aina löytää puutteita. Esimerkiksi ESS-datat on johonkin rajaan asti editoituja, mutta voimme tutkia kurssin demossa löydämmekö jotain epäilyttää. Luulen että arvoalueet ovat kunnossa mutta yhteensopivuuksissa on varmasti epäilyttävyyksiä. Katsomme tätä muutaman ristiintaulukoinnin kautta. Mieti mitä olisi hyvä katsoa. 173

23 Imputointi 1 Imputointi on puuttuvan tai epäkelvon tiedon paikkaamista korvikearvolla. Sen käyttö on lisääntynyt huomattavasti viime aikoina. Syyt ovat monia. Yksi lienee se ikävä tosiasia, että kerättyihin aineistoihin on jäänyt yhä enemmän puuttuvuutta ja vastaavasti estimaattien laatu on heikentynyt. Jotta laatu paranisi imputoimalla, on imputointitoiminnon oltava riittävän hyvää. Huonolla imputoinnilla laatu voi heiketä. Toinen syy imputointitekniikkojen lisääntymiseen on ollut tietotekniikan kehittyminen, mikä antaa edellytyksiä hyvinkin vaativille ratkaisuille. Ohjelmistojakin j on ilmaantunut yhä enemmän, mutta yhtään yleispätevää ohjelmistoa ei ole olemassa. Kuhunkin tilanteeseen on löydettävä omansa tai ohjelmoida itse sopiva ratkaisu. Kolmas syy on imputointitutkimuksen lisääntyminen. Se on usein haasteellista, koska vaatii kovaa teoriaa, hyvää tietotekniikkaa ja datan ymmärtämistä. 174

24 Imputointi 2 Imputointi on tekniikka jonka tarkoitus on korvata puuttuvia tai muutoin epätäydellisiä ä havaintoarvoja a oja sellaisilla s a joiden (i) odotetaan mieluiten olevan mahdollisimman lähellä oikeita arvoja, tai jos tämä ei ihanteellisesti onnistu, niin (ii) näiden imputoitujen arvojen olisi hyvä olla mahdollisimman lähellä oikeiden arvojen jakaumaa, mutta jos tässäkin on vaikeuksia, niin (iii) imputointeihin perustuvien agregoitujen arvojen tulisi olla mahdollisimman lähellä vastaavia oikeita arvoja. Tavoitteena voi olla myös, (iv) että imputoitujen arvojen järjestys olisi mahdollisimman lähellä oikeata järjestystä. 175

25 Imputointi 3 Ensimmäinen on vaativin. Jos siinä onnistutaan hyvin, niin samalla yhteydet eri muuttujien välillä ä enemmän e tai vähemmän ä imputoitujen tuje ovat lähellä oikeita yhteyksiä. Jos tämä ei onnistu, on mahdollisuus pyrkiä toteuttamaan imputointi niin, että yhteydetkin ovat mahdollisimman oikeita. Olkoon tämä viides (v) vaatimus imputoinnille. Jos siis vaatimus (i) toteutuu hyvin, niin myös muut vaatimukset toteutuvat hyvin. Mutta vaatimukset (ii) ja (iii) ja siis myös vaatimus (iv) voivat toteutua hyvin, vaikka vaatimus (i) ei toteutuisikaan. Kussakin imputointitilanteessa on syytä miettiä ensin, mikä on minimivaatimus ja rakentaa imputoinnin strategia siten, että tämä vaatimus tulisi vähintäänkin täytetyksi. Vaatimattoman minimivaatimuksen toteuttaminen voi onnistua yksinkertaisellakin imputointimenetelmällä. Vaativa minimivaatimus ei kuitenkaan automaattisesti merkitse monimutkaisen menetelmän käyttöä, vaan fiksun. 176

26 Imputointi 4 Yleisin imputointimenetelmä (jota kaikki eivät kutsu imputointimenetelmäksi) on asettaa puuttuvalle havainnolle hyvä koodi. Editoinnin yhteydessä oli jo puhetta hyvistä koodeista. Idea on asettaa mahdollisuuksien mukaan eri koodi kullekin puuttuvuuden lajille. Näin koodattua (imputoitua) muuttujaa ei voi käyttää jatkuvana muuttujana eli laskien esimerkiksi keskiarvoja, keskihajontoja tai desiilipisteitä. Sen sijaan frekvenssityyppisiä estimaatteja tt tällaisesta t saa vaivattomasti. ti Jatkuva muuttuja voidaan toisaalta kategorisoida jolloin vaikkapa tulot luokitellaan tason mukaan järjestykseen ja lisäksi tulee puuttuvuusluokkia. Kategorista tai kategorisoitua muuttujaa voi käyttää selittäjänä malleissa jos ei vedä vääriä johtopäätöksiä puuttuvuuskoodilla imputoiduista selittäjistä. Voimme tässä mielessä sanoa että puuttuvat havaintoarvot on imputoitu. Se ei ole tietystikään varsinaista imputointia. 177

27 Imputointi 4 "##!$%&'()!!!!!!!!!! *+,!-."/!0$%1,(&$, 02$34!5%3,(!6%$!7'!8293!'237%'28!,8,137%':!-7'82'( 0.*;*<-=!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!-$,>&,'14!!!!!!0,$1,'3!!!!!!!! *+,!?237%'28!@%28737%'!02$34!!!!!!!!!!!!!!!!!!!!!!!!!ABC!!!!!!!!!!!!!!!!DEFAE!!!!25,8 *+,!#G,(79+!0,%H8,I9!02$34!J#00K!!!!!!!!!!!!!!!!!!L)!!!!!!!!!!!!!!!!!AFAL!!!!!!!5,3 M7N,$289:!J*+,!87N,$28!H2$34!%6!-7'82'(K!!!!!!!!!!!!D!!!!!!!!!!!!!!!!!OFOB! 0,1 *+,!@,'3$,!02$34!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!PCE!!!!!!!!!!!!!!!!DAF)C!!!!!21,3 *$&,!-7''9!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!B)!!!!!!!!!!!!!!!!!!!PF)E! 32 *+,!S$,,'!M,2T&,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DAD!!!!!!!!!!!!!!!!!!BFCL! 9,4-7''79+!#%1728!Q,R%1$2371!02$34!!!!!!!!!!!!!!!!!!ADB!!!!!!!!!!!!!!!D)FAB! 22,6 *+,!M,63!<8872'1,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!CB!!!!!!!!!!!!!!!!!)FAA! 0,3 *+,!@%RR&'793!V%$W,$9X!02$34!%6!-7'82'(!!!D!!!!!!!!!!!!!!!!!OFOB!!!!!!!!!0,1 Y3+,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DL!!!!!!!!!!!!!!!!!OFLL!!!!!!!!!1,2?%3!2HH8712N8,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!)UC!!!!!!!!!!!!!!!PPFPU!!!!!!!!!!.,6&928!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!!!!!!!! Q%'X3!W'%G!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOC!!!!!!!!!!!!!!!!)FCL!!!!?%!2'9G,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!! Tässä on tuloste jossa puuttuvat tiedot on imputoitu it eli koodattu useammalla ilmaisimella. Arvioi mitä mikäkin puuttuvan tiedon koodi merkitsee. Arvioi lisäksi mitä oikealla oleva sarake merkitsee. Ja mikä on sen puuttuvuusteoreettinen tausta. 178

28 Syrjähyppy jonka syynä on opiskelijan kiinnostus verrata puoluekannatusta vasemmistooikeistoakselin mukaan. Ohessa on sellainen taulukko. Voinet arvioida jotakin myös puuttuvia tietoja antaneista. Puolue p10 Keski arvo p90 Kaikki 3 5,7 8 The National Coalition Party 6 7,6 9 The Swedish People s Party (SPP) Liberals, (The liberal party of Finland) The Centre Party 5 6,7 9 True Finns 3 5,4 8 Christian Democrats 4 5,7 8 The Green League 3 4,8 7 Finnish Social Democratic Party 3 4,5 7 The Left Alliance ,7 5 Communist Party of Finland 0 1,5 3 The Communist Workers' Party of Finland Other Not applicable 4 5,4 8 Refusal 3 5,5 8 Don't know 3 5,4 7,5 No answer 3 5,

29 Imputointi 5 Yksikertainen ja monikertainen imputointi Tavallisinta on imputoida puuttuvan arvon tilalle yksi imputoitu arvo. Tätä kutsutaan yksikertaiseksi imputoinniksi tai yksittäisimputoinniksi (SI = single imputation). Voi olla myös perusteltua imputoida useampi arvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moniimputoinnista (MI = multiple imputation). Moni-imputoinnissa on kaksi strategiaa itse aineiston muodostamisen kannalta: (i) muodostetaan useita havaintoaineistoja joissa kussakin on siis omat imputoidut arvot, tai (ii) laajennetaan yhtä havaintoaineistoa siten, että siellä on siis samat tilastoyksiköt useampia kertoja imputoidun aineiston osalta. Tällä kurssilla en käsittele monikertaista imputointia vaikka se on muotia monissa sovellustieteissä. 180

30 Imputointi 6 Imputointi on prosessi joka tässä katsotaan koostuvan seuraavista 6 osatehtävästä: (i) Datan editointi (ii) Aputiedon hankinta ja huolto (iii) Imputointimallin rakentaminen (iv) Imputointitehtävä tai imputointitoiminto (v) Estimointi sisältäen piste-estimoinnin, otantavarianssin ja imputointivariansssin (vi) Täydennetyn aineiston luonti, sisältäen myös metatietona sen mitkä arvot on imputoitu (liputus). Näistä keskityn seuraavaksi kohtiin (iii) ja (iv). 181

31 Imputointi 7 Imputointimalli 1 Imputointimalli voi perustua viisaaseen tietoon ja hyviin oletukseen. Tällöin sitä ei estimoida vaan malli on sopiva funktiomuoto (imputoitu arvo = f(x)) tai loogisten päättelyjen kokonaisuus (jos näin ja niin, niin imputoitu arvo=noin). Mutta jos se estimoidaan, niin Selitettävä muuttuja imputointimallissa voi olla kahta tyyppiä: (i) Muuttuja jonka arvoja imputoidaan (voi olla jatkuva tai epäjatkuva ml. binäärinen tai multinomiaalinen, ks. Liite; vastaavasti imputointimallin tulee sopia tilanteeseen.) Tämä malli rakennetaan ja estimoidaan vastaajien aineistosta mutta itse imputointii i toteutetaan siis vastaamattomille. Mallin selittäjien tulee olla tunnettuja vastaamattomille. Malli voi olla tuotettu myös eri aineistosta kuin imputoitavasta mutta mallin muuttujien tulee tietysti olla samoja. 182

32 Imputointi 8 Imputointimalli 2 (ii) Puuttuneisuuden indikaattori koskien imputoitavaa muuttujaa (binäärinen: 1=ei puutu tai on kelpo ja 0=puuttuu/epäkelpo). Tällainen malli on tyypillisesti estimoitu logistisella tai probit- regressiolla. Olet jo aikaisemmin nähnyt tällä kurssilla tällaisia malleja (kertaa näitä kohtia). Tuloksena on siis todennäköisyyksiä puuttuneisuudelle siinä joukossa jossa imputointia toteutetaan, vastaavasti todennäköisyyksiä imputoidulle arvolle. 183

33 Imputointi 9 Imputointimalli 3 Tavallisten mallien (regressio, logistinen) lisäksi malli voi olla myös epälineaarinen ja ei-parametrinen. Jälkimmäisistä kiinnostavia imputoinnissa ovat esimerkiksi puumallit ja neuroverkot. Puumalleja on kahdenlaisia, luokittelupuussa selitettävänä on (moni-)kategorinen muuttuja, kun taas regressiopuussa jatkuva muuttuja. Puumalli ja neuroverkko antavat mahdollisuuden luoda osaryhmiä, klustereita, ryppäitä, neuroneja tai millä nimellä niitä milloinkin halutaan kutsua. Pyrkimys on että nämä osaryhmät ovat homogeenisia selitettävän muuttujan suhteen. Imputointien kannalta klusterit ovat hyödyllisiä. Niitä kutsutaan joko imputointiluokiksi tai imputointisoluiksi. Idea on että kunkin tällaisen sisällä toteutetaan itse imputointi. Tämä parhaimmillaan tehostaa imputointia, erityisesti jos kunkin tällaisen luokan sisällä ehto MCAR pätee. Tehostusta tulee sitä enemmän, mitä homogeenisempia imputointisolut ovat. 184

34 Imputointi 10 Imputointitoiminto 1 Imputointitoiminnot voidaan jakaa vain kahteen isoon pääryhmään, kumpikin on ehdollinen käytetylle mallille: (i) Malliluovuttaja-menetelmässä (model-donor method) imputoidut id t arvot otetaan t suoraan mallista tai estimoidusta id t jakaumasta tai viisaan arvauksen funktiosta, eli eivät siis välttämättä havaittuja. (ii) Vastaajaluovuttaja-menetelmässä (real-donor method) imputoidut arvot ovat viimeisessä vaiheessa peräisin joltakin vastaajalta tai muulta aineiston yksiköltä, ja siis arvot ovat aina havaittuja arvoja. 185

35 Imputointi 11 Imputointitoiminto 2 Termi luovuttaja on suora käännös sanasta donor mikä on latinalaispohjainen viitaten myös antamiseen. Ajoittain esiintyy myös sana lainata. On syytä korostaa, että kun jokin yksikkö luovuttaa tai antaa arvon toiselle yksikölle, niin tämä yksikkö ei menetä omaa arvoaan. Siinä on siis kyse kopioinnista. Käytän kuitenkin termiä luovuttaja, koska tämä ei sulje pois sitä, että luovuttaessaan jotakin toiselle, ei itse menetä mitään. Pikemminkin molemmat tai jokin kokonaisuus, jossa molemmat toimivat, voivat hyötyä. Aivan kuten imputoinnissakin hyvä luovuttaminen tuottaa hyötyä estimaatin laadun parantumisen myötä. Näinhän on monissa tilanteissa elävässäkin elämässä, kun vaikkapa luovutat omaa osaamistietoasi toisille. Et menetä mitään, pikemminkin ymmärrät osaamistasi paremmin, ja toiset hyötyvät annistasi. 186

36 Imputointi 12 Imputointitoiminto 3 Kummassakin imputointitoiminnossa voi olla satunnaisuutta tai se on puhtaasti deterministinen. Jälkimmäisessä imputoitu arvo on täysin määritelty, mutta satunnaisessa (kutsutaan stokastiseksi) k i) vaihtoehdossa eri imputointi voi tuottaa eri arvon. Malliluovuttaja menetelmässä imputoitu arvo on joko (i) mallin ennustama arvo (deterministinen ratkaisu), tai se on (ii) mallin ennustama arvo plus virhetermi (stokastinen ratkaisu). 187

37 Imputointi 13 Imputointitoiminto 4 Vastaajaluovuttaja menetelmässä imputoitu arvo on vastaajalta lainattu. Jos etsinnän taustalla on satunnaisuutta, kyseessä on stokastinen, muuten deterministinen ratkaisu. Vastaaja (vastaajat monikertaisessa imputoinnissa) valitaan mieluiten sellaisten joukosta jotka ovat samankaltaisia vastaamattoman kanssa. Siten keskeinen tehtävä tässä lähestymistavassa on löytää jokin läheisyysmitta, jolla samankaltaisia etsitään. Läheisyysmitta voi olla peräisin mallista (ja myös malliluovuttaja-menetelmällä imputoiduista arvoista) tai siitä riippumaton (jolloin hyvällä viisaudella etsitään läheisyyden kriteerit). Hyvä imputointisolu antaa erinomaisen lähtökohdan läheisten vastaajien etsintään, koska sen sisällä on suurella todennäköisyydellä dellä samankaltaisia yksiköitä. Eli siis jos imputointisolut ovat homogeenisia, niin voidaan jopa toimia niin, että mikä tahansa solun vastaaja voi luovuttaa arvonsa vastaamattomalle; paras valita satunnaisesti. i Edellytys on luonnollisesti se, että solussa on riittävästi vastaajia. Jos siis sisältää vain vastaamattomia tai vähän vastaajia, tilanne on hankala. 188

38 Imputointi 14 Malli vs toiminto Mallivaihtoehtoja on siis kaksi. On hyvä huomata että jos vaihtoehto (ii), puuttuneisuuden binäärinen indikaattori, on käytetty, y imputointitoiminto voi olla vain vastaajaluovuttajamenetelmä. Sen sijaan jos malli (i) on pohjana, voidaan edetä joko malliluovuttaja- tai vastaajaluovuttajamenetelmällä kohti varsinaista imputointia. Malliluovuttajamenetelmällä imputointi tapahtuu suoraan, joko deterministisesti tai stokastisesti, mutta vastaajaluovuttajamenetelmällä mallin ennustetut arvot käytetään läheisyyden mittareina. 189

39 Imputointi ekstra Mitä marjoja ja montako on täällä? Imputoi! Mikä metodi? Mitä tässä 190

40 Imputointi 14 En käy laajasti imputoinnin yksityiskohtia läpi. Aluksi huomautan siitä, että imputoinnin siis pitäisi tuottaa etua vaihtoehtoiseen tilanteeseen ettei imputoida id verrattuna. Jollei imputoida, id voidaan havaintomäärissä menettää paljonkin ja myös estimaatit voivat olla liian harhaisia. Imputoinnin avulla siis harhaa pitäisi saada pienennettyä ja mielellään siten ettei estimaatin keskivirhe kasva. Valitettavasti imputoimalla saatetaan tuottaa harhainen keskivirhe, erityisesti jollei sen estimoinnissa oteta huomioon imputoinnista johtuvaa epävarmuutta eli imputointivarianssia. Näin tapahtuu jos aineistosta tuotetaan estimaatit tavalliseen tapaan eli olettamalla että imputoitu arvo on oikea havaintoarvo. Tosielämässä emme tiedä kuinka lähellä oikeaa se on mutta osaamme arvioida epävarmuuden ainakin periaatteessa. Stokastisessa imputoinnissa syntyy enemmän varianssia ja siksi keskivirheen harha on sellaisessa pienempi ilman erikoistoimenpiteitä. 191

41 Imputointi 15 Yhteenveto Imputointimenetelmät voidaan tiivistää näin, siis sisältäen periaatteessa neljänlaisia vaihtoehtoja. oja Kaikissa kohdissa voi taustalla olla myös sama imputointimalli (kuten regressio). Vastaa ajaluovut ttaja Malliluov vuttaja Deterministinen Stokastinen Yksikertainen Yksikertainen Monikertainen 192

42 Imputointi 16 Esimerkki Tein keinotekoisella datalla pienen testin. Imputointia vaatinut muuttuja y on jatkuva. Käytettävissä oli yksi selittäjä x. Näiden välillä oli melkoisen selkeä yhteys, korrelaation ollessa 0,92. Havaintoja 40. Vastaamattomien määräksi tuli 13. Se ei ollut satunnaista, pienillä ja suurilla y-arvoilla todennäköisyys oli keskiarvoja korkeampaa. Edellytykset hyvällekin imputoinnille olivat olemassa. Yksinkertaisin imputointimalli on y=keskiarvo, mutta neljässä muussa regressiomalli y=x. Tätä kokeilin myös satunnaistermin t i lisäyksellä. llä Tuloksia on alla ja seuraavalla sivulla on kuvioiden muodossa imputoituja arvoja eri menetelmillä. Havaintoja Keskiarvo Keskihajonta Oikea Vastaajat Malliluovuttaja Malli y=keskiarvo Malli y=x Malli y=x+e Vastaajaluovuttaja Malli y=x Malli y=x+e

43 Imputointi 16 Esimerkki 2 Oikeat Malliluovuttaja y=keskiarvo Malliluovuttaja y=x Malliluovuttaja y=x+e Vastaajaluovuttaja y=x Vastaajaluovuttaja y=x+e 194

44 Imputointi 17 Yksinkertaiset metodit esitetyssä kehikossa Edellä on jo viitattu keskiarvoimputointiin jossa puuttuva tieto korvataan keskiarvolla. Esittämäni kehikon puitteissa keskiarvopaikkaus merkitsee että imputointimallii i muodostuu vain yhdestä parametristä, kun taas jos keskiarvopaikkaus toteutetaan erikseen kussakin imputointisolussa, kyseessä on imputointimalli jossa on kategorinen muuttuja selittäjänä. Vastaavasti jos puuttuva arvo korvataan havaittujen arvojen mediaanilla, ill puhutaan mediaani-imputoinnista. Myös moodi-imputointia voidaan käyttää mutta lähinnä vain kategorisille tai kategorisoiduille muuttujille. Nämä ovat deterministisiä ja voivat aiheuttaa kiusallista systemaattista harhaa. Keskiarvoimputoinnin erityistapaus on ns. suhdeimputointi, jossa imputointimallin selittäjänä on suhde. Tämä sopii vain suhdeasteikon muuttujille. Jos mikroaineistossa on paneli- tai muu pitkittäisaineisto pohjalla, käytetään yleisesti malliluovuttajaimputointia jossa malli on joko y_imp=y_edellinen tai y_imp=y_edellinen*inflaattori (tai deflaattori). En suosittele tätä paitsi jos tästä johtuvan harhan uskotaan olevan vähäisen. 195

45 Imputointi 19 - Kommentti Usein imputoinnissa on tavoitteena menestyä hyvin myös muuttujien välisten yhteyksien kuvaamisessa. Tämä onnistuu jos kuhunkin muuttujaan sovellettu imputointi onnistuu hyvin. Monet menetelmät eivät kuitenkaan takaa tätä. Seuraavanlaisia ratkaisuja on sovellettu: (i) Ei imputoida ollenkaan vaan puuttuvat tiedot jätetään analyysistä pois. Tässä on ongelmana havaintomäärän supistuminen ja tästä johtuva tarkkuuden heikkeneminen sekä muussa kuin MCAR-tilanteessa myös tulosten vääristyminen. (ii) Käytetään analyysimenetelmää, jossa puuttuvuus on mukana. (iii) Puuttuvuudesta johtuva harha oikaistaan uudelleenpainotuksella (iv) Sovelletaan vastaajaluovuttaja -menetelmää siten, että samalta luovuttajalta otetaan tiedot kaikille kiinnostuksen kohteena oleville muuttujille. Tämä menetelmä vastaa uudelleenpainotusta, mutta rajoitettuun joukkoon. (v) Sovelletaan ns. jaksottaista imputointia jossa ensin imputoidaan yksi muuttuja, sitten seuraava läheinen käyttäen edellistä imputoitua arvoa apumuuttujana, ja niin edespäin. 196

46 Surveyn vaiheet 1 Eli lyhyt kertaus pääkohdista A.Tavoitteiden määrittely tutkimukselle ja sen pohjalta tarvittavalle surveylle ja aineistolle. On huomattava että useimmat tutkimukset sisältävät paljon muutakin kuin surveyn. Eli survey voi olla vain pieni i mutta tärkeä ä osa koko k hanketta. B.Survey-asetelman määrittely, johon sisältyvät periaatteessa kaikki jatkossa olevat kohdat, osa ei vielä kovin tarkasti. C.Tavoiteperusjoukon määrittely: tämä on tehtävä mahdollisimman täsmällisesti ja asiakkaan tarpeisiin mahdollisimman hyvin vastaten ja tämän kanssa keskustellen. Tätä ennen tutkijalla on mielessään kiinnostusperusjoukko joka realisoidaan tavoiteperusjoukoksi. 197

47 Surveyn vaiheet 2 D.Kehikkoperusjoukkopohjan määrittely ja itse kehikon luonti ml. tarvittavien apumuuttujien luonti ja niiden arvojen sisällyttäminen kehikkoon tai muuhun tiedostoon jatkokäyttöä varten. Hyvin tyypillinen ongelma on, ettei heti aluksi kerätä mahdollisia potentiaalisesti hyödyllisiä apumuuttujia aineistoon. Myöhemmin niiden hakeminen samastakin lähteestä voi tulla kalliimmaksi ja käytännössä hankalammaksi. Kehikkoperusjoukko päivitetään mikäli mahdollista estimointivaiheessa. E.Otanta-asetelman määrittely. Pyrkimys on saada kuhunkin tilanteeseen mahdollisimman yksinkertainen ja hyvin hallittavissa oleva asetelma. Tämä ei tarkoita sitä, etteikö olisi hyvä fokusoida otosta surveyn tavoitteiden mukaan. Taustalla on efektiivisen otoskoon käsite. Tältä pohjalta määritellään brutto-otos. F.Tiedonkeruun suunnittelu mukaan lukien tarvittava kenttätyö, tiedonkeruumuodot, d kustannukset, k tietosuojakysymykset k ja onko tarkoitus toistaa tutkimusta. Toistaa voidaan sekä poikkileikkaus- että pitkittäismielessä. Jälkimmäinen on vaativampi. 198

48 Surveyn vaiheet 3 G. Tietosisällön määrittely ja operationalisointi lomaketasolle ottaen huomioon ajatellun tiedonkeruutavan tai useita samallekin surveylle. Tämä tapahtuu tutkimustiimissä mikä voi olla laaja verkko, mutta vielä ei kontaktoida tutkimusyksikköjä. H. Lomakkeen ja tiedonkeruujärjestelmän j testaus (pilottitutkimukset) sekä parannukset tiedonkeruujärjestelmään ja lomakkeeseen. Alkutestaus tehdään omassa piirissä mutta myöhemmin kontaktoidaan tutkimusyksiköitä sekä keruuta toteuttavia tahoja. I.Otanta ja otanta-aineiston luonti: tähän siis sisältyy myös kaikki saatavissa oleva aputiedon kerääminen otoskehikkolähteestä. J.Tiedonkeruu id k organisoidusti id ija tehokkaasti, tarvittaessa virheitä korjaten saadun palautteen (esim. haastattelijoilta) tt ilt pohjalta. Muista metadatan expertit 199

49 Surveyn vaiheet 4 K.Tiedontallennus (jos mahdollista yhtäaikaisesti tiedonkeruun kanssa) ainakin siten, ettei mahdottomia tietoja tiedostoon synny siis tallennukseen yhdistetään mikäli mahdollista ensi vaiheen tilastollinen editointi, ja mikäli mahdollista kohtuullisesti automatisoituna (tallennusohjelma on siis intelligentti). L. Otantatiedoston viimeistely. Tiedosto kattaa brutto-otoksen ja sisältää otanta-asetelmassa käytettyjen muuttujien lisäksi muuta ulkopuolelta saatua aputietoa sekä kenttätyön yhteydessä kerättyä. Luonnollisesti myös surveyn tulostiedot ovat mukana eli ketkä kä vastasivat, ketkä kä eivät ja mistä syystä sekä ylipeiton. Aputietoa voidaan kerätä vielä lisää vaikkapa rekistereistä tai tilastoista. Myös kehikon päivitystiedot on syytä sisällyttää otantatiedostoon. M. Tilastollisen editoinnin systemaattiset muodot. Toteutetaan yleensä integroidusti imputoinnin kanssa. Tähän liittyy myös linjaus siitä mihin editointi painottuu ellei resurssien puitteissa ole mahdollista tehdä kaikkea yhtä laadukkaasti. Edelleen sen yhteydessä saadaan tietoa koko surveyprosessin evaluointiin, ja siis oppimiseen seuraavia surveytä varten. 200

50 Surveyn vaiheet 5 N. Puuttuvien tietojen käsittely siten että erottuvat muiden muassa nollatieto, puuttuva tieto ja mahdoton tieto. O. Imputointi eli puuttuvien tietojen paikkaus ja lisäeditointi jos tarpeen. P. Otos- ja muiden painojen muodostaminen aputietoja hyödyntäen. y Q. Aineiston asentaminen mahdollisimman käyttökelpoiseen muotoon sen analyysiä varten. Tällöin muodostetaan yksi tai useampi elektroninen tiedosto. Yleensä on hyvä tehdä tiedostomuoto jossa sitä tullaan eniten käyttämään, esimerkiksi SAS-, SPSS- tai Stata-tiedosto, mikseipä Excel:kin, ja lisäksi sellainen, josta se on luettavissa melkein millä välineellä tahansa myös tulevaisuudessa (tekstitiedosto plus sen lukuohjelma em. tiedostoille). Näin sinulla on PUHDISTETTU surveyn mikroaineisto eli sellainen jota voidaan ilman huolia ryhtyä analysoimaan otanta-asetelma oikein huomioiden. Seuraavalla sivulla kohtuullinen puhtaan datan esimerkki. Parempaan pääsee. 201

51 Tilastoyksikön tunnus Paradata Muuttujan nimi, alempana metadata Tutkijan laskema muuttuja ilman metadataa = kotitalouden koko Puuttuvuus ilman koodausta Puuttuvuuskoodeja Puhdasta ESS- dataa Miten järjestetty? Maapaino Otospaino = Analyysipaino i 202

52 Imputointi ekstran ratkaisu Kannattaa käydä däkarpalossa 203

53 Tässä aikaisempi kuva oikein päin Toivon että surveymetodeista on moni asia loksahtanut oikein päin. Kiitos. 204

Imputoi puuttuvat kohdat

Imputoi puuttuvat kohdat Imputoi puuttuvat kohdat Imputointi tarkoittaa tai määritellyn tiedon paikkaamista sellaisella korvikearvolla joka estimaatin laatua verrattuna siihen mikä saataisiin ilman eli jättämällä tuo tieto käsittelystä

Lisätiedot

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011

Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011 Editointi ja imputointi, outlierien käsittely Seppo Lokakuu 2011 Tilastollisen editoinnin keskeisiä tehtäviä ovat: Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten

Lisätiedot

Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen

Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen Surveymetodiikka Helsingin yliopisto, Syksy 2013 Seppo Laaksonen Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen). Laajempi

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Painotusmenetelmät survey aineiston muuttujien estimoimiseen

Painotusmenetelmät survey aineiston muuttujien estimoimiseen Painotusmenetelmät survey aineiston muuttujien estimoimiseen Ville Veikko Helminen Helsingin yliopisto Valtiotieteellinen tiedekunta Tilastotiede Pro gradu -tutkielma Toukokuu 2017 HELSINGIN YLIOPISTO

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Imputointi 2009, Seppo 1

Imputointi 2009, Seppo 1 Imputoinnin perusteet Helsingin yliopisto, kevät 2009 Seppo Laaksonen Luennot ja harjoitukset keskiviikkoisin klo 16-19: kaksi kertaa+ tauko+kaksi kertaa. Alussa pääosa ajasta luentoja, myöhemmin harjoitukset

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula 24.2.2010

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula 24.2.2010 (Turvallisuus Suomessa) - pilottitutkimus Vastauskato ja painotus Jenni Nikula 24.2.2010 Tutkimuksen tausta Eurostatin / Euroopan komission rahoittama hanke, jossa eurooppalaisten asiantuntijoiden yhdessä

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi, kurssikerta 3 Matematiikan tukikurssi, kurssikerta 3 1 Epäyhtälöitä Aivan aluksi lienee syytä esittää luvun itseisarvon määritelmä: { x kun x 0 x = x kun x < 0 Siispä esimerkiksi 10 = 10 ja 10 = 10. Seuraavaksi listaus

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi. Algoritmien DP ja MF vertaileminen tapahtuu suoraviivaisesti kirjoittamalla kummankin leskimääräinen kustannus eksplisiittisesti todennäköisyyksien avulla. Lause T MF ave = 1 + 2 1 i

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Epävarmuuden hallinta bootstrap-menetelmillä

Epävarmuuden hallinta bootstrap-menetelmillä 1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta... JHS 160 Paikkatiedon laadunhallinta Liite III: Otanta-asetelmat Sisällysluettelo 1. Johdanto... 2 2. Todennäköisyysotanta... 2 2.1 Yksinkertainen satunnaisotanta... 3 2.2 Ositettu otanta... 3 2.3 Systemaattinen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus ) 31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus 7.2.2017) Tämän harjoituskerran tehtävät

Lisätiedot

Laskelmia puoluekannatuksesta Seppo

Laskelmia puoluekannatuksesta Seppo Laskelmia puoluekannatuksesta Seppo 19.10.2011 Taustalla on luonnollisesti surveyaineisto. Sen tavoiteperusjoukko on itse vaaleissa 18+ -vuotias suomalainen rekisterin mukaan. Ulkomaalaisillakin on tietyin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2 .3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. Toisen asteen yhtälön a + b + c 0 ratkaisukaavassa neliöjuuren alla olevaa lauseketta b b 4ac + a b b 4ac a D b 4 ac sanotaan yhtälön

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Kertauskaavio Imputointitoiminto

Kertauskaavio Imputointitoiminto Kertauskaavio Imputointitoiminto Imputointimallin ja toiminnon paketille on tosiasiassa vain kolme vaihtoehtoa: Mallin selitettävä (a) Malliluovuttaja (b) Vastaajaluovuttaja (i) Muuttuja jota imputoidaan

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen

Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen Imputoinnin perusteet Helsingin yliopisto, kevät 2011 Seppo Laaksonen Luennot ja harjoitukset tiistaisin klo 16-19 Tässä osassa tarkennetaan englanninkielistä kokonaisesitystä. Keskitymme muutamaan tärkeimpään

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Todennäköisyyslaskennan käsitteitä Satunnaisuus ja deterministisyys Deterministisessä ilmiössä alkutila määrää lopputilan yksikäsitteisesti. Satunnaisilmiö puolestaan arpoo - yhdestä alkutilasta voi päätyä

Lisätiedot

Harjoitukset 4 : Paneelidata (Palautus )

Harjoitukset 4 : Paneelidata (Palautus ) 31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 4 : Paneelidata (Palautus 7.3.2017) Tämän harjoituskerran tarkoitus on perehtyä

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Muuttujien määrittely

Muuttujien määrittely Tarja Heikkilä Muuttujien määrittely Määrittele muuttujat SPSS-ohjelmaan lomakkeen kysymyksistä. Harjoitusta varten lomakkeeseen on muokattu kysymyksiä kahdesta opiskelijoiden tekemästä Joupiskan rinneravintolaa

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden 1 KERTAUSTA JA TÄYDENNYSTÄ Luento 30.9.2014 Olkoon satunnaisotos X 1, X 2,, X n normaalijakaumasta N(µ, σ 2 ), tällöin ~ N(µ, σ 2 /n), kaava (6). Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

ATH-koulutus THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1

ATH-koulutus THL 16.2.2011. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 ATH-koulutus THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1 Sisältö Otanta-asetelma Ositus ja 75 vuotta täyttäneiden ylipoiminta Painokertoimet Tulosten esittäminen: mallivakiointi Esimerkit

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Määrällisen aineiston esittämistapoja. Aki Taanila

Määrällisen aineiston esittämistapoja. Aki Taanila Määrällisen aineiston esittämistapoja Aki Taanila 24.4.2017 1 Kategoriset muuttujat Lukumääriä Prosentteja (muista n-arvot) Pylväitä 2 Yhteenvetotaulukko (frekvenssitaulukko) TAULUKKO 1. Asunnon tyyppi

Lisätiedot

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 Sisällysluettelo ALKUSANAT 4 ALKUSANAT E-KIRJA VERSIOON 5 SISÄLLYSLUETTELO 6 1 PERUSASIOITA JA AINEISTON SYÖTTÖ 8 11 PERUSNÄKYMÄ 8 12 AINEISTON SYÖTTÖ VERSIOSSA 9 8 Muuttujan määrittely versiossa 9 11

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Puuttuvan tiedon käsittely aivosähkökäyrämittauksissa

Puuttuvan tiedon käsittely aivosähkökäyrämittauksissa Tilastotieteen pro gradu tutkielma Puuttuvan tiedon käsittely aivosähkökäyrämittauksissa Lauri Era Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos 25. Toukokuuta 2016 JYVÄSKYLÄN YLIOPISTO Matematiikan

Lisätiedot

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu LIS AYKSI A kirjaan Reaalimuuttujan analyysi 1.6. Numeerinen integrointi: Gaussin kaavat Edella kasitellyt numeerisen integroinnin kaavat eli kvadratuurikaavat Riemannin summa, puolisuunnikassaanto ja

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Tietotekniikan valintakoe

Tietotekniikan valintakoe Jyväskylän yliopisto Tietotekniikan laitos Tietotekniikan valintakoe 2..22 Vastaa kahteen seuraavista kolmesta tehtävästä. Kukin tehtävä arvostellaan kokonaislukuasteikolla - 25. Jos vastaat useampaan

Lisätiedot

Matematiikan tukikurssi, kurssikerta 2

Matematiikan tukikurssi, kurssikerta 2 Matematiikan tukikurssi kurssikerta 1 Relaatioista Oletetaan kaksi alkiota a ja b. Näistä kumpikin kuuluu johonkin tiettyyn joukkoon mahdollisesti ne kuuluvat eri joukkoihin; merkitään a A ja b B. Voidaan

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen

Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen 29.10.2009 Survey aineistot (lomaketutkimukset) Kyselyaineistot posti(kirje)kysely informoitu kysely tietokoneavusteinen

Lisätiedot

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla? 6.10.2006 1. Keppi, jonka pituus on m, taitetaan kahtia täysin satunnaisesti valitusta kohdasta ja muodostetaan kolmio, jonka kateetteina ovat syntyneet palaset. Kolmion pinta-ala on satunnaismuuttuja.

Lisätiedot

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003 Männyn laaturajojen integrointi runkokäyrän ennustamisessa Laura Koskela Tampereen yliopisto 9.6.2003 Johdantoa Pohjoismaisen käytännön mukaan rungot katkaistaan tukeiksi jo metsässä. Katkonnan ohjauksessa

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhearviointi Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhelajit A. Tilastolliset virheet= satunnaisvirheet, joita voi arvioida tilastollisin menetelmin B. Systemaattiset virheet = virheet, joita

Lisätiedot

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti Käsitteistä Reliabiliteetti, validiteetti ja yleistäminen KE 62 Ilpo Koskinen 28.11.05 empiirisessä tutkimuksessa puhutaan peruskurssien jälkeen harvoin "todesta" ja "väärästä" tiedosta (tai näiden modernimmista

Lisätiedot

Alkuarvot ja tyyppimuunnokset (1/5) Alkuarvot ja tyyppimuunnokset (2/5) Alkuarvot ja tyyppimuunnokset (3/5)

Alkuarvot ja tyyppimuunnokset (1/5) Alkuarvot ja tyyppimuunnokset (2/5) Alkuarvot ja tyyppimuunnokset (3/5) Alkuarvot ja tyyppimuunnokset (1/5) Aiemmin olemme jo antaneet muuttujille alkuarvoja, esimerkiksi: int luku = 123; Alkuarvon on oltava muuttujan tietotyypin mukainen, esimerkiksi int-muuttujilla kokonaisluku,

Lisätiedot