KTEY009 Tutkimusaineiston analyysi: tilastollis-empiirinen tutkimus Luentomoniste 2010

Koko: px
Aloita esitys sivulta:

Download "KTEY009 Tutkimusaineiston analyysi: tilastollis-empiirinen tutkimus Luentomoniste 2010"

Transkriptio

1 Jyväskylän yliopisto Liikuntatieteellinen tiedekunta Terveystieteiden laitos KTEY009 Tutkimusaineiston analyysi: tilastollis-empiirinen tutkimus Luentomoniste 010 Timo Törmäkangas Tämä moniste löytyy Internet-osoitteesta

2

3 Sisältö JOHDANTO... 5 Tilastollisen tutkimuskysymyksen luonteesta... 5 Kvantitatiivisen tutkimuksen vaiheet... 5 Tutkimuskysymyksen asettaminen ja hypoteesit... 6 Teoreettinen malli ja mittaaminen... 6 Otannasta... 8 AINEISTON TARKASTELU Havaintomatriisi Empiirinen jakauma... 1 Luokittelu Jakauman graafisia kuvauskeinoja Aineiston tarkastelu ja muokkaus Jakauman tunnusluvut Erilaisia jakaumatyyppejä... 6 Box plot -kuvio... 8 Kahden muuttujan jakauman tarkastelu... 8 RIIPPUVUUS Riippuvuus kahdelle vähintään luokitteluasteikolliselle muuttujalle Korrelaatio Riippuvuus kun muuttujat ovat vähintään järjestysasteikollisia Riippuvuus kun molemmat muuttujat ovat jatkuvia TODENNÄKÖISYYS Yleistä todennäköisyydestä Otantajakauma Todennäköisyys ja tilastollinen päättely TILASTOLLINEN PÄÄTÖKSENTEKO Estimointi Tilastollinen testaus Hypoteesit Oletukset Riskitaso Testisuure ja p-arvo Nollahypoteesin kohtalo ja johtopäätökset PERUSTESTEJÄ Riippuvuuden tilastollisen merkitsevyyden testaaminen χ -riippumattomuustesti Korrelaatiokertoimen testaus Erojen tilastollisen merkitsevyyden testaaminen Suhteellisten osuuksien testaus Keskiarvotestit Epäparametriset menetelmät KIRJALLISUUTTA JA INTERNET-SIVUSTOJA LIITTEET... 8

4

5 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 5 JOHDANTO Tilastollisen tutkimuskysymyksen luonteesta Millaisia ongelmia tilastollinen tutkimus käsittelee? - Kohde on empiirinen, kvantitatiivinen ja toistuva - Onko eroa / yhtäläisyyttä? Onko muutosta / pysyvyyttä? - Onko riippuvuutta? - Millainen on eri tekijöiden välinen yhteys? - Miten voidaan ennustaa jonkin ilmiön käyttäytyminen tulevaisuudessa? Menetelmien hyvät ja huonot puolet + tutkittava asia saadaan eksaktin käsitejärjestelmän puitteisiin + ilmiöön liittyvä malli saadaan yksinkertaistettua - kaikki asiat eivät ole mitattavissa - tieto yksilön erityispiirteistä häviää Kvantitatiivisen tutkimuksen vaiheet Kvantitatiivista tutkimusta luonnehtivat seuraavat vaiheet, joita ei usein voi erottaa käytännön työssä näin selkeästi. 1. Tutkimusongelman määrittäminen - Kirjallisuuteen perehtyminen. Suunnitteluvaihe - Ongelman yksityiskohtaisempi määrittely - Pohjustavan teorian valinta ja hypoteesi(e)n laatiminen - Operationaalistaminen - Tutkimusmenetelmien valinta - Aineiston keräämiseen liittyvien yksityiskohtien määritys - Analyysin suunnittelu - Raportoinnin suunnittelu 3. Kenttätyövaihe eli aineiston keruu 4. Tietojen tallennus ja muokkaus analyysia varten 5. Tietojen analysointi ja johtopäätösten teko 6. Tutkimuksen raportointi (Mukaillen Tähtistä & Kaljosta) Edellä kuvatut vaiheet pätevät silloin kun varsinainen aineisto kerätään tutkimuksen aikana. Jos aineisto on jo kerätty, tutkimusvaihe painottuu tutkimuskysymysten pohtimiseen, analyysin suorittamiseen ja tulosten raportointiin. Tällöin on tärkeä perehtyä aineistoon ja sen kokoamisen taustalla olleeseen ajatteluun. Miksi on kerätty juuri ne muuttujat, jotka on kerätty? Miten tieto on tallennettu? Mitä muutoksia aineistoon on tehty? Jne. Tilastollisen tutkimuksen päävaiheet voidaan kirjoittaa myös seuraavasti (Chatfield 1988): 1. Aineistoa tarkastellaan. Selvitetään aineiston laatu ja rakenne ja lasketaan muuttujia parhaiten kuvaavat tunnusluvut. Aineistoa voidaan muokata tässä vaiheessa, jos se on tarpeen.. Laaditaan aineistoa kuvaava malli käyttäen apuna tunnuslukuja ja kirjallisuutta / aikaisempaa tutkimusta.

6 6 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 3. Sovitetaan malli aineistoon. Tarkastellaan kuinka hyvin malli sopii aineistoon ja selvitetään kuinka paljon havaittua hajontaa voidaan selittää mallin avulla. Satunnaisvaihtelun osuus tulee myös selvittää mallin tarkkuuden arviointia varten. 4. Tarkastellaan mallin sopivuus ja oletusten voimassaolo. Mallia voidaan muokata, jos se on tarpeen. Muokkaamisessa ei tulisi luottaa liikaa ainoastaan empiirisiin (aineistolähtöisiin) kriteereihin. 5. Esitetään johtopäätökset. Hyviä käytännön vinkkejä juuri tietynlaisen analyysin tekemiseen kannattaa etsiä alan kirjallisuudesta (esim. Chatfieldin kirja antaa hyviä yleisvinkkejä aineiston käsittelyyn). Tutkimuskysymyksen asettaminen ja hypoteesit Tutkimuskysymyksen muotoilu Tutkimus lähtee liikkeelle siitä, että halutaan saada vastaus johonkin todellisuutta koskevaan kysymykseen. Tutkimus kysymys voi olla yksinkertaisen näköinen, esim. 1. "Vaikuttaako uudenlainen kuntoutusohjelman sisältö kuntoutumiseen 75-vuotiailla?" Kysymyksestä voidaan muodostaa hypoteeseja, joiden pohjalta edetään. Esim. oletetaan, että uuden kuntoutusohjelman vaikutus on positiivinen Joudutaan ehkä ottamaan kantaa myös muihin kysymyksiin:. "Onko kunnon lähtötaso samanlainen miehillä ja naisilla?" -> hypoteesi: "lähtötaso on sama" 3. "Onko ohjelman vaikutus samanlainen miehillä ja naisilla?" -> hypoteesi: "vaikutus on sama" Vastaukset näihin kysymyksiin vaikuttavat siihen, kuinka varsinaiseen tutkimuskysymykseen voidaan lopulta vastata järkevällä tavalla. Hyvä hypoteesi: - esittää yksiselitteisen suhteen kahden tutkittavan asian välille - on empiirisesti testattavissa - on perusteltu (esim. teorian tai muiden syiden pohjalta) - on lyhyt ja selkeä Tutkimushypoteesin asettamisen jälkeen voidaan määrittää tilastolliset hypoteesit esim. tilastollista päätöksen tekoa varten (näistä enemmän myöhemmin) Teoreettinen malli ja mittaaminen Mittaaminen on keskeisin käsite tilastollisessa tutkimuksessa, sillä mittaamisen onnistumisesta riippuu lopulta se, mitä menetelmiä voidaan käyttää ja miten selkeitä tuloksia aineistosta voidaan saada. Mittaaminen pohjautuu johonkin tutkijan mielessä olevaan malliin siitä, ketä mitataan ja mitä ominaisuuksia heistä mitataan.

7 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 7 Mallin ja mittaamisen yhteys MALLIIN kuuluvat TUTKIMUSOBJEKTIT - Tutkimusobjektien attribuutit (vain tutkimuksen kannalta relevantit) määritellään teoreettisilla termeillä (esim. mitataan pituus, teoreettisesti siis kahden pisteen välinen etäisyys) - Termit on käännettävä empiirisiksi kvantitatiivista tutkimusta varten (operationaalistaminen) -> jokaiseen termiin liitetään mittaoperaatio (esim. pituuden kohdalla: laitetaan henkilö seisomaan suoraan pituusmitan viereen ja merkitään pituus viivana hänen päälakensa tasalle, kirjataan tulos) - Attribuuttia saadaan näin vastaamaan lukuarvo (Tämä tapahtuma on mittaoperaatio) - Mittaoperaation säännöt ja välineet = mittari - Objekti, jolle mittaus tehdään on havaintoyksikkö (case) - Ominaisuus, jota mitataan on muuttuja (variable) Ominaisuus voi saada erilaisia arvoja, jotka ovat muuttujan havaintoarvoja (observations) Mittaaminen ja muuttujat - lyhyesti määriteltynä mittaus on toimenpide, jolla tilastoyksikköön liitetään jotain sen ominaisuutta kuvaava luku eli mittaluku -> mittaluku ilmoittaa muuttujan arvon - mittaluvut voivat esittää erilaisia ja erilaatuisia ominaisuuksia muuttujan luonteesta riippuen -> muuttuja mitataan jollakin mitta-asteikolla - muuttuja on jatkuva, jos se voi saada minkä tahansa reaalilukuarvon tietyllä välillä - muuttuja on epäjatkuva eli diskreetti, jos se voi saada vain äärellisen määrän arvoja tietyllä välillä - muuttujia mitatessa esiintyy usein mittausvirheitä, joita voivat aiheuttaa 1. mittausmenetelmien epätarkkuus. mittausvälineiden epätarkkuus 3. mittaajan epätäsmällisyys 4. ympäristön häiriötekijät Mitta-asteikot Edellisen karkean luokittelun lisäksi muuttujat voidaan jakaa tarkemmin mitta-asteikkoihin. Tällöin jakoperusteena on muuttujan sisältämän informaation määrä. Seuraava luokittelu on tärkeä varsinkin jatkossa kun mietitään sopivia analyysimenetelmiä eri mitta-asteikoilla mitatuille muuttujille. Luokittelu- eli nominaaliasteikko Yksinkertaisin mittaustapa on luokitella havainnot ennalta määrättyihin luokkiin. Luokkien välillä ei vallitse järjestystä. Mittaluvuilla korvataan luokkien nimet. Järjestys- eli ordinaaliasteikko Luokitteluasteikkoa hieman monimuotoisempi asteikkotyyppi, jossa luokat voidaan asettaa järjestykseen. Peruslaskutoimitukset, esim. muuttujan arvojen välinen erotus, eivät kuitenkaan ole sallittuja.

8 8 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Välimatka- eli intervalliasteikko Välimatka-asteikolla on yksikäsitteinen järjestys havaintoyksiköiden välillä. Muuttujan arvon lisäykset voidaan laskea, mutta nolla ei ole asteikon minimikohta -> muutoksen suhteellista suuruutta ei voida määrittää. Intervalliasteikolla on yleisesti sovittu nollakohta (esim. Celsius-asteikon nollakohta). Suhdeasteikko Edelliseen verrattuna suhdeasteikolla on absoluuttinen nollakohta, joka on minimi. Absoluuttisessa nollakohdassa tarkasteltava ominaisuus häviää. Absoluuttinen asteikko Suhdeasteikon erikoistapaus. Asteikko, jossa mittaamiseen on käytettävissä ainoastaan yksi mittari. Muuttujan arvot saadaan yhden mittayksikön kerrannaisina, esim. lukumäärä tai suhteellinen osuus. Huom! Mitta-asteikko määrää millaisia tilastollisia tunnuslukuja ja tilastollisia testejä muuttujaa koskevissa analysoinneissa voidaan käyttää. Taulukossa 1 on lyhyesti esitetty mitta-asteikot ja niiden keskeiset ominaisuudet. Taulukko 1. Tiivistelmä mitta-asteikoista. MITTA-ASTEIKKO OMINAISUUS LASKUTOIMITUKSET ESIMERKKIMUUTTUJA Luokittelu- eli nominaaliasteikko Järjestys- eli ordinaaliasteikko Välimatka- eli intervalliasteikko Suhdeasteikko samanlaisuus / erilaisuus ei laskutoimituksia sukupuoli, siviilisääty, ammatti samanlaisuus / erilaisuus ei laskutoimituksia koulutusaste, järjestys mielipidemittausten samanlaisuus / erilaisuus järjestys välimatka samanlaisuus / erilaisuus järjestys välimatka absoluuttinen nollakohta Likert-asteikko yhteen- ja vähennyslasku lämpötila (Celsiusasteikko) kaikki laskutoimitukset sallittuja pituus, paino, lukumäärä Otannasta On tärkeätä valita sopivat muuttujat mitattavaksi varsinaista analyysia varten, mutta samoin tulisi myös varmistaa, että muuttujat mitataan henkilöiltä niin, että he ovat oikeassa suhteessa mukana tutkimuksessa. Tutkimusta varten erotetaan perusjoukko, jolla tarkoitetaan kaikkia niitä tilastoyksiköitä (esim. henkilöitä), joilla on se mitattava ominaisuus (tai mitattavat ominaisuudet), jota tutkitaan. Perusjoukkoja erotetaan äärellisiä (finite) ja äärettömiä (infinite): äärellisten perusjoukkojen kaikki yksilöt voidaan listata, kun taas äärettömien perusjoukkojen yksilöitä ei voida, esim. suuren määrän ja hankalan tavoitettavuuden vuoksi. Kun perusjoukko on äärellinen ja sopivan kokoinen suhteessa käytettäviin resursseihin, voidaan suorittaa kokonaistutkimus, eli kerätään aineisto koko perusjoukosta. otanta Perusjoukko Otos

9 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 9 Usein kokonaistutkimusta ei kuitenkaan voi suorittaa, koska perusjoukko on ääretön tai liian suuri. Tällöin kerätään edustava otos perusjoukosta (ks. ed. kuvio). Useimmat tilastolliset menetelmät perustuvat siihen, että kerätystä otoksesta pyritään yleistämään tieto sitä vastaavaan perusjoukkoon. Yleistämistä voidaan tehdä, kun otos edustaa perusjoukkoa tutkittavan asian (muuttujan / muuttujien) suhteen oikeassa suhteessa. Edustavuuteen taas pyritään yleensä poimimalla otos jollain satunnaistamismenetelmällä, ts. pyritään siihen, että jokaisella perusjoukon jäsenellä on yhtä suuri todennäköisyys päätyä otokseen. Käytännössä otanta tapahtuu niin, että aluksi muodostetaan lista perusjoukon alkioista, otantakehys, josta tutkittavat otostetaan jonkin otantamenetelmän avulla. Äärettömän perusjoukon kohdalla otantakehykseen ei välttämättä pystytä listaamaan kaikkia perusjoukon jäseniä, mutta tällaisessa tapauksessa tulisi silti pyrkiä mahdollisimman edustavan otantakehyksen laatimiseen. Yleisin ja samalla yksinkertaisin otantamenetelmä on yksinkertainen satunnaisotanta (YSO). Menetelmässä perusjoukon alkiot numeroidaan ja otokseen tulevat alkiot valitaan arpomalla tai satunnaislukujen avulla. Tällöin voidaan olettaa, että jokaisella tilastoyksiköllä (alkiolla) on yhtä suuri todennäköisyys tulla valituksi. Muita otantamenetelmiä ovat systemaattinen otanta (SO), ositettu otanta (OO) ja ryväsotanta (RO), joita ei käsitellä tässä. Otantamenetelmä on syytä tuntea analyysivaiheessa, sillä kullekin menetelmälle käytetään erilaisia analyysimenetelmiä. Tällä kurssilla käsitellään vain yksinkertaiseen satunnaisotantaan perustuvia menetelmiä. Tärkeitä tekijöitä otantaa mietittäessä ovat 1) tutkimuksen tarkoitus ja asetelma ) otoksen koko, 3) otanta menetelmän valinta, 4) otoksen jäsenten samankaltaisuus / erilaisuus. Otantaan voi tarkemmin perehtyä esim. kirjoissa Tilastollinen tutkimus (Heikkilä, 1999) ja Epidemiologia ja biostatistiikka (Uhari & Nieminen, 001). Alla esitetyssä kuviossa on esitetty kymmenen henkilön otanta poimittuna normaalisti jakautuneesta perusjoukosta. Tarkastelu ominaisuus on henkilön pituus ja perusjoukko koostuu pelkästään miehistä. Perusjoukossa keskipitkiä (n. 170 cm pitkiä) on eniten. Tällöin satunnaisesti otostettuun otokseen pitäisi joutua suhteellisesti enemmän 170 cm pituisia kuin esim. 140 tai 00 cm pitkiä miehiä. Mitä enemmän henkilöitä otokseen otetaan, sitä lähemmin otoksen jakauma noudattaa perusjoukon jakaumaa (tässä normaalijakauma) Perusjoukko Otos Kuvio 1. Satunnaisotos normaalisti jakautuneesta perusjoukosta. Y-akseli: tapausten suhteellinen osuus, X-akseli: pituus (cm). Otannan onnistuminen on keskeistä yleistettävyyden kannalta. Jos otantakehys olisi määritelty jonkin puutteellisen rekisterin pohjalta ja otokseen olisi esim. tullut kymmenen henkilöä, joilla kaikilla pituuden mittaustuloksena olisi ollut vähintään 00 cm tai enemmän (esim. jokin kerhon jäsenet), ei otoksesta saatavaa tietoa voisikaan yleistää niin helposti perusjoukkoon. Kun otoksesta saatava tieto ei vastaa perusjoukkoa edustavalla tavalla, puhutaan otantavirheestä. Otantaan liittyvät virheet ovat tärkeitä analyysiä tehdessä, sillä ne saattavat johtaa epätarkkoihin tuloksiin. Kun satunnaisotanta epäonnistuu, puhutaan harhasta (bias). Sitä esiintyy esim. silloin kun otoksesta jää pois oleellisia ryhmiä tai kun kaikilla havaintoyksiköillä ei ole sama todennäköisyys päätyä otokseen, eli kun tietyt ryhmät eivät ole edustettuina oikeassa suhteessa perusjoukossa. Jos harha voidaan havaita, sitä on mahdollista korjata esim. käyttämällä painokertoimia. Kato (attrition) tarkoittaa sitä kun otostetuista havaintoyksiköistä saavutetaan vain osa. Katoa saattaa esiintyä silloin kun yhtä havaintoyksikköä ei saada mitattua lainkaan; esim. silloin kun tutkittavaa ei tavoiteta mittauksiin, vaikka tämä on valittu otokseen. Katoa voi esiintyä myös yksittäisten mitattavien muuttujien

10 10 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus tasolla. Silloin saadaan kerätyksi vain muuttujan arvot vain osalta tutkittavista (muut saattavat esim. kieltäytyä vastaamasta esitettyihin kysymyksiin). Kato pienentää analyysissä käytettävissä olevan aineiston kokoa, ja sitä voi pyrkiä estämään esim. motivoimalla asianmukaisin keinoin tutkittavia tai antamalla tarpeeksi vastausaikaa. Kyselyn kohdalla voidaan myös harkita uusintakyselyn suorittamista, jos resurssit sen sallivat.

11 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 11 AINEISTON TARKASTELU Havaintomatriisi - havaintomatriisi on havaintoaineiston esitysmuoto, jossa on p kappaletta muuttujia (X 1,..., X p ) ja n kappaletta tilastoyksiköitä eli havaintoja eli tapauksia (a 1,..., a n ) - yleensä tilastoyksiköiden määrä on suurempi kuin muuttujien määrä (n > p) MUUTTUJAT X 1 X... X p a 1 x 11 x 1... x 1p TILASTO- a x 1 x... x p YKSIKÖT a n x n1 x n... x np - matriisista nähdään jokaisen tilastoyksikön yksittäiset muuttujan arvot siinä tietoa ei ole mitenkään tiivistetty - matriisissa muuttujan arvot esitetään yleensä numeerisessa muodossa, joten sanalliset muuttujan arvot korvataan jollain sopivalla numeroarvolla (koodaus), esim. itse arvioidun terveyden vastausluokat huono, keskinkertainen tai hyvä voidaan korvata arvoilla 0, 1 ja - koodauskäytäntö on yleensä mielivaltainen, esim. itse arvioidun terveyden luokat voidaan yhtä hyvin korvata koodeilla 1, ja 3 tai 3, ja 1 - puuttuvat tiedot liitetään matriisiin joko niin, että ko. tilastoyksikön kohdalla matriisin solu jätetään tyhjäksi tai sitten käytetään jotain ennalta sovittua koodia kuvaamaan puuttuvaa arvoa (esim. -1, 9, 999 jne) - jokainen vaakarivi sisältää yhteen tilastoyksikköön liittyvät muuttujien arvot -> tilastoyksikön profiili (profile) - jokainen sarake sisältää yhden muuttujan kaikki arvot -> muuttujan jakauma (distribution) - pienestä havaintomatriisista voidaan erottaa aineiston rakennetta, kuten esim. ryhmien välisiä eroja jne. nykyään kuitenkin havaintomatriisi muodostetaan suoraan tietokoneelle, sillä aineistot ovat yleensä laajoja ja silmämääräinen aineiston tarkastelu ei kerro aineistosta paljoakaan - havaintomatriisi ei yleensä ole sellaisenaan riittävän havainnollinen, mutta havainnollisuutta voidaan parantaa esim. lajittelemalla aineisto nousevaan tai laskevaan järjestykseen tai ryhmittelemällä aineisto Esim. Kuuden henkilön havaintomatriisi koehenkilötunnuksen mukaan järjestettynä. Kun aineisto on kerätty, se syötetään tietokoneelle. Usein syöttäminen tapahtuu käsin, jolloin koodaaja muuttaa kerätyn aineiston numeeriseen muotoon kysymyslomakkeelle (esim. vastausvaihtoehdot koodataan etukäteen sovituilla numeroilla) ja tallentaja syöttää aineiston sitten tietokoneelle käyttäen esim. tekstieditoria (word, edit-editori) tai tilasto-ohjelmaa (SPSS). On tärkeätä huomata, että tietoa käsin syötettäessä on mahdollista, että sekä koodaaja että tallentaja voivat tehdä virheitä, jonka takia aineisto tulee tarkistaa. Aineisto voidaan syöttää myös koneellisesti, jos vastaukset kysymyksiin on annettu esim. optisella lomakkeella. Tällöin tieto voidaan siirtää tietokoneelle optisella lukijalla tai skannerilla. Nykyään on myös mahdollista, että tutkittava itse syöttää tiedot kun tutkimuksessa käytetään esim. web-sivuja apuna. Kerätty aineisto esitetään tietokoneella (tai paperille koottuna, jos aineisto on pieni) havaintomatriisissa. MUUTTUJAT Koehenkilötunnus Ikä Pituus (cm) Paino (kg) Sukupuoli TILASTO YKSIKÖT

12 1 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Empiirinen jakauma Muuttujan arvoja kutsutaan usein luokiksi. Muuttujan mitta-asteikosta voi usein päätellä, kuinka monta luokkaa muuttujalla voi olla. Luokitteluasteikollisella muuttujalla (esim. sukupuoli) luokkia on yleensä vähän, kun taas jatkuvilla muuttujilla luokkia voi periaatteessa olla ääretön määrä riippuen käytettävän mittarin tarkkuudesta (esim. paino), vaikka kaikkia niistä ei käytännössä havaitakaan. pituus siviilisääty arvioterveyden tilasta luokat esim. senttimetrien välein siviilisäädyt edustavat luokkia arviot luvuksi muutettuna ovat muuttujan luokkia Jakaumassa kuvataan muuttujan eri luokkiin sijoittuvien tapausten lukumäärä. Tavallisesti empiirisessä jakaumassa huomioidaan muuttujan pienimmän ja suurimman arvon välille sijoittuvat, havaitut luokat. Seuraavassa taulukossa on esitetty pituuden jakauma alle 15 cm pitkille jyväskyläläisille 75-vuotiaille naisille. Pituus (cm) Havaintoja (kpl) Huomaa, että luokka pituus = 147cm puuttuu jakaumasta, koska otokseen ei tullut mukaan yhtään tämän pituista naista. Nollaluokkia ei yleensä esitetä taulukoidussa jakaumassa tilan säästämiseksi, mutta lukijan tulee ottaa nämä huomioon. Yhden muuttujan arvon (luokan) sisältämien tapausten lukumäärästä kutsutaan frekvenssiksi ja jakauman tapauksessa puhutaan frekvenssijakaumasta. Frekvenssistä käytetään merkintää f i, jossa alaindeksillä viitataan jakauman arvoluokkaan (esim. pituuden luokkaan 14cm). Indeksejä voidaan käyttää kahdella tavalla: indeksillä 1 voidaan viitata muuttujan arvon ensimmäiseen luokkaan (tässä 14cm). Toisaalta indeksinä voidaan käyttää myös muuttujan luokan arvoa 14. Tässä pituuden 14 cm frekvenssi on 3, eli 14cm pitkiä naisia havaittiin otoksessa 3 kpl ja tämä voidaan merkitä indeksejä käyttäen joko f 1 = 3 tai f 14 = 3. Jakaumassa voidaan ilmoittaa myös muuta tietoa, kuten seuraavassa taulukossa on esitetty. Pituus (cm) f i p i F i P i Yhteensä Frekvenssin (f i ) lisäksi taulukossa on ilmoitettu suhteellinen frekvenssi (p i ), ts. frekvenssin osuus koko havaintomäärästä prosenttimuodossa. Se voidaan laskea kaavalla (1) f i / n * 100 jossa jokaisen luokan frekvenssi jaetaan havaintojen kokonaismäärällä ja kerrotaan sadalla. Taulukossa on esitetty myös summafrekvenssi (F i ), joka kertoo havaintoarvojen kertymän kyseiseen muuttujan arvoon

13 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 13 saakka. Se lasketaan yhdistämällä aina kunkin muuttujan arvoluokan kohdalla sen ja edellisten luokkien frekvenssit. Esim. edellisessä aineistossa luokan 144cm kohdalle havaintoja on kertynyt = 7 kappaletta. Viimeisessä sarakkeessa on esitetty suhteellinen summafrekvenssi (P i ). Se kertoo kertymän suhteellisen osuuden koko aineistossa. Se lasketaan yhdistämällä kunkin muuttujan arvoluokan ja sitä edeltävien arvoluokkien suhteelliset frekvenssit. Esim. aineiston luokan 144cm kohdalla: = Suorat jakaumat ovat yleensä sellaisenaan aineistosta laskettuna havainnollisia diskreettien muuttujien tapauksissa, koska näissä luokkia on yleensä pieni määrä (esim. itse arvioitu terveys). Ne eivät ole kovin helppolukuisia jatkuvien muuttujien kohdalla, sillä esim. pituusmuuttujan kohdalla voi käydä niin, että luokkia tulee suuri määrä. Tällöin joudutaan turvautumaan luokitteluun tai käyttämään jotain graafista jakauman kuvausmenetelmää (esim. histogrammi). Luokittelu - luokittelua käytetään, jos muuttujan arvoja on paljon ja halutaan helpottaa aineiston käsittelyä - luokittelu on edellytys taulukoiden käytölle, jos tarkastellaan välimatka- tai suhdeasteikon muuttujia - luokittelussa häviää tietoa, mutta aineistosta tulee havainnollisempi ja käytännöllisempi - yleisin luokittelumuoto on tasavälinen luokittelu, jossa kaikki luokat ovat yhtä leveitä - jos aineisto on vino tai siinä on mukana kovin poikkeavia havaintoja voidaan käyttää epätasavälistä luokittelua tai avoimia luokkia - luokkien lukumäärä on harkinnanvarainen; jos luokkia on paljon, saadaan tarkempia tuloksia kuin pienellä luokkien määrällä, mutta tällöin havainnollisuus saattaa kuitenkin kärsiä - tasavälisessä luokittelussa tarvitaan mittaustarkkuus a = kahden peräkkäisen arvon erotus luokkien lukumäärä k vaihteluvälin pituus R = muuttujan suurimman ja pienimmän arvon erotus luokan pituus c = R / k (tasavälinen) pyöristetyt luokkarajat = valitut mittaustarkkuuden mukaiset luvut todelliset luokkarajat = pyöristetystä alarajasta vähennetään a / ja pyöristettyyn ylärajaan lisätään a / luokkakeskukset = (alaraja + yläraja) / Esimerkki. Aineistona on 1 taloutta, joilta on kysytty tulot sekä perheen sosiaalinen asema (1=johtavassa asemassa oleva, =yrittäjä, 3=toimihenkilö, 4=työnjohtaja, 5=ammattitaitoinen työntekijä, 6=ammattitaidoton työntekijä). Esitetään asema -muuttujan suora jakauma sekä luokitellaan tulot -muuttuja. Perhe Tulot Asema Perhe Tulot Asema Asema- muuttujan frekvenssijakauma: Asema f i p i (%) F i P i (%) Yhteensä 1 100

14 14 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Tulot -muuttuja joudutaan luokittelemaan ennen frekvenssien tarkastelua. Sitä varten määritetään luokittelussa tarvittavat termit: - mittaustarkkuus a = 1 - valitaan luokkien lukumääräksi esim. k = 1 - vaihteluvälin pituus R = 5-0 = 05 - luokan pituus c = 05 / 1 = > pyöristetään c = 0, jotta saadaan järkevämpi luokitus Pyöristetyt luokkarajat Todelliset luokkarajat Luokkakeskukset f i p i % F i P i % Yhteensä (Riukulehto & Huhtala 199, ) Luokitusta käytetään kun halutaan kuvata jatkuvan muuttujan jakaumaa tiivistetyssä muodossa. Usein aineistoa joutuu myös muokkaamaan analyysejä varten sopivampaan muotoon. Esim. uudelleen luokittelua voidaan käyttää silloin, kun muuttujan alkuperäinen luokitus sisältää liian pieniä ryhmiä. Seuraavassa tulosteessa on esitetty fyysinen aktiivisuus -muuttujan jakauma. NC1576 PHYSICAL ACTIVITY Frequency Percent Valid Percent Cumulative Percent Valid 1 Sedentary preoccupations 7 3,0 3,4 3,4 Light exertion 44 18,6 1,6 5,0 3 Moderate exertion app. 3h/week 94 39,8 46,1 71,1 4 Moderate exertion >= 4h/week or heavy exertion < 3h/week 5,0 5,5 96,6 5 Active sports >= 3h/week 7 3,0 3,4 100,0 Total 04 86,4 100,0 Missing System 3 13,6 Total ,0 Tulosteesta havaitaan, että ensimmäinen ja viimeinen luokka sisältävät kumpikin 3 % aineistosta. Useimpien analyysien kannalta tämä on liian pieni lukumäärä, jotta kyseisistä luokista voidaan sanoa mitään yleistettävää. Yksi keino onkin muodostaa kolmiluokkainen muuttuja, johon luokitellaan muuttujan informaatio uudelleen yhdistämällä 1. ja. luokka sekä 4. ja 5. luokka. Alla esitetyn jakauman mukaan uuden muuttujan ääripäiden luokat sisältävät enemmän henkilöitä, ja muuttuja toimii mahdollisesti paremmin jatkoanalyyseissä, mutta on myös huomattava, että uuden luokituksen myötä osa alkuperäisen muuttujan informaatiosta on hävinnyt. FYSAKTRI Physical activity (3 categories) Frequency Percent Valid Percent Cumulative Percent Valid 1 Light exertion 51 1,6 5,0 5,0 Moderate exertion 94 39,8 46,1 71,1 3 moderate or heavy exertion 59 5,0 8,9 100,0 Total 04 86,4 100,0 Missing System 3 13,6 Total ,0

15 Cumulative Percent Percent Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 15 Jakauman graafisia kuvauskeinoja Graafit eli kuviot ovat havainnollinen keino välittää nopeasti yleiskäsitys muuttujan jakaumasta. Graafit kuvaavat suppeasti jakaumatietoa ja niillä pystytään korostamaan erilaisia asioita muuttujista. Ne eivät kuitenkaan ole yhtä tarkkoja kuin taulukot ja niillä voi tahtomattaankin johtaa lukijaa harhaan. Graafia tehdessä pyritään yksinkertaisuuteen. Tarkoitus on, että ei vääristetä sitä tietoa, mitä aineistosta löytyy. Kuviot laaditaan itsenäisiksi kokonaisuuksiksi, joissa kuvaan liittyy otsikko, asteikkojen nimet jne. Asteikot merkitään selkeästi näkyville. 80 PYLVÄSDIAGRAMMI pylväät voidaan kuvata vaakasuoraan tai pystyyn - havainnollistaa frekvenssijakaumaa - soveltuu määrän (suhteellisen osuuden) kuvaamiseen ja niiden vertailuun - soveltuu diskreeteille muuttujille (tällöin pylväät voi piirtää vaakasuoraan) - pylväät alkavat aina nollasta 0 good satisfactory poor Self-rated health (3-cat.) SEKTORIDIAGRAMMI - piirakkakuvio - havainnollistaa luokkien osuutta kokonaisuudesta - soveltuu diskreeteille muuttujille poor good satisfactory 100 PORRASDIAGRAMMI soveltuu kumulatiivisten frekvenssien esittämiseen - käytetään diskreeteille muuttujille - kuvaa hyppäyksittäin tapahtuvia muuttujan arvojen muutoksia Naimaton Naimisissa Leski Eronnut CIVILSTA

16 Count 16 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus HISTORGRAMMI 5 - pylväsdiagrammi, jossa pylväät on piirretty yhteen - käytetään kuvaamaan jatkuvan muuttujan luokiteltua aineistoa - pylväät piirretään todellisten luokkarajojen mukaan - pystyakseli kuvaa aina (jotain) frekvenssiä - tärkeä keino kun tarkastellaan jatkuvan jakauman muotoa - käytetään pääasiassa jatkuvilla muuttujilla - vertailun vuoksi voidaan histogrammiin liittää normaalijakauman kuvaaja f ,5 55,5 53,5 51,5 49,5 47,5 45,5 43,5 41,5 39,5 37,5 35,5 33,5 31,5 9,5 7,5 5,5 3,5 1,5 19,5 Body mass index (BMI) Std. Dev = 4,68 Mean = 7,8 N = 191,00 % Body mass index (BMI) SUMMAKÄYRÄ - käytetään havainnollistamaan summafrekvenssejä - havainnollistetaan jatkuvan muuttujan luokiteltua aineistoa - kuvaaja nousee luokan sisällä tasaisesti kohti 100 prosenttia VIIVADIAGRAMMI - käytetään havainnollistamaan kehityssuuntaa - aikasarjojen kohdalla vaaka-akselilla on aika - muiden jatkuvien muuttujien kohdalla käytetään luokiteltua aineistoa ja luokkakeskuksia piirtämiseen (frekvenssimonikulmio) HEIGHT Tässä on esitelty vain muutama graafinen menetelmä. Esim. Tufte (1984) esittelee varsin laajasti erilaisia graafisia aineiston kuvauskeinoja. Ongelmana kuvien tekemisessä on se, että ohjelmistoissa on usein varsin vähäiset valikoimat erilaisten kuvien tuottamiseen. Usein kuvat joutuukin rakentamaan jollakin muulla ohjelmalla (esim. Powerpoint). Jakauman tarkastelu on tärkeä esivaihe data-analyysissä. Sen perusteella voidaan päättää, minkälaisia analyysimenetelmiä käytetään, kun pyritään vastaamaan tutkimuskysymykseen. Sen perusteella voidaan myös tunnistaa ongelmallisia jakaumia. Esim. liian vähäinen hajonta voi aiheuttaa sen, että muuttujaa ei voida analysoida ensinkään. Jakauma näyttää tällöin esim. seuraavalta:

17 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Päiväunen määrä 3 Std. Dev =,4 Mean = 1 N = 17,00 Kuviossa on esitetty jakauma kyselylomakkeen osiolle, jolla on selvitetty päiväunien määrää. Vastausvaihtoehtoja on ollut kolme (ei lainkaan, vähän, paljon), ja nähdään, että ensimmäinen niistä on ollut selkeästi suosituin (vastaajista 07 eli 95% on valinnut tämän vaihtoehdon). Koska tilastollisessa tutkimuksessa tarkoitus on selittää juuri muuttujan sisältämää vaihtelua eli hajontaa, ei tämän muuttujan kohdalla ole paljon mitään, mitä tarvitsisi tai voisi selittää. Hajontaa tarkastellaan lähemmin tunnuslukujen yhteydessä. Aineiston tarkastelu ja muokkaus - havaintoaineiston tallentamisen jälkeen, ennen varsinaisia tilastollisia analyyseja, on suoritettava aineiston esitarkastelu ja muokkaus -> data-analyysi - tarkastuksia ovat esim. puuttuvien tietojen tarkistus (aineiston paikkaus), loogisuuskorjaukset, virheellisten arvojen korjaukset; - tarkastelua voidaan suorittaa ajamalla muuttujien jakaumat -> tarkoitus on oppia tuntemaan data ja tunnistamaan esim. muuttujien jakaumien muoto - tavallisesti tarkastetaan pienimmät ja suurimmat arvot - ovatko ne järkevät arvot; myös keskiarvoa tarkastelemalla nähdään, onko keskimääräinen arvo oikean tuntuinen arvo; korrelaatiokertoimen avulla nähdään onko kahden muuttujan välinen riippuvuus oletetun kaltainen (näistä tunnusluvuista enemmän jatkossa) - tavoitteena: - aineiston laadun toteaminen ja valvonta - aineiston rakenteen toteaminen - mallin ja hypoteesien määräämisen ohjaaminen. - eräs tapa aloittaa data-analyysi on esittää käsiteltävät muuttujat jonkin graafin, esimerkiksi histogrammin, avulla -> kuviosta näkee suoraan esim. muuttujan jakauman, poikkeavat havainnot ja havaintojen keskittymisen tietyn arvon ympärille Std. Dev = 11,70 Mean = 69,9 N = 95,00 135,0 130,0 15,0 10,0 115,0 110,0 105,0 100,0 95,0 90,0 85,0 80,0 75,0 70,0 65,0 60,0 55,0 50,0 45,0 WEIGHT Kuvio. Painon jakauma Jyväskyläläisillä 75-vuotiailla. Mukana on yksi poikkeava havainto.

18 HEIGHT 18 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus WEIGHT Kuvio 3. Pituuden ja painon hajontakuvio jyväskyläläisillä 75-vuotiailla. Kuvassa on esitetty viiva, joka kuvaa lineaarista riippuvuutta muuttujien välillä. Mukana on myös edellisen histogrammin poikkeava tapaus. - joskus voi olla hyvä tehdä myös yhdenmukaisuustarkistuksia eli tutkia, ovatko muuttujayhdistelmien arvot järkeviä -> voi löytyä virheitä, jotka eivät tule esiin pelkästään yhden muuttujan arvojen perusteella. Todellisissa analyysitilanteissa aineisto ei ole koskaan yhtä selkeätä kuin esim. kurssikirjoissa esitellään. Epäselvissä tilanteissa kannattaa kysyä apua ja kommentteja kokeneemmilta tutkijoilta. Internetistä löytyy myös tilastollisiin ongelmiin keskittyviä keskustelulistoja ja sivustoja (esim. SPSSX-L jne.). Joitakin yleisimpiä keinoja aineiston käsittelyyn SPSS-ohjelmalla 1. Aineiston järjestely Tapausten järjestäminen (sort) esim. henkilötunnuksen tai pituuden mukaan Tapausten tai muuttujien lisääminen (insert case / variable) esim. seurantatutkimuksessa uuden aineiston lisääminen Aineiston jakaminen jonkin muuttujan perusteella (split) esim. tutkitaan aineistosta miehiä ja naisia erikseen Aineiston valinta (select) esim. valitaan mukaan vain tietyt arvot saaneet henkilöt, esim. ne joiden pituus on yli 180cm. Aineiston painottaminen painokertoimella (weight) esim. korjataan otostamisesta aiheutuneita ongelmia, halutaan saattaa esim. koetun terveyden tilan ryhmien pituusmuuttujat samalle tasolle. Aineiston muokkaus Määrien laskeminen - määrien laskeminen useammasta muuttujasta (count) esim. kroonisten sairauksien lukumäärän määrittäminen, kun tutkittava on voinut määrittää esim. 10 erilaista sairautta - yksittäisten arvojen määrien laskeminen muuttujista (count [arvo(t)] jne) esim. erilaisten tuki- ja liikuntaelimiä koskevien sairauksien lukumäärä, kun erilaisia sairauksia on voitu ilmoittaa yhteensä 10 - puuttuvien havaintojen selvittäminen useammasta muuttujasta (count missing) esim. ovatko kaikki 10 ilmoitettua sairautta puuttuvia tietoja Uudelleenkoodaaminen (recode) - keskiarvon tai summan laskeminen useammasta muuttujasta (compute mean / sum) esim. keskimääräisen kävelynopeuden määrittäminen kolmen testikerran perusteella yhdelle henkilölle - suurimman tai pienimmän arvon etsiminen useammasta muuttujasta (compute min / max) esim. suurimman kävelynopeuden määrittäminen kolmen testikerran perusteella

19 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 19 - ajanjaksojen laskeminen (yrmoda) esim. tutkittaessa vanhuksia voidaan määrittää aika tutkimuksen alkamisesta ensimmäiseen onnettomuuteen - luvulla kertominen (compute x * muuttuja) esim. painottaminen johonkin muuhun tietoon kuin toisen muuttujan frekvenssiin perustuen - kirjainmuodon ja numeromuodon välillä tapahtuvat muunnokset esim. halutaan muuntaa koehenkilötunnus numeromuotoon tai halutaan erottaa kirjainmuodossa olevasta syntymäaikamuuttujasta vuosiluku (30456) Järjestysluvulla korvaaminen (rank) esim. voidaan korvata tautiluokat vakavuutta kuvaavan järjestysluvun avulla esim. aineiston jakaminen jakauman tunnuslukujen mukaan osiin (esim. tertiilit) Jakauman tunnusluvut Jakaumaa voidaan kuvata tiivistetysti tunnuslukujen avulla. Tällöin jakaumasta pyritään kuvaamaan keskeisin siitä saatava informaatio. Yleisimmät tunnusluvut kuvaavat jakauman sijaintia (ts. missä jakauma keskimäärin sijaitsee) ja hajontaa (ts. kuinka suurelle alueelle havainnot ovat jakaantuneet sijaintipisteen tuntumaan). Seuraavassa havainnollistetaan tunnuslukuja seuraavalla kahdeksan miehen ja kahdeksan naisen pituusmittauksen aineistolla. Taulukko. Pituusaineisto 16 henkilölle. Koehenkilö Pituus (mies) Pituus (nainen) Σ Sijainti Jakauman sijaintia kuvattaessa tärkeitä lukuja ovat keskiluvut (esim. keskiarvo) ja muut sijaintiluvut (esim. fraktiilit). Moodi (mode) Moodi eli tyyppiarvo (Mo) kuvaa sitä muuttujan arvoa, jolla on suurin frekvenssi. Moodi sopii käytettäväksi luokitteluasteikollisesta muuttujasta lähtien. Se kuvaa kuitenkin huonosti sijaintia etenkin jatkuvien muuttujien kohdalla. Moodeja voi aineistolla olla enemmän kuin yksi. Esimerkki. Miesten pituuden aineistossa moodi on arvolla 174, sillä sen frekvenssi on suurin (3). Mediaani (median) Mediaani (Md) voidaan laskea järjestysasteikollisista muuttujista lähtien. Se on se muuttujan arvo (luokka), joka jakaa otoksen kahteen yhtä suureen osaan. Mediaaniarvon ala- ja yläpuolella on siis 50% havainnoista. Mediaani määritetään asettamalla muuttujan arvot suuruusjärjestykseen. Jos havaintoja on pariton määrä, niin mediaanina pidetään aineiston keskimmäistä arvoa. Jos havaintoja on parillinen määrä, niin mediaani on kahden keskimmäisen arvon keskiarvo. Käytännössä mediaanin määrittää helpoiten suhteellisen summafrekvenssin avulla - mediaani arvo löytyy kohdasta, jossa saavutetaan 50% havaintoarvoista.

20 0 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Esimerkki. Miesten ryhmässä havaintoja on parillinen määrä. Järjestetään aineisto nousevaan järjestykseen pituuden mukaan. Taulukko 3. Nousevaan numerojärjestykseen asetettu pituusaineisto miehille. Koehenkilö Pituus Koska havaintoja on parillinen määrä, mediaani saadaan kahden keskimmäisen arvon keskiarvona, eli Md = ( ) / = Keskiarvo (mean) Keskiarvo on tärkein jatkuvien muuttujien sijaintia kuvaava tunnusluku ja se voidaan laskea välimatka- ja suhdeasteikollisille muuttujille. Otoskeskiarvoa merkitään x -kirjaimella, jonka päälle vedetään vaakasuora viiva,, ja perusjoukon keskiarvoa pienellä kreikkalaisella kirjaimella μ (myy). Keskiarvo lasketaan summaamalla kaikki havaintoarvot x i ja jakamalla summa havaintojen kokonaismäärällä n (kaava ). x i () x, i 1... n n Keskiarvo on käytetyin sijaintiluku, mutta se on myös herkkä poikkeaville havainnoille. Esimerkki. Miesten pituuden keskiarvoksi saadaan = 1381 / 8 = Naisten ryhmälle keskiarvoksi saadaan Fraktiilit Myös fraktiilit kertovat jakauman sijainnista, mutta ne eivät kerro pelkästään keskikohdasta. Esim. tertiilit jakavat jakauman kolmeen osaan (kvartiilit neljään osaan jne.) Kukin tertiili pitää sisällään kolmasosan (n. 33.3%) järjestykseen asetetuista havainnoista. Tertiilien määrittäminen käy käytännössä esim. suhteellisen summafrekvenssin perusteella (ao. esimerkki) tai laskemalla havainnon, joka on aineistossa 1 n. 33.3% kohdalla ts. n ja n. 66.7% kohdalla n. 3 3 Taulukko 4. Nousevaan numerojärjestykseen järjestetty pituusaineisto ja suhteellinen frekvenssi miehille. Koehenkilö Pituus P i (%) / / Miesten pituusmuuttuja voidaan jakaa kolmeen osaan suhteellisen summafrekvenssin perusteella. Jos käytetään tertiilejä aineiston jakamiseen voidaan määrittää todelliset rajat (ks. luokittelu). Ensimmäinen kolmannes aineistosta sijaitsee painomuuttujan arvojen välillä [168, 170.5], sillä 33.3% ylitetään arvon 171 kohdalla. Toinen kolmannes välillä [170.5, 173.5] ja kolmas kolmannes välillä [173.5, 177].

21 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 1 Fraktiileista tunnetuimmat ja käytetyimmät ovat kvartiilit. Alakvartiili Q 1 rajaa ensimmäisen 5% numerojärjestykseen asetetusta aineistosta. Keskikvartiili Q eli mediaani rajaa 50% ja yläkvartiili Q 3 rajaa ensimmäisen 75% aineistosta. (Määritä kvartiilit pituusmuuttujan kahdeksalle tapaukselle.) Fraktiilejä käytetään mm. box-plot kuvaajan piirtämisessä, jota esitellään tarkemmin myöhemmin. Kvartiilien laskutavassa on eroja eri ohjelmistojen välillä esim. SPSS ja Microsoft Excel käyttävät hieman eri menetelmiä. Hajonta - hajontaluvut Vaihteluväli Vaihteluväli kuvaa havaintoaineistossa pienimmän ja suurimman havainnon välin ja se merkitään usein [p, s], missä p = pienin arvo ja s = suurin arvo. Jos käytössä on luokiteltu aineisto, vaihteluväli on ensimmäisen luokan todellisen alarajan ja viimeisen luokan todellisen ylärajan väli. Vaihteluväli voidaan määrittää vähintään järjestysasteikollisille muuttujille. Esimerkki. Miesten pituuden vaihteluväli on [168, 177]. Vaihteluvälin pituus (range) Vaihteluvälinpituus (R) on havaintoaineiston suurimman ja pienimmän arvon välinen erotus. Luokitellussa aineistossa lasketaan viimeisen luokan todellista ylärajan ja ensimmäisen luokan todellisen alarajan erotus. Vaihteluvälin pituus voidaan laskea vähintään välimatka-asteikollisille muuttujille. Poikkeavat havainnot vaikuttavat vaihteluvälin pituuteen, joten se ei välttämättä ole hyvä hajontaluku kaikissa tilanteissa. Esimerkki. Miesten vaihteluvälin pituus on R = = 9. Kvartiiliväli (interquartile) Kvartiiliväli ulottuu alakvartiilista yläkvartiiliin ja se voidaan määrittää vaihteluvälin tapaan välinä [Q 1, Q 3 ]. Kvartiiliväliä varten on muuttujan oltava vähintään järjestysasteikollinen. Kvartiilivälin pituus (interquartile range) lasketaan vähentämällä yläkvartiili alakvartiilista. Q r = Q 3 - Q 1 (3) Pituus voidaan määrittää vähintään välimatka-asteikollisille muuttujille. Esimerkki. Miesten pituuden kvartiiliväli on [170, 174] ja sen pituus on Q r = = 4. Kvartiilipoikkeama (semi-interquartile range) Kvartiilipoikkeama saadaan jakamalla kvariilivälin pituus kahdella. Q = Q r /. (4) Muuttujan on oltava vähintään välimatka-asteikollinen, jotta kvartiilipoikkeama voidaan laskea. Kvartiilipoikkeamaa käytetään hajonnan tunnuslukuna, koska se on vakaampi kuin vaihteluvälin pituus. Se kertoo, miten pitkällä välillä 5% havainnoista sijaitsee. Esimerkki. Edellisen perusteella miesten kvartiilipoikkeama on Q = 4 / =. Keskihajonta (standard deviation) Tärkeä hajonnan mitta, jota käytetään usein. Kertoo kuinka havainnot jakautuvat keskiarvonsa ympärille. Kun jakauma on normaalisti jakautunut, tulkitaan keskihajontaa seuraavalla tavalla suhteessa frekvensseihin:

22 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Yhden keskihajonnan etäisyydellä keskiarvosta eli välillä [-1, 1] sijaitsee 68.% jakauman havainnoista. Kahden keskihajonnan etäisyydellä keskiarvosta eli välillä [-, ] sijaitsee 95.4% jakauman havainnoista. Kolmen keskihajonnan etäisyydellä keskiarvosta eli välillä [-3, 3] sijaitsee 99.8% jakauman havainnoista Keskihajontayksikköä Tärkeitä lukuja normaalijakauman kohdalla ovat myös: - 95% havainnoista sijaitsee välillä [-1.96, 1.96] - 99% havainnoista sijaitsee välillä [-.58,.58] % havainnoista sijaitsee välillä [-3.9, 3.9] Näillä edellisillä luvuilla on merkitystä tilastollisen testauksen yhteydessä. Keskihajonta lasketaan kaavalla: (x i x) s, (5) n 1 jossa x i on havaintoarvo ja x on keskiarvo. Taulukko 5. Esimerkkitaulukko miesten pituuden keskihajonnan laskemisesta (keskiarvo 17.65). Koehenkilö Pituus Erotus keskiarvosta Erotuksen neliö ( x i x) ( x x i ) Σ Kun keskihajonta lasketaan perusjoukolle, korvataan nimittäjä (n - 1) havaintojen lukumäärällä N. Otoksen tapauksessa n -1 antaa paremman arvion perusjoukon hajonnasta. Keskihajonta voidaan laskea vähintään välimatka-asteikolliselle muuttujalle. Otoksesta laskettua keskihajontaa merkitään pienellä kirjaimella s ja perusjoukon keskihajontaa kreikan pienellä kirjaimella σ (sigma) Keskihajonnaksi saadaan s Naisten keskihajonnaksi saadaan Varianssi (variance) Varianssi on keskihajonta korotettuna toiseen potenssiin s (perusjoukossa: σ ). Varianssilla on enemmän käyttöä tilastotieteen teoriassa ja analyysimenetelmien osana kuin varsinaisena aineiston tunnuslukuna.

23 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 3 Esimerkki. Edellisestä esimerkistä voidaan määrittää miesten pituuden varianssi, joka on s = Variaatiokerroin Variaatiokerroin on mittayksiköstä riippumaton hajonnan tunnusluku ja siten vertailukelpoinen erilaisten suureiden hajontaa vertaillessa. Variaatiokerroin vaatii vähintään suhdeasteikollisen muuttujan ja se lasketaan kaavalla: s V, (6) x jossa s on keskihajonta ja x on keskiarvo. Variaatiokerroin voidaan ilmoittaa myös prosentteina. Tällöin kaavasta saatava lukuarvo V kerrotaan sadalla. Esimerkki. Edellisten esimerkkien perusteella miesten pituuden variaatiokertoimeksi saadaan V =.83 / = Keskihajonta on siis n. % keskiarvosta. Jakauman muoto Huipukkuus (Kurtosis) Huipukkuus kertoo kuinka korkea jakauma on suhteessa normaalijakaumaan. Jos havainnot keskittyvät suurelta osalta lähelle keskiarvoa, jolloin jakauman kuvaaja on terävä. Huipukkuuden arvo on tällöin positiivinen. Jos arvo on negatiivinen, on jakauman kuvaaja lattea. Huipukkuus voidaan laskea vähintään välimatka-asteikolliselle muuttujalle. Esimerkki. Pituusmuuttujan jakaumalle laskettiin huipukkuusarvoksi Kuvaaja on siis hieman latteampi kuin normaalijakauma. Koska huipukkuuden virhe (standard error of kurtosis) on 1.09, niin pituus muuttuja ei poikkea tilastollisesti merkitsevästi normaalijakaumasta (ts havaittu huipukkuusarvo, on kahden keskivirheen sisällä - eli nolla ei sijoitu välille: [ ( 1.09), ( 1.09)] = [-.59, +1.77]). Vaihtoehtoinen tarkastelu: lasketaan: -0.41/1.09 = -0.38, ja havaitaan, että tämä suhdeluku ei ole itseisarvoltaan (merk = 0.38) suurempi kuin. Vinous (Skew) Vinous kuvaa jakauman symmetrisyyttä. Kun jakauma on esimerkiksi normaalijakauman muotoinen, on se symmetrinen keskiarvonsa suhteen. Negatiivinen vinouden arvo viittaa vasemmalle vinoon jakaumaan (ts. havainnot sijoittuvat suureksi osaksi jakauman oikealle puolelle ja häntä on jakauman vasemmalla puolella). Positiivinen vinouden arvo taas viittaa oikealle vinoon jakaumaan. Vinous voidaan laskea vähintään välimatka-asteikolliselle muuttujalle. Esimerkki. Pituusmuuttujan jakaumalle laskettiin vinouden arvoksi -0.6, joten jakauma on hieman vasemmalle vino. Myös tämä arvo on kahden vinouden keskivirheen sisällä: [ ( 0.564), ( 0.564)] = [-1.75, +0.51], joten jakauma ei eroa tilastollisesti merkitsevästi normaalista huipukkuuden ja vinouden suhteen. Vaihtoehtoisesti -0.06/0.564 = <. Huipukkuuden ja vinouden tunnuslukuja käytetään esim. kun tarkastellaan muuttujan jakauman normaalijakautuneisuutta (tästä myöhemmin). Näistä vinous on yleensä huipukkuutta haitallisempaa keskiarvoihin perustuvissa tarkasteluissa, koska vinolle muuttujalle esim. keskiarvon käyttäminen keskilukuna voi olla harhaanjohtavaa. Huipukkuus on hankalaa etenkin monimuuttujamenetelmien yhteydessä.

24 Frequency Frequency Frequency Frequency 4 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus Standardointi Kun halutaan vertailla erilaisilla mittareilla mitattuja muuttujia (esim. vertaillaan kuukausituloja ja sähkön kulutusta), joudutaan joskus suorittamaan muuttujien standardointi. Standardointi on muunnos, jonka tuloksena saadaan uusi standardoitu muuttuja, jonka keskiarvo on 0 ja keskihajonta 1. Standardointi suoritetaan kaavalla: z i x i x, (7) s jossa z i on muuttujan standardoitu arvo, x i muuttujan arvoa, x muuttujan X keskiarvo ja s sen keskihajonta. Standardointia käytetään myös useissa tilastollisissa testeissä. On tärkeätä huomata, että jos esim. tarkastellaan pituutta standardoimalla se miehille ja naisille erikseen (ts. molempien ryhmien oman keskiarvon ja keskihajonnan suhteen), ei näiden ryhmien välillä voi suorittaa keskiarvovertailuja, sillä molempien ryhmien keskiarvoista tulee standardoituna nolla. Esimerkki. Seuraavassa tarkastellaan kahta mittaria A ja B. Molemmat mittarit mittaavat kognitiivista kyvykkyyttä, mutta mittari A:n asteikko on välillä 0-50 pistettä ja mittari B:n asteikko on välillä Alkuperäisestä pistemäärästä asteikoilla käytetään nimitystä raakapistemäärä. Kun tarkastellaan kyvykkyyttä näillä mittareilla, niin asteikko B:llä mitatuilla henkilöillä kognitiivisen kyvykkyyden korkeakin taso (esim. pistemäärä 14) näyttää matalalta tasolta verrattuna asteikkoon A. Toisaalta mittarin B alin pistemäärä ei ole niin alhainen kuin mittarin A. Alla olevissa kuvissa esitetty mittareiden A ja B raakapistemäärät vasemmanpuoleisissa histogrammeissa (vaaka-akselin vaihteluväli on sama). Standardoinnin jälkeen jakaumat saatetaan vertailukelpoisempaan muotoon, jolloin B-mittarin asteikko venytetään samalle tasolle A-mittarin kanssa. Standardoitujen pistemäärien jakaumat on esitetty oikeanpuoleisissa histogrammeissa (myös näissä vaaka-akselin vaihteluväli on sama). A-mittarin jakauma ei muutu standardoinnissa huomattavasti mitenkään muutoin, kuin asteikon suhteen. B-mittarinkaan jakauma ei muutu muutoin kuin, että asteikko venytetään kattamaan sama väli kuin A-mittarin kohdalla. 8 DIGSYMB 8 ZNC Std. Dev = 10,04 Mean = 1,4 N = 106,00 0 Std. Dev = 1,00 Mean = 0,00 N = 106,00 A: DIGSYMB ZNC ,0 45,0 4,0 39,0 36,0 33,0 30,0 7,0 4,0 1,0 18,0 15,0 1,0 9,0 6,0 3,0 0,0 DIG.CAP. TOT 30,61,3,03 1,73 1,44 1,15,85,56,7 -,03 -,3 -,61 -,91-1,0-1,49-1,79 -,08 ZNC ,0 45,0 4,0 39,0 36,0 33,0 30,0 7,0 4,0 1,0 18,0 15,0 1,0 9,0 6,0 3,0 0,0 Std. Dev = 1,69 Mean = 9, N = 106,00 0-1,8-1, -,6,0,6 1, 1,8,5 Std. Dev = 1,00 Mean = 0,0 N = 106,00 B: DIG.CAP. TOT ZNC Kuvio 4. Standardoimattoman ja standardoidun pituusaineiston pylväskuviot.

25 Tutkimusaineiston analyysi : Tilastollis-empiirinen tutkimus 5 Standardointia käytetään hyväksi usein, kun tarkoituksena on laskea summapistemäärä usealle mittarille, joilla on erilaiset laskennalliset minimi- ja maksimiarvot. Standardoinnilla voidaan myös saattaa normaalisti jakautuneen muuttujan arvot standardoidulle normaalijakaumalle. Tätä keinoa käytetään hyväksi kun tarkastellaan todennäköisyyden käyttöä tilastollisessa päätöksenteossa jatkossa. Suhdelukuja Suhteellinen osuus (proportion) Suhteellinen osuus on tietyn havaintoarvon frekvenssi suhteessa otoskokoon (f i / n) (8) ja sitä merkitään pienellä kirjaimella p. Jos halutaan tietää prosenttiosuus, täytyy suhteellinen osuus kertoa sadalla, jolloin saadaan suhteellista frekvenssiä vastaava tunnusluku. Suhteellista osuutta tai prosenttiosuutta käytetään usein kun halutaan kuvata muutosta. Suhteellinen osuus voidaan määrittää kaikille mitta-asteikoille, mutta yleisemmin sitä käytetään luokittelu- tai järjestysasteikollisille muuttujille tai luokitelluille jatkuville muuttujille. Esimerkki. Jos tutkimukseen osallistuu 84 henkilöä ja heistä 106 on miehiä, on miesten suhteellinen osuus 106 / 84 = 0.37 tai prosentteina ilmaistuna 37%. Suhteellinen osuus voi myös pitää sisällään useampia luokkia samanaikaisesti, esim. jos määritetään kuinka suuri suhteellinen osuus yli 150cm pitkiä henkilöitä on aineistossa. Riskisuhde (risk ratio) Riskisuhde on erityisesti epidemiologiassa käytetty tunnusluku. Se kuvaa esim. kuinka yleinen jokin vaste (esim. tauti) on suhteessa tarkasteltavan altisteen läsnäoloon (koe- / kontrolliryhmä). Laskenta pohjautuu seuraavan taulukon käyttöön: On vaste Ei ole vastetta On altiste a b Ei ole altistetta c d Riskisuhde lasketaan kaavalla 9. RR a c ( ) /( ) a b c d (9) Riskisuhde kuvaa siis koeryhmässä sairastuneiden osuuden suhteessa kontrolliryhmässä sairastuneiden suhteelliseen osuuteen. Sen tulkinnallisena arvona käytetään lukua 1. Jos riskisuhde on suurempi, niin koeryhmä on suuremmassa riskissä taudin suhteen. Jos riskisuhde on pienempi, on taas kontrolliryhmä suuremmassa riskissä. Jos suhde = 1, niin riski sairastua on molemmissa ryhmissä yhtä suuri. Esimerkki. Seuraavat taulukot kerättiin selvitettäessä kuolleisuuden suhdetta yksinäisyyteen 75- vuotiailla jyväskyläläisillä miehillä ja naisilla. Kaikki tutkittavat olivat (tietenkin) elossa kun tutkimusta alettiin tekemään ja tässä tutkittiin vain niitä tutkittavia, jotka eivät vaihtaneet yksinäisyysmuuttujan luokkaa kesken tutkimusta. Taulukko 6. Miesten ja naisten ristiintaulukot kuolleisuuden ja yksin asumisen suhteen. Miehet Naiset Kuollut Elossa Kuollut Elossa Asuu yksin Ei asu yksin RR ( ) /( ) 0.591/ RR ( ) /( ) 0.38 /

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas 1 VIRHELÄHTEITÄ TUTKIMUKSEN KULUESSA Suunnittelu -Valittiinko tutkimuksen kannalta oikeat mittarit? Koodaus - Koodattiinko vastaukset

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 7.6.2011 Ratkaisut ja arvostelu

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 7.6.2011 Ratkaisut ja arvostelu VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 7.6.2011 Ratkaisut ja arvostelu 1.1 Noudattakoon satunnaismuuttuja X normaalijakaumaa a) b) c) d) N(5, 15). Tällöin P (1.4 < X 12.7) on likimain

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33.

Til.yks. x y z 1 2 1 20.3 2 2 1 23.5 9 2 1 4.7 10 2 2 6.2 11 2 2 15.6 17 2 2 23.4 18 1 1 12.5 19 1 1 7.8 24 1 1 9.4 25 1 2 28.1 26 1 2-6.2 33 1 2 33. Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

Til.yks. x y z

Til.yks. x y z Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas OTOSTAMISEEN LIITTYVIÄ ONGELMIA Otostamisen ongelmat liittyvä satunnaistamisen epäonnistumiseen Ongelmat otantakehyksen määrittämisessä Väärän otantamenetelmän

Lisätiedot

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Kvantitatiiviset tutkimusmenetelmät maantieteessä Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas f 332 = 3 Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta? Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance (s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi),

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KATO (MISSING DATA, ATTRITION) Kun otostetuista havaintoyksiköistä saavutetaan (mitataan) vain osa, tarkoittaa kato sitä osaa tutkittavista tai mittauksista,

Lisätiedot

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen - Tietojen syöttö - Karma&Komulainen aineisto (tutustuminen) - Muuttujien jakauman tarkistus - Puuttuva tieto ja sen käsittely - Muunnokset,

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

TILASTOLLINEN LAADUNVALVONTA

TILASTOLLINEN LAADUNVALVONTA 1 Aki Taanila TILASTOLLINEN LAADUNVALVONTA 31.10.2008 2 TILASTOLLINEN LAADUNVALVONTA Tasalaatuisuus on hyvä tavoite, jota ei yleensä voida täydellisesti saavuttaa: asiakaspalvelun laatu vaihtelee, vaikka

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas AINEISTON TARKASTELU JA MUOKKAUS AINA ennen varsinaista analyysia suoritetaan aineiston tarkastelu ja muokkaus, data-analyysi Tavoitteena:

Lisätiedot

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Teema 3: Tilastollisia kuvia ja tunnuslukuja Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. 1/11 4 MITTAAMINEN Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku. Mittausvirhettä johtuen mittarin tarkkuudesta tai häiriötekijöistä Mittarin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä

Lisätiedot

Harjoittele tulkintoja

Harjoittele tulkintoja Harjoittele tulkintoja Syksy 9: KT (55 op) Kvantitatiivisen aineiston keruu ja analyysi SPSS tulosteiden tulkintaa/til Analyysit perustuvat aineistoon: Haavio-Mannila, Elina & Kontula, Osmo (1993): Suomalainen

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas Marko: Aineisto: Kolme muuttujaa: Tutkimuskysymys: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Kävelynopeus (metri/sekunti) Polven ojennusvoima

Lisätiedot

Kvantitatiiviset menetelmät

Kvantitatiiviset menetelmät Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2 OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2 Luento 2 Kuvailevat tilastolliset menetelmät Käytetyimmät tilastolliset menetelmät käyttäjäkokemuksen

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2

Lisätiedot

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk 25.8.2011

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk 25.8.2011 Tutkimuksen suunnittelu / tilastolliset menetelmät Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk 25.8.2011 Kvantitatiivisen tutkimuksen vaiheet Suunnittelu Datan keruu Aineiston analysointi

Lisätiedot

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164 86118P JOHDATUS TILASTOTIETEESEEN Harjoituksen 3 ratkaisut, viikko 5, kevät 19 1. a) Havaintomatriisissa on viisi riviä (eli tilastoyksikköä) ja neljä saraketta (eli muuttujaa). Hannu mies LTK 18 Johanna

Lisätiedot

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia. 806109P TILASTOTIETEEN PERUSMENETELMÄT I 1. välikoe 11.3.2011 (Jari Päkkilä) VALITSE VIIDESTÄ TEHTÄVÄSTÄ NELJÄ JA VASTAA VAIN NIIHIN! 1. Valitse kohdissa A-F oikea (vain yksi) vaihtoehto. Oikeasta vastauksesta

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas AINEISTON KERÄÄMINEN Tärkein vaihe tutkimuksen tekemisessä, koska mitatessa tulleita virheitä ei välttämättä voi huomata eikä niitä

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

ARVIOINTIPERIAATTEET

ARVIOINTIPERIAATTEET PSYKOLOGIAN YHTEISVALINNAN VALINTAKOE 2012 ARVIOINTIPERIAATTEET Copyright Helsingin yliopisto, käyttäytymistieteiden laitos, Materiaalin luvaton kopiointi kielletty. TEHTÄVÄ 1. (max. 34.5 pistettä) 1 a.i)

Lisätiedot

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat,

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä! VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun

Lisätiedot

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N 11.9.2018/1 MTTTP1, luento 11.9.2018 KERTAUSTA Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N Populaation yksikkö tilastoyksikkö, havaintoyksikkö Otos populaation

Lisätiedot

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit järjestysasteikollisille muuttujille Järjestysasteikollisten muuttujien testit Merkkitesti Wilcoxonin

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =

Lisätiedot

Epäyhtälön molemmille puolille voidaan lisätä sama luku: kaikilla reaaliluvuilla a, b ja c on voimassa a < b a + c < b + c ja a b a + c b + c.

Epäyhtälön molemmille puolille voidaan lisätä sama luku: kaikilla reaaliluvuilla a, b ja c on voimassa a < b a + c < b + c ja a b a + c b + c. Epäyhtälö Kahden lausekkeen A ja B välisiä järjestysrelaatioita A < B, A B, A > B ja A B nimitetään epäyhtälöiksi. Esimerkiksi 2 < 6, 9 10, 5 > a + + 2 ja ( + 1) 2 2 + 2 ovat epäyhtälöitä. Epäyhtälössä

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina. [MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1 Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit Otokseen perustuen määritellään otantajakaumalta

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastollisten aineistojen kerääminen ja mittaaminen

Tilastollisten aineistojen kerääminen ja mittaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2007) 1 ja mittaaminen >> Tilastollisten aineistojen kerääminen Mittaaminen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Luentotesti 3. Kun tutkimuksen kävelynopeustietoja analysoidaan, onko näiden tutkittavien aiheuttama kato

Luentotesti 3. Kun tutkimuksen kävelynopeustietoja analysoidaan, onko näiden tutkittavien aiheuttama kato Tehtävä 1 Osana laajempaa tutkimusprojektia mitattiin kävelynopeutta yli 80-vuotiaita tutkittavia. Osalla tutkittavista oli lääkärintarkastuksen yhteydessä annettu kielto osallistua fyysistä rasitusta

Lisätiedot

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää? Seuraavassa muutamia lisätehtäviä 1. Erään yrityksen satunnaisesti valittujen työntekijöiden poissaolopäivien määrät olivat vuonna 003: 5, 3, 16, 9, 0, 1, 3,, 19, 5, 19, 11,, 0, 4, 6, 1, 15, 4, 0,, 4,

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas Ilman Ruotsia: r = 0.862 N Engl J Med 2012; 367:1562-1564. POIKKEAVAN HAVAINNON VAIKUTUS PAIRWISE VAI LISTWISE? Kun aineistossa on muuttujia, joilla

Lisätiedot

Estimointi. Otantajakauma

Estimointi. Otantajakauma Otantajakauma Otantajakauma kuvaa jonkin parametrin arvojen (esim. keskiarvon) jakauman kaikille tietyn kokoisille otoksille. jotka perusjoukosta voidaan muodostaa Histogrammissa otantajakauman parametrin

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2005) 1 Tilastollisten aineistojen kuvaaminen Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten muuttujien tunnusluvut

Lisätiedot

7. laskuharjoituskierros, vko 10, ratkaisut

7. laskuharjoituskierros, vko 10, ratkaisut 7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,

Lisätiedot

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSOPAS. SPSS-opas TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien

Lisätiedot

2.7 Neliöjuuriyhtälö ja -epäyhtälö

2.7 Neliöjuuriyhtälö ja -epäyhtälö 2.7 Neliöjuuriyhtälö ja -epäyhtälö Neliöjuuren määritelmä palautettiin mieleen jo luvun 2.2 alussa. Neliöjuurella on mm. seuraavat ominaisuudet. ab = a b, a 0, b 0 a a b =, a 0, b > 0 b a2 = a a > b, a

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 8 1 Derivaatta Tarkastellaan funktion f keskimääräistä muutosta tietyllä välillä ( 0, ). Funktio f muuttuu tällä välillä määrän. Kun tämä määrä jaetaan välin pituudella,

Lisätiedot

Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen 1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 1 Sisältö: 1. Kvantitatiivisen tutkimuksen perusteita.2 2. Määrällisen tutkimusprosessin vaiheet..3

Lisätiedot

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45. Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 8.8% 8.9%.%.% 9.7%.7% Etelä Länsi Itä Oulu Lappi Ahvenanmaa Länsi Etelä Itä Oulu Lappi Ahvenanmaa Läänien

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Tilastollisten aineistojen kuvaaminen

Tilastollisten aineistojen kuvaaminen Ilkka Mellin Tilastolliset menetelmät Osa 1: Johdanto Tilastollisten aineistojen kuvaaminen TKK (c) Ilkka Mellin (2007) 1 Tilastollisten aineistojen kuvaaminen >> Havaintoarvojen jakauma Tunnusluvut Suhdeasteikollisten

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto...2. 2 Aineiston kuvaus...3. 3 Riippuvuustarkastelut...4 TILTP1 Tilastotieteen johdantokurssin harjoitustyö Tampereen yliopisto 5.11.2007 Perttu Kaijansinkko (84813) perttu.kaijansinkko@uta.fi Pääaine matematiikka/tilastotiede Tarkastaja Tarja Siren 1 Johdanto...2

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Numeeriset menetelmät

Numeeriset menetelmät Numeeriset menetelmät Luento 1 Ti 6.9.2011 Timo Männikkö Numeeriset menetelmät Syksy 2011 Luento 1 Ti 6.9.2011 p. 1/28 p. 1/28 Numeriikan termejä Simulointi: Reaalimaailman ilmiöiden jäljitteleminen (yleensä)

Lisätiedot

Luento 4.9.2014 1 JOHDANTO

Luento 4.9.2014 1 JOHDANTO 1 1 JOHDANTO Luento 4.9.2014 Tilastotiede menetelmätiede, joka käsittelee - tietojen hankinnan suunnittelua otantamenetelmät koejärjestelyt kyselylomakkeet - tietojen keruuta - tietojen esittämistä kuvailevaa

Lisätiedot

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila 2.2.2011 Kuvioita, taulukoita ja tunnuslukuja Aki Taanila 2.2.2011 1 Tilastokuviot Pylväs Piirakka Viiva Hajonta 2 Kuviossa huomioitavia asioita 1 Kuviolla tulee olla tarkoitus ja tehtävä (minkä tiedon haluat välittää

Lisätiedot

Hypoteesin testaus Alkeet

Hypoteesin testaus Alkeet Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä

Lisätiedot

Oma nimesi Tehtävä (5)

Oma nimesi Tehtävä (5) Oma nimesi Tehtävä 3.1 1 (5) Taulukot ja niiden laatiminen Tilastotaulukko on perinteinen ja monikäyttöisin tapa järjestää numeerinen havaintoaineisto tiiviiseen ja helposti omaksuttavaan muotoon. Tilastoissa

Lisätiedot

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) 20.9.2018/1 MTTTP1, luento 20.9.2018 KERTAUSTA JA TÄYDENNYSTÄ Tunnusluvut 1) Sijainnin tunnuslukuja Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1) Muita sijainnin tunnuslukuja ala- ja yläkvartiili,

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS 1 Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS Tutkimuksen aineiston keräämisessä voidaan käyttää joko laadullista tai määrällistä tutkimusmenetelmää. Tutkimusmenetelmiä voidaan myös yhdistää,

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Luonnollisten lukujen laskutoimitusten määrittely Peanon aksioomien pohjalta

Luonnollisten lukujen laskutoimitusten määrittely Peanon aksioomien pohjalta Simo K. Kivelä, 15.4.2003 Luonnollisten lukujen laskutoimitusten määrittely Peanon aksioomien pohjalta Aksioomat Luonnolliset luvut voidaan määritellä Peanon aksioomien avulla. Tarkastelun kohteena on

Lisätiedot