TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luentotesti 3. Kun tutkimuksen kävelynopeustietoja analysoidaan, onko näiden tutkittavien aiheuttama kato

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

pitkittäisaineistoissa

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

pitkittäisaineistoissa

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI. LTKY012 Timo Törmäkangas Gerontologian tutkimuskeskus

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollinen aineisto Luottamusväli

pisteet Frekvenssi frekvenssi Yhteensä

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Osa 2: Otokset, otosjakaumat ja estimointi

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

805306A Johdatus monimuuttujamenetelmiin, 5 op

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen tutkimuksen vaiheet

Harjoitus 2: Matlab - Statistical Toolbox

HAVAITUT JA ODOTETUT FREKVENSSIT

Teema 8: Parametrien estimointi ja luottamusvälit

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Matemaatikot ja tilastotieteilijät

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Muuttujien määrittely

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Parametrin estimointi ja bootstrap-otanta

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Tutkimustiedonhallinnan peruskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Väliestimointi (jatkoa) Heliövaara 1

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

tilastotieteen kertaus

Kvantitatiivisen aineiston analyysi

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

TUTKIMUSOPAS. SPSS-opas

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

MONISTE 2 Kirjoittanut Elina Katainen

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Kvantitatiiviset menetelmät

Aineiston keruun suunnittelu ja toteutus. Tero Vahlberg

Sovellettu todennäköisyyslaskenta B

Tilastollisten aineistojen kerääminen ja mittaaminen

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Testit järjestysasteikollisille muuttujille

Regressioanalyysi. Kuusinen/Heliövaara 1

Luottamusvälit. Normaalijakauma johnkin kohtaan

Testit laatueroasteikollisille muuttujille

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

OTOSTAMISEEN LIITTYVIÄ ONGELMIA Otostamisen ongelmat liittyvä satunnaistamisen epäonnistumiseen Ongelmat otantakehyksen määrittämisessä Väärän otantamenetelmän käyttö (menetelmän valinta) Ongelmat satunnaisotannan hankinnassa (menetelmän käyttö) Ongelmat siinä mitkä tutkittavat saavutetaan (peitto) Analyysin kannalta suurimpia ongelmia ovat kato ja siitä johtuva harha tutkimustuloksissa

KATO (ATTRITION, MISSING DATA) Kun otostetuista havaintoyksiköistä saavutetaan vain osa, tarkoittaa kato sitä osaa tutkittavista tai mittauksista, jota ei saavutettu. Kato yhdessä muuttujassa saattaa johtaa siihen, että havaintoyksikön muu mitattu aineisto joudutaan jättämään huomioimatta Vaihtoehtoisesti puuttuvien havaintoarvojen tilalle tuotetaan tuottamaan arvioita näistä arvoista (imputointi) Jos puuttuvia havaintoja esiintyy satunnaisesti aineistossa, otoksesta saatavien tulosten ei pitäisi oleellisesti vääristyä käytössä on vain pienempi otos Tässä tapauksessa informaation puuttumisen sanotaan olevan vaikutuksetonta (non-informative) tutkimuksen tulosten suhteen. Jos kato on vaikutuksellista (informative), puuttuu aineistosta tällöin sellaisia havaintoja, joilla olisi vaikutusta tuloksiin. Tällöin puuttuvien havaintojen vaikutusta tuloksiin on yleensä vaikea arvioida ilman lisätietoa siitä miksi havainnot puuttuvat.

KATO Katoa voidaan pyrkiä estämään erilaisin keinoin, esim. kyselyä suunniteltaessa: kysely laaditaan sopivan mittaiseksi: liian pitkä kysely ei motivoi tutkittavia kyselyyn osallistuvia voidaan motivoida sopivin keinoin (mm. luvataan palautetta tutkimuksen valmistuttua) valvotussa tilanteessa tulee antaa tarpeeksi aikaa vastata Jos kato on suurta ja resurssit sen sallivat, voi harkita uusintakyselyn suorittamista Tarkastellaan kadon vaikutusta tuloksiin myöhemmin tilastollisten tunnuslukujen yhteydessä GertrudeCox: Best thing to do with missing data is not to have any.

HARHA (BIAS) Tutkimuksen tulokset ovat harhaisia silloin, kun otoksesta saatavat tiedon ovat systemaattisesti vääristyneitä suhteessa perusjoukon tuloksiin Usein kun satunnaistaminen epäonnistuu, tuloksiin liittyy harhaa. Valikointi Otoksesta puuttuu oleellisia ryhmiä: tulokset painottuvat mukana olleiden tutkittavien suuntaan Tärkeiden muuttujien puuttuminen Esim. kun tarkastellaan polvenojennusvoiman ja kehon rasvattoman painon välistä suhdetta ilman, että tunnetaan tutkittavien sukupuolta, tulokset kertovat usein enemmän sukupuolten eroista kuin em. muuttujien välisestä suhteesta Harhan tilanteessa kaikilla tutkittavilla ei ole ollut samaa todennäköisyyttä päätyä tutkimukseen Havaittua harhaa voi korjata esim. käyttämällä painokertoimia

TUTKITTAVIEN LUKUMÄÄRIÄ KOSKEVIA TUNNUSLUKUJA Tutkimuksen kannalta keskeisiä kokoja ovat Perusjoukon koko, N (engl. population size) Äärellinen / pieni; ääretön / suuri Määritetään tutkimuskysymyksen pohjalta Otoksen koko, n (engl. sample size) pyritään optimaaliseen kokoon suhteessa perusjoukkoon ja tutkimuskysymykseen (hajonta): sopivasti tutkittavia, että voidaan tehdä yleistyksiä ja johtopäätöksiä Sopivan koon voi määrittää joissain tapauksissa laskukaavalla (eri menetelmillä on erilainen laskukaava) Vastausprosentti, p h (engl. response rate) se osuus otoksesta, josta tiedot saatiin kerättyä: n h / n 100 pyritään mahdollisimman pieneen katoon Esim. postikyselyssä 50 % pidetään riittävänä, mutta tärkeämpää on saatujen vastausten edustavuus

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Tilastollisissa kaavoissa käytetään erilaisia symboleja, joilla voi olla eri asiayhteydessä erilainen merkitys. Kiinnostuksen kohteena ovat yleensä parametrit, joiden arvoja estimoidaan otostiedon pohjalta Parametri on otosinformaatiota tiivistävä tunnusluku (esim. keskiarvo) Kaavoissa periaatteena on, että yksittäisiin lukuarvoihin viittaavilla symboleilla käytetään kursiivia. Parametrin yleissymboli kreikkalainen kirjan, theta: θ

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Muuttujat Mitattavaa muuttujaa merkitään isolla kirjaimella, esim. X Muuttujan saamia arvoja merkitään pienellä kirjaimella, esim. x Indeksien avulla viitataan muuttujan arvoihin otoksen eri havaintoyksiköillä, esim. muuttujan X havaintoarvo tapauksella viisi voidaan kuvata mm. näillä kahdella tavalla: x 5 tai x i, i = 5. Suurten aineistojen yhteydessä on helpompi kuvata tarvittavia laskutoimituksia symbolien avulla Tilastolliset tunnusluvut Perusjoukkoa koskevia tilastollisia tunnuslukuja merkitään kreikkalaisilla kirjaimilla (esim. perusjoukon keskiarvo: µ ) Otoksen tunnuslukuja merkitään pienillä länsimaisilla aakkosilla (esim. otoskeskiarvo: x)

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Summaoperaattori Tilastollisissa kaavoissa yhteenlaskua merkitään kreikkalaisella isolla sigma-kirjaimella: Σ. Esim. Aineistossa on 10 henkilöä, joilta on mitattu muuttuja X (esim. kuukausipalkka). Perinteisesti muuttujan arvojen summaa merkitään: x 1 + x 2 + x 3 + x 4 + x 5 + x 6 + x 7 + x 8 + x 9 + x 10 Käyttämällä summaoperaattoria: 10 x i i= 1 Kaavaa luetaan niin, että sigma viittaa muuttujan arvojen, x, yhteenlaskua ja indeksillä i viitataan aineiston yksittäisiin tapauksiin. Sigman alla i = 1 tarkoittaa, että indeksi ensimmäiseksi arvoksi asetetaan 1. Tästä arvosta edetään kokonaislukuja lisäten sigman päällä esitettyyn arvon 10 asti.

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Sulkujen käyttö: i= 10 10 1 x i= 1 Osasummat: 10 x ( x /10) i + 5 = 1 2 10 5 = x 10 + x i i i= 1 i= 1 i= 6 5 ( x /10 + x /10 +... + x /10) + 5 /( 10 + 5) = ( x1 + x2 +... x10 ) /15 i + ( x i + 5) + ( x + 10) i= 1 10 i= 6 i i

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Lukujen esitystapoja Mm. SPSS-ohjelma antaa joskus tulosteissa lukuarvoja eksponenttimuodossa, jolloin esim. lukuarvo: 0,00000001304 tulostetaan muodossa: 1,304E-8, joka vastaa laskutoimitusta: 1,304 10-8. Englanninkielisessä kirjallisuudessa desimaalierottimena on piste, suomalaisessa tekstissä on tapana ollut käyttää pilkkua.

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

AINEISTON ESITTÄMINEN JA DATA- ANALYYSI Aineiston keruun jälkeen aineisto tallennetaan tietokoneelle esim. optisella lukijalla tai käsin syöttämällä Käsin syötettäessä koodaaja muuttaa lomakkeen tiedot sovittuun numeeriseen muotoon Epäjatkuvilla muuttujilla esim. kysymysten vastausvaihtoehdot numeroidaan järkevästi Jatkuvilla muuttujilla käytetään yleensä mittareiden tuottamia mittalukuja Puuttuva tieto merkitään jollain sovitulla puuttuvan tiedon koodilla, esim. -9, -1 tai jättämällä tyhjä kohta ko. arvon kenttään tiedostossa Puuttuvan tiedon koodina on arvo, jollaista muuttujalle ei ole muutoin määritelty Jos tiedetään syy, miksi tieto puuttuu voidaan käyttää eri koodeja: esim. sukupuolimuuttujalla, 9: kieltäytyi osallistumasta, 8: ei tavoitettu, 7: kuollut

HAVAINTOMATRIISI Havaintoaineistojen esitysmuoto p kappaletta muuttujia (X 1,, X p ) n kappaletta havaintoyksiköitä (a 1,, a n ) Yleensä havaintoyksiköitä tulisi olla suurempi määrä kuin muuttujia (n > p) Matriisista nähdään jokaisen yksikön muuttujan arvot Muuttujat X 1 X 2 X p Havainto- a1 x 11 x 12 x 1p yksiköt a2 x 21 x 22 x 2p : : :. : : : :. : a n x n1 x n2 x np

HAVAINTOMATRIISI ESIMERKKI Asetelmapohjainen informaatio sisältyy usein koehenkilötunnukseen (ID) Esim. ensimmäinen numero: koulu, toinen numero: luokka, kolme seuraavaa: oppilas Muuttujat ID Ikä Pituus Paino Sukupuoli Havainto- 1 11001 62 165 74 1 yksiköt 2 11002 65 171 82 2 3 11003 72 162 65 1 4 12001-1 999 9 5 12002 58 172 68 2 6 25001 32 169 70 1

HAVAINTOMATRIISI Havaintomatriisin rivi sisältää yhden havaintoyksikön muuttujien arvot havaintoyksikön profiili (profile) Havaintomatriisin sarake sisältää yhden muuttujan saamat arvot havaintoyksiköillä muuttujan jakauma (distribution) Havaintomatriisin havainnollisuutta voidaan parantaa lajittelemalla aineisto nousevaan tai laskevaan järjestykseen (sort) tai ryhmittelemällä aineisto (split)

HAVAINTOMATRIISI SPSS-OHJELMASSA

HAVAINTOMATRIISI SPSS-OHJELMASSA

AINEISTON TARKASTELU JA MUOKKAUS AINA ennen varsinaista analyysia suoritetaan aineiston tarkastelu ja muokkaus, data-analyysi Tavoitteena: Aineiston laadun toteaminen ja valvonta Aineiston rakenteen tarkastelu ja muokkaus Muuttujien jakauman muoto Apua mallin ja hypoteesien määrittämiseen Tarkastuksia: Puuttuvien tietojen tarkistus (paikkaus) Loogisuuskorjaukset Virheellisten arvojen korjaus

TARKASTUKSIA Tarkastelua voidaan suorittaa ajamalla muuttujien jakaumat jakauman muoto poikkeavat tapaukset virheelliset arvot Voi käyttää myös tunnuslukuja Pienimmät ja suurimmat arvot (ovatko järkeviä) Keskiarvo (onko oikean tuntuinen) Korrelaatiokerroin (onko yhteys oikeansuuntainen) Jakaumaa kuvaavat graafit ovat hyödyllisiä: jatkuvat muuttujat: esim. histogrammi, diskreetit muuttujat: esim. pylväskuvio Kuviosta näkee suoraa mm. poikkeavat havainnot sekä myös havaintojen keskittymisen jonkun arvon ympärille

MUOKKAUKSIA Esim. diskreettimuuttuja, jossa on viisi luokkaa voidaan joutua teoreettisista tai käytännön syistä uudelleen luokittelemaan kolmeen luokkaan Lasketaan erilaisia summia Asteikot Esim. kroonisten sairauksien lukumäärä Lasketaan erilaisia ajan pituuksia Muokataan muuttujan / muuttujien arvoja jonkun laskennallisen kaavan mukaan, esim. kehon painoindeksi (BMI)