II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen



Samankaltaiset tiedostot
Kvantitatiiviset tutkimusmenetelmät maantieteessä

I Tilastollisen aineiston ja analyysin edellytysten tarkistaminen. - Muunnokset, uudelleen koodaaminen, summamuuttujien luominen

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Harjoittele tulkintoja

Sovellettu todennäköisyyslaskenta B

Kvantitatiiviset menetelmät

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

2. Aineiston kuvailua

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Til.yks. x y z

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Til.yks. x y z

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

TUTKIMUSOPAS. SPSS-opas

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Perusnäkymä yksisuuntaiseen ANOVAaan

Ohjeita kvantitatiiviseen tutkimukseen

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

pisteet Frekvenssi frekvenssi Yhteensä

Tilastollisten aineistojen kuvaaminen

tilastotieteen kertaus

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTP5, luento Luottamusväli, määritelmä

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

SPSS OPAS. Metropolia Liiketalous

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

KAHDEN RYHMÄN VERTAILU

MONISTE 2 Kirjoittanut Elina Katainen

Testit järjestysasteikollisille muuttujille

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

5. Keskiluvut. luokan väliin, ei sen määrääminen tuota vaikeuksia. Näin on seuraavissa esimerkeissä:

TILASTOLLINEN LAADUNVALVONTA

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Harjoitus 7: NCSS - Tilastollinen analyysi

Ratkaisuja luvun 15 tehtäviin

SPSS* - tilastoanalyyttinen ohjelma

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk

Ohjeita tilastollisen tutkimuksen toteuttamiseksi opintojaksolla. TILTP1 ( SPSS for Windows -ohjelmiston avulla

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

TILASTO- JA TALOUSMATEMATIIKKA s. 1

Hypermedian jatko-opintoseminaari

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Väliestimointi (jatkoa) Heliövaara 1

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

7. laskuharjoituskierros, vko 10, ratkaisut

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

HAVAITUT JA ODOTETUT FREKVENSSIT

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

RISTIINTAULUKOINTI JA Χ 2 -TESTI

SPSS ohje. Metropolia Business School/ Pepe Vilpas

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Aki Taanila VARIANSSIANALYYSI

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 2: Matlab - Statistical Toolbox

Lauri Tarkkonen: Erottelu analyysi

Matemaatikot ja tilastotieteilijät

Tilastomenetelmien lopputyö

Kvantitatiiviset menetelmät

Transkriptio:

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen - Tietojen syöttö - Karma&Komulainen aineisto (tutustuminen) - Muuttujien jakauman tarkistus - Puuttuva tieto ja sen käsittely - Muunnokset, uudelleen koodaaminen, summamuuttujien luominen (oma aineisto) - Kuvaileva tilastoanalyysi vs. tilastollinen päättely 1

Tilastolliset tunnusluvut (lyhyt kertaus) Muuttujassa oleva informaatio voidaan tiivistää muutamaan muuttujaa kuvaavaan tunnuslukuun. Jakauman sijainnin tunnuslukuja ovat seuraavat keskiluvut: moodi, Statistics mediaani, fraktiilit ja keskiarvot. I Jakauman sijainnin tunnusluvut (eli Keskiluvut) matematiikan arvosana N Valid Mean Median Mode Percentiles Keskiluvut luonnehtivat numeeristen muuttujien jakauman sijaintia tai painopistettä lukusuoralla. Missing 25 50 75 30 0 7,23 7,00 7 6,75 7,00 8,00 Moodi (engl. mode) on se muuttujan arvo, jonka frekvenssi jakaumassa on suurin. Mediaani (engl. median) on se muuttujan arvo, joka jakaa havaintoaineiston kahteen yhtäsuureen osaan, se on "keskimmäinen" havainto. (Vaatii vähintään järjestävän asteikon.) Keskiarvon (engl. mean) laskemiseen tarvitaan vähintään välimatka-asteikollinen muuttuja. Fraktiilit: Kvartiilit (engl. quartiles) jakavat aineiston neljään osaa, neljänneksiin. Kvartiilit suuruusjärjestyksessä ovat alakvartiili, mediaani ja yläkvartiili. 2

II Jakauman muodon tunnusluvut (eli hajontaluvut) Hajontaluvut: Hajontalukujen avulla kuvataan aineistossa esiintyvän vaihtelun määrää. Niiden avulla voidaan ilmaista, kuinka voimakkaasti mittaustulokset vaihtelevat havaintoyksiköstä toiseen tai missä määrin ne keskittyvät keskiluvun läheisyyteen. Hajonnan pienuus poikemaa vain vähän jakauman keskiluvusta. Hajonnan suuruus aineistossa on paljon vaihtelua keskiluvun ympärillä. Vaihteluväli (engl. range) kertoo muuttujan pienimmän ja suurimman havaintoarvon. Sopii järjestysasteikollisten muuttujien tarkasteluun. Keskihajonta (engl. standard deviation) on luontevin hajontaluku numeerisille muuttujille. Se kuvaa muuttujan arvojen vaihtelun suuruutta. Keskihajonnan neliö, varianssi (engl. variance) kuvaa suhteellista vaihtelua Kvartiilipoikkeama ilmaisee, kuinka pitkällä välillä aineiston keskimmäiset 50% sijaitsevat. Muita tunnuslukuja: (Jakauman vinoutta kuvaava vinousmitta (engl. skewness). Jakauman terävyyttä kuvaava huipukkuusluku (engl. kurtosis). 3

Normaalijakauma Muuttujan jakauman normaalisuus on monien tilastollisten testien oletus Normaalijakauma on symmetrinen, sen sijainti ja muoto riippuvat keskiarvosta ja hajonnasta Havaintojen jakautumista keskiarvon (mean) ympärille kuvataan keskihajonnalla (standard deviation) Normaalijakauman havainnoista 95 % sijoittuu lähemmäs kuin kahden keskihajonnan päähän keskiarvosta. 4

Jakauman tarkastelua: vinous ja huipukkuus Normaalijakauman vinous (skewness) ja huipukkuus (kurtosis) ovat nollia. Jakauman vinouden ja huipukkuuden nollasta eroavuutta voi testata jakamalla saatu arvo sitä vastaavalla keskivirheellä (Standard Error). Jos näin saatu luku on < 2, voidaan jakauman vinous ja huipukkuus hyväksyä vielä normaaliseksi ja siten tarkasteltava jakauma on riittävän normaalinen tilastollisiin testeihin (vrt. Jos taas on > 2 niin vinous/huipukkuuskerroin eroaa tilastollisesti merkitsevästi nollasta) Jakauman vinous ja huipukkuus pulmallisia perinteisissä tilastoanalyyseissä. 5

Vinous (vrt. normaalijakauman vinous = 0) Skewness = vinouskerroin (vk) ilmoittaa, mihin suuntaan jakauma on vino; Jos vk > 0, positiivisesti vino eli oikealle vino => Jos vk < 0, negatiivisesti vino eli vasemmalle vino Huipukkuus (vrt. normaalijakauman huipukkuus = 0) => Kurtosis (kur) = huipukkuuskerroin ilmoittaa, kuinka terävähuippuinen jakauma on => Jos Kur > 0, jakauma on terävähuippuinen => Jos Kur < 0, jakauma on huiputon eli litteähuippuinen oikealle vino vasemmalle vino huipukas huiputon 6

Aineiston tarkistus ja poikkeavat arvot (outlier:it) Yksittäiset äärimmäisen suuret tai pienet arvot voivat tuottaa pulmia analyyseissa Kannattaa tarkastella myös graafisesti (esim. boxplot) Jo ennen keräystä on hyvä miettiä muuttujien vaikutukset analyyseihin: Esim. Kuntien asukkaiden keskitulovertailuissa - Kauniainen vääristää kuntien vertailua, - Optiomiljönääri vanhempien palkkojen vertailua, jne... HUOM: Esim. kuvailutasolla palkkatietoja raportoitaessa on järkevämpää käyttää keskilukuna mediaania keskiarvon sijasta 7

Muuttujan normaalijakauman testaus Kolmogorov-Smirnov -testi SPSS: Analyze /Descriptive statistics/explore normality plots with tests Konservatiivinen testi eli hylkää helposti normaalijakaumaoletuksen... (vrt. Shapiro-Wilk) Tests of Normality päättelytesti verbaalinen testi kielten keskiarvo matematiikan arvosana opintomenestys *. Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig.,147 30,095,952 30,191,149 30,088,962 30,355,075 30,200*,974 30,665,250 30,000,916 30,021,140 30,135,936 30,069 8

Aineiston tarkistaminen & poikkeavat havainnot Tarkistus #1: Descriptives komento SPSS/Analyze/Descriptive Statistics/Descriptives -valinnat mean, std.devation, minimum ja maximum Joskus äärimmäiset arvot johtuvat laite-, mittaus-, koodaus tms. virheistä Arvojen korjaus oikeaksi, jos se on mahdollista (esim. tarkistus alkuperäisistä lomakkeista) Poistetaan datasta, raportoidaan Havaintojen käyttäminen sellaisenaan, jos niille on järkevä selitys, mutta huomioidaan niiden vaikutus tuloksiin Korvataan keskiarvolla -kannattaa pohtia löytyykö juuri kyseistä puuttuvaa arvoa kuvaava keskiarvo SPSS/Analyze/Compare Means/Means 9

...mikä on tarpeeksi normaalia? Testien rinnalla jakaumaa kannattaa tarkastella myös graafisesti. Testien oletukseksi riittää, kunhan jakauma on noin suurin piirtein normaalinen. skewness & kurtosis tarkastelu TOISAALTA: Vaikka riittävä normaalisuus täyttyisikin tilastollisista oletuksista on hyvä olla tietoinen ja pohdiskella niiden mahdollista vaikutusta tuloksiin ONKO REALISTA OLETTAA, ETTÄ KAIKKI PSYKOLOGISET ILMIÖT KUTEN ESIM. AHDISTUS, ONGELMAKÄYTTÄYTYMINEN, OLISIVAT KUTA KUINKIN NORMAALISTI JAKAUTUNEITA? 10

Uudelleen koodaaminen (recode) SPSS: Transform/recode Voidaan tehdä joko alkuperäiseen tai uuteen muuttujaan (mieluummin uuteen) Tarvitaan esim. muuttujan suunnan vaihtoon Tarvitaan myös jatkuvan muuttujan luokittelussa jne Esim. kengännumero luokitellaan kolmeen ryhmään - numero <36: uusi arvo 1 - numero37-39: uusi arvo 2 - numero > 39: uusi arvo 3 11

SUMMAMUUTTUJIEN LUOMINEN SPSS: Transform / Compute: SUMMA = (KYS1 + KYS2 + KYS3 + KYS4 + KYS5)/5 SUMMA = MEAN(KYS1,KYS2,KYS3,KYS4,KYS5) Suoran summamuuttujan muodostaminen edellyttää skaalan riittävää reliabiliteettia (esim. Cronbachin alfa >.70) Muista: Kysymysten (item) kääntäminen, niin että kaikki summamuuttujan osakysymykset ovat samansuuntaisia siten, että mitä suurempi arvo sitä enemmän se mittaa mitattavaa muuttujaa 12