TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Luentotesti 3. Kun tutkimuksen kävelynopeustietoja analysoidaan, onko näiden tutkittavien aiheuttama kato

TUTKIMUSAINEISTON ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Kandidaatintutkielman aineistonhankinta ja analyysi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

pisteet Frekvenssi frekvenssi Yhteensä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI. LTKY012 Timo Törmäkangas Gerontologian tutkimuskeskus

MONISTE 2 Kirjoittanut Elina Katainen

Tilastollinen aineisto Luottamusväli

Harjoitus 2: Matlab - Statistical Toolbox

Til.yks. x y z

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

805306A Johdatus monimuuttujamenetelmiin, 5 op

pitkittäisaineistoissa

pitkittäisaineistoissa

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Kvantitatiiviset menetelmät

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Luottamusvälit. Normaalijakauma johnkin kohtaan

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

tilastotieteen kertaus

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Muuttujien määrittely

Tilastollisen tutkimuksen vaiheet

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Harjoitus 7: NCSS - Tilastollinen analyysi

TUTKIMUSOPAS. SPSS-opas

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Vilkkumaa / Kuusinen 1

1.9 Harjoituksia. Frekvenssijakaumien harjoituksia. MAB5: Tilastotieteen lähtökohdat. a) Kaikki aakkoset b) Kirjaimet L, E, M, C, B, A ja i.

Matemaatikot ja tilastotieteilijät

Teema 3: Tilastollisia kuvia ja tunnuslukuja

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

MTTTP1, luento KERTAUSTA

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

7. laskuharjoituskierros, vko 10, ratkaisut

Testejä suhdeasteikollisille muuttujille

Harjoittele tulkintoja

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kvantitatiivisen aineiston analyysi

Aineiston keruun suunnittelu ja toteutus. Tero Vahlberg

Tutkimustiedonhallinnan peruskurssi

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

KATO (MISSING DATA, ATTRITION) Kun otostetuista havaintoyksiköistä saavutetaan (mitataan) vain osa, tarkoittaa kato sitä osaa tutkittavista tai mittauksista, jota ei saavutettu (mitattu). Teknisestä syystä kato on ongelmallista, koska se usein johtaa siihen, että havaintoyksikön muu mitattu aineisto joudutaan jättämään huomioimatta tai puuttuvien havaintoarvojen tilalle joudutaan tuottamaan arvioita näistä arvoista (imputointi) Jos puuttuvia havaintoja esiintyy satunnaisesti aineistossa, otoksesta saatavien tulosten ei pitäisi oleellisesti vääristyä käytössä on vain pienempi otos Tässä tapauksessa informaation puuttumisen sanotaan olevan vaikutuksetonta (non-informative) tutkimuksen tulosten suhteen. Jos kato on vaikutuksellista (informative), puuttuu aineistosta tällöin sellaisia havaintoja, joilla olisi vaikutusta tuloksiin. Tällöin puuttuvien havaintojen vaikutusta tuloksiin on yleensä vaikeampi arvioida.

KATO Katoa voidaan pyrkiä estämään erilaisin keinoin, esim. kyselyä suunniteltaessa: kysely laaditaan sopivan mittaiseksi: liian pitkä kysely ei motivoi tutkittavia kyselyyn osallistuvia voidaan motivoida sopivin keinoin (mm. luvataan palautetta tutkimuksen valmistuttua) valvotussa tilanteessa tulee antaa tarpeeksi aikaa vastata Jos kato on suurta ja resurssit sen sallivat, voi harkita uusintakyselyn suorittamista Tarkastellaan kadon vaikutusta tuloksiin myöhemmin tilastollisten tunnuslukujen yhteydessä

HARHA (BIAS) Tutkimuksen tulokset ovat harhaisia silloin, kun otoksesta saatavat tiedon ovat systemaattisesti vääristyneitä suhteessa perusjoukon tuloksiin Usein kun satunnaistaminen epäonnistuu, tuloksiin liittyy harhaa. Valikointi Otoksesta puuttuu oleellisia ryhmiä Tärkeiden muuttujien puuttuminen Esim. kun tarkastellaan polvenojennusvoiman ja kehon rasvattoman painon välistä suhdetta ilman, että tunnetaan tutkittavien sukupuolta, tulokset kertovat usein enemmän sukupuolten eroista kuin em. muuttujien välisestä suhteesta Harhan tilanteessa kaikilla tutkittavilla ei ole ollut samaa todennäköisyyttä päätyä tutkimukseen Havaittua harhaa voi korjata esim. käyttämällä painokertoimia

TUTKITTAVIEN LUKUMÄÄRIÄ KOSKEVIA TUNNUSLUKUJA Tutkimuksen kannalta keskeisiä kokoja ovat Perusjoukon koko Äärellinen / pieni; ääretön suuri Määritetään tutkimuskysymyksen pohjalta Otoksen koko pyritään optimaaliseen kokoon suhteessa perusjoukkoon ja tutkimuskysymykseen Vastausprosentti pyritään mahdollisimman pieneen katoon

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Tilastollisissa kaavoissa käytetään erilaisia symboleja, joilla voi olla eri asiayhteydessä erilainen merkitys. Kiinnostuksen kohteena ovat yleensä parametrit, joiden arvoja estimoidaan otostiedon pohjalta Parametri on otosinformaatiota tiivistävä tunnusluku (esim. keskiarvo) Kaavoissa periaatteena on, että yksittäisiin lukuarvoihin viittaavilla symboleilla käytetään kursiivia. Parametrin yleissymboli theta: θ

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Muuttujat Mitattavaa muuttujaa merkitään isolla kirjaimella, esim. X Muuttujan saamia arvoja merkitään pienellä kirjaimella, esim. x Indeksien avulla viitataan muuttujan arvoihin otoksen eri havaintoyksiköillä, esim. muuttujan X havaintoarvo tapauksella viisi voidaan kuvata mm. näillä kahdella tavalla: x 5 tai x i, i = 5. Suurten aineistojen yhteydessä on helpompi kuvata tarvittavia laskutoimituksia symbolien avulla Tilastolliset tunnusluvut Perusjoukkoa koskevia tilastollisia tunnuslukuja merkitään kreikkalaisilla kirjaimilla (esim. perusjoukon keskiarvo: µ ) Otoksen tunnuslukuja merkitään pienillä länsimaisilla aakkosilla (esim. otoskeskiarvo: )

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Summaoperaattori Tilastollisissa kaavoissa yhteenlaskua merkitään kreikkalaisella isolla sigma-kirjaimella: Σ. Esim. Aineistossa on 10 henkilöä, joilta on mitattu muuttuja X (esim. kuukausipalkka). Perinteisesti muuttujan arvojen summaa merkitään: x 1 + x 2 + x 3 + x 4 + x 5 + x 6 + x 7 + x 8 + x 9 + x 10 Käyttämällä summaoperaattoria: Kaavaa luetaan niin, että sigma viittaa muuttujan arvojen, x, yhteenlaskua ja indeksillä i viitataan aineiston yksittäisiin tapauksiin. Sigman alla i = 1 tarkoittaa, että indeksi ensimmäiseksi arvoksi asetetaan 1. Tästä arvosta edetään kokonaislukuja (1,2,3, ) lisäten sigman päällä esitettyyn arvon 10 asti.

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Sulkujen käyttö: Osasummat:

MATEMAATTISISTA MERKINNÖISTÄ TILASTOTIETEESSÄ Lukujen esitystapoja Mm. SPSS-ohjelma antaa joskus tulosteissa lukuarvoja eksponenttimuodossa, jolloin esim. lukuarvo: 0,00000001304 tulostetaan muodossa: 1,304E-8, joka vastaa laskutoimitusta: 1,304 10-8. Englanninkielisessä kirjallisuudessa desimaalierottimena on piste, suomalaisessa tekstissä on tapana ollut käyttää pilkkua.

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

AINEISTON ESITTÄMINEN JA DATA- ANALYYSI Aineiston keruun jälkeen aineisto tallennetaan tietokoneelle esim. optisella lukijalla tai käsin syöttämällä Käsin syötettäessä koodaaja muuttaa lomakkeen tiedot sovittuun numeeriseen muotoon Diskreeteillä muuttujilla esim. kysymysten vastausvaihtoehdot numeroidaan järkevästi Jatkuvilla muuttujilla käytetään yleensä mittareiden tuottamia mittalukuja Puuttuva tieto merkitään jollain sovitulla puuttuvan tiedon koodilla, esim. -9, -1 tai jättämällä tyhjä kohta ko. arvon kenttään tiedostossa Puuttuvan tiedon koodina on arvo, jollaista muuttujalle ei ole muutoin määritelty Jos tiedetään syy, miksi tieto puuttuu voidaan käyttää eri koodeja: esim. sukupuolimuuttujalla 9: kieltäytyi osallistumasta, 8: ei tavoitettu, 7: kuollut

HAVAINTOMATRIISI Havaintoaineistojen esitysmuoto p kappaletta muuttujia (X 1,, X p ) n kappaletta havaintoyksiköitä (a 1,, a n ) Yleensä havaintoyksiköitä tulisi olla suurempi määrä kuin muuttujia (n > p) Matriisista nähdään jokaisen yksikön muuttujan arvot Muuttujat X 1 X 2 X p Havainto- a 1 x 11 x 12 x 1p yksiköt a 2 x 21 x 22 x 2p : : :. : : : :. : a n x n1 x n2 x np

HAVAINTOMATRIISI ESIMERKKI Asetelmapohjainen informaatio sisältyy usein koehenkilötunnukseen (ID) Esim. ensimmäinen numero: koulu, toinen numero: luokka, kolme seuraavaa: oppilas Muuttujat ID Ikä Pituus Paino Sukupuoli Havainto- 1 11001 62 165 74 1 yksiköt 2 11002 65 171 82 2 3 11003 72 162 65 1 4 12001-1 999 9 5 12002 58 172 68 2 6 25001 32 169 70 1

HAVAINTOMATRIISI Havaintomatriisin rivi sisältää yhden havaintoyksikön muuttujien arvot havaintoyksikön profiili (profile) Havaintomatriisin sarake sisältää yhden muuttujan saamat arvot havaintoyksiköillä muuttujan jakauma (distribution) Havaintomatriisin havainnollisuutta voidaan parantaa lajittelemalla aineisto nousevaan tai laskevaan järjestykseen (sort) tai ryhmittelemällä aineisto (split)

HAVAINTOMATRIISI SPSS-OHJELMASSA

HAVAINTOMATRIISI SPSS-OHJELMASSA

AINEISTON TARKASTELU JA MUOKKAUS AINA ennen varsinaista analyysia suoritetaan aineiston tarkastelu ja muokkaus, data-analyysi Tavoitteena: Aineiston laadun toteaminen ja valvonta Aineiston rakenteen tarkastelu ja muokkaus Muuttujien jakauman muoto Apua mallin ja hypoteesien määrittämiseen Tarkastuksia: Puuttuvien tietojen tarkistus (paikkaus) Loogisuuskorjaukset Virheellisten arvojen korjaus

TARKASTUKSIA Tarkastelua voidaan suorittaa ajamalla muuttujien jakaumat jakauman muoto poikkeavat tapaukset virheelliset arvot Voi käyttää myös tunnuslukuja Pienimmät ja suurimmat arvot (ovatko järkeviä) Keskiarvo (onko oikean tuntuinen) Korrelaatiokerroin (onko yhteys oikeansuuntainen) Jakaumaa kuvaavat graafit ovat hyödyllisiä: jatkuvat muuttujat: esim. histogrammi, diskreetit muuttujat: esim. pylväskuvio Kuviosta näkee suoraa mm. poikkeavat havainnot sekä myös havaintojen keskittymisen jonkun arvon ympärille

MUOKKAUKSIA Esim. diskreetti muuttuja, jossa on viisi luokkaa voidaan joutua teoreettisista tai käytännön syistä uudelleen luokittelemaan kolmeen luokkaan Lasketaan erilaisia summia Asteikot Esim. kroonisten sairauksien lukumäärä Lasketaan erilaisia ajan pituuksia Muokataan muuttujan / muuttujien arvoja jonkun laskennallisen kaavan mukaan, esim. kehon painoindeksi (BMI)

VIRHELÄHTEITÄ TUTKIMUKSEN KULUESSA Suunnittelu -Valittiinko tutkimuksen kannalta oikeat mittarit? Koodaus - Koodattiinko vastaukset oikein? Aineiston muokkaus - Olivatko käytetyt muunnokset perusteltuja? Data-analyysi - Havaittiinko tärkeimmät ongelmat aineistossa? Analyysi - Valittiinko asianmukainen menetelmä?

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

YKSIULOTTEINEN EMPIIRINEN JAKAUMA Kun havaintojen lukumäärä on liian suuri, että havaintomatriisista on vaikea nähdä aineiston yleispiirteitä, informaatiota voidaan tiivistää, että johtopäätösten teko helpottuisi Yhtä muuttujaa tarkasteltaessa aineiston informaatiota voidaan tiivistää havaintoyksiköiden muuttujan arvojen sijasta ilmoitetaan kuinka monta kertaa kukin arvo esiintyi kyseisellä muuttujalla Yksiulotteinen frekvenssijakauma tai suora jakauma

ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Satunnaisotanta (n. 25 %) jyväskyläläisiä 75-vuotiaita miehiä vuonna 1989. NORA -tutkimus.

ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Frekvenssi (f i ) ilmaisee havaintoarvojen esiintymiskertojen lukumäärän (frequency, count) Esim. f 20 = 2

ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Suhteellinen frekvenssi (p i ) ilmaisee havaintoarvojen esiintymiskertojen lukumäärän prosenttiosuutena kaikista havainnoista (percent) Esim. p 20 = 100 2/23 = 200 / 23 = 8.7

ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Summafrekvenssi (F i ) eli kumulatiivinen frekvenssi ilmaisee kuinka moni järjestykseen asetetuista havaintoarvoista oli korkeintaan yhtä suuri kuin kyseinen muuttujan arvo (cumulative frequency) Esim. F 20 = 2 + 1 + 1 + 2 = 6

ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Suhteellinen summafrekvenssi (P i ) ilmoittaa summafrekvenssin prosenttimuodossa (cumulative percent) Esim. P 20 = 100 (2 + 1 + 1 + 2) / 23 = 26.1

ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ (SPSS-TULOSTE)

LUOKITTELU Luokitteluasteikollisia muuttujia ei yleensä tarvitse luokitella, koska luokkia on usein vähän Joskus luokkia voi olla niin paljon, että tarvitsee käyttää jonkin tasoista luokkien uudelleen ryhmittelyä perustuen esim. yläkäsitteisiin Esim. tilastokeskuksen ammattiluokitus (2010) luokitus on käyttökelpoinen, koska luokitukset on tarkasti rajattu ja usein on mainittu myös mitkä ammatit eivät kuulu ko. luokan alle

AMMATTILUOKITUS 2010 (TILASTOKESKUS) 1 Johtajat 2 Erityisasiantuntijat 3 Asiantuntijat 4 Toimisto- ja asiakaspalvelutyöntekijät 5 Palvelu- ja myyntityöntekijät 6 Maanviljelijät, metsätyöntekijät ym. 7 Rakennus-, korjaus- ja valmistustyöntekijät 8 Prosessi- ja kuljetustyöntekijät 9 Muut työntekijät 0 Sotilaat X Tuntematon kirvesmies, (7111 talonrakentaja), pääluokka: 7 huoltomies (lvi), (7126 putkiasentajat), pääluokka: 7 peruskoulun opettaja, (2341 peruskoulun alaluokkien opettajat), pääluokka: 2 jne.

1 2 3 Huom. Informaatiota häviää, kun ääripään luokkiin kuuluvat on liitetty muihin luokkiin.

LUOKITTELU Jatkuvilla muuttujilla (välimatka- ja suhdeasteikolliset) havaitaan yleensä paljon erilaisia arvoja, ja tällöin luokittelu helpottaa usein aineiston käsittelyä ja esittämistä Edellytyksenä taulukoiden ja kuvaajien (mm. histogrammi) käytölle jatkuvilla muuttujilla Luokittelussa informaatiota häviää, mutta aineistosta tulee havainnollisempi ja käytännöllisempi Yleisin luokittelumuoto on tasavälinen luokitus, jossa kaikki luokat ovat yhtä leveitä (esim. 0..9, 10..19,20..29, ) Jos muuttujan jakauma on vino (painottunut alkutai loppupäähän) tai siinä on poikkeavia havaintoarvoja, voidaan käyttää epätasavälistä luokittelua (esim. 0..2,3..10,10..50)

JATKUVAN MUUTTUJAN LUOKITTELU Luokittelussa käytettävä luokkien määrä on harkinnanvarainen Suurella luokkien määrällä saadaan enemmän informaatiota muuttujasta, kun taas pienemmällä luokkien määrällä saavutetaan parempi havainnollisuus Luokittelussa määritetään: Mittaustarkkuus: a = kahden peräkkäisen arvon mahdollinen erotus Luokkien lukumäärä: k Vaihteluvälin pituus: R = muuttujan suurimman ja pienimmän arvon erotus Luokan pituus: c = R / k

LUOKITTELU Pyöristetyt luokkarajat: mittaustarkkuuden mukaiset luvut Todelliset luokkarajat: alaraja a/ 2 yläraja a/ 2 Luokkakeskus: (alaraja + yläraja) / 2

POLVENOJENNUSVOIMA (N) 359 521 170 199 383 415 378 380. 400 299 404 322 363 249 379 449 340 355 601 368 387. 506. 196 257 347 413 426 408 354 389 367 325 541 359 338 538.... 629. 397 419.. 327. 235 332 487 308 433. 404 411 295 184 400 417 332 489 355 341 599 240 400 211 407 393 454 408 334 395 379 401 221. 341 214 236 552 243 533. 432 275 360 413 325 314 335. 280 311 201 262 447 282. 412 401 108 297 454 426 318 405 160 293. 332. 436 300. Jyväskyläläiset 75-vuotiaita miehet vuonna 1989 (n = 119). NORA -tutkimus. Frekvenssijakauma: 85 riviä Puuttuva tieto =.

POLVENOJENNUSVOIMA (NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Järjestetty aineisto, puuttuvat tapaukset poistettu (n= 100) Jos aineistoa ei luokitella, jakaumataulukkoon tulee 86 riviä. Mittaustarkkuus: a = 109 108 = 1 Valitaan luokkien lukumäärä: k = 20 Vaihteluvälin pituus: R = 629 108 = 521 Luokan pituus: c = 521 / 20 = 26.05 25 Koska luokan pituus pyöristettiin, voidaan vastaavasti aloittaa esim. arvosta 100.

POLVENOJENNUSVOIMA (NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Pyöristetyt luokkarajat f i 100.5-125.5 1 125.5-150.5 0 150.5-175.5 2 175.5-200.5 3 200.5-225.5 4 225.5-250.5 5 250.5-275.5 3 275.5-300.5 7 300.5-325.5 7 325.5-350.5 11 350.5-375.5 9 375.5-400.5 13 400.5-425.5 15 425.5-450.5 7 450.5-475.5 2 475.5-500.5 2 500.5-525.5 2 525.5-550.5 3 550.5-575.5 1 575.5-605.5 1 605.5-625.5 1 625.5-650.5 1