Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS



Samankaltaiset tiedostot
Ohjeita kvantitatiiviseen tutkimukseen

Ohjeita kvantitatiiviseen tutkimukseen

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Harjoittele tulkintoja

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Ohjeita kvantitatiiviseen tutkimukseen

SPSS OPAS. Metropolia Liiketalous

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Ohjeita kvantitatiiviseen tutkimukseen

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

SPSS-ohjeita. Metropolia Pertti Vilpas

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Teema 3: Tilastollisia kuvia ja tunnuslukuja

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Kandidaatintutkielman aineistonhankinta ja analyysi

voidaan hylätä, pienempi vai suurempi kuin 1 %?

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

TUTKIMUSOPAS. SPSS-opas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sovellettu todennäköisyyslaskenta B

MONISTE 2 Kirjoittanut Elina Katainen

Tilastollisten aineistojen kerääminen ja mittaaminen

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

KAHDEN RYHMÄN VERTAILU

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Til.yks. x y z

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

Til.yks. x y z

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

Kvantitatiiviset menetelmät

MTTTP1, luento KERTAUSTA

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

MTTTP1, luento KERTAUSTA

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Luottamusväli, määritelmä

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Ratkaisuja luvun 15 tehtäviin

Määrällisen aineiston esittämistapoja. Aki Taanila

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Kvantitatiivisen aineiston analyysi

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

tilastotieteen kertaus

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Testit järjestysasteikollisille muuttujille

Estimointi. Otantajakauma

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Matemaatikot ja tilastotieteilijät

Perusnäkymä yksisuuntaiseen ANOVAaan

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

2. Aineiston kuvailua

Otoskoko 107 kpl. a) 27 b) 2654

Otannasta ja mittaamisesta

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

SPSS-perusteet. Sisältö

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

Transkriptio:

1 Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS Tutkimuksen aineiston keräämisessä voidaan käyttää joko laadullista tai määrällistä tutkimusmenetelmää. Tutkimusmenetelmiä voidaan myös yhdistää, ja ne voivat täydentää toisiaan, mutta pääpaino on selkeästi aina toisella näistä menetelmistä. Kvalitatiivista eli laadullista menetelmää käyttävässä tutkimuksessa voidaan selvittää esimerkiksi, kuinka johonkin tapahtumaan tai prosessiin osallistuva henkilö mieltää tehtävän sisäisen rakenteen tai toiminnan. Laadullista analyysiä kannattaakin usein tehdä kohteesta, joka on toistaiseksi niin epäselvä, että siitä ei vielä ole mielekästä tehdä määrällistä analyysiä. Laadullista menetelmää käytettäessä ei tehdä haastattelukysymyksiä, jotka edellyttävät vastaajan valitsevan annetuista vastausvaihtoehdoista, vaan vastaajien annetaan jäsentää vastauksiaan omaehtoisesti. Tutkijan tehtävänä on sitten koota näin saadusta laadullisesta datasta yhtenäinen selitys kohteesta. Kvantitatiivista eli määrällistä menetelmää käyttävä tutkimus kuvaa ja tulkitsee ilmiöitä mittausmenetelmillä, jotka keräävät numeerisia tutkimusaineistoja. Jos aineisto kerätään kyselylomakkeen avulla, lomake sisältää pääasiassa ns. suljettuja eli strukturoituja kysymyksiä. Määrällinen tutkimus perustuu siis mittaamiseen, jonka tuloksena syntyy lukuarvoja sisältävä havaintoaineisto, jota analysoidaan tilastollisin analyysimenetelmin. Tilastotiede pyrkii siis tiivistämään ja selittämään numeroaineistoa käyttäen tilastollisia tunnuslukuja. Samoin muuttujien välisten riippuvuuksien etsiminen, ilmiöiden selittäminen ja kehityksen ennustaminen voivat olla analyysin tavoitteita. Raakatilastot sisältävät liian paljon lukuja, jotta niiden perusteella pystyisi tekemään päätelmiä tutkimuksen kohteena olevan ilmiön piirteistä. Nykyisin aineistot analysoidaan atk-ohjelmien (mm. SPSS:n) avulla. Jotta tutkimuksessa saatuja tuloksia voidaan pitää luotettavina, on tutkimusaineiston oltava riittävän suuri ja edustava. Esimerkiksi tilaus-toimitusketjussa toimivien ihmisten käsitystä omasta roolistaan voidaan periaatteessa tutkia sekä määrällisesti että laadullisesti. Määrällisellä menetelmässä tutkijalla pitää olla teoria ja näkemys ketjuun osallistuvien ihmisten roolista, esitettynä viitekehyksessä ja konkreettisena mallina. Tämän mallin avulla sitten määritellään, mitä kysymyksiä kysytään, mitä dataa kerätään, jotta voidaan testata, ymmärtävätkö ketjuun osallistuvat ihmiset roolinsa luodun mallin (tai mallien) mukaisella tavalla. Jos vastaava tutkimus tehdään laadullisella menetelmällä, tarvitaan siinäkin tapauksessa teorioita ja malleja ammattikirjallisuudesta. Laadullinen menetelmä kuitenkin mahdollistaa hiukan toisenlaisen kysymyksenasettelun. Siinä voidaan esimerkiksi keskittyä selvittämään sitä, millä tavoin ketjun eri vaiheissa toimivien ihmisten käsitykset roolistaan ketjun osana poikkeavat valmiista mallista.

2 Kvalitatiiviset ja kvantitatiiviset tutkimusmenetelmät voivat myös täydentää toisiaan. Laadullista tutkimusta voidaan lisäksi käyttää määrällisen tutkimuksen esikokeena testaamaan aiottujen mitattavien seikkojen tarkoituksenmukaisuutta ja mielekkyyttä. sillä voidaan testata esimerkiksi kyselylomakkeen keskeisistä käsitteistä. Laadullinen tutkimus laajentaa ja syventää kvantitatiivisen analyysin numeerisia tuloksia esimerkiksi haastatteluaineistojen avulla. Historiaa Tilastotieteen alkujuuria etsiessä tulee vastaan muinaiset valtiot kuten Babylonia, Kiina, Egypti ja Antiikin Rooma, joissa suoritettiin väestölaskentaa. 1600-luvulle saakka tietoja kerättiin hallintoa (verotusta ja sotalaitosta) varten mm. maanomistuksesta, maan käytöstä, vuokratilallisista, palvelijoista ja karjasta. Tietoaineistoja ei siis analysoitu. Poikkeuksen muodostaa Italia, jossa kehittynyt kaupankäynti ja teollisuus 1300- ja 1400- luvuilla antoi aiheen kerätä erilaisia tietoja valtion, kaupan ja teollisuuden tilasta. Tällöin tietoja käytettiin hyväksi tavalla, joka on luonteenomaista modernille tilastotieteelle. Analysoivan tilastotiede ja tilastointi yhdistyivät 1800-luvulla, jolloin todennäköisyyslaskenta tuli kuvaan mukaan. Vasta 1900-luvulla tilastotiede on saanut nykyisen muotonsa ja päähuomio on kohdistunut tilastollisten päättelymenetelmien kehittämiseen. 2000-luvun alussa on käytettävissä useita tilasto-ohjelmia kuten SPSS sekä taulukkolaskentaohjelmat kuten EXCEL tilastollisine funktioineen. Valmiit tilastot Tutkimusta aloittaessa on syytä tarkistaa onko ko. aiheesta olemassa valmiita tilastolähteitä. Suomessa laajimmin tilastoja julkaisee Tilastokeskus. Myös valtiolla, kunnilla, pankeilla ja vakuutusyhtiöillä on omia tilastojulkaisuja. Mm. Suomen Gallup ja Taloustutkimus Oy tekevät toimeksiannosta tilastollisia tutkimuksia. Internet tarjoaa nykyisin paljon valmista tilastotietoa. Ongelmaksi muodostuu usein oikean aineiston löytäminen tästä valtavasta tietovarannosta. Linkkejä: http://www.stat.fi

3 2. TUTKIMUSPROSESSIN VAIHEET Tutkimusprosessi voidaan määrällisessä tutkimuksessa vaiheistaa seuraavasti: 1. Tutkimusongelman ja siitä johdettujen alaongelmien (tutkimuskysymysten) määrittäminen 2. Tutkimussuunnitelman laadinta 3. Tiedonkeruulomakkeen laadinta ja aineiston keruu 4. Aineiston tilastollinen käsittely 5. Johtopäätösten tekeminen Karjalainen - Tilastolliset menetelmät, Pii-kirjat, 2010

4 Tutkimusongelman ja tutkimuskysymyksien muotoilu antaa viitteitä siitä, millaista tietoa tutkimuksessa halutaan saada. Kysymyksistä voidaan helposti päätellä, halutaanko tutkimuksessa saada numeraalista tietoa ja selittää yleisesti asioita vai halutaanko ymmärtää ilmiötä kokonaisvaltaisesti kuvaillen. Määrällisessä tutkimuksessa kysytään tietoa, joka on haettavissa mm. kysymyksillä missä määrin, kuinka paljon ja mikä osuus. Määrällisen aineiston kyselylomakkeessa käytetään lähinnä ns. suljettuja kysymyksiä, joihin vastataan strukturoidun, annetun asteikon mukaisesti. Myös ns. avoimia kysymyksiä sisältyy yleensä aineiston keruuseen, näihin annetaan kyselylomakkeessa vastaustilaa. Määrälliseen tutkimukseen liittyvät asiat eivät aina taivu helposti numeerisesti mitattaviksi. Vaikka mittaaminen näennäisesti sujuisikin, niin mittaamisen luotettavuus ja tarkkuus voidaan asettaa kyseenalaiseksi. Mitattava ominaisuus on operationalisoitava, eli se on saatava mitattavaan muotoon. Operationaalinen määritelmä tuo siis esiin, miten käsite on empiirisesti mitattavissa. Esimerksi mittaamisen kohteena on työtyytyväisyys. Työtyytyväisyys sisältää monenlaisia aspekteja: tyytyväisyys palkkaan, tyytyväisyys yrityksen johtoon, tyytyväisyys työn sisältöön, tyytyväisyys työympäristöön, tyytyväisyys työtovereihin jne. Työtyytyväisyyden mittaaminen vaatii siis useampien muuttujien käyttöä. Huomattavaa on myös, että kysyttäessä työtyytyväisyyteen liittyviä kysymyksiä työntekijöiltä, vastaukset heijastelevat työntekijän sen hetkisiä tuntemuksia. Työntekijöille esitettyjen kysymysten lisäksi työtyytyväisyyttä voidaan arvioida erilaisia indikaattoreiden avulla. Esim. sairaus poissaolot, varhaiseläkkeelle jäävien määrä jne. voivat ilmaista jotain työtyytyväisyydestä. Tällaisten indikaattorien mittaaminen sinänsä voidaan tehdä tarkasti, mutta kokonaan toinen asia on niiden suhde työtyytyväisyyteen. http://myy.helia.fi/~taaak/t/ Hypoteesilla tarkoitetaan ennakoitua ratkaisua tai selitystä tutkittavaan ongelmaan. Ne muodostuvat teorian ja aikaisempien tutkimusten pohjalta. Kerätyn tutkimusaineiston pohjalta voidaan tutkia, pitävätkö hypoteesit paikkaansa. Teoriasta johdettua hypoteesia voidaan testata empiiristen havaintojen valossa. Hypoteesit voivat olla luonteeltaan mm. suuntaa osoittavia hypoteeseja, tutkittavien ilmiöitten välillä olevia riippuvuuksia osoittavia hypoteeseja tai ns. työhypoteeseja eli tutkijan omia odotuksia tuloksista.

5 2.2 KVANTITATIIVISEN TUTKIMUKSEN PERUSKÄSITTEITÄ Seuraavassa taulukossa on lueteltu kvantitatiivisen, tilastollisen tutkimuksen tärkeimpiä peruskäsitteitä. Käsite Esimerkki 1 Perusjoukko => Yrityksen asiakkaat, Metropolian opiskelijat, Palvelun käyttäjät, Tutkimuksen kohdejoukko nuoret aikuiset, yrityksen työntekijät, kaikki suomalaiset Tilastoyksikkö => Yksi asiakas, yksi opiskelija, yksi suomalainen Havaintoyksikkö eli alkio Tilastollinen muuttuja => Ikä, sukupuoli, ammatti, palkka, mielipide, asenne Ominaisuudet, joita tutkitaan Kokonaistutkimus => Yrityksen työntekijöiden ilmapiiritutkimus Tutkitaan kaikki tilastoyksiköt Otantatutkimus => Yrityksen asiakastutkimus, opiskelijoiden asennetutkimus, Tutkitaan edustava otos puolueiden kannatus perusjoukosta 3. KYSELYLOMAKKEEN LAATIMINEN JA TUTKIMUSAINEISTON KERUU Tutkimuslomake perustuu tutkimusongelman ja siitä johdettujen alaongelmien määrityksiin ja siten lomakkeen pohjana ovat tutkimuksen keskeiset käsitteet ja avaintermit Taustamuuttujat ovat myös määritettävä (taustatekijät, jotka voivat vaikuttaa tutk. asiohin (esim. sukupuoli, koulutus, ikä). Perusjoukko on usein jaettava ositteisiin eli kiintiöihin taustamuuttujien perusteella ja otoksessa on oltava riittävä edustus jokaisesta ositteesta Tutkijalla pitäsi olla jokin ennakkokäsitys taustamuuttujista, jotka saattavat vaikuttaa vastaajien mielipiteissä (esim. ikä saattaa vaikuttaa vastaajan mielipiteeseen ) 3.1 Mittaaminen Toimenpide, jolla tilastoyksikköön liitetään jotain sen ominaisuutta kuvaava luku eli mittaluku (tai symboli) Tilastollinen muuttuja on jatkuva ( pituus, paino, rahamäärä jne.) tai epäjatkuva eli diskreetti (sukupuoli, koulutus jne.).

6 Asteikkotyypit määrittävät, mitkä tilastolliset toimenpiteet ovat sallittuja kyseisen asteikon muuttujille: Muuttuja = Palvelun laatu Palvelu on ystävällistä Epäystävällistä 4 3 2 1 => prosenttijakaumat,keskiarvo, keskihajonta, mediaani, graafit jne. Muuttuja = Siviilisääty 1 naimisissa 2 naimaton 3 eronnut 4 avoliitossa => prosenttijakaumat,moodi, graafit. HUOM! ko. esimerkissä numerot 1-4 ovat vain syöttökoodeja, eikä niiden avulla voida laskea esim. siviilisäädyn keskiarvoa (vaikka SPSS sen laskeekin) Vastausvaihtoehtojen tulee olla erottelukykyisiä, mikäli kaikki vastaajat vastaavat kysymykseen samalla tavalla (esim. 3=en osaa sanoa), voidaan kysymystä pitää epäonnistuneena. Määrällinen menetelmä keskittyy tutkimusyksiöiden eri muuttujien saamien arvojen välisten erojen kuvailuun ja selittämiseen. Tutkija pyrkii etsimään tilastollisia säännönmukaisuuksia, jotka selittävät muuttujien arvojen liittymistä toisiinsa. Se mikä on kaikille yksiköille yhteistä, ei anna mitään johtolankaa erojen selittämiseen. 3.2 Käytetyt kysymystyypit * Suljetuissa kysymyksissä valmis rakenne, rajatut vastausvaihtoehdot. Myös avoimia kysymyksiä voi käyttää harkinnan mukaan. Hyvä suljettu kysymys: 1) Vastaajille löytyy sopiva vaihtoehto, mielipide/asennekysymyksissä on harkittava vastausvaihtoehtoa 3= En osaa sanoa 2) Vastausvaihtoehdot ovat toistensa poissulkevia 3) Valittavien vaihtoehtojen lukumäärä on ilmoitettu selvästi => "valitse vain yksi/tärkein jne." Valmis luokittelu * Käytä harkitusti => esim. ikäluokittelu => ei voida olla etukäteen varmoja vastaajien iästä => saatetaan saada melkein tyhjiä luokkia

7 Mielipide ja asenneasteikot LIKERT-asteikkoa => "Palvelu on ystävällistä" 1 Täysin eri mieltä 2 Jokseenkin eri mieltä 3 En osaa sanoa 4 Jokseenkin samaa mieltä 5 Täysin samaa mieltä Huom! Tutkimuslomakkeessa kannattaa käyttää numeroita 1-5 selitteiden lisäksi => analyysissä voidaan käyttää keskiarvoa muuttujan kuvailussa OSGOOD-asteikkoa => Palvelu on Ystävällistä 5 4 3 2 1 Epäystävällistä Asiantuntevaa 5 4 3 2 1 Asiantuntematonta 3.3 Mitta-asteikot 1) Luokittelu- eli nominaaliasteikko, tällöin yksiköt pelkästään luokitellaan tiettyihin ennalta määrättyihin luokkiin. Luokkien järjestyksellä ei ole merkitystä. Esimerkki => siviilisääty naimisissa/naimaton/eronnut/ avoliitossa 2) Järjestys-eli ordinaaliasteikko, tällöin luokittelun lisäksi luokat voidaan järjestää mitattavan ominaisuuden mukaan järjestykseen. Peruslaskutoimituksia ei voida suorittaa. Esimerkki => mielipidemittaus asteikolla Täysin eri mieltä/jokseenkin eri mieltä/jokseenkin samaa mieltä/täysin samaa mieltä 3) Välimatka- intervalliasteikko, tällöin muuttujan arvojen lisäykset voidaan laskea, ts. erotus on siis määritelty. Asteikolla ei ole yksikäsitteisesti määriteltyä nollakohtaa, vaan se voidaan valita. Esimerkkinä asteikko (Palvelu on ystävällistä) 4 3 2 1 (Epäystävällistä) 4) Suhdeasteikko, tällöin asteikko täyttää välimatka-asteikon vaatimukset, mutta lisäksi asteikolla on absoluuttinen, yksikäsitteinen, nollakohta. Esimerkki Kuukausipalkka, Vastaajan ikä

8 3.4 Tutkimusaineiston keräysmenetelmä Eri vaihtoehtoja: 1) Lomakekysely, kirjekysely, webbi-kysely, email 2) Puhelinhaastattelu 3) Henkilökohtainen haastattelu 4) Paneelitutkimukset 5) Ryhmäkeskustelut 6) Testit ym. Henk. koht. Haastattelu Puhelin haastattelu Postikysely, verkkokysely Vastausprosentti Korkea Korkea Alhainen Haastattelijan vaikutus Vastausten saannin nopeus Pitkän kyselylomakkeen käyttö Suuri Melko suuri Ei lainkaan Nopea Nopea Hidas Sopii Melko hyvin Kato lisääntyy.. Postitse tehtävä lomakekysely sopii suurehkolle ja hajallaan olevalle perusjoukolle. Kun kyseessä on rajattu joukko (esim. yrityksen työtekijät) voidaan kirjallinen lomakekysely toteuttaa paikanpäällä. Myös puhelin- ym. haastattelut sopivat rajatulle perusjoukolle. Katoa voidaan pienentää mm. hyvän saatekirjeen avulla, antamalla riittävän lyhyt vastausaika, valmis vastauskuori on kirjeen mukana, vastaaja saa palkinnon jne. Aineiston keruussa täytyy taata vastaajan säilyminen anonyymina Palautusprosentti * Olisi oltava mahdollisimman suuri, tähän vaikuttavat mm. seuraavat tekijät: 1) Kohderyhmä ja tutkimuksen aihe 2) Kysymysten määrä ja lomakkeen ulkoasu 3) Saatekirje ja mahdollinen palkkio 4) Muistutuskirjeiden käyttö (puhelinsoitto?) * Palautusprosentti vaihtelee yleensä 20-80 % välillä. Jos palautusprosentti on yli 60 %, sitä voidaan pitää hyvänä ja vastaavasti alle 20% on jo heikko. Tärkeätä on myös huomioida absoluuttisten vastausten määrä (vrt. otoskoko) => ts. aineistoa tulisi olla absoluuttisesti yli 30.

9 4. OTANTATUTKIMUKSET Jos valmista tilastoaineistoa ei ole käytettävissä, on tilanteen mukaan harkittava, hankintaanko tarvittavat havainnot koko perusjoukosta vai tehdäänkö otantatutkimus. Kokonaistutkimus on usein hidas, hankala ja kallis toteuttaa, mutta tulokset ovat vastaavasti yleensä luotettavia ja tarkkoja. Otos on perusjoukon osa, joka on valittu siten, että jokaisella perusjoukon alkiolla on sama mahdollisuus (todennäköisyys) tulla otokseen. Otoksesta saadut tutkimustulokset yleistetään koskemaan koko perusjoukkoa. Otantatutkimus voidaan tehdä mm. seuraavista syistä: - perusjoukko on suuri - resurssien puute - perusjoukon tilastoyksiköitä ei tarkkaan tunneta. Otannan suunnittelussa on otettava huomioon tarvittavan tiedon laatu ja tarkkuusvaatimus. Otoksen koon kasvaessa yleensä myös tulokset tarkentuvat. Otantamenetelmiä 1) Yksinkertainen satunnaisotanta Järjestetään aineisto, ts. numeroidaan perujoukon alkiot ja arvotaan satunnaisesti mukaan tulevat alkiot (RND, RAN). 2) Systemaattinen otanta Perusjoukossa N tilastoyksikköä ja otoksen koko on n yksikköä. Menetellään seuraavasti : i) lasketaan suhdeluku N/n, pyöristetään näin saatu luku lähimpään kokonaislukuun, saadaan poimintaväli k. ii) poimitaan satunnaisesti k ensimmäisen alkion joukosta ensimmäinen ja sen jälkeen joka k.s alkio 3) Ositettu otanta Perusjoukko jaetaan jonkin tunnetun ominaisuuden perusteella mahdollisimman homogeenisiin ryhmiin eli ositteisiin ja kuhunkin ositteeseen sovelletaan jotakin otantamenetelmää (esim. satunnaisotantaa). Otoskoon n lisäksi on ratkaistava, kuinka monta alkioita kustakin ositteesta otetaan otokseen,jolloin käytetään kiintiöintiä : 1) tasainen kiintiöinti, jossa jokaisesta ositteesta otetaan yhtä monta alkiota 2) suhteellinen kiintiöinti, jossa ositteista valitaan alkioita otokseen samassa suhteessa kuin niitä on perusjoukossa. 4) Peräkkäisotanta Arvotaan 1.alkio ja poimitaan sen jälkeen otokseen koko tarvittava määrä alkioita peräkkäin (esim. laaduntarkkailu)

10 Otoksen koon määrittäminen Yleisääntönä pidetään 30 yksikön otosta määrällisessä tutkimuksessa! Koko riippuu oleellisesti tutkimuksen tyypistä. Esimerkiksi mielipidetutkimuksissa, joissa kartoitetaan poliittisten puolueiden kannatusta, otoksen suuruus tulisi olla 1000 suuruusluokkaa, kun taas lääketieteellisessä kokeessa otoksen koko voi olla muutamia kymmeniä Otoksen kokoon vaikuttavat mm. seuraavat tekijät: 1) Perusjoukon heterogeenisyys => hajonta => mitä suurempi hajonta sen suurempi otos vaaditaan 2) Odotettavissa oleva kato eli poistuma => Vastausprosentti on harvoin 100 %, palauttamattomien lomakkeiden lisäksi voidaan osa palautetuista joutua hylkäämään puutteellisten vastausten vuoksi. 3) Tutkittavien tapausten suhteellinen osuus => usein perusjoukko on jaettava ositteisiin tietyn ominaisuuden perusteella (esim. sukupuoli) => otoksessa on oltava riittävä edustus jokaisesta ositteesta. Otoksen optimikoon määrittämiseksi on erilaisia laskukaavoja, mutta seuraavassa viitteellisiä otoskokoja : 1. Yleensä aina vähintään 50 tilastoyksikköä 2. Vähintään 100, jos kohderyhmä on suppea ja tuloksia tarkastellaan kokonaistasolla 3. 150-300, jos perusjoukossa on ryhmiä, joiden väliseen vertailuun tutkimus keskittyy (ryhmissä tulisi olla ainakin 30 henkilöä) 4. vähintään 500-1000 valtakunnallisissa kuluttujatutkimuksissa Rajoitteet: aika, budjetti Jos otoskooksi on tulossa yli puolet perusjoukosta, on syytä harkita kokonaistutkimusta Otantavirhe Tilastollinen päättely tarkoittaa perusjoukkoa koskevien päätelmien tekemistä perusjoukosta poimitun otoksen perusteella. Otoksesta laskettuja tuloksia ei voida suoraan yleistää laajempaa perusjoukkoa koskeviksi, vaan päättelyssä täytyy huomioida otannasta aiheutuva epävarmuus. Otoksesta lasketut taulukot ja tunnusluvut kuvailevat otosta. Otoksen perusteella voidaan tehdä päätelmiä perusjoukosta jos otos on satunnaisesti valittu. Jos otosta ei ole valittu satunnaisesti, niin sitä kutsutaan näytteeksi. Koska otoksen kokoonpano riippuu sattumasta, eri otoksista lasketut tulokset vaihtelevat satunnaisesti. Otantavirhe on sitä pienempi mitä suurempaa otosta käytetään. Otoskokoa voidaan määrittää myös erilaisten laskumenetelmien avulla kun tutkimukselle on määritetty tietty luottamusväli. Luottamusväli tarkoittaa väliä, jolla 95 % varmuudella voidaan otoksesta saadun tutkimustuloksen olla pätevä myös perusjoukossa. http://www.researchinfo.com/docs/calculators/samplesize.cfm

11 5. VALIDITEETTI JA RELIABILITEETTI Tutkimuksellisen opinnäytetyön laatua arvioidaan yleensä reliabiliteetin ja validiteetin avulla. Varsinkin määrällisiä tutkimusmenetelmiä käytettäessä reliabiliteetti on keskeinen tutkimuksen arvon mittari. Reliabiliteetti Reliabiliteetti tarkoittaa tutkimuksessa käytetyn menetelmän luotettavuutta. Tutkimuksen reliabiliteetti on sitä parempi, mitä todennäköisimmin samalla tavalla kerätty ja samalla tavalla analysoitu uusi data antaisi nyt saadut tulokset. Menetelmä voi siis olla luotettava, vaikka se antaisi vinoutuneen tuloksen, jos se antaa samalla tavoin vinoutuneen tuloksen jokaisella menetelmän potentiaalisella toistokerralla. Otoskoko ja otantamenetelmä vaikuttavat tulosten luotettavuuteen. Tulokset ovat hyvin sattumanvaraisia, jos otoskoko on hyvin pieni tai kato on suuri. Mikäli otos on vino, se ei anna tietoa koko perusjoukosta vaan jokin tietty ryhmä on yliedustettuna. Peittovirhe syntyy jos perusjoukon rekisteri tai luettelo ei ole ajan tasalla. Tutkimuksessa on sattua virheitä myös tietoja käsiteltäessä ja analysoitaessa. Nykyiset tilastoohjelmat antavat sivukaupalla tulosteita. Tutkijan tehtävä onkin käyttää vain omaan tutkimukseen sopivia tilastollisia menetelmiä. Validiteetti Onko onnistuttu mittaamaan juuri sitä mitä oli tarkoitus mitata? Ovatko kysymykset laadittu oikein, antavatko ne tietoa tutkimusongelman ratkaisemiseen? Validiteetilla tarkoitetaan tulosten pätevyyttä. Sen avulla ilmaistaan, mitataanko ja tarkastellaanko sitä ilmiötä, jota sanottiin mitattavan. Esimerkiksi työviihtyvyyttä tutkittaessa voidaan kysyä, olisiko sairauspoissaolojen määrä validi mittari työviihtyvyydelle. Jos on tullut valinneeksi sairauspoissaolot työviihtyvyyden mittariksi, tutkimusaikaan sattunut flunssaepidemia olisi yksi tekijä, joka heikentäisi sairauspoissaolojen määrän validiteettia työviihtyvyyden mittarina. Silloin tutkijan tulisi tuloksia tulkitessaan myös keskustella siitä, olisiko mahdollisesti jokin toinen mittari kuin sairauspoissaolojen määrä sittenkin ollut validimpi mittari työviihtyvyydelle. Validiteettia voidaan tarkastella sisäisenä ja ulkoisena validiteettina. Sisäisen validiteetin voi vielä jaotella esimerkiksi käsitevaliditeettiin ja menetelmän validiteettiin. Tutkimus on sisäisesti pätevä (validi), kun tutkimustulokset osoitetaan olevan perustellusti kyseisen tutkimusprosessin tulos. Tutkimus on siis sisäisesti pätevä silloin, kun tuloksiin ei ole vaikuttanut satunnaiset tai epäolennaiset tekijät. Arviointi kohdistuu tutkimuksessa valittuun teoreettiseen viitekehykseen, määriteltyihin käsitteisiin, aineiston keräämisen tapaan, aineiston keräämisessä käytettyihin kysymyksiin, tutkimiseen, tulkintaan, päättelyyn ja tuloksiin. Sisäisesti validi tutkimus siten vastaa aina tutkimusongelmaan, tutkimuskysymyksiin ja tutkimuksessa on tehty kaikki, mitä on luvattukin tehdä. Edellä esitetyssä esimerkissä mittarin valintaan liittyy sen validiuden arviointia ja tutkijan tulisi pohtia ja perustella menetelmävalintansa menetelmän validiuden avulla. Ulkoinen validiteetti puolestaan mittaa saatujen tulosten yleistettävyyttä. Ulkoinen validiteetti mittaa, missä määrin työssä saatuja tuloksia voitaisiin yleistää koskemaan muita, nyt tutkitun kohteen kaltaisia kohteita. Yleensä minkä tahansa tiedon tai tuotteen tuottamiseen keskittyvää tutkimusta pidetään hyödyllisempänä jos saatuja tuloksia voidaan soveltaa laajemminkin.

12 6. KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI 1. Frekvenssi- ja prosenttijakaumat SPSS => Analyse => Descriptive Statistics => Frequencies * SPSS- taulukon editointi käyttäen Template:ja. Tuplaklikkaa taulukon päällä / Valikosta Format / Table looks / valitse sopiva Opetuksen asiantuntemus Frequency Percent Valid Percent Cumulative Percent Valid Melko tyytyväinen 5 6,5 6,8 6,8 Erittäin tyytyväinen 69 89,6 93,2 100,0 Total 74 96,1 100,0 Missing System 3 3,9 Total 77 100,0 Huom! 74 on vastannut tähän kysymykseen (N=77), Valid percent kuvaa jakaumaa vastanneiden kesken Toisinaan tehdään ensin luokittelu jolloin saadaan tieto tiivistetympään ja havainnollisempaan muotoon. Luokittelun etuina on edellisen lisäksi: => aineiston käsittely helpottuu => aineiston graafinen esittäminen yksinkertaisilla kuvilla mahdollista Luokittelun haittoina on: => menetetään paljon yksittäistä tarkkaa tietoa => luokkarajojen valinnalla vaikutetaan mielikuvaan, jonka taulukko antaa lukijalle 2. Muuttujan arvojen luokittelu * Tavallisimmin luokkien lukumäärä vaihtelee välillä 4 8 luokkaa. Luokkavälin pituus pyöristetään ylöspäin siten, että saadaan mahdollisimman havainnollinen luokitus. Luokkaväli = (max min)/ luokkien lkm Transform / Visual Binning / Valitse muuttuja => kirjoita uudelle luokkamuuttujalle nimi ja anna label-teksti Valitse Make Cutpoints ja anna First cutpoint location ja number of cutpoints Valitse Make Labels ja anna luokkarajat

13 Transform-komento Muunnetaan syntymävuosi iäksi ja tehdään siitä luokiteltu muuttuja TRANSFORM => COMPUTE => Esimerkki Target variable => syntymav Numeric Expression => Anna laskukaavaksi 2012-syntymav 3. Ristiintaulukointi Tutkitaan kahden eri muuttujan riippuvuutta taulukoimalla ne samaan frekvenssitaulukkoon => sarakemuuttuja = selittävä muuttuja esim. sukupuoli (M/N) => rivimuuttuja = selitettävä muuttuja esim. arvosana (K/H/T) Tutkitaan siis onko sukupuolella vaikutusta arvosanaan. Ristiintaulukointi sopii muuttujille, kun ainakin toinen muuttujista on luokittelu taijärjestysasteikollinen. Toisin sanoen ainakin toinen muuttuja on mitattu vain asteikolla kuten: kyllä/ ei Naimissa/ Naimaton/ Täysin samaa mieltä/ Samaa mieltä/ Eos/. SPSS => Analyse => Descriptive Statistics => Cross tabs 1. Dependent variable = selitettävä muuttuja (y) => Columns 2. Independent variable = selittävä muuttuja (x) => Rows 3. Valitse myös Cells => Percentages => Column

14 4. Graafinen esittäminen Graafisen esittämisen etuja ovat: - - havainnollinen ja pelkistetty esitystapa - - monipuolistaa ja keventää tilastojen esitystä ja analysointia - - mahdollisuus korostaa joitain asioita - - mahdollisuus valita erilaisia esitystapoja Graafisen esittämisen haittoja ovat: - - esityksen epätarkkuus - - harhauttamisen mahdollisuus - - lukijan on oltava kriittinen ja asiantunteva, ettei tulkitse kuviota väärin SPSS => Graphs => Legacy dialogs => Valitse sopiva graafi=>valitse muuttuja.. 1.Murtoviivadiagrammi => käytetään usein esimerkiksi aikasarjojen esittämiseen 2. Pylväsdiagrammi => käytetään muuttujille, jolla erillisiä, diskreettejä arvoja

15 3. Histogrammi (=frekvenssimonikulmio) 20 SALCLASS 10 Frequency 0 3000-9999 10000-16999 17000-23999 24000-29999 SALCLASS käytetään muuttujille, jotka ovat jatkuluonteisia, esim. palkka,liikevaihto. Tällöin pylväät ovat yhdessä (vrt. pylväsdiagrammi, jossa pylväiden välillä on väliä)

16 4. Sektoridiagrammi => sektori kuvaa yhden muuttujan arvon frekvenssiä 5.Tunnusluvut Vaihtoehto 1 SPSS => Analyze => Descriptive statistics => Descriptive Descriptive Statistics N Minimum Maximum Mean Std. Deviation revenue 31 337 4484 2391,74 1002,574 Valid N (listwise) 31 Muuttujan keskiarvo on siis 2391,74 ja keskimääräinen poikkeama keskiarvon ympärillä siis 1002,57 (keskihajonta)

17 Vaihtoehto 2 SPSS => Analyze => Descriptive statistics => Explore Huom! Voit ajaa tällä komennolla myös ns. Box-plot graafin => Descriptives Statistic Std. Error revenue Mean 2391,74 180,068 95% Confidence Interval Lower Bound 2023,99 for Mean Upper Bound 2759,49 Median 2342,00 Std. Deviation 1002,574 Minimum 337 Maximum 4484 Range 4147 Skewness -,148,421 Kurtosis -,223,821 Huomaa että SPSS laskee mm. keskiarvon, mediaani, keskihajonnan, vaihteluvälin (range) and vinouden (skewness) ja huipukkuuden (kurtosis). BOX-PLOT Ylempi nuoli osoittaa Q3- arvon, ts. arvon jonka alapuolella on 75 % havainnoista Alempi nuoli osoittaa Q1- arvon, ts. arvon jonka alapuolella on 25 % havainnoista Musta paksu viiva on mediaani. Koko väli on vaihteluväli

18 6. Fraktiilit Current Salary N Valid 474 Missing 0 Mean (Keskiarvo) $34,419.57 Median (mediaani) $28,875.00 Mode (moodi) $30,750 Percentiles *) 25 $24,000.00 50 $28,875.00 75 $37,162.50 *) 25 % vastaajista ansaitsee alle 24000 50 % vastaajista alle 28875 75 % vastaajista alle 37162 25 % vastaajista ansaitsee yli 37162 7. Tunnuslukujen yhteenveto Keskiarvo Luokittelemattoman aineiston keskiarvo saadaan siten, että lasketaan muuttujan arvot yhteen ja jaetaan havaintojen lukumäärällä. Muuttujan on oltava joko välimatka-asteikon muuttuja tai suhdeasteikon muuttuja, jotta keskiarvo voidaan määrittää. Mikäli alkuperäistä, tarkkaa aineistoa ei ole käytössä, saadaan luokitellun aineiston keskiarvo saadaan käyttämällä luokkakeskuksia korvaamaan yksittäiset havainnot. Mediaani Mediaani on suuruusjärjestykseen järjestetyn aineiston keskimmäinen arvo. Mediaani voidaan määrittää vähintään järjestysasteikon muuttujalle. Moodi Useimmin esiintyvää havaintoa sanotaan moodiksi eli tyyppiarvoksi. Moodeja voi olla useita tai ei yhtään. Moodi voidaan määrittää kaikkien mitta-asteikkojen muuttujista. Fraktiilit Fraktiileilla tarkoitetaan kohtaa, joka rajaa jakaumasta p % havainnoista rajakohdan vasemmalle puolelle. Esim. 25 %:n fraktiili on arvo, jota pienempiä on 25 % havainnoista. Fraktiilit voi määrittää vähintään järjestysasteikon muuttujille. Fraktiilit voi määrittää joko summafrekvenssin kuvaajasta tai laskemalla vastaavalla kaavalla kuin mediaani. Esimerkkejä fraktiileista: Q 1 = alakvartiili, 25 % havainnoista on tätä pienempiä Q 2 = Md, 50 % havainnoista on sekä tätä pienempiä että suurempia Q 3 = yläkvartiili, 75 % havainnoista on tätä pienempiä ja 25 % havainnoista on tätä suurempia

19 Vaihteluväli Vaihteluvälillä tarkoitetaan väliä havaintoaineiston pienimmästä arvosta havaintoaineiston suurimpaan arvoon. Vaihteluväli voidaan määrittää vähintään järjestysasteikon muuttujalle. Vaihteluvälin pituudella tarkoitetaan em. tunnusluvun arvojen erotusta. Keskihajonta Keskihajontaa sanotaan myös standardipoikkeamaksi. Sitä voidaan käyttää, jos kyseessä on joko välimatka-asteikon tai suhdeasteikon muuttuja. Kirjaintunnukset ovat seuraavat: otoskeskihajonta = s ja perusjoukon keskihajonta on. Keskihajonta ottaa huomioon jokaisen havainnon ja sen erotuksen havaintojen keskiarvosta. 8. Mitta-asteikon vaikutus käytettyyn tunnuslukuun 1) Luokittelu- eli nominaaliasteikko naimisissa/naimaton/eronnut/ avoliitossa => Moodi, prosentit, frekvenssit 2) Järjestys-eli ordinaaliasteikko Täysin eri mieltä/jokseenkin eri mieltä/jokseenkin samaa mieltä/täysin samaa mieltä => Mediaani, Moodi, prosentit, frekvenssit, vaihteluväli Huom! Jos asteikko muutetaan 1 = Täysin eri mieltä 2 = Jokseenkin eri mieltä 3= Jokseenkin samaa mieltä 4 = Täysin samaa mieltä => Asteikko voidaan nyt tulkita ainakin osittain välimatkalliseksi, joten k.a. voidaan myös määrittää => Keskiarvo, Mediaani, Moodi, prosentit, frekvenssit, vaihteluväli, keskihajonta 3) Välimatka- intervalliasteikko (Palvelu on ystävällistä) 4 3 2 1 (Epäystävällistä) => Keskiarvo, Mediaani, Moodi, prosentit, frekvenssit, vaihteluväli, keskihajonta, korrelaatio 4) Suhdeasteikko Kuukausipalkka => Keskiarvo, Mediaani, Moodi, prosentit, frekvenssit, vaihteluväli, keskihajonta, korrelaatio

20 9. Vinous Tunnusluvulla voidaan havainnollistaa havaintojen jakautumista keskiarvon eripuolille. Jakauma on vino vasemmalle eli vinous saa negatiivisen arvon, aineiston keskiarvon ollessa mediaania pienemmän. Oheisessa kuvassa keskiarvo on 64,92, mediaani 67,00. Vastaavasti jakauma on vino oikealle eli vinous saa positiivisen arvon, aineiston keskiarvon ollessa mediaania suuremman. Oheisessa kuvassa 2 keskiarvo on 40,67 vuotta ja mediaani 39,00 vuotta. 50 100 40 80 30 60 20 40 10 20 0 0 Vinous<0 Vinous>0 10.Huipukkuus henkilön pituus Huipukkuusluku ilmaisee jakauman terävyyttä suhteessa normaalijakaumaan, jonka huipukkuus 10 on 0. Oheisen kuvaajan huipukkuus on 0,662. 12 8 6 4 frekvenssi 2 0 Std. Dev = 7,56 Mean = 167,3 N = 27,00 150,0 155,0 160,0 165,0 170,0 175,0 180,0 185,0 henkilön pituus 11. Riippuvuudet/ Korrelaatiot * Varsin usein tutkittavasta tilastoyksiköstä mitataan useita eri ominaisuuksia. * Monesti halutaan myös tietää, onko eri ominaisuuksilla jokin keskinäinen yhteys. Yhteys voi olla syyseuraussuhde, jokin kolmas seikka voi aiheuttaa riippuvuutta kahdelle eri ominaisuudelle tai ne voivat keskenään vaikuttaa toisiinsa. * Muuttujista toinen voi olla riippuva muuttuja eli selitettävä muuttuja, dependent (y) ja toinen voi olla riippumaton muuttuja eli selittävä muuttuja, independent (x). Toisaalta korrelaation yhteydessä kausaalisuus ei aina ole yksiselitteinen. * Korrelaatiotarkastelu sopii muuttujille, jotka molemmat ovat välimatka- tai suhdeasteikollisia. Toisin sanoen ne on mitattu numeerisella, matemaattisella asteikolla 1-5, 0-100 ym. * Usein korrelaation tutkiminen voidaan aloitetaan hajontakuvio piirtämisestä

21 SPSS => Graphs => Scatter 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Korrelaatiokerroin siis tulkitsee kahden muuttujan välistä lineaarista eli suoraviivaista yhteyttä Korrelaatiokerroin (coefficient of correlation) on tunnusluku, jolla voidaan mitata riippuvuuden suuruutta ja suuntaa. Korrelaatiokerroin on laaduton tunnusluku ja siis siten riippumaton muuttujien mittayksiköistä (cm, mk, kg, kpl). Korrelaatiokertoimien saamat arvot ovat aina välillä [-1,1]: Arvo on +1 silloin kun toisen muuttujan arvon kasvaessa myös toisen muuttujan arvo kasvaa samassa suhteessa (esim. pituus <==> paino). Arvo on -1 silloin kun toisen muuttujan arvon kasvaessa toisen muuttujan arvo pienenee samassa suhteessa. Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta. ts. muuttujien välillä ei ole riippuvuutta, on korrelaatiokertoimen arvo 0. SPSS => Analyse => Correlate => Bivariate => Kriittisiä arvoja korrelaation merkitsevyydelle: Havaintoparit 10 kpl on r :n oltava > 0.632 20 kpl > 0.444 50 kpl > 0.279 100 kpl > 0.196 Eli mitä suurempi on havaintoaineisto, sitä pienempi r :n arvo riittää osoittamaan muuttujien välillä vallitsevan lineaarista riippuvuutta. Korrelaatiokertoimen toinen potenssi (r2) on lineaarisen regressiomallin selitysaste eli se kertoo, kuinka suuren osan y:n vaihtelusta voidaan selittää x:n avulla. Luku r2 voidaan kertoa 100:lla, jolloin saadaan selitysaste prosentteina.

22 12. Regressiosuora Tarkoituksena on löytää matemaattinen malli, joka parhaiten kuvaa muuttujien x ja y välistä riippuvuutta. Tämä matemaattinen malli on kahden muuttujan tapauksessa käyrä, joka optimaalisella tavalla kulkee pistejoukossa. Käyrä voi olla esim. suora (tässä tarkastellaan vain ensimmäisen asteen käyrää eli suoraa), paraabeli (toisen asteen yhtälö), kolmannen asteen yhtälön kuvaaja, hyperbeli tai eksponenttikäyrä. * Pienimmän neliösumman suora sijaitsee pistejoukossa siten, että havaintopisteiden ja suoran välisen y-akselin suuntaisten poikkeamien neliöiden summa on mahdollisimman pieni. * Pienimmän neliösumman suoran yhtälö y = a + bx. Suoran yhtälössä x:n kerroin b (kulmakerroin = regressiokerroin) kertoo kuinka paljon y:n arvo muuttuu, jos x:n arvo muuttuu yhdellä yksiköllä. SPSS => Analyse => Regression => Linear 13.Tilastollinen merkitsevyys Tilastollisessa päättelyssä johtopäätösten tekeminen on suhteellisen ongelmatonta, jos kaikki perusjoukon alkiot ovat mukana tutkimuksessa. Tällöinkin virheitä voi syntyä - mittareiden määrityksessä, mittari ei mittaa tarkoitettua ominaisuutta - mittauksessa - koodauksessa - taitamattomassa aineiston käsittelyssä - puuttuvien havaintojen suhteellisen suuressa määrässä. Yksittäisissä havaintoarvoissa esiintyvät karkeat virheet voi useissa tapauksissa havaita määrittelemällä muuttujien pienimmät ja suurimmat arvot. Ongelma on suurempi, kun otoksen perusteella tehdään koko perusjoukkoa koskevia päätelmiä. Otantatutkimuksen tavoitteena on, että otos kuvaa koko perusjoukkoa. Tällöin otoksesta saadut tulokset ovat samat kuin koko perusjoukosta saadut tulokset. Otantatutkimuksen yhteydessä on tarpeen selvittää tulosten luotettavuus ja riskit, joita johtopäätöksen tekemiseen liittyy. Näitä tarkastellaan yleisimmin seuraavilla menetelmillä: estimointi ja hypoteesien testaus. Huom! hypoteesien testauksella tarkoitetaan ennakko-oletusten paikkansapitävyyden tutkimista. Esimerkiksi voidaan tutkia hypoteesia Miehet menestyvät naisia paremmin matematiikan opinnoissa

23 Estimointi Estimoinnilla tarkoitetaan otoksesta laskettujen tunnuslukujen avulla tehtäviä arvioita perusjoukon vastaaville suureille. Otoksesta laskettujen tunnuslukujen arvot (keskiarvo, keskihajonta, ) ovat vastaavien perusjoukkoa kuvaavien suureiden eli parametrien estimaatteja eli arvioita. Luottamusväli Otoksesta laskettujen estimaattien perusteella voidaan määrittää luottamusväli eli väli, jolla perusjoukon vastaava tunnusluku sijaitsee tietyllä todennäköisyydellä. Luottamusvälin pituuteen vaikuttavia tekijöitä ovat otoskeskiarvo, keskihajonta sekä kulloinkin laadittu luottamustaso. Luottamustaso mittaa virhearvioinnin todennäköisyyttä. mitä suurempaa uottamustasoa käytetään, sitä pienempi on virhemahdollisuus. SPSS => Analyse => Descriptive Stat. => Explore Yleisimmin käytetyt luottamustasot ja niihin liittyvät kriittiset arvot ovat: luottamustaso 95 % 99 % 99,9 % kriittinen arvo 1,96 2,58 3,30 KESKIVIRHE Otoksesta lasketun tunnusluvun keskihajontaa nimitetään keskivirheeksi (standard error). Keskiarvon keskivirhe on siis otoskeskiarvojen keskihajonta. Keskivirhe kuvaa tunnusluvun luotettavuutta: mitä pienempi keskivirhe on sitä luotettavampi. 14. Hypoteesien testaaminen Tilastollista testausta leimaa varovaisuus: Riippuvuutta muuttujien välillä tai eroa keskiarvojen välillä voidaan sanoa olevan vain, jos siitä on tarpeeksi vahvaa näyttöä. Päätös tapahtuu samalla tavoin kuin oikeudessa, jossa todetaan syylliseksi vain, jos syyllisyydestä on tarpeeksi todisteita. Merkitsevyystaso eli riskitaso (Significance) ilmoittaa, kuinka suuri riski on, että saatu ero tai riippuvuus johtuu sattumasta. Merkitsevyystasosta käytetään lyhennettä p (ohjelman tulosteissa myös Sig.) Yleisimmin käytetyt merkitsevyystasot ovat: 0,05 (5 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,05 hypoteesissa Miehet menestyvät naisia paremmin matematiikan opinnoissa => voidaan sanoa että 95 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 5 %).

24 0,01 (1 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,01 hypoteesissa Miehet menestyvät naisia paremmin matematiikan opinnoissa => voidaan sanoa että 99 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 1 %). 0,001 (0,1 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,001 hypoteesissa Miehet menestyvät naisia paremmin matematiikan opinnoissa => voidaan sanoa että 99,9 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 0,1 %). HUOM! 5 % riski on yleensä suurin sallittu riskitaso, mikäli riippuvuus olisi tilastollisesti vahvistettu. Tietokoneohjelmat tulostavat testauksen yhteydessä automaattisesti havaitun merkitsevyystason. SPSS-ohjelma ilmoittaa satunnaisriskin joko p- arvona tai arvona Sig. (Significance). Muistisääntö: mitä pienempi riski, sitä merkitsevämpi tulos. 15. Ristiintaulukointi, Chi-testiv ja tilastollinen merkitsevyys 2 -testiä käytetään mm. riippumattomuustestinä: tutkitaan riippuvatko kaksi tarkasteltavaa muuttujaa toisistaan vai eivät. Tutkittavista muuttujista muodostetaan testaamista varten ns. kontingenssitaulukko (kaksiulotteinen jakauma). Nollahypoteesi on, että molemmat muuttujat ovat toisistaan riippumattomia, mikä tarkoittaa sitä, että sarakefrekvenssit ovat riippumattomia rivimuuttujasta ja vastaavasti rivifrekvenssit ovat riippumattomia sarakemuuttujasta. Mikäli riippuvuutta tutkitaan ristiintaulukoinnin ja Chi-testin avulla, täytyy seuraavien edellytysten olla voimassa: 1. otos on poimittu satunnaisesti ja riippumattomasti 2. korkeintaan 20% odotetuista frekvensseistä saa olla pienempiä kuin 5, kaikki odotetut frekvenssit ovat suurempi kuin 1. 3. Ainakin toinen muuttuja on luokitteluasteikollinen

25 Esimerkki Hypoteesi => harrastuaika vaikuttaa oman tai hoitohevosen hankintaan Harrastusaika 1 = alle vuoden 2 = 1-3 vuotta 3 = 4-9 vuotta 4 = 10 vuotta tai enemmän Hevonen * Harrastusaika Crosstabulation Hevonen Total ei kumpaakaan hoitohevonen oma hevonen Count % within Harrastusaika Count % within Harrastusaika Count % within Harrastusaika Count % within Harrastusaika Harrastusaika 10 vuotta tai alle vuoden 1-3 vuotta 4-9 vuotta enemmän Total 4 16 12 2 34 80,0% 64,0% 30,0% 28,6% 44,2% 1 8 22 2 33 20,0% 32,0% 55,0% 28,6% 42,9% 0 1 6 3 10,0% 4,0% 15,0% 42,9% 13,0% 5 25 40 7 77 100,0% 100,0% 100,0% 100,0% 100,0% Pearson Chi-Square Likelihood Ratio N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided) 16,029 a 6,014 15,307 6,018 77 a. 7 cells (58,3%) have expected count less than 5. The minimum expected count is,65.

26 16. Korrelaation tilastollinen merkitsevyys Kahden suhde/välimatka-asteikollisen muuttujan välisen lineaarisen riippuvuuden testaamiseen käytetään Pearsonin korrelaatiokerrointa ja siihen liittyvää t-jakaumaan perustuvaa testausta. Mikäli riippuvuutta tutkitaan korrelaation avulla, täytyy seuraavien edellytysten olla voimassa:. Molemmat muuttujat ovat suhde/välimatka-asteikollisia (ts. muuttujia on mitattu numeerisella asteikolla) 2. Molemmat muuttujat noudattavat likimain normaalijakaumaa Esimerkki Hypoteesi => harrastuaika vaikuttaa oman suorituksen arviointiin, mitä pitempään on harrastanut sitä tyytyväisempi on omaan suoritukseensa. Harrastusaika Oma suoritus 1 = alle vuoden 2 = 1-3 vuotta 3 = 4-9 vuotta 4 = 10 vuotta tai enemmän 1 = Erittäin tyytymätön 2 = Melko tyytymätön 3 = Melko tyytyväinen 4 = Erittäin tyytyväinen Harrastusaika Oma suoritus Correlations Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N *. Correlation is significant at the 0.05 level (2-tailed). Harrastusaika Oma suoritus 1 -,249*,029 77 77 -,249* 1,029 77 77

27 17. Keskiarvotestit * Keskiarvotesteillä verrataan otoksesta laskettua keskiarvoa hypoteesin mukaiseen vakio-arvoon tai vertaillaan ryhmien keskiarvoja toisiinsa. Keskiarvoissa on yleensä eroja, mutta testattavaksi jää, kuinka todennäköistä on, että erot johtuvat sattumasta. Vertailtavien ryhmien (otosten) on oltava toisistaan riippumattomia. Report Current Salary Gender 2 Male Female Total Mean N Std. Deviation $41,441.78 258 $19,499.214 $26,031.92 216 $7,558.021 $34,419.57 474 $17,075.661 * Keskiarvotesteissä voidaan tehdä johtopäätöksiä kahden eri ryhmän keskiarvojen vertailusta toisiinsa Kuten edellistä taulukosta nähdään niin miehet näyttävät ansaitsevan selvästi naisia paremmin. Mutta kuinka suuri tilastollinen merkitsevyys voidaan ko. erolle määrittää? * Voidaan esimerkiksi tutkia onko naispuolisten opiskelijoiden testipisteiden keskiarvo korkeampi kuin miespuolisten opiskelijoiden Keskiarvojen välistä tilastollista merkitsevyyttä voidaan testata mm. kahdella eri testillä Mann.Whitneyn U-testi T- testi

28 Mann.Whitneyn U-testi * Pienet otoskoot ryhmissä (N<20) * Normaalisuudesta ei varmuutta * Mittaus luokittelu/järjestysasteikoll. Esimerkki Report Vastaajan pituus Vastaajan sukupuoli Mies Nainen Total Mean N Std. Deviation 178,10 10 4,012 169,40 10 4,195 173,75 20 5,990 Onko miesten keskipituus naisia suurempi? Testataan U-testillä SPSS = > Analyse => Nonparametric tests => 2 Independent Samples => Mann-Whitney U Wilcoxon W Test Statistics b Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a. Not corrected for ties. Vastaajan pituus 4,500 59,500-3,442,001,000 a b. Grouping Variable: sp_numeerinen Tulkinta => Asymp. Sig kertoo että riskitaso on 0,1 % ts. 99,9 % tilastollisella varmuudella voidaan sanoa että miesten keskipituus on naisia suurempi.

29 T- testi * Suurehko otoskoko ryhmissä (N>20-30 molemmissa ryhmissä) Muuttujan arvot jakautuneet normaalisti molemmilla ryhmillä Mittaus vähintään välimatka-asteikolla Miesten palkkajakauman normaalisuus graafisesti 1. Valitaan osa-joukoksi miehet => Data => Select Cases => if condition is satisfied => if = 2. Analyse => Frequencies => Valitse muuttuja salary => Chart => Histogram => With normal curve Histogram 100 Histogram 40 80 Frequency 60 40 Frequency 30 20 20 10 0 $0 $20 000 $40 000 $60 000 $80 000 $100 000 $120 000 $140 000 Current Salary Mean =$41 441,78 Std. Dev. =$19 499,214 N =258 0 $10 000 $20 000 $30 000 $40 000 Current Salary $50 000 $60 000 Mean =$26 031,92 Std. Dev. =$7 558,021 N =216 Vastaava naisille Molemmissa ryhmissä jakaumat ovat suhteellisen normaalisti jakautuneet. Ajetaan testi SPSS => Analyse => Compare Means => Independent Samples => T Test

30 TULKINTA => ENSIN KATSOTAAN YLEMPÄÄ RIVIÄ (Equal variances assumed) => MIKÄLI Sig-arvo ON YLI 0,05 => LUETAAN YLEMPÄÄ RIVIÄ => MIKÄLI Sig-arvo ON ALLE 0,05 => LUETAAN ALEMPAA RIVIÄ TÄSSÄ TAPAUKSESSA KATSOTAAN ALEMMALTA RIVILTÄ SIG-ARVO, JOKA ON 0,000 VOIDAAN SANOA ETTÄ RYHMIEN VÄLISET KESKIARVOT POIKKEAVAT TILASTOLLISESTI TOISISTAAN YLI 99,9 % TILASTOLLISELLA VARMUUDELLA. Tulkinta =>