Ohjeita kvantitatiiviseen tutkimukseen

Samankaltaiset tiedostot
Kvantitatiiviset tutkimusmenetelmät maantieteessä

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS

Harjoittele tulkintoja

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

HAVAITUT JA ODOTETUT FREKVENSSIT

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

SPSS ohje. Metropolia Business School/ Pepe Vilpas

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Kandidaatintutkielman aineistonhankinta ja analyysi

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

SPSS-perusteet. Sisältö

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Testejä suhdeasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

voidaan hylätä, pienempi vai suurempi kuin 1 %?

SPSS OPAS. Metropolia Liiketalous

Sovellettu todennäköisyyslaskenta B

SPSS-ohjeita. Metropolia Pertti Vilpas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

TUTKIMUSOPAS. SPSS-opas

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Til.yks. x y z


806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Estimointi. Otantajakauma

tilastotieteen kertaus

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

KAHDEN RYHMÄN VERTAILU

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Harjoitus 7: NCSS - Tilastollinen analyysi

Til.yks. x y z

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Perusnäkymä yksisuuntaiseen ANOVAaan

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Kvantitatiiviset menetelmät

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Mat Tilastollisen analyysin perusteet, kevät 2007

Teema 3: Tilastollisia kuvia ja tunnuslukuja

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Määrällisen aineiston esittämistapoja. Aki Taanila

Kvantitatiivinen genetiikka moniste s. 56

Muuttujien väliset riippuvuudet esimerkkejä

Määrällisen aineiston esittämistapoja. Aki Taanila

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Otoskoko 107 kpl. a) 27 b) 2654

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

pisteet Frekvenssi frekvenssi Yhteensä

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollinen aineisto Luottamusväli

Väliestimointi (jatkoa) Heliövaara 1

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

1 Metropolia ammattikorkeakoulu Liiketalouden yksikkö Pertti Vilpas Ohjeita kvantitatiiviseen tutkimukseen Osa 2 KVANTITATIIVISEN TUTKIMUSAINEISTON ANALYYSI Sisältö: 1. Frekvenssi- ja prosenttijakaumat.2 2. Graafinen esittäminen...4 3. Tunnusluvut.6 4. Korrelaatio....10 5. Regressio....12 6. Tilastollinen merkitsevyys...13 7. Hypoteesien testaaminen...14 1. Ristiintaulukointi, Chi-testi ja tilastollinen merkitsevyys...15 2. Korrelaation tilastollinen merkitsevyys 16 8. Keskiarvojen välisen eron testaaminen.17 Yhteystiedot: Pertti Vilpas pertti.vilpas@metropolia.fi

2 1. Frekvenssi- ja prosenttijakaumat Tyytyväisyys huollon toimintaan Frekvenssi % Frekvenssi % (vastanneet) Kumulatiivinen frekvenssi % Frekvenssi Melko tyytyväinen 5 6,5 6,8 6,8 Erittäin tyytyväinen 69 89,6 93,2 100,0 Total 74 96,1 100,0 Puuttuva tieto 3 3,9 Yhteensä 77 100,0 Luokittelu Toisinaan tehdään ensin luokittelu jolloin saadaan tieto tiivistetympään ja havainnollisempaan muotoon. Luokittelun etuina on edellisen lisäksi: aineiston käsittely helpottuu aineiston graafinen esittäminen yksinkertaisilla kuvilla mahdollista Luokittelun haittoina on: menetetään paljon yksittäistä tarkkaa tietoa Tavallisimmin luokkien lukumäärä vaihtelee välillä 4 8 luokkaa. Luokkavälin pituus pyöristetään ylöspäin siten, että saadaan mahdollisimman havainnollinen luokitus. Ikäluokat Frekvenssi Frekvenssi Kumulatiivinen frekvenssi % % 18-30 v. 66 85,7 85,7 31-52 v. 11 14,3 100,0 Yhteensä 77 100,0

3 Ristiintaulukointi Tutkitaan kahden eri muuttujan riippuvuutta taulukoimalla ne samaan frekvenssitaulukkoon Tällöin valitaan sarakemuuttuja ja rivimuuttuja, yleensä taulukkoon lisätään myös joko sarake- tai riviprosentit. Ristiintaulukointi sopii muuttujille, kun ainakin toinen muuttujista on luokittelu tai- järjestysasteikollinen. Ristiintaulukoinnin yhteydessöä voidaan tutkia myös mahdollisen riippuvuuden tilastollinen merkitsevyys. Tällöin käytetään Chi-testiä (katso s.xx) Mielipide opetuksen asiantuntemuksesta Total Eritt. tyytymätön tyytymätön tyytyväinen eritt. tyytyväinen Ikäluokat 18-30v. 31-52v. 0 8 0,0% 29,6% 0 6 0,0% 22,2% 4 3 6,1% 11,1% 62 10 93,9% 37,0% 66 27 100,0% 100,0%

4 2. Graafinen esittäminen Graafisen esittämisen etuja ovat: havainnollinen ja pelkistetty esitystapa monipuolistaa ja keventää tilastojen esitystä ja analysointia mahdollisuus korostaa joitain asioita mahdollisuus valita erilaisia esitystapoja Graafisen esittämisen haittoja ovat: esityksen epätarkkuus harhauttamisen mahdollisuus lukijan on oltava kriittinen ja asiantunteva, ettei tulkitse kuviota väärin 1.Murtoviivadiagrammi - aikasarjat Sopii jatkuvan muuttujan kuvaamiseen. Käytetään mm. aikasarjojen esittämiseen. 80 60 40 20 0 osakkeen arvo 2008 2009 2010 2011 osakkeen arvo

5 2. Pylväskuvio Sopii epäjatkuvan muuttujan kuvaamiseen, käytetään muuttujille, jolla erillisiä, diskreettejä arvoja 3. Histogrammi (=frekvenssimonikulmio) Sopii muuttujille, jotka ovat jatkuluonteisia, esim. palkka, liikevaihto. Tällöin pylväät ovat yhdessä (vrt. pylväsdiagrammi, jossa pylväiden välillä on väliä)

6 4. Sektoridiagrammi Sopii muuttujille, joissa muuttujat arvot on esitetty sektorina, suhteellisena osuutena koko määrästä. 3.Tunnusluvut Jakauman tunnusluvut tiivistävät muuttujan eri arvojen jakauman muutamaan tunnuslukuun. Yleisimmät tunnusluvut ovat Keskiarvo, mediaani ja moodi Vaihteluväli, keskihajonta Kvartiilit Vinous, huipukkuus Tunnuslukuja laskettaessa tulee tarkoin harkita, mikä tunnusluku sopii tarkasteltavalle muuttujalle. Tilasto-ohjelmat (SPSS) eivät juuri ohjaa tutkijaa määrittämään sallittuja tunnuslukuja (Esimerkiksi 1=nainen, 2=mies > Sukupuolen keskiarvo = 1,3) K=kyllä Muuttujan mitta-asteikko Moodi Mediaani Keskiarvo Vaihteluväli Keskihajonta Luokitteluasteikko K Järjestysasteikko K K Välimatka-asteikko K K K K K Suhdeasteikko K K K K K

7 Tunnusluvut: Vuosipalkka N 474 Keskiarvo 34419 Mediaani 28875 Keskihajonta 17075 Vaihteluvälin pituus 119250 Descriptive Statistics : Revenue Statistic Std. Error revenue Mean 2391,74 180,068 95% Confidence Interval for Mean Lower Bound 2023,99 Upper Bound 2759,49 Median 2342,00 Std. Deviation 1002,574 Minimum 337 Maximum 4484 Range 4147 Skewness -,148,421 Kurtosis -,223,821 BOX-PLOT graafi Ylempi nuoli osoittaa Q3- arvon, ts. arvon jonka alapuolella on 75 % havainnoista Alempi nuoli osoittaa Q1- arvon, ts. arvon jonka alapuolella on 25 % havainnoista Musta paksu viiva on mediaani. Koko väli on vaihteluväli

8 Usein lasketaan myös ryhmäkohtaisia tunnuslukuja. Tunnusluvut: Vuosipalkka Sukupuoli Mediaani Keskiarvo Keskihajonta N Mies 32850 41441 19499 258 Nainen 24300 26031 7558 216 Kvartiilit Kuvaavat jakaumaa prosenttiosuuksina. Muuttuja: Vuosipalkka N 474 Kvartiilit 25 % 24000 50 % 28875 75 % 37162 25 % vastaajista ansaitsee alle 24000 50 % vastaajista alle 28875 25 % vastaajista ansaitsee yli 37162 Vinous Tunnusluvulla voidaan havainnollistaa havaintojen jakautumista keskiarvon eripuolille. Jakauma on vino vasemmalle eli vinous saa negatiivisen arvon, aineiston keskiarvon ollessa mediaania pienemmän. Oheisessa kuvassa keskiarvo on 64,92, mediaani 67,00. Vastaavasti jakauma on vino oikealle eli vinous saa positiivisen arvon, aineiston keskiarvon ollessa mediaania suuremman. Oheisessa kuvassa 2 keskiarvo on 40,67 vuotta ja mediaani 39,00 vuotta. 50 100 40 80 30 60 20 40 10 20 0 0

9 Huipukkuus Huipukkuusluku ilmaisee jakauman terävyyttä suhteessa normaalijakaumaan, jonka huipukkuus on 0. Oheisen kuvaajan huipukkuus on 0,662. 12 henkilön pituus 10 8 6 4 frekvenssi 2 0 150,0 155,0 160,0 165,0 170,0 175,0 180,0 Std. Dev = 7,56 Mean = 167,3 N = 27,00 185,0 henkilön pituus Tunnuslukujen määritelmiä Keskiarvo Luokittelemattoman aineiston keskiarvo saadaan siten, että lasketaan muuttujan arvot yhteen ja jaetaan havaintojen lukumäärällä. Muuttujan on oltava joko välimatka-asteikon muuttuja tai suhdeasteikon muuttuja, jotta keskiarvo voidaan määrittää. Mikäli alkuperäistä, tarkkaa aineistoa ei ole käytössä, saadaan luokitellun aineiston keskiarvo saadaan käyttämällä luokkakeskuksia korvaamaan yksittäiset havainnot. Mediaani Mediaani on suuruusjärjestykseen järjestetyn aineiston keskimmäinen arvo. Mediaani voidaan määrittää vähintään järjestysasteikon muuttujalle. Moodi Useimmin esiintyvää havaintoa sanotaan moodiksi eli tyyppiarvoksi. Moodeja voi olla useita tai ei yhtään. Moodi voidaan määrittää kaikkien mitta-asteikkojen muuttujista. Fraktiilit Fraktiileilla tarkoitetaan kohtaa, joka rajaa jakaumasta p % havainnoista rajakohdan vasemmalle puolelle. Esim. 25 %:n fraktiili on arvo, jota pienempiä on 25 % havainnoista. Fraktiilit voi määrittää vähintään järjestysasteikon muuttujille. Fraktiilit voi määrittää joko summafrekvenssin kuvaajasta tai laskemalla vastaavalla kaavalla kuin mediaani. Esimerkkejä fraktiileista: Q1 = alakvartiili, 25 % havainnoista on tätä pienempiä Q2 = Md, 50 % havainnoista on sekä tätä pienempiä että suurempia Q3 = yläkvartiili, 75 % havainnoista on tätä pienempiä ja 25 % havainnoista on tätä suurempia

10 Vaihteluväli Vaihteluvälillä tarkoitetaan väliä havaintoaineiston pienimmästä arvosta havaintoaineiston suurimpaan arvoon. Vaihteluväli voidaan määrittää vähintään järjestysasteikon muuttujalle. Vaihteluvälin pituudella tarkoitetaan em. tunnusluvun arvojen erotusta. Keskihajonta Keskihajontaa sanotaan myös standardipoikkeamaksi. Sitä voidaan käyttää, jos kyseessä on joko välimatkaasteikon tai suhdeasteikon muuttuja. Kirjaintunnukset ovat seuraavat: otoskeskihajonta = s ja perusjoukon keskihajonta on σ. Keskihajonta ottaa huomioon jokaisen havainnon ja sen erotuksen havaintojen keskiarvosta.

11 4. Korrelaatio Muuttujien välisiä yhteyksiä tukittaessa voidaan käyttää Pearsonin korrelaatiotarkasteluja, mikäli molemmat muuttujat on mitattu joko välimatka.- tai suhdeasteikolla. Monesti halutaan myös tietää, onko eri ominaisuuksilla jokin keskinäinen yhteys. Yhteys voi olla syyseuraussuhde, jokin kolmas seikka voi aiheuttaa riippuvuutta kahdelle eri ominaisuudelle tai ne voivat keskenään vaikuttaa toisiinsa. Muuttujista toinen voi olla riippuva muuttuja eli selitettävä muuttuja, dependent (y) ja toinen voi olla riippumaton muuttuja eli selittävä muuttuja, independent (x). Toisaalta korrelaation yhteydessä kausaalisuus ei aina ole yksiselitteinen. Usein korrelaation tutkiminen aloitetaan hajontakuvion laatimisesta. y y 40 30 20 10 0 0 5 10 y 40 30 20 10 0 0 2 4 6 8 y y 10 5 y 0 0 2 4 6 8 Korrelaatiokerroin siis tulkitsee kahden muuttujan välistä lineaarista eli suoraviivaista yhteyttä

12 Korrelaatiokerroin (coefficient of correlation) on tunnusluku, jolla voidaan mitata riippuvuuden suuruutta ja suuntaa. Korrelaatiokerroin on laaduton tunnusluku ja siis siten riippumaton muuttujien mittayksiköistä (cm, mk, kg, kpl). Korrelaatiokertoimien saamat arvot ovat aina välillä [-1,1]: Arvo on +1 silloin kun toisen muuttujan arvon kasvaessa myös toisen muuttujan arvo kasvaa samassa suhteessa (esim. pituus <==> paino). Arvo on -1 silloin kun toisen muuttujan arvon kasvaessa toisen muuttujan arvo pienenee samassa suhteessa. Kun muuttujien arvot vaihtelevat täysin toisistaan riippumatta. ts. muuttujien välillä ei ole riippuvuutta, on korrelaatiokertoimen arvo 0. SPSS => Analyse => Correlate => Bivariate => Kriittisiä arvoja korrelaation merkitsevyydelle: Havaintoparit 10 kpl on r :n oltava > 0.632 20 kpl > 0.444 50 kpl > 0.279 100 kpl > 0.196 Eli mitä suurempi on havaintoaineisto, sitä pienempi r :n arvo riittää osoittamaan muuttujien välillä vallitsevan lineaarista riippuvuutta. Korrelaatiokertoimen toinen potenssi (r 2 ) on lineaarisen regressiomallin selitysaste eli se kertoo, kuinka suuren osan y:n vaihtelusta voidaan selittää x:n avulla. Luku r 2 voidaan kertoa 100:lla, jolloin saadaan selitysaste prosentteina. Korrelaatiomatriisi Korrelaatiomatriisi on korrelaatiokertoimista matriisin muotoon järjestetty taulukko, jossa on kaikkien muuttujien korrelaatiot kaikkiin muihin muuttujiin. Lävistäjänä on luku 1 ja matriisi sisältää samat kertoimet kahteen kertaan.

13 5. Regressio Tarkoituksena on löytää matemaattinen malli, joka parhaiten kuvaa muuttujien x ja y välistä riippuvuutta. Tämä matemaattinen malli on kahden muuttujan tapauksessa käyrä, joka optimaalisella tavalla kulkee pistejoukossa. Käyrä voi olla esim. suora (tässä tarkastellaan vain ensimmäisen asteen käyrää eli suoraa), paraabeli (toisen asteen yhtälö), kolmannen asteen yhtälön kuvaaja, hyperbeli tai eksponenttikäyrä. * Pienimmän neliösumman suora sijaitsee pistejoukossa siten, että havaintopisteiden ja suoran välisen y-akselin suuntaisten poikkeamien neliöiden summa on mahdollisimman pieni. * Pienimmän neliösumman suoran yhtälö y = a + bx. Suoran yhtälössä x:n kerroin b (kulmakerroin = regressiokerroin) kertoo kuinka paljon y:n arvo muuttuu, jos x:n arvo muuttuu yhdellä yksiköllä. x = aika kuukausina y = osakkeen hinta Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1,959 a,919,911 6,51294 a. Predictors: (Constant), kuukausi Coefficients a Model Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 1 (Constant) 103,106 4,008 25,722,000 kuukausi 5,804,545,959 10,657,000 a. Dependent Variable: Osakkeen arvo Lineaarinen malli on y = 103,106 + 5,804*x Lineaarinen malli on HINTA = 103,106 + 5,804*AIKA KUUKAUSINA

14 6.Tilastollinen merkitsevyys Tilastollisessa päättelyssä johtopäätösten tekeminen on suhteellisen ongelmatonta, jos kaikki perusjoukon alkiot ovat mukana tutkimuksessa. Tällöinkin virheitä voi syntyä - mittareiden määrityksessä, mittari ei mittaa tarkoitettua ominaisuutta - mittauksessa - koodauksessa - taitamattomassa aineiston käsittelyssä - puuttuvien havaintojen suhteellisen suuressa määrässä. Yksittäisissä havaintoarvoissa esiintyvät karkeat virheet voi useissa tapauksissa havaita määrittelemällä muuttujien pienimmät ja suurimmat arvot. Ongelma on suurempi, kun otoksen perusteella tehdään koko perusjoukkoa koskevia päätelmiä. Otantatutkimuksen tavoitteena on, että otos kuvaa koko perusjoukkoa. Tällöin otoksesta saadut tulokset ovat samat kuin koko perusjoukosta saadut tulokset. Otantatutkimuksen yhteydessä on tarpeen selvittää tulosten luotettavuus ja riskit, joita johtopäätöksen tekemiseen liittyy. Näitä tarkastellaan yleisimmin seuraavilla menetelmillä: estimointi ja hypoteesien testaus. Huom! hypoteesien testauksella tarkoitetaan ennakko-oletusten paikkansapitävyyden tutkimista. Esimerkiksi voidaan tutkia hypoteesia Miehet menestyvät naisia paremmin matematiikan opinnoissa Estimointi Estimoinnilla tarkoitetaan otoksesta laskettujen tunnuslukujen avulla tehtäviä arvioita perusjoukon vastaaville suureille. Otoksesta laskettujen tunnuslukujen arvot (keskiarvo, keskihajonta, ) ovat vastaavien perusjoukkoa kuvaavien suureiden eli parametrien estimaatteja eli arvioita. Luottamusväli Otoksesta laskettujen estimaattien perusteella voidaan määrittää luottamusväli eli väli, jolla perusjoukon vastaava tunnusluku sijaitsee tietyllä todennäköisyydellä. Luottamusvälin pituuteen vaikuttavia tekijöitä ovat otoskeskiarvo, keskihajonta sekä kulloinkin laadittu luottamustaso. Luottamustaso mittaa virhearvioinnin todennäköisyyttä. mitä suurempaa uottamustasoa käytetään, sitä pienempi on virhemahdollisuus. Yleisimmin käytetyt luottamustaso on 95 % Descriptive Statistics : Revenue Statistic Std. Error revenue Mean 2391,74 180,068 95% Confidence Interval Lower Bound 2023,99 for Mean Upper Bound 2759,49

15 KESKIVIRHE Otoksesta lasketun tunnusluvun keskihajontaa nimitetään keskivirheeksi (standard error). Keskiarvon keskivirhe on siis otoskeskiarvojen keskihajonta. Keskivirhe kuvaa tunnusluvun luotettavuutta: mitä pienempi keskivirhe on sitä luotettavampi. 7. Hypoteesien testaaminen Tilastollista testausta leimaa varovaisuus: Riippuvuutta muuttujien välillä tai eroa keskiarvojen välillä voidaan sanoa olevan vain, jos siitä on tarpeeksi vahvaa näyttöä. Päätös tapahtuu samalla tavoin kuin oikeudessa, jossa todetaan syylliseksi vain, jos syyllisyydestä on tarpeeksi todisteita. Merkitsevyystaso eli riskitaso (Significance) ilmoittaa, kuinka suuri riski on, että saatu ero tai riippuvuus johtuu sattumasta. Merkitsevyystasosta käytetään lyhennettä p (ohjelman tulosteissa myös Sig.) Yleisimmin käytetyt merkitsevyystasot ovat: 0,05 (5 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,05 hypoteesissa Miehet menestyvät naisia paremmin matematiikan opinnoissa => voidaan sanoa että 95 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 5 %). 0,01 (1 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,01 hypoteesissa Miehet menestyvät naisia paremmin matematiikan opinnoissa => voidaan sanoa että 99 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 1 %). 0,001 (0,1 %) => jos saadaan tulos että riippuvuuden riskitaso on 0,001 hypoteesissa Miehet menestyvät naisia paremmin matematiikan opinnoissa => voidaan sanoa että 99,9 % varmuudella miehet saavat parempia arvosanoja matematiikassa kuin naiset (riski että tehdään väärä johtopäätös on siis vain 0,1 %). HUOM! 5 % riski on yleensä suurin sallittu riskitaso, mikäli riippuvuus olisi tilastollisesti vahvistettu. Tietokoneohjelmat tulostavat testauksen yhteydessä automaattisesti havaitun merkitsevyystason. SPSS-ohjelma ilmoittaa satunnaisriskin joko p- arvona tai arvona Sig. (Significance). Muistisääntö: mitä pienempi riski, sitä merkitsevämpi tulos.

16 7.1 Ristiintaulukointi, Chi-testi ja tilastollinen merkitsevyys χ 2 -testiä käytetään mm. riippumattomuustestinä: tutkitaan riippuvatko kaksi tarkasteltavaa muuttujaa toisistaan vai eivät. Tutkittavista muuttujista muodostetaan testaamista varten ns. kontingenssitaulukko (kaksiulotteinen jakauma). Nollahypoteesi on, että molemmat muuttujat ovat toisistaan riippumattomia, mikä tarkoittaa sitä, että sarakefrekvenssit ovat riippumattomia rivimuuttujasta ja vastaavasti rivifrekvenssit ovat riippumattomia sarakemuuttujasta. Mikäli riippuvuutta tutkitaan ristiintaulukoinnin ja Chi-testin avulla, täytyy seuraavien edellytysten olla voimassa: 1. otos on poimittu satunnaisesti ja riippumattomasti 2. korkeintaan 20% odotetuista frekvensseistä saa olla pienempiä kuin 5, kaikki odotetut frekvenssit ovat suurempi kuin 1. 3. Ainakin toinen muuttuja on luokitteluasteikollinen Tutkitaan miesten ja naisten mielipiteiden eroa julkisen liikenteen käyttämiseen

17 7.2.Korrelaation tilastollinen merkitsevyys Kahden suhde/välimatka-asteikollisen muuttujan välisen lineaarisen riippuvuuden testaamiseen käytetään Pearsonin korrelaatiokerrointa ja siihen liittyvää t-jakaumaan perustuvaa testausta. Mikäli riippuvuutta tutkitaan korrelaation avulla, täytyy seuraavien edellytysten olla voimassa:. Molemmat muuttujat ovat suhde/välimatka-asteikollisia (ts. muuttujia on mitattu numeerisella asteikolla) 2. Molemmat muuttujat noudattavat likimain normaalijakaumaa Tutkitaan kotitalouden käytettävissä olevien tulojen ja luottokorttiin liittyvän velan välistä riippuvuutta.

18 8. Keskiarvotestit * Keskiarvotesteillä verrataan otoksesta laskettua keskiarvoa hypoteesin mukaiseen vakio-arvoon tai vertaillaan ryhmien keskiarvoja toisiinsa. Keskiarvoissa on yleensä eroja, mutta testattavaksi jää, kuinka todennäköistä on, että erot johtuvat sattumasta. Vertailtavien ryhmien (otosten) on oltava toisistaan riippumattomia. Report Current Salary Gender 2 Ma le Female Total Me an N Std. Deviation $41,441.78 258 $19,499.214 $26,031.92 216 $7,558.021 $34,419.57 474 $17,075.661 * Keskiarvotesteissä voidaan tehdä johtopäätöksiä kahden eri ryhmän keskiarvojen vertailusta toisiinsa. Kuten edellistä taulukosta nähdään niin miehet näyttävät ansaitsevan selvästi naisia paremmin. Mutta kuinka suuri tilastollinen merkitsevyys voidaan ko. erolle määrittää? * Voidaan esimerkiksi tutkia onko naispuolisten opiskelijoiden testipisteiden keskiarvo korkeampi kuin miespuolisten opiskelijoiden Keskiarvojen välistä tilastollista merkitsevyyttä voidaan testata mm. kahdella eri testillä Mann.Whitneyn U-testi T- testi Mann.Whitneyn U-testi o o o Pienet otoskoot ryhmissä (N<20) Normaalisuudesta ei varmuutta Mittaus luokittelu/järjestysasteikollinen Report Vastaajan pituus Vastaajan s ukupuoli Mie s Nainen Total Me an N Std. Deviation 178,10 10 4,012 169,40 10 4,195 173,75 20 5,990 Onko miesten keskipituus naisia suurempi? Testataan U-testillä SPSS => Analyse => Nonparametric Tests => Independent Samples

19 Te st Statistics b Vastaajan pituus Mann-W hitney U 4,500 W ilcoxon W 59,500 Z -3, 442 As ymp. Sig. (2-tailed),001 Ex act Sig. [2*(1-tailed,000 a Sig.)] a. Not corrected for ties. b. Grouping Variable: s p_numeerinen Tulkinta => Asymp. Sig kertoo että riskitaso on 0,1 % ts. 99,9 % tilastollisella varmuudella voidaan sanoa että miesten keskipituus on naisia suurempi. Histogram 100 Histogram 40 80 Frequency 60 40 Frequency 30 20 20 10 0 $0 $20 000 $40 000 $60 000 $80 000 $100 000 $120 000 $140 000 Current Salary Mean =$41 441,78 Std. Dev. =$19 499,214 N =258 0 $10 000 $20 000 $30 000 $40 000 Current Salary $50 000 $60 000 Mean =$26 031,92 Std. Dev. =$7 558,021 N =216 T- testi o o o Suurehko otoskoko ryhmissä (N>20-30 molemmissa ryhmissä) Muuttujan arvot jakautuneet normaalisti molemmilla ryhmillä Mittaus vähintään välimatka-asteikolla Graafine perusteella molemmissa ryhmissä jakaumat ovat suhteellisen normaalisti jakautuneet. Ajetaan testi SPSS => Analyse => Compare Means => Independent Samples => T Test

20 TULKINTA => ENSIN KATSOTAAN YLEMPÄÄ RIVIÄ (Equal variances assumed) => MIKÄLI Sig-arvo ON YLI 0,05 => LUETAAN YLEMPÄÄ RIVIÄ => MIKÄLI Sig-arvo ON ALLE 0,05 => LUETAAN ALEMPAA RIVIÄ TÄSSÄ TAPAUKSESSA KATSOTAAN ALEMMALTA RIVILTÄ SIG-ARVO, JOKA ON 0,000 VOIDAAN SANOA ETTÄ RYHMIEN VÄLISET KESKIARVOT POIKKEAVAT TILASTOLLISESTI TOISISTAAN YLI 99,9 % TILASTOLLISELLA VARMUUDELLA. Tulkinta =>