Tutkimusmenetelmät I Määrällisen tutkimuksen osuus (2.5 op)

Samankaltaiset tiedostot
Tutkimusmenetelmät I

Harjoittele tulkintoja

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

voidaan hylätä, pienempi vai suurempi kuin 1 %?

pisteet Frekvenssi frekvenssi Yhteensä

HAVAITUT JA ODOTETUT FREKVENSSIT

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Kvantitatiiviset tutkimusmenetelmät maantieteessä

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Testejä suhdeasteikollisille muuttujille

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Til.yks. x y z

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Kvantitatiiviset menetelmät

MTTTP1, luento KERTAUSTA

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

MTTTP1, luento KERTAUSTA

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

MTTTP1, luento KERTAUSTA

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Mat Tilastollisen analyysin perusteet, kevät 2007

Väliestimointi (jatkoa) Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Mat Tilastollisen analyysin perusteet, kevät 2007

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

P5: Kohti Tutkivaa Työtapaa Kesä Aritmeettinen keskiarvo Ka KA. Painopiste Usein teoreettinen tunnusluku Vähintään välimatka-asteikko.

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Estimointi. Otantajakauma

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

ABHELSINKI UNIVERSITY OF TECHNOLOGY

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Ohjeita kvantitatiiviseen tutkimukseen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

SPSS-perusteet. Sisältö

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

5. Kahden tunnusluvun erotuksen merkitsevyys

10. laskuharjoituskierros, vko 14, ratkaisut

Testit laatueroasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollinen aineisto Luottamusväli

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Teema 3: Tilastollisia kuvia ja tunnuslukuja

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Teema 9: Tilastollinen merkitsevyystestaus

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Til.yks. x y z

Transkriptio:

Tutkimusmenetelmät I Määrällisen tutkimuksen osuus (.5 op) Taina I. Lehtinen PL 9 Siltavuorenpenger 3A (. kerros), 00014 Helsingin yliopisto E-mail:Taina.Lehtinen@Helsinki.FI Valokuva: Ida Pimenoff 1 Kuvaus ja tavoitteet Määrällisiin tutkimusmenetelmiä käsittelevässä osassa opiskelija ymmärtää tilastollisen päätöksenteon perusteita tunnistaa tilastollisia aineistohankintamenetelmiä osaa tilastollisen kuvauksen perusteita ja mittaamista sekä tutustuu tilastollisiin perusanalyysimenetelmiin Konkreettisina osaamistavoitteina on, että kurssin määrällisen tutkimuksen osuuden suoritettuasi...... osaat käyttää tilastotieteellisiä peruskäsitteitä... osaat muodostaa yksiulotteisen ja kaksiulotteisen frekvenssijakauman... osaat valita ja laskea soveltuvan kuvailevan tunnusluvun... ymmärrät normaalijakauman perusidean ymmärrät perusanalyysit t-testin ja riippumattomuustestin (+ niiden SPSS-analyysit tulkintoineen) 3 Taina I. Lehtinen 1

Sisältö Johdantoa 1. Mitä tilastotiede on. Tilastotieteellisiä peruskäsitteitä 3. Tilastollinen kuvaaminen Frekvenssijakaumat Kuvailevat tunnusluvut Kahden muuttujan välinen riippuvuus Korrelaatio Ristiintaulukko 4. Tilastollinen päättely Normaalijakauma Standardi(z-)piste Kertymäfunktioarvot Hypoteesin testaaminen Kahden tunnusluvun eron merkitsevyyden testaaminen 4 Johdantoa Tieteellinen tutkimus Kahden riippumattoman keskiarvon eron merkitsevyyden testaaminen (t-testi) -riippumattomuustesti Teoreettiskäsitteellinen tutkimus Empiirinen tutkimus -havainnot ei havaintoja perustuu loogiseen päättelyyn Kvantitatiivinen kvantiteetti määrä Kvalitatiivinen kvaliteetti laatu 6 Taina I. Lehtinen

Keskeistä kvantitatiivisessa tutkimuksessa (Hirsjärvi ym. 1997): Tutkimuksen suunnittelu Johtopäätökset aiemmista tutkimuksista Käsitteiden määrittely Hypoteesien esittäminen (aiemmat tutkimukset tai teoria) Aineiston hankinta Tutkittavien henkilöiden valinta (otantasuunnitelmat; perusjoukko, otos) tai koehenkilöt Aineiston kerääminen (määrällinen, numeerinen mittaaminen) tai koejärjestelyt havaintomatriisi Aineiston tilastollinen käsittely Johtopäätökset Johtopäätökset aineiston tilastollisen analyysin perusteella Raportin laadinta 7 1. Mitä tilastotiede on? Mitä tilastotiede on? Yksikköjen muodostamaan joukkoon liittyvää numeerisen tietoaineiston keräämistä, analysointia ja tulkintaa koskeva tiede Tilastotiede on oppi siitä, miten reaalimaailman tilasta tai ilmiöistä tehdään päätelmiä, tilasta tai ilmiöstä kerättyjen numeeristen tietojen perusteella Tilastotiede EI ole oppia tilastoista tai niiden laatimisesta! 9 Taina I. Lehtinen 3

Tilastotiede on saanut alkunsa yhteiskunnan modernisoituessa, jolloin on tarvittu yhä enemmän tilastotietoja hallinnon tarpeisiin Englannissa ja Ranskassa jo 1600-luvulla väestötilastot, maanomistustilastot, onnettomuus- ja kuolleisuustilastot, Ruotsi-Suomessa väestötilasto, alkaen v. 1749, on maailman vanhin nykyaikaan katkeamattomana jatkunut tilasto 10 Tilastotiedettä käytetään apuvälineenä kaikissa tieteissä, joissa analysoidaan numeerisia tutkimusaineistoja psykologia psykometria kansantaloustiede ekonometria biotieteet biometria väestötiede demometria kemia kemometria 11. Tilastotieteellisiä peruskäsitteitä Taina I. Lehtinen 4

Perusjoukko (populaatio): kaikki tutkimuksen kohteena olevat yksiköt, objektit tai tapahtumat Näyte: mikä tahansa osa perusjoukosta Jos näytteen yksiköt on poimittu käyttäen otantamenetelmää (mm. yksinkertaunen satunnaisotos, systemaattinen satunnaisotos), niin kyseessä on otos Otoksen perusteella tehdään johtopäätöksiä liittyen koko perusjoukkoon 13 14 Tilastoyksikkö, havaintoyksikkö, analyysiyksikkö: perusjoukon tai otoksen alkio voivat olla konkreettisia (oppilas, luokka, kotitalous, porkkana, liikenneonnettomuus) tai abstrakteja (vuorokausi) voi saada vain yhden havaintoarvon kullakin muuttujalla 15 Taina I. Lehtinen 5

Muuttuja kuvaa tilastoyksikköön liittyvää ominaisuutta, jota halutaan tarkastella (mitata) Esim. pituus, paino, sukupuoli, suhtautuminen EU:iin, lujuus, asenne turvapaikanhakijoihin muuttuja on ominaisuus, suure, joka voi saada erilaisia määrällisesti tai laadullisesti vaihtelevia arvoja numeeriset muuttujat mittaavat määrällisiä ominaisuuksia (esim. lasten lukumäärä, vastaajien ikä, tulot) ja ei-numeeriset muuttujat laadullisia ominaisuuksia (esim. sukupuoli) 16 jatkuva muuttuja: arvojen lukumäärä rajaton, riippuu vain mittaustarkkuudesta; kahden muuttuja-arvon väliin voidaan lisätä arvoja halutun mittatarkkuuden mukaan epäjatkuva, diskreetti muuttuja: voi saada vain tiettyjä ennalta määrättyjä arvoja dikotominen eli -luokkainen muuttuja, ns. dummy-muuttuja 17 Muuttujatyypit riippumaton muuttuja (x-muuttuja, selittävä muuttuja, syy -muuttuja) tutkija manipuloi/varioi (kokeellisessa asetelmassa) esim. ärsyke, ohjauksen määrä, melu usein taustamuuttujat (sukupuoli, koulutus, ammatti, sos.ekonom. asema, ) riippuva muuttuja (y-muuttuja, selitettävä muuttuja, seuraus -muuttuja) riippuu (vaihtelee) x-muuttujan eri arvoilla reaktio, oppimistulos, vaikutus suoritukseen, väliintuleva muuttuja on tekijä, joka vaikuttaa x:n ja y:n väliseen suhteeseen, ja sillä on asiayhteys molempiin; oltava dataa ennen kuin voidaan konrilloida 18 Taina I. Lehtinen 6

Mittaaminen on sitä, että määritellään muuttujalle arvo Esim. kartoitetaan oppilaan persoonallisuutta, tarkastellaan ihmistä pituuden mukaan, tutkitaan suomalaisten asennetta turvapaikahakijoihin, 19 Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 4. MUUTTUJA Kvalitatiivinen Kvantitatiivinen Diskreetti Jatkuva Luokitteluasteikko; SUKUPUOLI Nainen = 1 Mies = Järjestysasteikko; TENTIN ARVOSANA: 1 = Välttävä,, 5= Erinomainen Välimatka-asteikko; LÄMPÖTILA, VUOSILUKU Suhde-asteikko; IKÄ, TULOT, PITUUS 0 Mittari osio = kyselylomakkeen väittämä, kysymys (x1, x,,xk) = muuttuja asteikko = osion pisteytys (esim. skaala 1 5) summamuuttuja = muuttuja, joka saadaan laskemalla osioiden pistemäärät yhteen (esim. sum1 = x1 + x +x3) summapistemäärä = yhteenlaskettujen osioiden pistemäärä havainnoittain (5-portaisella asteikolla 3 väittämän pistemäärän vaihteluväli 3 15) 1 Taina I. Lehtinen 7

Havaintoarvo on se muuttujan arvo, joka saadaan tietyssä tutkimustilanteessa 39 vuotta Kato on se osa otoksesta, joka jostakin syystä jää pois tutkimuksesta ilmoitetaan %:na, esim. jos 1/4 jää pois, kato on 5% Yhteenveto Populaatio Otos Tilastoyksikkö Muuttuja ja havainto Naiset 65% Naiset 65% Miehet 35% Miehet 35% Pituus 170 cm 3 Havaintomatriisi Tilastoyksiköiden saamat mittaustulokset (numeroarvot) tallennetaan matriisimuotoon (johonkin tilasto-ohjelmistoon, esim. SPSS), jossa tilastoyksiköt (a 1,, a n ) muodostavat matriisin rivit muuttujat (x 1,,x k ) sen sarakkeet esim. 1. havainto/tilastoyksikkö on mies, depressiopisteet 7 ) 4 Taina I. Lehtinen 8

Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä harjoitusaineistoon, sivu 3. Muuttujat Tilastoyksikkö Sukupuoli Ikä Depressio WAIS Työmuisti Jne. Vastaaja 1 Mies 18 7 101 5 Vastaaja Nainen 19 3 110 6 Vastaaja 3 Nainen 98 5 Vastaaja 4 Mies 6 89 4 Vastaaja 5 nainen 1 10 7 Jne. = puuttuva tieto 5 Aineiston tilastollinen käsittely kuvaileva analyysi (jakaumat, tunnusluvut, graafit) muuttujien muokkaus tarpeen mukaan (skaalauksen kääntäminen, summamuuttujat, luokitukset, ) aineiston syvällisempi analyysi (riippuvuudet, hypoteesien testaaminen testit, mallit) 6 Hypoteesin testaaminen H 0 = nollahypoteesi H 1 = tutkimushypoteesi /vaihtoehtoinen hypoteesi testauksen perusteella valitaan joko H 0 tai H 1 valintaan liittyy riski tehdä virhe (mikä on todennäköisyys, että tehty valinta hypoteesien suhteen onkin väärä) = merkitsevyystaso 7 Taina I. Lehtinen 9

3. Tilastollinen kuvaaminen Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku. Yksiulotteinen frekvenssijakauma tavoitteena on kuvailla luokitteluasteikolla mitattua ilmiötä, antaa yleiskuva ilmiöstä taulukon avulla Sukupuoli Mies Nainen Yht. Frekv. % 1103 49,0 1146 51,0 49 100,0 Suomalainen seksi, 1993. 9 Valid Missing Total Ylioppilastutkinto Keski- tai peruskoulu Kansa- tai kansalaiskoulu Ei mitään näistä Total Eos System Total Peruskoulutus Cumulative Frequency Percent Valid Percent Percent 503,4,4,4 688 30,6 30,6 53,0 989 44,0 44,0 97,0 67 3,0 3,0 100,0 47 99,9 100,0 1,0 1,0,1 49 100,0 Suomalainen seksi, 1993. 30 Taina I. Lehtinen 10

Frequency Graafiset esitykset Bar chart 31 300 50 00 150 Histogram 100 50 0 0 5 10 15 0 5 Kouluvuodet Mean = 11,03 Std. Dev. = 3,695 N = 47 3 Esimerkit perustuvat dataan: Breast cancer survival. SPSS 14.0 for Win 33 Taina I. Lehtinen 11

Breast cancer survival -aineisto 34 35 Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 3. Kaksiulotteinen frekvenssijakauma on taulukko, josta ilmenee kahden muuttujan arvojen luokitus ja luokkiin kuuluvien havaintojen frekvenssit Sukupuoli Neliötäydennystesti Tyttö Poika Yht. 13 5 1 6 46 6 6 1 79 9 3 1 101 5 6 11 1315 3 6 9 Yht. n=8 n= N=50 36 Taina I. Lehtinen 1

Yleensä esitetään pelkkien luokkafrekvenssien sijasta luokkien prosenttiosuudet, jotka lasketaan riippumattoman/selittävän (tai sellaiseksi ajateltavissa olevan muuttujan) suuntaisesti Sukupuoli Neliötäydennystesti Tyttö Poika 13 18 5 46 1 7 79 3 14 101 18 7 1315 11 7 100 % 100 % n=8 n= 37 38 Agecat * Pathological Tumor Size (Categories) Crosstabulation Pathological Tumor Size Total (Categories) <= cm -5 cm > 5 cm --30 8 10 0 18 44,4% 55,6% 0,0% 100,0% 31-40 67 53 4 14 54,0% 4,7% 3,% 100,0% 184 83 1 68 41-50 Age- 68,7% 31,0% 0,4% 100,0% category 01 56 4 61 51-60 77,0% 1,5% 1,5% 100,0% 61-70 08 47 57 80,9% 18,3% 0,8% 100,0% 71-- 158 34 1 193 81,9% 17,6% 0,5% 100,0% Total 86 83 1 111 73,7% 5,% 1,1% 100,0% Mitä taulukko esittää? Mikä on N? Mihin suuntaan % on laskettu rivi vai sarake? Riippumaton? ja riippuva muuttuja? Tulkitse tulos sanallisesti, onko kasvaimen koossa eroja eri ikäluokissa? Yleiset havainnot? 39 Taina I. Lehtinen 13

Agecat * Pathological Tumor Size (Categories) Crosstabulation Pathological Tumor Size Total (Categories) <= cm -5 cm > 5 cm --30 8 10 0 18 44,4% 55,6% 0,0% 100,0% 67 53 4 14 31-40 54,0% 4,7% 3,% 100,0% 184 83 1 68 Age- 41-50 68,7% 31,0% 0,4% 100,0% category 01 56 4 61 51-60 77,0% 1,5% 1,5% 100,0% 61-70 08 47 57 80,9% 18,3% 0,8% 100,0% 71-- 158 34 1 193 81,9% 17,6% 0,5% 100,0% Total 86 83 1 111 73,7% 5,% 1,1% 100,0% 40 Kuvailevat tilastolliset tunnusluvut Sijaintiluvut Moodi Mo Mediaani Md Hajontaluvut Vaihteluväli Keskihajonta s Keskiarvo x 41 Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 5. Sijaintiluvut (jakauman sijainti, keskiluvut) Moodi Mo Tyyppiarvo, tyypillisin arvo aineistossa Sopii kaikille asteikoille Esim. jos aineiston N=150, josta 70 on naisia ja 80 miehiä Mo = Mies 4 Taina I. Lehtinen 14

Mediaani Md Aineiston keskimmäinen havaintoarvo, kun arvot on asetettu suuruusjärjestykseen Sopii vähintään järjestysasteikolle Md x n1 Esim. jos aineiston (N=9) henkilöiden pituudet ovat 16 cm, 167 cm, 168 cm, 170 cm, 180 cm, 181 cm, 18 cm 184 cm ja 186 cm keskimmäinen havainto on 5. pituusarvo eli Md=180 cm 43 Aritmeettinen keskiarvo painopiste usein teoreettinen tunnusluku vähintään välimatka-asteikko Esim. jos aineiston (N=9) henkilöiden iät ovat 18, 19, 4,,, 5, 1, ja 95 vuotta x 9. 8 vuotta x n i 1 n x i 44 Keskilukujen vertailua Keskiarvo hyvä tunnusluku symmetrisissä jakaumissa Monet standardimenetelmät perustuvat keskiarvoon Keskiarvo on herkkä poikkeaville havainnoille Mediaani kuvaavampi vinoissa jakaumissa 45 Taina I. Lehtinen 15

Iän keskiluvut ika N Mean Median Mode Valid Missing 47 4, 41,0 34 Suomalainen seksi, 1993. 46 a. Vasemmalle vino jakauma (negatiivinen vinous) b. Symmetrinen jakauma c. Oikealle vino jakauma (positiivinen vinous) a b c x x 47 Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 6. Hajontaluvut Vaihteluväli W = max min Vähintään järjestysasteikko Keskihajonta s SD Tärkein hajontaluku Vaihtelu keskiarvon ympärillä Käytetään empiirisessä tutkimuksessa Vähintään välimatka-asteikko s n i1 ( x i x) n 1 48 Taina I. Lehtinen 16

Keskihajonnan yleisiä ominaisuuksia s 0 mitä suurempi s:n arvo, sitä enemmän havaintoarvot ovat hajallaan aritmeettisen keskiarvon ympärillä erikoistapaus: s = 0 eli ei hajontaa vaan kaikki havaintoarvot ovat samoja 49 N(, s) x kertoo jakauman sijainnin lukusuoralla s kertoo jakauman huipukkuuden (kapea korkea; leveä litteä) 50 Breast cancer survival -aineisto Taulukko. Iän tunnuslukuja Age (years) N Valid 107 Missing puuttuvat 0 Mean keskiarvo 56,39 Median mediaani 56,00 Mode moodi 49 Std. Deviation keskihajonta 13,38 Range vaihteluvälin pituus 66 Minimum minimi Maximum maksimi 88 Percentiles 5 persentiili 46,00 eli 50 prosentti- 56,00 piste 75 67,00 51 Taina I. Lehtinen 17

Mo = 49 Md = 56 = 56.4 5 Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 8. Kahden muuttujan välinen riippuvuus Riippuvuus x y kausaalisuus? x y asiayhteys 53 Tunnusluvut Korrelaatiokertoimet Spearmanin järjestyskorrelaatio Pearsonin (tulomomentti)korrelaatio Khiin neliö (chi square) Kontingenssikerroin Taulukot, kuviot Ristiintaulukot, hajontakuviot 54 Taina I. Lehtinen 18

y-muuttuja 10 8 6 4 0 R Sq Linear = 0,89 3 4 5 6 7 8 x-muuttuja Riippuvuus? Hukkumiskuolemat Jäätelönmyynti x y USA 1970-luku: Nopeusrajoitukset x Auto-onnettomuudet (kuolemantapaukset) vähenivät y 55 Riippuvuus/riippumattomuus määritelmä : jos x ja y ovat toisistaan riippumattomia, niin muuttujan x arvojen vaihtelu ei lisää informaatiota muuttujan y arvojen vaihtelusta (ei myöskään päinvastoin) 56 Positiivinen korrelaatio Negatiivinen korrelaatio Ei riippuvuutta (korrelaatiota) Riippuvuus voi myös olla epälineaarista 57 Taina I. Lehtinen 19

Spearmanin järjestyskorrelaatiokerroin rho (r s ) ei-parametrinen korrelaatio vaihteluväli 1 r s +1 Pearsonin tulomomenttikorrelaatiokerroin (r xy ) parametrinen korrelaatio vaihteluväli 1 r xy +1 58 Spearmanin rho (r s ) r s n 6 i n( n 1 1 di 1) d i = järjestyspisteiden erotus n = havaintojen lukumäärä 59 Esim. Lasketaan kahdessa kauneuskilpailussa x ja y mukana olleiden kaunotarkandidaattien a i (i=1,, 3, 4) sijoitusten välinen korrelaatio 60 Taina I. Lehtinen 0

Kilpailu_ Sijoitus 1. Sijoitus. d i (=x i y i ) d i kilpailussa kilpailussa a 1 1-1 1 a 3 3 0 0 4 4 0 0 a 3 1 1 1 a 4 1 6* r 10.0 0.80 4*(4 1) 61 Kertoimen arvo +0.80 osoittaa positiivista yhteyttä muuttujien x (sijoitus 1. kilpailussa) ja y (sijoitus. kilpailussa) välillä eli kaunotarkandidaatit sijoittuivat molemmissa kilpailuissa melko samalla tavalla 6 4 3 1 1 3 4 Kilpailu_1 63 Taina I. Lehtinen 1

Pearsonin tulomomenttikorrelaatiokerroin (r xy ) r xy n n i1 x i n n xi yi xi yi i1 i1 i1 n i1 n x i n i n n n yi 1 i1 y i 64 Esim. Lasketaan viiden isän painon (x i ) ja pojan painon (y i ) välinen korrelaatio 65 Isän paino x i Pojan paino y i x i * y i x i y i a 1 79 7 5688 641 5184 a 55 60 3300 305 3600 a 3 10 95 9690 10404 905 a 4 88 8 716 7744 674 a 5 85 79 6715 75 641 409 388 3609 34639 30774 66 Taina I. Lehtinen

pojan paino (y) 5*3609 409*388 r (5*34639 409 )*(5*30774 388 ) r 16304515869 (173195 16781)*(153870 150544) r 435 5914*336 435 0.98 19669964 67 Kertoimen arvo +0.98 osoittaa positiivista yhteyttä muuttujien x (isän paino) ja y (pojan paino) välillä eli mitä painavampi isä on, sitä painavampi myös poika on 68 100 95 90 85 80 75 70 Poika = 7 kg Isä = 79 kg 65 60 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 10 isän paino (x) 69 Taina I. Lehtinen 3

PAINO 140 130 Sukupuoli mies nainen 10 110 100 90 80 70 60 50 40 130 140 150 160 170 180 190 00 10 PITUUS Suomalainen seksi, 1993. 70 Sukupuoli Mies Nainen Paino Paino Pearson Correlation Sig. (-tailed) N Pearson Correlation Sig. (-tailed) N Pituus,406,000 110,46,000 1143 71 Korrelaatiokertoimen tulkinta Nummenmaa, L. Käyttäytymistieteiden tilastolliset menetelmät, 004, 77 85 r = 1.0 r.90 r.70 r.50 r.30 r = 0 muuttujien välillä täysin lineaarinen yhteys muuttujien välillä voimakas lineaarinen yhteys muuttujien välillä melko voimakas lineaarinen yhteys muuttujien välillä keskinkertainen lineaarinen yhteys muuttujien välillä heikko lineaarinen yhteys muuttujien välillä ei ole lineaarista yhteyttä Taina I. Lehtinen 4

Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 3. Ristiintaulukko Kahden (yleensä) luokitteluasteikkoisen muuttujan välinen riippuvuus Asiayhteys ei kausaalisuus Esim. sukupuolen ja koulutusalan valinnan välinen asiayhteys Koulutusalan ja ammattialan välinen asiayhteys 73 Ammattikoulutus * Sukupuoli Crosstabulation Count Ammattikoulutus Total Ammatillinen koulu Ammatillinen opisto Korkeakoulututkinto Ei mitään näistä Sukupuoli mies nainen Total 414 343 757 148 0 350 89 75 164 445 54 969 1096 1144 40 Suomalainen seksi, 1993. 74 Ammattikoulutus * Sukupuoli Crosstabulation Ammattikoulutus Total Ammatillinen koulu Ammatillinen opisto Korkeakoulututkinto Ei mitään näistä Count % within Sukupuoli Count % within Sukupuoli Count % within Sukupuoli Count % within Sukupuoli Count % within Sukupuoli Sukupuoli mies nainen Total 414 343 757 37,8% 30,0% 33,8% 148 0 350 13,5% 17,7% 15,6% 89 75 164 8,1% 6,6% 7,3% 445 54 969 40,6% 45,8% 43,3% 1096 1144 40 100,0% 100,0% 100,0% Suomalainen seksi, 1993. 75 Taina I. Lehtinen 5

Khiin neliön (Chi-square) laskeminen k l ( f e ) ij ij i1 j1 e ij f ij =havaittu (Observed) arvo (mittauksessa saatu arvo) e ij =odotettu (Expected) arvo (teoreettinen arvo) 76 Odotetut arvot Lasketaan reunajakaumista kaavalla e ij f i e n j 77 Count Ammattikoulutus Total Ammattikoulutus * Sukupuoli Crosstabulation Ammatillinen koulu Ammatillinen opisto Korkeakoulututkinto Ei mitään näistä Sukupuoli mies nainen Total 414 343 757 148 0 350 89 75 164 445 54 969 1096 1144 40 9691096 e 474.1 40 78 Taina I. Lehtinen 6

Ammattikoulutus * Sukupuoli Crosstabulation Ammattikoulutus Total Ammatillinen koulu Ammatillinen opisto Korkeakoulututkinto Ei mitään näistä Odotettu arvo Odotettu arvo Odotettu arvo Odotettu arvo Odotettu arvo Sukupuoli mies nainen Total 414 343 757 370,4 386,6 757,0 148 0 350 171,3 178,8 350,0 89 75 164 80, 83,8 164,0 445 54 969 474,1 494,9 969,0 1096 1144 40 1096,0 1144,0 40,0 Suomalainen seksi, 1993. 79 Mikäli havaittujen arvojen ja odotettujen arvojen erotukset (f ij e ij ) ovat pieniä, eivät havaitut arvot ja odotetut arvot poikkea toisistaan ja -arvokin jää pieneksi Jos havaittujen arvojen ja odotettujen arvojen erotukset ovat suuria, saa suuren arvon 80 Vapausasteet Kuvaavat taulukon kokoa df = (rivien lkm 1) * (sarakkeiden lkm 1) Vapausasteet tarkoittavat ns. vapaiden havaintojen määrää eli ristiintaulukossa vapausaste ilmoittaa sen, kuinka monta lukua voidaan valita täysin vapaasti tietyn taulukon sisälle 81 Taina I. Lehtinen 7

Esimerkiksi sadan henkilön jakautumisesta viiteen ikäryhmään tehdyn viisiruutuisen taulukon vapausaste on 4, sillä neljän ruudun sisältö on vapaa muuttumaan itsenäisesti (viides ruutu näet määräytyy niiden perusteella) 1-30 v. 5 31-40 v. 0 41-50 v. 33 51-60 v. 14 60 v. 8 df = s 1 = 4 N=100 8 4. Tilastollinen päättely Empiirinen jakauma perustuu havaintoaineistoon muuttujan arvojen hajaantuminen muuttujan eri arvoluokkiin Mies Nainen Yht. Sukupuoli Frekv. % 1103 49,0 1146 51,0 49 100,0 Teoreettinen jakauma liittyy todennäköisyyslaskennan teoriaan esim. normaalijakauma 84 Taina I. Lehtinen 8

Tutustu kirjan Tilastollisen kuvauksen perusteet käyttäytymistieteissä, Luku 7. Normaalijakauma Taulukko 3. Ikä luokiteltuna % Cumulative % --30 1,6 1,6 31-40 11, 1,8 Tärkein ja käytetyin todennäköisyysjakauma; monet luonnon ja ihmisten Total 100,0 ominaisuudet jakautuvat sen mukaan, mm. lämpötilat ja sademäärät, ihmisestä mitatut ominaisuudet (mm. pituus, älykkyys, ) 41-50 4,4 37,1 51-60,9 60,1 61-70,8 8,9 71-- 17,1 100,0 x Esim. jos suomalaisten (kaikkien) miesten pituudet ( =175 cm, s = 5 cm) esitetään frekvenssikäyränä, se on normaalijakautunut: X i = 185 cm 160 165 170 175 180 185 190 86 Jos muuttuja noudattaa normaalijakaumaa parametrein x=0 ja s=1, niin kyseessä on standardoitu normaalijakauma 87 Taina I. Lehtinen 9

Z-piste Esim: Pekka sai introversiotestissä 3 pistettä ja neuroottisuustestissä 14 pistettä. Onko hän keskimääräistä vähemmän/enemmän introvertti ja keskimääräistä vähemmän/enemmän neuroottinen? Maija sai maantiedon kokeessa 1 pistettä ja yhteiskuntaopin kokeessa 18 pistettä. Kummassa kokeessa hän menestyi paremmin? Vertailua voidaan tehdä z-pisteiden avulla 88 Standardoitua normaalijakaumaa voidaan hyödyntää monissa normaalijakaumaan liittyvissä laskutoimituksissa, jolloin normaalijakautuneen muuttujan havaintoarvot (x i ) muutetaan standardoituun muotoon laskemalla z-pisteet (standardipisteet) z-piste kertoo kuinka kaukana havaintoarvo sijaitsee keskiarvosta, kun mittayksikkönä käytetään keskihajontaa z x i s x 89 z 185175 5 Havaintoarvo (x i = 185 cm) sijaitsee kahden keskihajonnan (z = +) mitan päässä keskiarvon (175 cm) yläpuolella 90 Taina I. Lehtinen 30

z ilmaisee havaintoarvon (x i ) etäisyyden aritmeettisesta keskiarvosta x, kun mittayksikkönä käytetään keskihajontaa (s) = 175, s = 5 Pituusarvo 193 cm sijaitsee 3.6 keskihajonnan mitan päässä :n oikealla puolella Pituusarvo 06 cm sijaitsee 6. keskihajonnan mitan päässä :n oikealla puolella 91 Mittauksessa saatujen havaintoarvojen (muuttujan raaka pisteiden) muuttaminen z- pisteiksi ei hävitä tai lisää informaatiota (on sama asia kuin jos muutetaan mailit kilometreiksi) z-piste universaali normi haluttaessa vertailla normaalijakautuneista aineistoista poimittuja havaintoarvoja 9 Esim. Introversiotestin ja neuroottisuustestin tulokset olivat normaalijakautuneet Pekka sai introversiotestissä 3 pistettä. Kaikkien testiin osallistuneiden pisteiden keskiarvo oli 15 pistettä, hajonta 8 pistettä. Neuroottisuustestissä Pekka sai 14 pistettä, keskiarvon ollessa 10 pistettä ja hajonnan pistettä. Onko Pekka keskimääräistä vähemmän/enemmän introvertti ja keskimääräistä vähemmän/ enemmän neuroottinen? 93 Taina I. Lehtinen 31

Introversio Neuroottisuus x Pekka = 3 x Pekka = 14 x 15 y 10 s x = 8 s y = z x = (3 15)/8 = +1 z y = (14 10)/ = + Pekka sijoittuu sekä introversiotestissä että neuroottisuustestissä keskiarvon yläpuolelle, introversiotestissä yhden keskihajonnan (+1) mitan päähän keskiarvosta ja neuroottisuustestissä kahden keskihajonnan (+) mitan päähän keskiarvosta Pekka on keskimääräistä introvertimpi ja keskimääräistä neuroottisempi 94 Pekan x Introversio = +1 x Neuroottisuus = + 95 Jos pystyakselilla ovat suhteelliset frekvenssit, niin kuvaajan ja lukusuoran (vaaka-akselin) rajoittaman alueen pinta-ala on 100% Välin [ 1s, +1s] pinta-ala on noin 68% Välin [ s, + s] pinta-ala on noin 95% Miesten pituusaineistossa ( =175 cm, s=5 cm) välin [170, 180] pinta-ala on noin 68% ja välin [165, 185] pinta-ala on noin 95% 96 Taina I. Lehtinen 3

68 % 50 % 95 % 160 165 170 175 180 185 190 97 Esim. Pekka sai introversiotestissä 3 pistettä, neuroottisuustestissä 14 pistettä. Pekan havaintoarvojen z-pisteet ovat +1 (introversio) ja + (neuroottisuus). Kuinka suuri osa testiin osallistuneista on Pekkaa vähemmän introverttejä? (Kuinka monta % testiin osallistuneista on vähemmän introvertteja kuin Pekka?) Kuinka suuri osa testiin osallistuneista on Pekkaa neuroottisempia? (Kuinka monta % on enemmän neuroottisia kuin Pekka?) 98 68% 50% 84% Pekkaa vähemmän introvertteja on 84% 50% 68% 99 Taina I. Lehtinen 33

95% 50% 97.5% 100% 97.5%.5% Pekkaa enemmän neuroottisia on.5% 50% 95% 100 68 %.5 % 95 %.5 % 100 % 101 Kertymäfunktioarvo z-pisteen alapuolella (vasemmalla puolella) olevan pinta-alan määrä (todennäköisyys) on taulukoitu normitetun normaalijakauman N(0,1) kertymäfunktioarvojen (, PHI) taulukkoon (z) Normitetun normaalijakauman N(0,1) kertymäfunktioarvo () ~ 91 % z=1.3 (z) (+1.3) = 0.9066 ~ 91 % 10 Taina I. Lehtinen 34

Pinta-alat: Välin [ 3z, + 3z] pinta-ala noin 100 % Todennäköisyys noin 1 Välin [ z, + z] pinta-ala noin 95 % Todennäköisyys noin 0.9500 Välin [ 1z, + 1z] pinta-ala noin 68 % Todennäköisyys noin 0.6800 z-pisteeseen liittyvät todennäköisyydet (pintaalat) saadaan taulukosta (kertymäfunktio-arvot, ), jonka luvut ovat suhteellisia osuuksia eli esim. 95 % = 0.9500 (+1.3) = 0.9066 91.0 % 1 (+1.3) = 0.0934 9.3 % (-1.3) = 0.0934 9.3 % 103 Taulukon arvot ilmaisevat todennäköisyyden sille, että saadaan (muuttujan arvosta laskettua) z-pistettä pienempi arvo sitä merkitään seuraavasti: P(x z) = (z) Pekan z Introversio = +1 Kuinka monta % osallistuneista saa pienemmän arvon kuin Pekka? P(x +1) = (+1) = 0.8413 = 84.1% Pekan z Neuroottisuus = + Kuinka monta % osallistuneista saa suuremman arvon kuin Pekka? P(x +) = 1 (+) = 1 0.977 = 0.08 =.3% http://users.jyu.fi/~tatima/z-p.htm (-3.49) = 0.000 = 0.0 % (+3.49) = 0.9998 = 99.98 % (-5.01) = 0.00000071 = 0.000071 % 68.6 % 0.13 % 95.44 % 0.13 % 99.74 % Taina I. Lehtinen 35

Tilastollisessa päättelyssä otoksen perusteella pyritään tekemään johtopäätöksiä koko perusjoukosta Johtopäätösten tekoon sisältyy aina epävarmuutta, koska ei tutkita koko perusjoukkoa Kyse on tilastollisen merkitsevyyden testaamisesta (tilastollisesta päätöksenteosta), joka pohjautuu todennäköisyyksiin 106 Hypoteesien testaaminen = yksi tilastollisen päätöksenteon väline Testaamisen vaiheet hypoteesien asettaminen otoksen poiminta tilastollisen testin valinta (muuttujien mitta-asteikko) parametriset testit ei-parametriset testit testaaminen tulosten tulkinta johtopäätökset 107 Hypoteesit Muuttujien välisestä riippuvuudesta, erosta tai muutoksesta asetetaan tilastollisessa testauksessa kaksi hypoteesia: H 0 (nollahypoteesi) esittää, että muuttujien välillä ei ole riippuvuutta, ei ole eroa tai muutosta ei ole tapahtunut ( ei mitään erityistä ) H 0 = Tyttöjen ja poikien sosiaalisuudessa ei ole eroa H 1 (vaihtoehtoinen hypoteesi) esittää, että on riippuvuutta, on eroa tai muutos on tapahtunut H 1 = Tyttöjen ja poikien sosiaalisuudessa on eroa Vastakkain siis kaksi oletusta kumpi oletuksista saa tukea testissä? 108 Taina I. Lehtinen 36

Todellisuus H 0 H 1 Johtopäätös H 0 otoksen perusteella H 1 / / 109 Päätöksentekoon liittyvät virheet 1. lajin virhe = hylkäämisvirhe eli hylätään H 0, joka itse asiassa on tosi. lajin virhe on hyväksymisvirhe eli hyväksytään H 0, joka itse asiassa on virheellinen Merkitsevyystaso eli riskitaso ilmoittaa, kuinka suuri on riski, että teemme 1. lajin virheen eli hylkäämisvirheen [ts. että saatu tulos ero, riippuvuus, yhteys, johtuu vain sattumasta eikä ole todellinen] Merkitsevyystasosta käytetään symbolia p (ohjelman tulosteissa Sig.) 110 p-arvo mittaa tehdyn johtopäätöksen tilastollista luotettavuutta p-arvo ilmoittaa todennäköisyyden tehdä virheellinen johtopäätös (1. lajin virhe) kun H 0 hylätään 111 Taina I. Lehtinen 37

Käytetyt merkitsevyystasot Tilastollisesti erittäin merkitsevä, jos p 0.001 *** (0.1%) Tilastollisesti merkitsevä, jos 0.001 < p 0.01 ** (1%) Tilastollisesti melkein merkitsevä, jos 0.01 < p 0.05 * (5%) Tilastollisesti suuntaa antava, jos 0.05 < p 0.1 11 Tilasto-ohjelmat antavat automaattisesti havaitun merkitsevyystason (joko p-arvona tai Sig.- arvona) Mitä pienempi merkitsevyystaso on, sitä tilastollisesti merkitsevämpi tulos, ts. Mitä pienempi riski (p-arvo tai Sig.-arvo), sitä merkitsevämpi tulos 113 Yhteenveto Nollahypoteesi H 0 vs. Vaihtoehtoinen hypoteesi H 1 Hylkäämisvirhe eli hylätään H 0, joka on tosi hylkäämisvirheelle määritellään todennäköisyys p (Sig.), jota kutsutaan riskitasoksi tai merkitsevyystasoksi Hyväksymisvirhe eli hyväksytään H 0, joka ei ole tosi (on epätosi) 114 Taina I. Lehtinen 38

Riskitaso (merkitsevyystaso) tarkoittaa riskiä tehdä virhe eli hylätä H 0, kun se olisi tosi tai Riskitaso (merkitsevyystaso) ilmoittaa, kuinka suuri on riski, että saatu tulos (esim. ero) johtuu vain sattumasta eli on sattuman aiheuttamaa, ei todellista (eroa) Mitä pienempi riski, sitä tilastollisesti merkitsevämpi tulos 5% (p=0.05) suurempia riskejä ei oteta 115 Esim. jos tilasto-ohjelmisto antaa Sig. = 0.459 emme hylkää H 0, koska riski tehdä hylkäämisvirhe olisi 45.9% Sig. = 0.03 hylkäämme H 0 :n, mutta riski tehdä hylkäämisvirhe on 3.% Tulos on melkein merkitsevä (p=0.03) Tulos on melkein merkitsevä (p<0.05) tai 116 Tutustu kirjan Käyttäytymistieteiden tilastomenetelmien jatkokurssi, Luku 5. Kahden tunnusluvun eron merkitsevyys Tutkija joutuu tekemään päätöksen onko kahden ryhmän välillä todellista eroa Ryhmät voivat olla kokeellisen asetelman koe- ja kontrolliryhmiä tai luonnostaan olemassa olevia kuten naiset/miehet, kaupunkilaiset/maalla asuvat, jne. Ero voi tulla esille keskiarvoissa, hajonnoissa, korrelaatioissa, jne. 117 Taina I. Lehtinen 39

Kuvitellaan tilanne, jossa on mahdollisuus poimia samasta perusjoukosta suuri määrä otoksia, jotka olisivat samankokoisia ja muodostuisivat kahdesta ryhmästä (ryhmä 1 ja ryhmä ) Laskemme kunkin otoksen kummallekin ryhmälle keskiarvon ja kullekin otokselle kahden ryhmän keskiarvon eron x1 x Ryhmien keskiarvojen eroissa olisi hieman vaihtelua, joskus otoksen ryhmän 1 keskiarvo on suurempi, joskus ryhmän keskiarvo on suurempi, joskus eroa ei ole ollenkaan 118 Keskiarvojen eroista muodostuu jakauma, jonka keskikohta on nolla (siis ryhmissä ei eroa), vasen puoli kuvaa niitä otoksia, joissa ryhmän keskiarvo on suurempi kuin ryhmän 1, oikea puoli kuvaa niitä otoksia, joissa ryhmän 1 keskiarvo on suurempi kuin ryhmän Tämä jakauma on keskiarvojen eron otantajakauma Jakauman keskellä sijaitsevat todennäköiset, helposti sattumaltakin saatavat erot ja mitä kauemmas keskikohdasta mennään, sitä epätodennäköisempiä erot ovat 119 Kun mennään riittävän kauas jakauman reunalle, saadun eron todennäköisyys on niin pieni, että se ei ole voinut tulla sattumalta Teemme johtopäätöksen, että ero on todellinen (ryhmät eivät edusta samaa perusjoukkoa) Jos saatu ero sijoittuu jakaumassa sellaiselle alueelle, jonne sijoittumisen todennäköisyys on pieni, esimerkiksi pienempi kuin 1% (= hylkäämisalue), sanomme, että ero on tilastollisesti merkitsevä 1%:n riskitasolla ts. todennäköisyys tehdä hylkäämisvirhe on pieni 10 Taina I. Lehtinen 40

Hylkäämisalue - Kriittinen arvo Hyväksymisalue Kriittinen arvo 0 Hylkäämisalue 11 Jotta voisimme tietää, mihin kohtaan ero sijoittuu, on tiedettävä, kuinka laajalle alueelle teoreettinen jakauma ulottuu Tarvitsemme eron otantajakauman keskivirheen Ero jaetaan keskivirheellä, jolloin saadaan tietää, kuinka monen standardipoikkeaman päähän 0:sta (ei-eroa -tilanne) ero sijoittuu Keskiarvojen, hajontojen, prosenttilukujen, jne. eroja tarkasteltaessa, laskukaava on periaatteessa aina saatu ero eron keskivirhe 1 Erojen merkitsevyyden testauksessa käytetään kahta hieman toisistaan poikkeavaa jakaumatyyppiä pohjana Suurten otosten kyseessä ollessa testataan olettaen eron otantajakauman olevan normaali saatu ero jaetaan normaaliksi oletetun otantajakauman hajonnalla eli keskivirheellä (Z-testi) Pienten otosten kyseessä ollessa oletetaan eron otantajakauman noudattavan t-jakaumaa (Studentin jakauma) saatu ero jaetaan t-jakaumaan liittyvällä hajonnalla eli keskivirheellä (t-testi) 13 Taina I. Lehtinen 41

Kahden riippumattoman keskiarvon eron testaaminen t x 1 t-testisuure noudattaa t-jakaumaa vapausastein df = n 1 + n - 1 s n 1 x s n 14 Hypoteesit H 0 : Ryhmän 1 ja ryhmän keskiarvoissa ei ole eroa H 1 : Ryhmän 1 ja ryhmän keskiarvoissa on eroa 16 Taina I. Lehtinen 4

Suomalainen seksi, 1993. Independent Samples Test Group Statistics Keskiarvon otantajakauman keskivrhe Avioitumiskerrat Sukupuoli mies nainen Std. Error N Mean Std. Deviation Mean 877 1,3,710,04 957 1,,480,016 Numerus Keskiarvo Keskihajonta Hypoteesit: H 0 : Miesten ja naisten avioitumiskerroissa ei ole eroa H 1 : Miesten ja naisten avioitumiskerroissa on eroa 17 Avioitumiskerrat Equal variances assumed Varianssit yhtä suuret Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Sig. (-tailed) Mean Difference Std. Error Difference H 0 hylätään 4,673,031,66 183,508,019,08 Equal variances not assumed Varianssit erisuuret t-test for Equality of Means 95% Confidence Interval of the Difference t df Sig. (-tailed) Mean Difference Std. Error Difference Lower Upper -,037,074,651 1519,169,515,019,09 95% Confidence Interval of the Difference Lower Upper Levenen testi testaa varianssien yhtä suuruutta: H 0 : varianssit yhtä suuret H 1 : varianssit erisuuret -,037,075 18 Taulukko: Miesten ja naisten avioitumiskerrat Mies Nainen Avioitumisx 1. x 1. kerrat s = 0.7 s = 0.5 N = 877 N = 957 t = 0.651, ei merkitsevä TAI p > 0.05 19 Taina I. Lehtinen 43

Tutustu kirjan Käyttäytymistieteiden tilastomenetelmien jatkokurssi, ss. 7578. -riippumattomuustesti Testaa kahden luokitteluasteikkoisen muuttujan (x, y) riippumattomuutta H 0 : x ja y ovat riippumattomia H 1 : x ja y eivät ole riippumattomia (ovat riippuvia eli x:n ja y:n välillä yhteys) 130 k l ( f e ) ij ij i1 j1 e ij df = (k-1) * (l-1) 131 13 Taina I. Lehtinen 44

Peruskoulutus * Sukupuoli Crosstabulation Peruskoulutus Total Ylioppilastutkinto Keski- tai peruskoulu Kansa- tai kansalaiskoulu Ei mitään näistä Count % within Sukupuoli Count % within Sukupuoli Count % within Sukupuoli Count % within Sukupuoli Count % within Sukupuoli Sukupuoli mies nainen Total 81 503 0,1% 4,5%,4% 335 353 688 30,4% 30,8% 30,6% 509 480 989 46,% 41,9% 44,0% 36 31 67 3,3%,7% 3,0% 110 1145 47 100,0% 100,0% 100,0% Suomalainen seksi, 1993. H 0 : x ja y ovat riippumattomia H 0 : Sukupuoli ja peruskoulutus ovat riippumattomia H 1 : x ja y eivät ole riippumattomia H 1 : Sukupuoli ja peruskoulutus eivät ole riippumattomia H 1 : Sukupuolen ja peruskoulutuksen välillä on yhteys 133 H 1 : Miesten ja naisten peruskoulutuksessa on eroja Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Chi-Square Tests Testin ehdot täyttyvät: Asymp. Sig. Value df (-sided) 7,795 a 3,050 7,808 3,050 7,596 1,006 47 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 3,86. - yhdessäkään solussa odotettu arvo ei ole < 5 - pienin odotettu arvo on yli 3 134 H 0 hylätään 5%:n merkitsevyystasolla (5%:n riski tehdä virhe) Johtopäätös: Miesten ja naisten peruskoulutus eroaa siten, että naisista neljäsosalla (5%) on ylioppilastutkinto miehistä viidesosalla (0%) vastaava koulutus. Tulos on tilastollisesti melkein merkitsevä (p=0.05). 135 Taina I. Lehtinen 45

Ke-to 30.-31.8 klo 16.30 Sitä ennen loput kynä+paperi -tehtävät 136 Taina I. Lehtinen 46