TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Samankaltaiset tiedostot
HAVAITUT JA ODOTETUT FREKVENSSIT

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Estimointi. Otantajakauma

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitus 7: NCSS - Tilastollinen analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Väliestimointi (jatkoa) Heliövaara 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

10. laskuharjoituskierros, vko 14, ratkaisut

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

Tilastollinen aineisto Luottamusväli

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MTTTP1, luento KERTAUSTA

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

MTTTP1, luento KERTAUSTA

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

I Tilastollisen aineiston ja analyysin edellytysten tarkistaminen. - Muunnokset, uudelleen koodaaminen, summamuuttujien luominen

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Todennäköisyyden ominaisuuksia

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

TUTKIMUSAINEISTON ANALYYSI LTKY012. Timo Törmäkangas

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

tilastotieteen kertaus

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Testit järjestysasteikollisille muuttujille

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Monitasomallit koulututkimuksessa

Sovellettu todennäköisyyslaskenta B

Aki Taanila VARIANSSIANALYYSI

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Testejä suhdeasteikollisille muuttujille

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Perusnäkymä yksisuuntaiseen ANOVAaan

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MTTTP1, luento KERTAUSTA

Otoskoko 107 kpl. a) 27 b) 2654

Mat Tilastollisen analyysin perusteet, kevät 2007

2. TILASTOLLINEN TESTAAMINEN...

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

riippumattomia ja noudattavat samaa jakaumaa.

Transkriptio:

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas

NORMAALIJAKATUNEISUUDEN TESTAUS H 0 : Muuttuja on perusjoukossa normaalisti jakautunut. H 1 : Muuttuja ei ole perusjoukossa normaalisti jakautunut. Jos muuttuja on normaalisti jakautunut testin p-arvon (Sig.) pitäisi olla suuri, suurempi kuin valittu riskitaso, esim. 0.05 Kolmogorov-Smirnovin testiä käytetään usein kuin n > 50. Huom. Testin merkitsevyyteen vaikuttaa myös otoskoko: Suuremmissa otoksissa pienikin jakauman poikkeavuus aiheuttaa tilastollisesti merkitsevän tuloksen

VARIANSSIEN YHTÄ SUURUUS Keskiarvojen ryhmävertailussa oletetaan hajonnan olevan samalla tasolla ryhmissä Oletuksen voimassaoloa voi testata Levenen testillä Kun testataan k kpl ryhmiä: H 0 : Ryhmien varianssit ovat yhtä suuret (s 1 2 = = s k2 ). H 1 : Ryhmien varianssit eivät ole yhtä suuret. Esim. pituusmuuttujan varianssit siviilisäätyryhmissä p = 0.532 > 0.05, tämän tulkitaan tukevan varianssien yhtä suuruutta riskitasolla 0.05.

NORMAALIJAKAUMA A B C D n = 205 Vinous: 0.56 (0.17)* Huip.: -0.23 (0.39) KS (p-arvo): 0.001 SW (p-arvo): < 0.001 n = 29 Vinous: -0.11 (0.43) Huip.: -0.47 (0.85) KS (p-arvo): > 0.200 SW (p-arvo): 0.858 n = 29 Vinous: 2.03 (0.43)* Huip.: 4.19 (0.85)* KS (p-arvo): < 0.001 SW (p-arvo): < 0.001 n = 209 Vinous: 0.92 (0.17)* Huip.: 6.19 (0.34)* KS (p-arvo): 0.006 SW (p-arvo): < 0.001 *Tunnusluku on tilastollisesti merkitsevä. Mikä jakaumista on normaalisti jakautunut? Mitä ongelmia löytyy muista jakaumista?

PERUSTESTEJÄ

Kahden riippumattoman otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri kuin göteborgilaisten miesten? Riippumattomuus: Jokainen tutkittava on riippumaton mittaus toisista tutkittavista (miten tämä todennetaan?) Hypoteesit: Nollahypoteesi H 0 : μ 1 = μ 2 Keskiarvot ovat yhtä suuret (μ 1 - μ 2 = 0) Vastahypoteesit (valitaan vain yksi tutk. kys. perusteella) H 1 : μ 1 μ 2 H 1 : μ 1 < μ 2 H 1 : μ 1 > μ 2 Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on pienempi kuin ensimmäisen ryhmän

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) ja tarkasteltavat kaksi ryhmää ovat riippumattomia toisistaan Muuttuja on likimain normaalijakautunut kummassakin perusjoukossa Perusjoukon varianssit ovat yhtä suuret. Jos ovat erisuuret, käytetään erilaista menettelyä kuin tässä esitellään. Riskitaso: Asetetaan sopiva α-taso (0.05 / 0.01 / 0.001)

Kahden riippumattoman otoksen keskiarvojen vertailu Johtopäätökset Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), nollahypoteesi hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea Esim. jos riskitasoksi asetetaan α = 0.05, hylätään nollahypoteesi, jos p-arvo on tätä pienempi.

Marko: Aineisto: Perusjoukko: Kolme muuttujaa: Tutkimuskysymys: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Uransa lopettaneet pohjoismaiset kilpaurheilijat Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) 1) Onko ryhmien keskiarvoissa eroa perusjoukossa? Auttaako liikuntainterventio toimintakyvyn ylläpitämistä? 2) Onko keskiarvoeroja itsearvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Käytetään kahden riippumattoman ryhmän t-testiä tutkimuskysymykseen 1. Polven ojennusvoiman testissä käytetään käytetään kahta muuttujaa; - Vastemuuttuja: polven ojennusvoima - Ryhmäindikaattori (koe- vs. kontrolliryhmä)

Kahden riippumattoman otoksen keskiarvojen vertailu Tutkimushypoteesi Interventioryhmässä polvenojennusvoima on keskimäärin korkeammalla tasolla kuin kontrolliryhmässä (μ 1 > μ 2 ) Markolla ei ole tietoa kumpaan suuntaan ero voisi esiintyä intervention seurauksena Aiheuttaako liikuntainterventio odottamattomia haittavaikutuksia? valitaan kaksisuuntainen vastahypoteesi Testaushypoteesit Nollahypoteesi: H 0 : μ 1 = μ 2 Vastahypoteesi: H 1 : μ 1 μ 2

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset Muuttuja on suhdeasteikollinen Koeasetelmassa otokset (ryhmät) ovat satunnaisotoksia ja riippumattomia toisistaan Normaalijakautuneisuus: ks. seuraava dia Varianssit oletetaan yhtä suuriksi (testaus myöhemmin) Riskitaso Valitaan testille 0.05, joka on yleisesti käytetty riskitaso tutkimuksessa.

Interventioryhmän keskiarvo (599, SD 106) oli tilastollisesti merkitsevästi korkeampi (t = -2.45, df = 50, p = 0.018) kuin koeryhmällä (518, SD 131). Koe- ja kontrolliryhmän välinen ero oli -81 N (95 % luottamusväli: -146, -15).

Taulukko 1. Keskiarvot, keskihajonnat (SD) ja ryhmävertailujen p-arvot koe- ja kontrolliryhmille. Koe (n = 25) Kontrolli (n = 27) Keskiarvo SD Keskiarvo SD p-arvo Polvenojennusvoima 518 131 599 106 0.018 Tasapainotesti 39 5.8 38 6.5 0.561 Kävelynopeus 1.62 0.42 1.34 0.56 0.047 Huom. Jos Markon tarkoitus olisi ollut osoittaa, että interventio aiheuttaa parannuksen kaikissa kolmessa muuttujassa, olisi hän joutunut jakamaan riskitason näille muuttujille. Monitestaus: α Bonferroni = 0.05 / 3 = 1/60 0.0166 Tulosten taulukoinnista lisää: Ehrenberg ASC. 1977. Rudiments of Numeracy. J R Stat Soc A: 140, 277-297. Ehrenberg ASC. 1981. The Problem of Numeracy. Am Stat: 35, 67-71.

Data: järjestysast. Ei Kyllä Jatkuva, normaali Kyllä t-testi Ei Poikkeavia arvoja Kyllä Mediaani testi ks. luentomoniste Ei Mann-Whitney Valintakaavio: Kahden riippumattoman ryhmän jakauman keskikohdan vertailu Jäikö tulos vielä epävarmaksi: Selvitä antavatko eri testit samansuuntaisen tuloksen.

VARIANSSIANALYYSI Varianssianalyysillä ei testata varianssien yhtä suuruutta, vaan keskiarvojen yhtä suuruutta Yksisuuntaisessa varianssianalyysissä vertaillaan yhden jatkuvan muuttujan keskiarvoja toisen, luokittelevan muuttujan eri luokissa. Tällöin siis tarkastellaan yhden selitettävän muuttujan keskiarvojen (tasot) vaihtelua luokitteluasteikollisen selittävän muuttujan (käsittelyt) mukaan. Selitettävä muuttuja (esim. pituus, cm) jaetaan luokittelevan muuttujan (esim. koulutustausta, kolmiluokkainen muuttuja) perusteella ryhmiin ja keskiarvojen yhtä suuruutta tarkastellaan näissä ryhmissä

VARIANSSIANALYYSIN VAIHEET Olkoon vertailtavia ryhmiä k kpl Hypoteesit H 0 : 1 = 2 = = k (kaikkien ryhmien keskiarvot ovat yhtä suuret) H 1 : Ainakin yhden joukon keskiarvo poikkeaa muiden joukkojen keskiarvoista Oletukset 1) selitettävä muuttuja vähintään välimatkaasteikollinen 2) perusjoukkojen jakaumat normaaliset 3) perusjoukkojen varianssit yhtä suuret 4) perusjoukoista poimittujen otosten täytyy olla toisistaan riippumattomia [5) ryhmät yhtä suuria]

VARIANSSIHAJOTELMA Varianssianalyysissä vertaillaan ryhmien välistä vaihtelua ryhmien sisäiseen vaihteluun varianssien kaltaisilla neliösummilla Ryhmien välinen vaihtelu (SS b ) kertoo siitä, kuinka paljon ryhmittelevä muuttuja selittää ryhmien välisiä keskiarvoeroja (ts. miten erilaisia ryhmät ovat). Ryhmien sisäinen vaihtelu (SS w ) kertoo ryhmän sisällä olevan vaihtelun määrää (miten erilaisia ovat ryhmän tutkittavat keskenään). Kokonaisvaihteluksi saadaan: SS TOTAL = SS b + SS w Testisuure F lasketaan neliösummien pohjalta ja se kertoo keskimääräisestä ryhmien välisestä vaihtelusta suhteessa ryhmien sisäiseen vaihteluun

VARIANSSIANALYYSI Riskitaso: Riskitaso α asetetaan kuten muissa keskiarvotesteissä. Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea Jos nollahypoteesi hylätään testin tuloksena, voidaan selvittää keskiarvoparien välisten erojen merkitsevyyttä parittaisilla ryhmävertailutestillä

PARITTAISET RYHMÄVERTAILUT Varianssianalyysin merkitsevä tulos kertoo, että ainakin yhden ryhmäparin keskiarvoero on merkitsevä Parittaisia vertailuja ei yleensä tehdä t-testeinä, koska todennäköisyys löytää sattumanvarainen merkitsevä ero ainakin yhdessä keskiarvoparissa kasvaa liian suureksi Varianssianalyysin yhteydessä: parittaisia keskiarvovertailuja on sallittua käyttää vasta, kun varianssianalyysin nollahypoteesi hylätään H 0 : μ i = μ j, i =1,, k; j = 1,, k; i j Erilaisia menetelmiä (SPSS: 18 kpl) Varianssit yhtä suuret: LSD, Tukey, Scheffe, Bonferroni Varianssit eivät yhtä suuret: Tamhane T2 Lisää ks. Toothaker, 1991

Marko: Aineisto: Perusjoukko: Kolme muuttujaa: Tutkimuskysymys: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Uransa lopettaneet pohjoismaiset kilpaurheilijat Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) 1) Onko ryhmien keskiarvoissa eroa perusjoukossa? Auttaako liikuntainterventio toimintakyvyn ylläpitämistä? 2) Onko keskiarvoeroja itsearvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Käytetään varianssianalyysiä tutkimuskysymykseen 2. Polven ojennusvoiman testissä käytetään kahta muuttujaa; - Vastemuuttuja: polven ojennusvoima - Ryhmäindikaattori: itsearvioitu terveys

Kahden riippumattoman otoksen keskiarvojen vertailu Tutkimushypoteesi Itsearvioidun terveyden ryhmissä polvenojennusvoima on korkeampi paremman terveyden ryhmissä (μ 1 > μ 2 > μ 3 ) Markolla ei ole tietoa, onko näin Valitaan kaksisuuntainen vastahypoteesi Testaushypoteesit Nollahypoteesi: H 0 : μ 1 = μ 2 = μ 3 Vastahypoteesi: H 1 : Vähintään yhden ryhmäparin keskiarvoissa on eroa μ 1 μ 2 = μ 3 μ 1 = μ 2 μ 3 μ 1 μ 2 μ 3

Polven ojennusvoimassa normaalijakautuneisuus. Varianssit yhtä suuria. Ei eroja η 2 = 43431.322 / 783555.923 = 0.5542849 Selitysaste Itsearvioitu terveys Selittää noin 5.5 % polven ojennusvoiman vaihtelusta.

Kävelynopeudessa normaalijakautuneisuus. Varianssit yhtä suuria. On eroja η 2 = 2.307 / 12.998 = 0.1774888 Selitysaste Itsearvioitu terveys Selittää noin 17.7 % kävelynopeuden vaihtelusta. Ero näkyy hyvän terveyden keskiarvon osalta suhteessa heikkoon (p = 0.034) ja keskinkertaiseen (p = 0.013).

Taulukko 2. Keskiarvot, keskihajonnat (SD) ja ryhmävertailujen p-arvot itse arvioidun terveyden ryhmissä. Heikko Keskinkertainen Hyvä Keskiarvo SD Keskiarvo SD Keskiarvo SD p-arvo (ANOVA) Polvenojennusvoima 567 123 523 131 592 114 0.247 Kävelynopeus 1.37 0.54 1.32 0.42 1.79 0.43 0.008 Tasapainotesti 37 6.3 37 4.9 42 5.8 0.010 Hyvä eroaa tilastollisesti merkitsevästi (p < 0.05) heikosta ja keskinkertasesta.

Kyllä Data: järjestysast. Ei Jatkuva, normaali Kyllä Yhtä suuret varianssit Kyllä Varianssianalyysi Ei Suuria poikkeavia arvoja Ei Ei Kruskal- Wallis Ei Brown-Forsythe Welsh Kyllä Mediaani testi Valintakaavio: Kolmen tai useamman riippumattoman ryhmän jakauman keskikohdan vertailu

RIIPPUVUUS Korrelaatiokertoimen merkitsevyystestaus Ongelma: Onko korrelaatiokertoimen arvo nollasta poikkeava perusjoukossa? Hypoteesit: Nollahypoteesi H 0 : ρ = 0 Muuttujat ovat riippumattomia Vastahypoteesi (valitaan vain yksi) H 1 : ρ 0 H 1 : ρ < 0 H 1 : ρ > 0 Muuttujat riippuvat toisistaan Muuttujien välillä on negatiivinen korrelaatio Muuttujien välillä on positiivinen korrelaatio

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Oletukset: Muuttujat vähintään järjestysasteikollisia Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Testisuure: lasketaan korrelaatiokertoimen, r, ja otoskoon, n, avulla: t r r n 2 2 2 1 r / n 2 1 r ~ t(df) Vapausasteet: lasketaan otoskoon avulla: df = n 2

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Johtopäätökset Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Muuttujien välillä sanotaan silloin olevan riippuvuutta. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea. Tällöin muuttujia pidetään toisistaan riippumattomia.

ESIMERKKI Sari: Aineisto: Ryhmä naisia, tutkimus on osa geneettistä analyysia Kolme muuttujaa: Kehon painoindeksi (kg/m 2 ) Fyysinen aktiivisuus (MET, energiankulutus suhteessa lepotilaan) Kävelynopeus (m/s) Tutkimuskysymys: Onko painoindeksin, fyysisen aktiivisuuden määrän ja kävelynopeuden välillä riippuvuutta? Käytetään korrelaatiokerrointa kehon painoindeksin ja kävelynopeuden välisen riippuvuuden tarkastelemiseksi. Tarkastelussa käytetään kahta muuttujaa; - Kehon painoindeksi - Kävelynopeus

ESIMERKKI Testaushypoteesit: H 0 : ρ = 0 Muuttujat ovat riippumattomia H 1 : ρ 0 Muuttujat riippuvat toisistaan Oletukset: Muuttujat ovat jatkuvia Riippumaton otos perusjoukosta Normaalijakautuneisuus

Lineaarisuus Normaalijakautuneisuus Statistic Std.Error Skew: 0.50 (0.13) Kurtosis: 0.99 (0.25) Statistic Std.Error Skew: -0.08 (0.13) Kurtosis: -0.07 (0.25) LOESS Regressiosuora Valitaan korrelaatiotarkastelun riskitasoksi 0.05.

p < 0.001 (Tarkka p-arvo: 5.996 10-10 ) Nollahypoteesi hylätään ja kävelynopeuden ja kehon painoindeksin välillä sanotaan olevan kohtalaista negatiivista riippuvuutta. Raportointi: Kävelynopeuden ja kehonpainoindeksin välillä havaittiin kohtalainen negatiivinen riippuvuus (r = -0.30, p < 0.001). Walking speed and body mass index were moderately negatively correlated (r = -0.30, p < 0.001). Useamman muuttujaparien tilanteessa raportoidaan korrelaatiomatriisi.

χ 2 -RIIPPUMATTOMUUSTESTI Ongelma: Onko kahden vähintään luokitusasteikollisen muuttujan välinen riippuvuus tilastollisesti merkitsevää? Nollahypoteesinmukaisessa tilanteessa mm. rivijakaumat ovat samanlaiset. x 1 x 2 x 3 y 1 f 11 f 12 f 13 y 2 f 21 f 22 f 23 Hypoteesit H 0 : f ij = e ij eli muuttujat ovat riippumattomia H 1 : f ij e ij eli muuttujat riippuvat toisistaan

χ 2 -RIIPPUMATTOMUUSTESTI Oletukset Muuttujat ovat vähintään luokitusasteikollisia. Otos on satunnaisotos. Kaikki odotetut frekvenssit ovat suurempia kuin 1. Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5. Riskitaso Valitaan sopiva α-taso (0.05 / 0.01 / 0.001).

χ 2 -RIIPPUMATTOMUUSTESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p < α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että muuttujien välillä on riippuvuutta. Jos p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesia ei voida hylätä ja sanotaan, että muuttujien välillä ei ole riippuvuutta.

ESIMERKKI Haluttiin selvittää oliko alkumittauksessa mitattu tutkittavien oma arvio terveydentilastaan yhteydessä seurannan loppuun mennessä havaittuun kuolleisuuteen 75-vuotiailla jyväskyläläisillä Terveydentila: (1 = hyvä, 2 = tyydyttävä, 3 = huono) Kuolleisuus: (0 = kuollut, 1 = elossa) Hypoteesit Kuten edellä esitettiin. Valitaan vastahypoteesi kaksisuuntaiseksi Oletukset Muuttujat ovat luokitusasteikollisia. Kyseessä on satunnaisotos. Tarkastetaan frekvenssioletukset myöhemmin Riskitaso Valitaan riskitasoksi 0.05.

Χ 2 -RIIPPUMATTOMUUSTESTI (5) Nähdään, että pienin odotettu frekvenssi on 18.2, joten frekvenssioletukset ovat kunnossa.

χ 2 -RIIPPUMATTOMUUSTESTI (6) Nollahypoteesi ei saa tukea, koska p < 0.05. Tulkinta: Seurannan päättyessä elossa olleet arvioivat alkumittauksen terveytensä paremmaksi (p < 0.001).