RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Otantajakauma

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

10. laskuharjoituskierros, vko 14, ratkaisut

Sovellettu todennäköisyyslaskenta B

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Mat Sovellettu todennäköisyyslasku A

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollinen aineisto Luottamusväli

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testejä suhdeasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Mat Tilastollisen analyysin perusteet, kevät 2007

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Perusnäkymä yksisuuntaiseen ANOVAaan

tilastotieteen kertaus

Otoskoko 107 kpl. a) 27 b) 2654

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testit laatueroasteikollisille muuttujille

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Sovellettu todennäköisyyslaskenta B

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Matemaatikot ja tilastotieteilijät

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

dx=5&uilang=fi&lang=fi&lvv=2014

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

pisteet Frekvenssi frekvenssi Yhteensä

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Testit järjestysasteikollisille muuttujille

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Tilastotieteen jatkokurssi syksy 2003 Välikoe

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

031021P Tilastomatematiikka (5 op) viikko 5

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Transkriptio:

RISKITASO Riskitaso (α) määrittää virhepäätelmän todennäköisyyden testattaessa Todennäköisyys, jolla tutkija on valmis hylkäämään nollahypoteesin, vaikka se saattaisikin pitää perusjoukossa paikkansa Käytettyjä riskitasoja: α= 0.05, jos p< α: melkein merkitsevä (*) α= 0.01, jos p< α: merkitsevä (**) α= 0.001, jos p< α: erittäin merkitsevä (***)

P-ARVO Esim. todennäköisyys havaita itseisarvoltaan yhtä suuri tai suurempi testisuureen arvo, joka on otoksesta laskettiin Suuret p-arvot tukevat nollahypoteesia Pienet p-arvot tukevat nollahypoteesin hylkäämistä ja vastahypoteesi saa tukea Yksisuuntaisen testauksen p-arvo on puolet kaksisuuntaisen testauksen p-arvosta P-arvon otsikkona SPSS-tulosteissa on usein Sig (lyhenne sanasta significance)

P-ARVON TULKINTA p-arvoa tulkitaan suhteessa riskitasoon (α) Jos p< α, hylätään nollahypoteesi testin tuloksena. Jos p> α, jää nollahypoteesi testin perusteella voimaan.

OLETUKSET Tilastollisessa testauksessa hyödynnetään matemaattisesti teoreettisia otantajakaumia Mm. mitta-asteikosta ja aineiston ominaispiirteistä johtuen muuttujat soveltuvat testeille eri tavoin Jotta testauksen tulos olisi mielekkäästi tulkittavissa, tulee aineiston täyttää (pääosin) testin oletukset Esim. keskiarvotesteissä oletetaan yleensä muuttuja normaalijakautuneeksi ja, jos tarkastellaan ryhmiä, ryhmien hajonnan tulisi olla samalla suuruusluokalla Jos testin oletukset eivät täyty, voidaan testausta suorittaa jollain vaihtoehtoisella testillä (epäparametriset testit) tai käyttää sopivaa muunnosfunktiota, jolla aineisto saadaan testin oletuksille sopivaksi

NORMAALIJAKAUTUNEISUUS 1. Tarkastele kuvaajia (histogrammi ja kvantiilikuviot) 2. Tarkasta vinous- ja huipukkuusarvot (< 2, normaalijak.) 3. Tee vinouden ja huipukkuudentestit (g / s.e.[g]) 4. Tee tilastollinen testi (Shapiro-Wilk; Kolmogorov- Smirnov) (5. Vertaa epäparametrisen testin tulokseen) (6. Käytä simulaatiota) HUOM. Kun vertaillaan ryhmiä esim. keskiarvotestejä varten, tulisi normaalijakautuneisuus varmistaa kullekin ryhmälle erikseen eikä muuttujan kokonaisjakaumalle

Molemmat merkitseviä ja arvoltaan > 2 Molemmat merkitseviä, mutta arvoltaan < 2

HISTOGRAMMI Jyväskyläläisten 75-vuotiaiden naisten histogrammi kuulokynnysmuuttujalle Jyväskyläläisten 75-vuotiaiden naisten histogrammi kolesterolimuuttujalle

HISTOGRAMMI Jyväskyläläisten 75-vuotiaiden naisten histogrammi kuulokynnysmuuttujalle Jyväskyläläisten 75-vuotiaiden naisten histogrammi kolesterolimuuttujalle

KVANTIILIKUVIO(Q-Q PLOT) Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

DETRENDED Q-Q PLOT Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

BOX PLOT Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

NORMAALIJAKATUNEISUUDEN TESTAUS H 0 : Muuttuja on perusjoukossa normaalisti jakautunut. H 1 : Muuttuja ei ole perusjoukossa normaalisti jakautunut. Jos muuttuja on normaalisti jakautunut testin p-arvo (Sig.) on suuri, suurempi kuin valittu riskitaso, esim. 0.05 Kolmogorov-Smirnovin testiä käytetään usein kun n > 50. Huom. Testin merkitsevyyteen vaikuttaa myös otoskoko: Suuremmissa otoksissa pienikin jakauman poikkeavuus aiheuttaa tilastollisesti merkitsevän tuloksen

VARIANSSIEN YHTÄ SUURUUS Keskiarvojen ryhmävertailussa oletetaan hajonnan olevan samalla tasolla ryhmissä Oletuksen voimassaoloa voi testata Levenen testillä Kun testataan k kpl ryhmiä: H 0 : Ryhmien varianssit ovat yhtä suuret (s 12 = = s k2 ). H 1 : Ryhmien varianssit eivät ole yhtä suuret. Esim. pituusmuuttujan varianssit siviilisäätyryhmissä p= 0.532 > 0.05, joten variansseja voi pitää yhtä suurina riskitasolla 0.05.

MUUT VAIHEET Riskitason valinta suoritetaan tutkimuskysymyksen perusteella, ei otostiedon pohjalta Tämän jälkeen voidaan laskea testisuureen arvo ja määrittää p-arvo, jonka pohjalta nollahypoteesin hyväksytään tai hylätään testin perusteella Lopuksi tulokset raportoidaan Näitä asioita tarkastellaan lähemmin eri testien yhteydessä

χ 2 -RIIPPUMATTOMUUSTESTI Ongelma: Onko kahden vähintään luokitusasteikollisen muuttujan välinen riippuvuus tilastollisesti merkitsevää? Nollahypoteesinmukaisessa tilanteessa mm. rivijakaumat ovat samanlaiset. x 1 x 2 x 3 y 1 f 11 f 12 f 13 y 2 f 21 f 22 f 23 Hypoteesit H 0 : f ij = e ij H 1 : f ij e ij eli muuttujat ovat riippumattomia eli muuttujat riippuvat toisistaan

χ 2 -RIIPPUMATTOMUUSTESTI Oletukset Muuttujat ovat vähintään luokitusasteikollisia. Otos on satunnaisotos. Kaikki odotetut frekvenssit ovat suurempia kuin 1. Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5. Riskitaso Valitaan sopiva α-taso(0.05 / 0.01 / 0.001). Testisuure Lasketaan kuten aikaisemmin esitettiin (ks. Riippuvuus)

χ 2 -RIIPPUMATTOMUUSTESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p< α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että muuttujien välillä on riippuvuutta. Jos p-arvo on suurempi kuin riskitaso(p> α), nollahypoteesia ei voida hylätä ja sanotaan, että muuttujien välillä ei ole riippuvuutta.

ESIMERKKI Haluttiin selvittää oliko alkumittauksessa mitattu tutkittavien oma arvio terveydentilastaan yhteydessä seurannan loppuun mennessä havaittuun kuolleisuuteen 75-vuotiailla jyväskyläläisillä Terveydentila: 1 = hyvä, 2 = tyydyttävä, 3 = huono Kuolleisuus: 0 = kuollut, 1 = elossa Hypoteesit Kuten edellä esitettiin. Valitaan vastahypoteesi kaksisuuntaiseksi Oletukset Muuttujat ovat luokitusasteikollisia. Kyseessä on satunnaisotos. Tarkastetaan frekvenssioletus myöhemmin Riskitaso Valitaan riskitasoksi 0.05.

Χ 2 -RIIPPUMATTOMUUSTESTI(5) Nähdään, että pienin odotettu frekvenssi on 18.2, joten frekvenssioletukset ovat kunnossa.

χ 2 -RIIPPUMATTOMUUSTESTI(6) Nollahypoteesi ei jää voimaan, koska p< 0.05.

JÄÄNNÖKSET Jäännös Usein hankala tulkita Standardoitu jäännös = ( ) = Rivi: i= 1,, g Sarake: j= 1,, h Jos itseisarvo r (S)ij 1.96 ~ 2, merkittävä kontribuutio riippuvuuteen Tällaisia soluja ei aina löydy, vaikka χ 2 olisi merkitsevä Adjustoitu jäännös () = Jos itseisarvo r (A)ij 1.96 ~ 2, merkittävä kontribuutio riippuvuuteen

Jäännökset (Residual): suhteellinen tulkinta (suurempi vs. pienempi). Standardoidut jäännökset (Std. Residual): heikon terveyden ryhmässä itseisarvo > 2. Adjustoidut jäännökset (Adjusted Residual): hyvä vs. huono

TESTAUKSEN YHTEENVETO Testaushypoteesit: mitä testataan? Nollahypoteesi (ja vastahypoteesi) Oletukset: sopiiko testi aineistolle? Satunnaisotanta, normaalijakautuneisuus jne. Riskitaso: millä tasolla tulkitaan p-arvoa? α= 0.05, 0.01 tai 0.001 p-arvo: testin tulos nollahypoteesin suhteen Jos p> α, nollahypoteesi jää voimaan Jos p< α, nollahypoteesi hylätään

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

KESKIARVOTESTIT Yhden otoksen keskiarvon testaus Ongelma: Onko perusjoukon keskiarvo sama kuin vertailuarvo? Esim. Poikkeaako jyväskyläläisten miesten kokonaiskolesterolin keskimääräinen arvo merkitsevästi arvosta 5 mmol/l? Hypoteesit: H 0 : µ= µ 0 H 1 : µ µ 0 tai H 1 : µ< µ 0 H 1 : µ> µ 0 Otoksesta laskettu keskiarvo on vertailuarvon suuruinen Keskiarvo poikkeaa vertailuarvosta Keskiarvo on pienempi kuin vertailuarvo Keskiarvo on suurempi kuin vertailuarvo

YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) Muuttuja on likimain normaalijakautunut perusjoukossa Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

YHDEN OTOKSEN KESKIARVON TESTAUS Testisuure: perusjoukon keskihajonta tiedetään tai n> 30 standardoitu normaalijakauma, ks. luentomoniste, liite. yleisemmin keskihajontaa ei tiedetä (lasketaan otoksesta) ja / tai n < 30; käytetään Studentin t-jakaumaa: Vapausasteet: t x µ 0 s/ n = ~ t(df) lasketaan otoskoon avulla: df= n-1 x µ 0 s n Otoskeskiarvo Vertailuarvo Otoskeskihajonta Otoskoko

YHDEN OTOKSEN KESKIARVON TESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesia ei hylätä.

YHDEN OTOKSEN KESKIARVON TESTAUS Esimerkki Haluttiin tarkastaa yleisen uimarannan bakteeripitoisuus. Bakteerikanta ei saisi ylittää 200 yksikköä. Otettiin satunnaisista paikoista 10 vesinäytettä, joiden bakteeripitoisuuden keskiarvo oli 194.8 yksikköä ja keskihajonta 13.14. Onko uimarannan vesi riittävän puhdasta? Hypoteesit Valitaan yksisuuntainen vastahypoteesi, sillä tämän asian kannalta ei ole merkitystä, jos bakteerikanta on yli 200 yks.: H 0 : µ= 200 H 1 : µ< 200

YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset Muuttuja on suhdeasteikollinen Mittauspaikat on valittu satunnaisesti Normaalijakautuneisuus oletetaan voimassa olevaksi (data ei ole saatavilla, joten oletetaan olevan voimassa) Riskitaso Valitaan 0.05, sillä asialla on suhteellisen vakavat seuraukset Testisuure = x s/ µ df= 10 1 = 9 Johtopäätös 194.8 200 t p= 0.211 n 0 = = 13.14 / 10 1.25 Keskiarvo ei ole alle 200, sillä p> 0.05, ja veden bakteeripitoisuutta voidaan siis pitää hälyttävänä.

TESTIN JA LUOTTAMUSVÄLIN YHTEYS Aikaisempien tutkimusten perusteella määritettiin painon keskiarvoksi 75-vuotiaiden jyväskyläläisille miehille 74 kg. Uudesta otoksesta lasketaan painon keskiarvoksi vastaavassa otoksessa 80 kg (keskihajonta 10 kg). Jos n= 100 95 % luottamusväli keskiarvolle [78.04, 81.96]; 74 ei sijaitse välillä, joten merkitsevä ero suhteessa vertailuarvoon riskitasolla 0.05 Testi H 0 : µ= 74, p< 0.001: nollahypoteesi hylätään, joten merkitsevä ero suhteessa vertailuarvoon

Kahden riippumattoman otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri kuin göteborgilaisten miesten? Hypoteesit: H 0 : µ 1 = µ 2 Keskiarvot ovat yhtä suuret (µ 1 -µ 2 = 0) H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on pienempi kuin ensimmäisen ryhmän

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) ja tarkasteltavat kaksi ryhmää ovat riippumattomia toisistaan Muuttuja on likimain normaalijakautunut kummassakin perusjoukossa Perusjoukon varianssit ovat yhtä suuret. Jos ovat erisuuret, käytetään erilaista menettelyä kuin tässä esitellään. Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure: Lasketaan yhteinen varianssiestimaatti s 2 s = ( n 1 2 1) s1 + ( n2 1) s n + n 2 1 2 2 2 Sitten keskiarvojen erotuksen t-testisuure: t 1 2 = ~ t(df) s/ x 1 /n + 1/n 1 x Vapausasteet: lasketaan otoskokojen avulla: df= n 1 + n 2-2 2

Kahden riippumattoman otoksen keskiarvojen vertailu Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea Esim. jos riskitaso on α= 0.05, hylätään nollahypoteesi, jos p-arvo on tätä pienempi.

Kahden riippumattoman otoksen keskiarvojen vertailu Esimerkki Tarkastellaan kehon rasvatonta painoa 75- vuotiailla jyväskyläläisillä ja göteborgilaisilla miehillä. Molemmista perusjoukoista on kerätty satunnaisotos ja havaittiin: Hypoteesit jyväskyläläiset: n 1 = 104, x 1 = 57.43 (s 1 = 6.35) göteborgilaiset: n 2 = 118, x 2 = 59.37 (s 2 = 6.43) Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole tietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset Muuttuja on suhdeasteikollinen Otokset satunnaisotoksia ja riippumattomia toisistaan Normaalijakautuneisuus: KS-testin perusteella havaitaan: Kolmogorov-Smirnov Paikkakunta Statistic df Sig. NC2618 Kehon 1 Jyväskylä,080 104,101 rasvaton paino 2 Göteborg,061 118,200* Varianssit oletetaan yhtä suuriksi (testauksesta myöhemmin) Riskitaso Valitaan 0.05, joka on yleisesti käytetty riskitaso tutkimuksessa.

Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure s = ( n 2 1) s1 ( n2 1) s n + n 2 2 (104 1)6.35 (118 1)6.43 104 + 118 2 2 2 1 2 = = 1 2 6.39 t = s/ x x 1/n1 + 1/n2 6.39 57.43 59.37 1/104 + 1/118 1.94 0.86 1 2 = = = 2.26 df= 104 + 118 2 = 220 p= 0.025 Johtopäätös Nollahypoteesi hylätään, koska p< 0.05, ja sanotaan, että kehon rasvattoman painon keskiarvot eroavat toisistaan.

Normaalijakautuneisuus ryhmittäin

H 0 : Muuttuja on normaalistijakautunut.

Esim. suhteellisen tarkka 95 % luottamusväli: 57.433 ±1.96 0.6222 H 0 : s 12 = s 2 2 H 0 : µ 1 = µ 2 Jyväskyläläisten ja göteborgilaisten miesten ryhmien variansseja voitiin pitää yhtä suurina (p = 0.979). Paikkakuntien välillä keskimääräinen rasvaton kehonpaino oli göteborgilaisilla miehillä n. 2 kg korkeampi kuin jyväskyläläisillä miehillä (t= -2.26, df= 220, p= 0.025).

RAPORTOINTI Table 1. Means, standard deviations(sd) and group comparisonp-valuesfor 75-year-old menlivingin Jyväskylä and Göteborg in 1989. Jyväskylä (n = 103) Göteborg (n = 116) Mean SD Mean SD p-value Lean body mass 57.4 6.35 59.4 6.42 0.034 Glucose 5.82 1.44 5.55 2.53 0.348 Waist girth 93.1 9.99 94.3 8.37 0.354 Diastolic blood pressure 85.7 9.31 81.6 11.04 0.003 HUOM. Puuttuvien tietojen käsittely: listwise-poisto.

VARIANSSIANALYYSI Varianssianalyysillä ei testata varianssien yhtä suuruutta Varianssianalyysillä yleisenä käsitteenä viitataan erityyppisiin keskiarvojenvertailujen analyyseihin Yksisuuntaisessa varianssianalyysissä vertaillaan yhden jatkuvan muuttujan keskiarvoja toisen, luokittelevan muuttujan eri luokissa. Tällöin siis tarkastellaan yhden selitettävän muuttujan keskiarvojen (tasot) vaihtelua luokitteluasteikollisen selittävän muuttujan (käsittelyt) mukaan. Selitettävä muuttuja (esim. pituus, cm) jaetaan luokittelevan muuttujan (esim. koulutustausta, kolmiluokkainen muuttuja) perusteella ryhmiin ja keskiarvojen yhtä suuruutta tarkastellaan näissä ryhmissä

VARIANSSIANALYYSIN VAIHEET Olkoon vertailtavia ryhmiä k kpl Hypoteesit: H 0 : µ 1 = µ 2 = = µ k (kaikkien ryhmien keskiarvot ovat yhtä suuret) H 1 : Vähintäänyhden ryhmän keskiarvo poikkeaa muiden ryhmien keskiarvoista Oletukset: 1) selitettävä muuttuja vähintään välimatkaasteikollinen 2) perusjoukkojen jakaumat normaaliset 3) perusjoukkojen varianssit yhtä suuret 4) perusjoukoista poimittujen otosten täytyy olla toisistaan riippumattomia [5) ryhmät yhtä suuria]

VARIANSSIHAJOTELMA Varianssianalyysissä vertaillaan ryhmien välistä vaihtelua ryhmien sisäiseenvaihteluun varianssien kaltaisilla neliösummilla Ryhmien välinen vaihtelu (Between, SS b ) kertoo siitä, kuinka paljon ryhmittelevä muuttuja selittää ryhmien välisiä keskiarvoeroja. Ryhmien sisäinen vaihtelu (Within, SS w ) kertoo ryhmän sisällä olevan vaihtelun määrää, jota ei pystytä selittämään ryhmittelevällä muuttujalla. Kokonaisvaihteluksi saadaan: SS TOTAL = SS b + SS w Testisuure Flasketaan neliösummien pohjalta keskimääräinen ryhmien välinen vaihtelu suhteessa ryhmien sisäiseen vaihteluun

VARIANSSIANALYYSI Riskitaso ja kriittinen alue:riskitaso αvalitaan kuten muissa keskiarvotesteissä. Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea Jos nollahypoteesi hylätään testin tuloksena, voidaan selvittää keskiarvoparien välisten erojen merkitsevyyttä parittaisilla ryhmävertailutestillä

PARITTAISET RYHMÄVERTAILUT Varianssianalyysin merkitsevä tulos kertoo, että ainakin yhden ryhmäparin keskiarvoero on merkitsevä Parittaisiavertailuja ei yleensä tehdä t-testeinä, koska todennäköisyys löytää sattumanvarainen merkitsevä ero ainakin yhdessä keskiarvoparissa kasvaa Varianssianalyysin yhteydessä: parittaisia keskiarvovertailuja on sallittua käyttää vasta, kun varianssianalyysin nollahypoteesi hylätään H 0 : µ i = µ j, i=1,, k; j= 1,, k; i j H 1 :µ i µ j Erilaisia menetelmiä Varianssit yhtä suuret: LSD, Tukey, Scheffe, Bonferroni Varianssit eivät yhtä suuret: TamhaneT2 Lisää ks. Toothaker, 1991

ESIMERKKI Tutkija selvittää eri kävelykyvyn suhdetta kehon rasvaprosentin tasoon Rasvaprosentti on jatkuva muuttuja Kävelykykymuuttuja on tutkittavan arvio kyvystä kävellä ulkona huonolla säällä Ei vaikeuksia (1) Kävelee aikaisempaa hitaammin (2) On vaikeuksia tai ei kykene (3) Tarkasteltavina ovat jyväskyläläiset 75-vuotiaat naiset

Normaalijakautuneisuus oli voimassa ja varianssit voidaan olettaa yhtä suuriksi (p = 0.552). Ryhmien rasvaprosenttikeskiarvoissa on ero / eroja (p= 0.028). η 2 = 342.775 / 9124.550 = 0.0376 (n. 3.7 %) Kävelykyky selitti rasvaprosentin vaihtelusta n. 3.7 %. Parittaiset vertailut osoittavat vain kävelykyvyn ääripäiden välillä olevan merkitsevää eroa (p= 0.029).

Kahden riippuvan otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret, kun ryhmien välillä on riippuvuutta? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri 75 vuotiaana kuin 80 vuotiaana? Hypoteesit: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 pienempi Keskiarvot ovat yhtä suuret Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on kuin ensimmäisen ryhmän

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Riippuvuus Riippuvuutta voi otosten välillä aiheuttaa seuranta-asetelma (alku-vs. seurantamittaukset), kaksosasetelma (kaksosparien vertailu) Esim. seurantatilanteessa voidaan merkitä esim. kehon rasvaprosenttia alkumittauksessa (X) ja seurantamittauksessa (Y) Oletukset: Muuttuja on vähintään välimatka-asteikollinen Havaintoparit riippumaton otos perusjoukosta Vastinparien erotus (d i = x i y i ) on perusjoukossa normaalisti jakautunut (erotusmuuttujaa D voidaan testata esim. KStestillä) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure: Lasketaan erotusten d i keskiarvo ja keskihajonta: d n d i = =1 n i s d = n i= 1 ( di d ) n 1 2 Sitten keskiarvojen erotuksen t-testisuure: t s d d = ~ t(df) / n Vapausasteet: lasketaan otoskoon avulla: df= n 1

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Esimerkki Lääketehdas on tuottanut kaksi unilääkettä UNI1 ja UNI2. Nyt halutaan tietää kumpi lääke antaa pidemmän unen. Valitaan satunnaisotannallakoehenkilöt, jotka ottavat molempia uni-lääkkeitä ja kertovat unen pituuden. Aineiston perusteella tarkastellaan, onko unilääkkeillä eroa saavutetun nukkumisajan suhteen. Kh UNI1 UNI2 1 6 7 2 3 3 3 3 5 4 4 3 5 8 8 6 2 3 7 2 4 8 9 9 9 5 4 10 4 5 Yhteensä 46 51 Keskiarvo 4.6 5.1

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Unimäärä (tuntia) 10 9 8 7 6 5 4 3 2 1 0 Keskiarvo UNI1 UNI2 8 5 1 10 39 7 4 2 6

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Hypoteesit Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole ennakkotietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Oletukset Satunnaisotos ja suhdeasteikollinen muuttuja Erotusten jakauma on normaali KS-testillä Kolmogorov-Smirnov testattuna: Statistic df Sig. Riskitaso D,178 10,200* Valitaan α = 0.05, koska seuraukset eivät ole vakavat.

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure s d t = = = s/ d ( 5) 13 10 10 1 d n 2 i ( d n n 1 2 = 1.08 0.5 = 1.08/ 10 = 1.46 Johtopäätös: Nollahypoteesi jää voimaan, sillä p> 0.05. i ) p= 0.178 2 Kh UNI1 UNI2 d i d 2 i 1 6 7-1 1 2 3 3 0 0 3 3 5-2 4 4 4 3 1 1 5 8 8 0 0 6 2 3-1 1 7 2 4-2 4 8 9 9 0 0 9 5 4 1 1 10 4 5-1 1 Yhteensä 46 51-5 13 Keskiarvo 4.6 5.1-0.5

H 0 : Muuttuja on normaalistijakautunut.

H 0 : ρ= 0 H 0 : µ 1 = µ 2