TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Samankaltaiset tiedostot
RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Otantajakauma

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Väliestimointi (jatkoa) Heliövaara 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

10. laskuharjoituskierros, vko 14, ratkaisut

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollinen aineisto Luottamusväli

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Mat Sovellettu todennäköisyyslasku A

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Testit järjestysasteikollisille muuttujille

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

tilastotieteen kertaus

Testit laatueroasteikollisille muuttujille

MTTTP1, luento KERTAUSTA

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

11. laskuharjoituskierros, vko 15, ratkaisut

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

MTTTP1, luento KERTAUSTA

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MTTTP5, luento Luottamusväli, määritelmä

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

riippumattomia ja noudattavat samaa jakaumaa.

Otoskoko 107 kpl. a) 27 b) 2654

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

dx=5&uilang=fi&lang=fi&lvv=2014

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

MTTTP1, luento KERTAUSTA

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Sovellettu todennäköisyyslaskenta B

Matemaatikot ja tilastotieteilijät

Transkriptio:

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

ESIMERKKI TILASTOLLISESTA HYPOTEESIN TESTAAMISESTA Ennen aineiston keräämistä B on selvittänyt, että: Suuressa yhdysvaltalaisessa kartoituksessa vastaavan tyyppisen perusjoukon pituuden keskiarvoksilaskettiin 180 cm. Tutkimuskysymys: Voiko B:n otoksesta laskettua keskiarvoa pitää yhtä suurena amerikkalaistutkimuksen kanssa? Tutkimushypoteesi: (Hän olettaa, että omasta) otoksesta laskettu keskiarvo on yhtä suuri kuin yhdysvaltalaisessa tutkimuksessa. Tilastolliset hypoteesit: Nollahypoteesi: Pituuden keskiarvot ovat yhtä suuret. Vastahypoteesi: Keskiarvot eivät ole yhtä suuret. Huom. B ei tiedä mihin suuntaan mahdollinen ero voisi esiintyä, jos sitä löytyy, siksi hän valitsee kaksisuuntainen vastahypoteesin

ESIMERKKI TILASTOLLISESTA HYPOTEESIN TESTAAMISESTA Koska otoskoko on pieni (n= 3), B pitää mahdollista eroa tärkeänä, jos tutkimuksessa todennäköisyys havaita ero keskiarvoissa on korkeintaan 5 % (ts. riskitaso on 0.05) B kerää aineiston ja tarkastaa testin oletukset Hänen kokoamansa otos on satunnaisotos Samoin kerrotaan amerikkalaistutkimuksen otoksesta Hänen otoksensa on vain kolme tutkittavaa, joten hän olettaa jakauman perusjoukossa noudattavan normaalijakaumaa Amerikkalaistutkimuksessa pituuden havaittiin noudattavan normaalijakaumaa

ESIMERKKI Testisuure Otos Otoskeskiarvo Keskivirhe Otantayksiköt perusjoukossa : : : : : : 7 171.77 4.93 1 3 6 : : : : : : = =. /. Itseisarvo: t = 1.669 =.. 1.669 =2 1 Γ(+1 2 ) Γ( 1+ 2 ) (!) Kuinka todennäköistä on havaita yhtä suuri ero (kuin tässä) tai suurempi ero keskiarvojen välillä, kun oletetaan, että nollahypoteesi pitää perusjoukon tasolla paikkansa? Todennäköisyys (p-arvo): 0.23707 Määritetään t-jakaumalta integroimalla Mitä pienempi p-arvo, sitä suurempi ero on kyseessä Johtopäätös: Koska p-arvo > riskitaso (ts. 0.237 > 0.05), todetaan ettei keskiarvojen välillä ole tilastollisesti merkitsevää eroa (nollahypoteesi jää voimaan). B laskee, että jos otoskoko olisi ollut 7, niin p-arvo = 0.04353. Keskiarvoero on yli 8 cm

TILASTOLLINEN HYPOTEESIEN TESTAUS On olemassa ennakkokäsitys tarkasteltavan parametrin mahdollisesta arvosta Testaamisen tarkoitus on selvittää, pitääkö tällainen ennakkokäsitys paikkansa Testaamista varten määritetään toisensa poissulkevat testaushypoteesit: nollahypoteesija vastahypoteesi Tekninen määritelmä: sopivan testin perusteella selvitetään onko otosinformaatio sopusoinnussa nollahypoteesin mukaisen parametriarvon kanssa, vai onko joku muu arvo todennäköisempi

TESTAUKSEN TÄRKEIMMÄT VAIHEET 1. Testaushypoteesit: mitä testataan? Nollahypoteesi (ja vastahypoteesi) 2. Riskitaso: millä tasolla tulkitaan p-arvoa? α= 0.05, 0.01 tai 0.001 3. Oletukset: sopiiko testi aineistolle? Satunnaisotanta, normaalijakautuneisuus jne. 4. p-arvo: testin tulos nollahypoteesin suhteen Jos p> α, nollahypoteesi jää voimaan Jos p< α, nollahypoteesi hylätään Ennen aineiston tarkastelua Periaatteessa ennen aineiston tarkastelua Aineiston pohjalta

TESTAUSHYPOTEESIT ESIMERKKI: KAHDEN RYHMÄN KESKIARVOJEN VERTAILU Testaushypoteesit Tutkimushypoteesi Nollahypoteesi Vastahypoteesi µ 1 = µ 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Poikien (1) liikunta-aktiivisuus on keskimäärin samalla tasolla kuin tytöillä (2). µ 1 < µ 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 tai H 1 : µ 1 <µ 2 Poikien (1) liikunta-aktiivisuus on keskimäärin vähäisempää kuin tytöillä (2). µ 1 > µ 2 H 0 : µ 1 = µ 2 Poikien (1) liikunta-aktiivisuus on keskimäärin korkeampaa kuin tytöillä (2). H 1 : µ 1 µ 2 tai H 1 : µ 1 >µ 2 Liikunta-aktiivisuus = liikuntaan käytetty aika

OLETUKSET Testausoletukset: matemaattiset olosuhteet, joissa tilastollinen testi on järkevää suorittaa Kaikissa testeissä: tarkastellaan satunnaisotosta Keskiarvotesteissä: normaalijakautuneisuus, varianssien yhtä suuruus Korrelaatiot: normaalijakautuneisuus Jos testillä on oletuksia, niiden voimassaolo pitää tarkistaa, että voidaan luottaa saatuun testitulokseen Näitä tarkastellaan lähemmin testien yhteydessä HUOM! Kun puhutaan oletuksistatarkoitetaan testien oletuksia, ei tutkimus- tai testaushypoteeseja

P-ARVO Todennäköisyys, jolla saataisiin (itseisarvoltaan) yhtä suuri tai suurempi testisuureen arvo Mitä pienempi p-arvo, sitä suurempi testisuureen arvo Keskiarvotestit: mitä pienempi p-arvo, sitä suurempi ero keskiarvojen välillä Riippuvuustestit: mitä pienempi p-arvo, sitä suurempi riippuvuus Miksei esim. keskiarvoeroa raportoida ainoastaan p-arvolla? Otoksen koko vaikuttaa: mitä suurempi otos sitä pienempi on p-arvo, vaikka keskiarvoero olisi sama Mitä suurempi otoskoko on, sitä pienempi erotus tulee merkitseväksi (vrt. luottamusvälit)

P-ARVO JA RISKITASO p-arvoa tulkitaan suhteessa riskitasoon Riskitaso (α) määrittää virhepäätelmän todennäköisyyden testattaessa Todennäköisyys, jolla tutkija on valmis hylkäämään nollahypoteesin, vaikka se saattaisikin pitää perusjoukossa paikkansa Määritetään ennen testausta Käytettyjä riskitasoja: α= 0.05, jos p< α: melkein merkitsevä (*) α= 0.01, jos p< α: merkitsevä (**) α= 0.001, jos p< α: erittäin merkitsevä (***) Jos p> α, jää nollahypoteesi testin perusteella voimaan. Jos p< α, hylätään nollahypoteesi testin tuloksena.

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

PERUSTESTEJÄ Tarkastellaan eroja Keskiarvotestit Tarkastellaan riippuvuutta Riippuvuustestit Riippumattomat otokset Riippuvat otokset Yhden otoksen t-testi Kahden otoksen t-testi Yksisuuntainen Varianssianalyysi Kahden otoksen t-testi χ 2 -riippumattomuustesti Korrelaatiokertoimen merkitsevyystesti

NORMAALIJAKAUTUNEISUUS Useita menetelmiä Vinouden ja huipukkuuden tunnusluvut Histogrammi Kvantiilikuvio Normaalijakautuneisuuden testit Kun vertaillaan ryhmiä esim. keskiarvotestejä varten, tulisi normaalijakautuneisuus varmistaa kullekin ryhmälle erikseen eikä muuttujan kokonaisjakaumalle Tarkastelun tueksi: normaalijakauma havaittu aikaisemmissa tutkimukset Varsinkin pienille otoksille hyvä tarkistaa SPSS: Analyze/ Descriptive statistics/ Explore

Molemmat merkitseviä ja arvoltaan > 2 Molemmat merkitseviä, mutta arvoltaan < 2

HISTOGRAMMI Jyväskyläläisten 75-vuotiaiden naisten histogrammi kuulokynnysmuuttujalle Jyväskyläläisten 75-vuotiaiden naisten histogrammi kolesterolimuuttujalle

HISTOGRAMMI Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

KVANTIILIKUVIO(Q-Q PLOT) Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

DETRENDED Q-Q PLOT Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

BOX PLOT Jyväskyläläisten 75-vuotiaiden naisten kuulokynnysmuuttuja Jyväskyläläisten 75-vuotiaiden naisten kolesterolimuuttuja

NORMAALIJAKATUNEISUUDEN TESTAUS H 0 : Muuttuja on perusjoukossa normaalisti jakautunut. H 1 : Muuttuja ei ole perusjoukossa normaalisti jakautunut. Jos muuttuja on normaalisti jakautunut testin p-arvo (Sig.) on suuri, suurempi kuin valittu riskitaso, esim. 0.05 Kolmogorov-Smirnovin testiä käytetään usein kuin n > 50. Huom. Testin merkitsevyyteen vaikuttaa myös otoskoko: Suuremmissa otoksissa pienikin jakauman poikkeavuus aiheuttaa tilastollisesti merkitsevän tuloksen

VARIANSSIEN YHTÄ SUURUUS Keskiarvojen ryhmävertailussa oletetaan hajonnan olevan samalla tasolla ryhmissä Oletuksen voimassaoloa voi testata Levenen testillä Kun testataan k kpl ryhmiä: H 0 : Ryhmien varianssit ovat yhtä suuret (s 12 = = s k2 ). H 1 : Ryhmien varianssit eivät ole yhtä suuret. Esim. pituusmuuttujan varianssit siviilisäätyryhmissä p= 0.532 > 0.05, joten variansseja voi pitää yhtä suurina riskitasolla 0.05.

KESKIARVOTESTIT Yhden otoksen keskiarvon testaus Ongelma: Onko perusjoukon keskiarvo sama kuin vertailuarvo? Esim. Poikkeaako jyväskyläläisten miesten kokonaiskolesterolin keskimääräinen arvo merkitsevästi arvosta 5 mmol/l? Hypoteesit: Nollahypoteesi H 0 : µ= µ 0 Otoksesta laskettu keskiarvo on vertailuarvon suuruinen Vastahypoteesit (valitaan vain yksi tutk. kys. perusteella) H 1 : µ µ 0 H 1 : µ< µ 0 H 1 : µ> µ 0 Keskiarvo poikkeaa vertailuarvosta Keskiarvo on pienempi kuin vertailuarvo Keskiarvo on suurempi kuin vertailuarvo

YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) Muuttuja on likimain normaalijakautunut perusjoukossa (vinous, huipukkuus, KS-testi) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

YHDEN OTOKSEN KESKIARVON TESTAUS Testisuure: perusjoukon keskihajonta tiedetään tai n> 30 standardoitu normaalijakauma, ks. luentomoniste, liite. yleisemmin keskihajontaa ei tiedetä (lasketaan otoksesta) ja / tai n < 30; käytetään Studentin t-jakaumaa: Vapausasteet: t x µ 0 s/ n = ~ t(df) lasketaan otoskoon avulla: df= n-1 x µ 0 s n Otoskeskiarvo Vertailuarvo Otoskeskihajonta Otoskoko

VAPAUSASTEET(DEGREES OF FREEDOM) Pienillä otoksilla (n< 30), kun perusjoukon parametrit ovat tuntemattomia keskiarvoeroihin liittyvät otantajakaumat noudattavat likimain Studentin t-jakaumaa Jakauman tarkemman muodon eri otoskokojen kohdalla määrittää vapausasteet (vrt. oheinen kuvio t- jakaumasta) Useilla otantajakaumilla, jakauman muoto riippuu otoskoosta Frekvenssi 0 10 20 30 40 df=1 df=5 df=20 normaali -4-2 0 2 4 X

YHDEN OTOKSEN KESKIARVON TESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea.

YHDEN OTOKSEN KESKIARVON TESTAUS Esimerkki Haluttiin tarkastaa yleisen uimarannan bakteeripitoisuus. Bakteerikanta ei saisi ylittää 200 yksikköä. Otettiin satunnaisista paikoista 10 vesinäytettä, joiden bakteeripitoisuuden keskiarvo oli 194.8 yksikköä ja keskihajonta 13.14. Onko uimarannan vesi riittävän puhdasta? Hypoteesit Valitaan yksisuuntainen vastahypoteesi, sillä tämän asian kannalta ei ole merkitystä, jos bakteerikanta on yli 200 yks.: H 0 : µ= 200 H 1 : µ< 200

YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset Muuttuja on suhdeasteikollinen Mittauspaikat on valittu satunnaisesti Normaalijakautuneisuus oletetaan voimassa olevaksi (data ei ole saatavilla, joten oletetaan olevan voimassa) Riskitaso Valitaan 0.05, sillä asialla on suhteellisen vakavat seuraukset Testisuure(pyöristetyillä arvoilla) = x s/ µ df= 10 1 = 9 Johtopäätös 194.8 200 t p= 0.121 n 0 = = 13.14 / 10 1.25 Nollahypoteesi hylätään, koska p > 0.005.

SPSS T-Test Kaksoisklikkaa: 0.238968 p-arvo = 0.238968 / 2 0.119

RAPORTOINTI Erotuksen raportointivaihtoehtoja: Keskimääräinen bakteeripitoisuus (195 yksikköä/ml, keskihajonta: 13.14 yks.) ei poikkea tilastollisesti merkitsevästi kriittisestä 200 yksikön raja-arvosta (p = 0.119). Keskihajonnan tilalta voidaan ilmoittaa vaihtoehtoisesti keskivirhe:. =4.16yksikköä Keskimääräinen bakteeripitoisuus (195 yksikköä/ml, 95 % luottamusväli: 187, 203) ei poikkea tilastollisesti merkitsevästi kriittisestä 200 yksikön raja-arvosta. Keskimääräisen bakteeripitoisuus oli n. 5.2 yksikköä (luottamusväli: - 14.6, 4.2) matalampi kuin 200 yksikön kriittinen raja Tässä tilanteessa luottamusvälitarkastelu vastaa samaa asiaa kuin hypoteesien testaus, koska vertailussa tarkastellaan vain yhtä otoskeskiarvoa Yleensä käytetään merkitsevyystestiä, jos halutaan tietää eron merkitsevyys; jos taas halutaan tietää minkälaisia eroja olisi mahdollista havaita, lasketaan luottamusväli keskiarvoerotukselle

Kahden riippumattoman otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri kuin göteborgilaisten miesten? Hypoteesit: Nollahypoteesi H 0 : µ 1 = µ 2 Keskiarvot ovat yhtä suuret (µ 1 -µ 2 = 0) Vastahypoteesit (valitaan vain yksi tutk. kys. perusteella) H 1 : µ 1 µ 2 H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on pienempi kuin ensimmäisen ryhmän

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) ja tarkasteltavat kaksi ryhmää ovat riippumattomia toisistaan Muuttuja on likimain normaalijakautunut kummassakin perusjoukossa (KS-testi) Perusjoukon varianssit ovat yhtä suuret. Jos ovat erisuuret, käytetään erilaista menettelyä kuin tässä esitellään. Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure: Lasketaan yhteinen varianssiestimaatti s 2 s = ( n 1 2 1) s1 ( n2 1) s n + n 2 1 2 2 2 Sitten keskiarvojen erotuksen t-testisuure: t 1 2 = ~ t(df) s/ x 1 /n + 1/n 1 x Vapausasteet: lasketaan otoskokojen avulla: df= n 1 + n 2-2 2

Kahden riippumattoman otoksen keskiarvojen vertailu Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesi hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea eikä sitä hylätä Esim. jos riskitaso on α= 0.05, hylätään nollahypoteesi, jos p-arvo on tätä pienempi.

Kahden riippumattoman otoksen keskiarvojen vertailu Esimerkki Tarkastellaan kehon rasvatonta painoa 75- vuotiailla jyväskyläläisillä ja göteborgilaisilla miehillä. Molemmista perusjoukoista on kerätty satunnaisotos ja havaittiin: Hypoteesit jyväskyläläiset: n 1 = 104, x 1 = 57.43 (s 1 = 6.35) göteborgilaiset: n 2 = 118, x 2 = 59.37 (s 2 = 6.43) Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole tietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset Muuttuja on suhdeasteikollinen Otokset satunnaisotoksia ja riippumattomia toisistaan Normaalijakautuneisuus: KS-testin perusteella havaitaan: Kolmogorov-Smirnov Paikkakunta Statistic df Sig. NC2618 Kehon 1 Jyväskylä,080 104,101 rasvaton paino 2 Göteborg,061 118,200* Varianssit oletetaan yhtä suuriksi (testauksesta myöhemmin) Riskitaso Valitaan 0.05, joka on yleisesti käytetty riskitaso tutkimuksessa.

Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure s = ( n 2 1) s1 ( n2 1) s n + n 2 2 (104 1)6.35 (118 1)6.43 104 + 118 2 2 2 1 2 = = 1 2 6.39 t = s/ x x 1/n1 + 1/n2 6.39 57.43 59.37 1/104 + 1/118 1.94 0.86 1 2 = = = 2.26 df= 104 + 118 2 = 220 p= 0.025 Johtopäätös Nollahypoteesi hylätään, koska p< 0.05, ja sanotaan, että kehon rasvattoman painon keskiarvot eroavat toisistaan.

Normaalijakautuneisuus ryhmittäin

H 0 : Rasvaton paino on normaalistijakautunut.

Esim. suhteellisen tarkka 95 % luottamusväli: 57.433 ±1.96 0.6222 95 % luottamusvälit Fin: 56.21,58.65 Swe: 58.21,60.53 t = s/ x 1 1 x 2 1 /n + 1/n 2 H 0 : s 12 = s 2 2 H 0 : µ 1 = µ 2 Jyväskyläläisten ja göteborgilaisten miesten ryhmissä rasvattoman painon variansseja voitiin pitää yhtä suurina (p = 0.979). Paikkakuntien välillä rasvaton kehonpaino oli korkeampi göteborgilaisilla miehillä (t= -2.26, df= 220, p= 0.025). HUOM. Useamman kuin yhden ryhmän vertailuissa luottamusvälien päällekkäisyys ei aina anna samaa tulosta kuin testi.

RAPORTOINTI Table 1. Means, standard deviations(sd) and group comparisonp-valuesfor 75-year-old menlivingin Jyväskylä and Göteborg in 1989. Jyväskylä (n = 103) Göteborg (n = 116) Mean SD Mean SD p-value Waist girth 93 10.0 94 8.4 0.354 Diastolic blood pressure 86 9.3 82 11.0 0.003 Lean body mass 57 6.4 59 6.4 0.034 Glucose 6 1.4 6 2.5 0.348 Tulosten taulukoinnista lisää: Ehrenberg ASC. 1977. Rudiments of Numeracy. J R Stat Soc A: 140, 277-297. Ehrenberg ASC. 1981. The Problem of Numeracy. Am Stat: 35, 67-71.

Data: järjestysast. Ei Kyllä Jatkuva, normaali Kyllä t-testi Ei Poikkeavia arvoja Kyllä Mediaani testi ks. luentomoniste Ei Mann-Whitney Valintakaavio: Kahden riippumattoman ryhmän jakauman keskikohdan vertailu Jäikö tulos vielä epävarmaksi: Selvitä antavatko eri testit samansuuntaisen tuloksen.

Kahden riippuvan otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret, kun ryhmien välillä on riippuvuutta? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri 75-vuotiaana kuin 80-vuotiaana? Hypoteesit: Nollahypoteesi H 0 : µ 1 = µ 2 Keskiarvot ovat yhtä suuret Vastahypoteesit (valitaan vain yksi tutk. kys. perusteella) H 1 : µ 1 µ 2 H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on pienempi kuin ensimmäisen ryhmän

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Riippuvuus Asetelman aiheuttamaa sisäkorrelaatiota Saman yksilö sisäinen: toistomittaukset (alku- vs. seurantamittaus) saman yksilön osatekijät (vasen vs. oikea jalka) Ryhmä yksilöitä: kaksosparin kaksoset (kaksonen 1 vs. 2) lapsi-vanhempi parit (lapsi vs. äiti) parittainen case-control tutkimus (case vs. control) Esim. seurantatilanteessa voidaan merkitä esim. kehon rasvaprosenttia alkumittauksessa (X) ja seurantamittauksessa (Y) Oletukset: Muuttuja on vähintään välimatka-asteikollinen Havaintoparit riippumaton otos perusjoukosta Vastinparien erotus (d i = x i y i ) on perusjoukossa normaalisti jakautunut (erotusmuuttujaa D voidaan testata esim. KS-testillä) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure: Lasketaan erotusten d i keskiarvo ja keskihajonta: Sitten keskiarvojen erotuksen t-testisuure: s Vapausasteet: t d d n d i = =1 n d = ~ t(df) / i n lasketaan otoskoon avulla: df= n 1,missä non tarkasteltavien erotusparien lukumäärä s d = n i= 1 ( di d ) n 1 2

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Esimerkki Lääketehdas on tuottanut kaksi unilääkettä UNI1 ja UNI2. Nyt halutaan tietää kumpi lääke antaa pidemmän unen. Valitaan satunnaisotannallakoehenkilöt, jotka ottavat molempia unilääkkeitä ja kertovat unen pituuden. Aineiston perusteella tarkastellaan, onko unilääkkeillä eroa saavutetun nukkumisajan suhteen. Kh UNI1 UNI2 1 6 7 2 3 3 3 3 5 4 4 3 5 8 8 6 2 3 7 2 4 8 9 9 9 5 4 10 4 5 Yhteensä 46 51 Keskiarvo 4.6 5.1

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Unimäärä (tuntia) 10 9 8 7 6 5 4 3 2 1 0 Keskiarvo UNI1 UNI2 8 5 1 10 39 7 4 2 6

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Hypoteesit Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole ennakkotietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Oletukset Satunnaisotos ja suhdeasteikollinen muuttuja Erotusten jakauma on normaali KS-testillä Kolmogorov-Smirnov testattuna: Statistic df Sig. Riskitaso D,178 10,200* Valitaan α = 0.05, koska seuraukset eivät ole vakavat.

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure s d t = = = s/ d ( 5) 13 10 10 1 d n 2 i ( d n n 1 2 = 1.08 0.5 = 1.08/ 10 = 1.46 Johtopäätös: Nollahypoteesi jää voimaan, sillä p> 0.05. i ) p= 0.178 2 Kh UNI1 UNI2 d i d 2 i 1 6 7-1 1 2 3 3 0 0 3 3 5-2 4 4 4 3 1 1 5 8 8 0 0 6 2 3-1 1 7 2 4-2 4 8 9 9 0 0 9 5 4 1 1 10 4 5-1 1 Yhteensä 46 51-5 13 Keskiarvo 4.6 5.1-0.5

H 0 : Erotusmuuttuja on normaalistijakautunut.

H 0 : ρ= 0 H 0 : µ 1 = µ 2 Tulos: Nollahypoteesi jää voimaan. (Miksi?) Raportointi: Keskimääräinen unen pituus unilääkkeellä UNI1 oli 4.6 (sd = 2.4) ja unilääkkeellä UNI2 oli 5.1 (sd= 2.2). Keskiarvoero ei ollut tilastollisesti merkitsevä (t = -1.46, df= 9, p = 0.177).

Data: järjestysast. Kyllä Ei Jatkuva, normaali Kyllä t-testi Ei Onko jakauma symmetrinen Kyllä Wilcoxon ks. luentomoniste Ei Merkkitesti Valintakaavio: Kahden riippuvan ryhmän jakauman keskikohdan vertailu

VARIANSSIANALYYSI Varianssianalyysillä ei testata varianssien yhtä suuruutta, vaan keskiarvojen yhtä suuruutta Yksisuuntaisessa varianssianalyysissä vertaillaan yhden jatkuvan muuttujankeskiarvoja toisen, luokittelevan muuttujan eri luokissa. Tällöin siis tarkastellaan yhden selitettävän muuttujan keskiarvojen (tasot) vaihtelua luokitteluasteikollisen selittävän muuttujan (käsittelyt) mukaan. Selitettävä muuttuja (esim. pituus, cm) jaetaan luokittelevan muuttujan (esim. koulutustausta, kolmiluokkainen muuttuja) perusteella ryhmiin ja keskiarvojen yhtä suuruutta tarkastellaan näissä ryhmissä

VARIANSSIANALYYSIN VAIHEET Olkoon vertailtavia ryhmiä k kpl Hypoteesit H 0 : µ 1 = µ 2 = = µ k (kaikkien ryhmien keskiarvot ovat yhtä suuret) H 1 : µ 1 µ 2 µ k (ainakin yhden joukon keskiarvo poikkeaamuiden joukkojen keskiarvoista) Oletukset 1) selitettävä muuttuja vähintään välimatkaasteikollinen 2) perusjoukkojen jakaumat normaaliset 3) perusjoukkojen varianssit yhtä suuret 4) perusjoukoista poimittujen otosten täytyy olla toisistaan riippumattomia [5) ryhmät yhtä suuria]

VARIANSSIHAJOTELMA Varianssianalyysissä vertaillaan ryhmien välistä vaihtelua ryhmien sisäiseenvaihteluun varianssien kaltaisilla neliösummilla Ryhmien välinen vaihtelu(ss b ) kertoo siitä, kuinka paljon ryhmittelevä muuttuja selittää ryhmien välisiä keskiarvoeroja (ts. miten erilaisia ryhmät ovat). Ryhmien sisäinen vaihtelu(ss w ) kertoo ryhmän sisällä olevan vaihtelun määrää (miten erilaisia ovat ryhmän tutkittavat keskenään). Kokonaisvaihteluksi saadaan: SS TOTAL = SS b + SS w Testisuure Flasketaan neliösummien pohjalta ja se kertoo keskimääräisestä ryhmien välisestä vaihtelusta suhteessa ryhmien sisäiseen vaihteluun

VARIANSSIANALYYSI Riskitaso:Riskitaso αvalitaan kuten muissa keskiarvotesteissä. Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea Jos nollahypoteesi hylätään testin tuloksena, voidaan selvittää keskiarvoparien välisten erojen merkitsevyyttä parittaisilla ryhmävertailutestillä

PARITTAISET RYHMÄVERTAILUT Varianssianalyysin merkitsevä tulos kertoo, että ainakin yhden ryhmäparin keskiarvoero on merkitsevä Parittaisia vertailuja ei yleensä tehdä t-testeinä, koska todennäköisyys löytää sattumanvarainen merkitsevä ero ainakin yhdessä keskiarvoparissa kasvaa liian suureksi Varianssianalyysin yhteydessä: parittaisia keskiarvovertailuja on sallittua käyttää vasta, kun varianssianalyysin nollahypoteesi hylätään H 0 : µ i = µ j, i=1,, k; j= 1,, k; i j Erilaisia menetelmiä (SPSS: 18 kpl) Varianssit yhtä suuret: LSD, Tukey, Scheffe, Bonferroni Varianssit eivät yhtä suuret: TamhaneT2 Lisää ks. Toothaker, 1991

ESIMERKKI Tutkija selvittää eri kävelykyvyn suhdetta kehon rasvaprosentin tasoon Rasvaprosentti on jatkuva muuttuja Kävelykykymuuttuja on tutkittavan arvio kyvystä kävellä ulkona huonolla säällä Ei vaikeuksia (1) Kävelee aikaisempaa hitaammin (2) On vaikeuksia tai ei kykene (3) Tarkasteltavina ovat jyväskyläläiset 75-vuotiaat naiset

Rasvaprosentin normaalijakautuneisuus oli voimassa ja varianssit voidaan olettaa yhtä suuriksi (p = 0.552). Ryhmien rasvaprosenttikeskiarvoissa on ero / eroja (p= 0.028). η 2 = 342.775 / 9124.550 = 0.0376 (n. 3.7 %) Kävelykyky selitti rasvaprosentin vaihtelusta n. 3.7 %. Parittaiset vertailut osoittavat vain kävelykyvyn ääripäiden välillä olevan merkitsevää eroa (p= 0.029).

Kyllä Data: järjestysast. Ei Jatkuva, normaali Kyllä Yhtä suuret varianssit Kyllä Varianssianalyysi Ei Suuria poikkeavia arvoja Ei Ei Kruskal- Wallis Ei Brown-Forsythe Welsh Kyllä Mediaani testi Valintakaavio: Kolmen tai useamman riippumattoman ryhmän jakauman keskikohdan vertailu

NORMAALIJAKAUMA A B C D n= 205 Vinous: 0.56 (0.17)* Huip.: -0.23 (0.39) KS (p-arvo): 0.001 SW (p-arvo): < 0.001 n= 29 Vinous: -0.11 (0.43) Huip.: -0.47 (0.85) KS (p-arvo): > 0.200 SW (p-arvo): 0.858 n= 29 Vinous: 2.03 (0.43)* Huip.: 4.19 (0.85)* KS (p-arvo): < 0.001 SW (p-arvo): < 0.001 n= 209 Vinous: 0.92 (0.17)* Huip.: 6.19 (0.34)* KS (p-arvo): 0.006 SW (p-arvo): < 0.001 *Tunnusluku on tilastollisesti merkitsevä. Mikä jakaumista on normaalisti jakautunut? Mitä ongelmia löytyy muista jakaumista?

RIIPPUVUUS Korrelaatiokertoimen merkitsevyystestaus Ongelma: Onko korrelaatiokertoimen arvo nollasta poikkeava perusjoukossa? Hypoteesit: Nollahypoteesi H 0 : ρ= 0 Muuttujat ovat riippumattomia Vastahypoteesi (valitaan vain yksi) H 1 : ρ 0 H 1 : ρ< 0 H 1 : ρ> 0 Muuttujat riippuvat toisistaan Muuttujien välillä on negatiivinen korrelaatio Muuttujien välillä on positiivinen korrelaatio

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Oletukset: Muuttujat vähintään järjestysasteikollisia Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa (KS-testi) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Testisuure: lasketaan korrelaatiokertoimen, r, ja otoskoon, n, avulla: t r r n 2 = = ~ t(df) 2 2 1 r / n 2 1 r Vapausasteet: lasketaan otoskoon avulla: df= n 2

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä.tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Muuttujien välillä sanotaan silloin olevan riippuvuutta. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea. Tällöin muuttujia pidetään toisistaan riippumattomia.

ESIMERKKI Tutkimuksessa laskettiin käden puristusvoiman (KPV) ja kehon rasvattoman painon (KRP) välisen korrelaatiokertoimen arvo göteborgilaisille miehille (n = 92). Testataan riippuvuushypoteesiparia: H 0 : ρ= 0 H 1 : ρ 0 Oletukset: Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujat ovat jatkuvia Riippumaton otos perusjoukosta Normaalijakautuneisuus KPV: vinous 0.274 (0.251); huipukkuus-0.285 (0.498) KRP: vinous 0.005 (0.251); huipukkuus 0.120 (0.498)

Regressiosuora LOESS Valitaan riskitasoksi 0.05. Lineaarisuus Normaalijakautuneisuus

r n 2 0.493 92 2 t = = 2 2 1 r 1 0.493 df = n 2 = 92 2 = 90 = 5.382 p< 0.001 (Tarkka p-arvo: 5.803 10-7 ) Nollahypoteesi hylätään ja puristusvoiman ja kehon rasvattoman painon välillä sanotaan olevan kohtalaista positiivista riippuvuutta.

χ 2 -RIIPPUMATTOMUUSTESTI Ongelma: Onko kahden vähintään luokitusasteikollisen muuttujan välinen riippuvuus tilastollisesti merkitsevää? Nollahypoteesinmukaisessa tilanteessa mm. rivijakaumat ovat samanlaiset. x 1 x 2 x 3 y 1 f 11 f 12 f 13 y 2 f 21 f 22 f 23 Hypoteesit H 0 : f ij = e ij H 1 : f ij e ij eli muuttujat ovat riippumattomia eli muuttujat riippuvat toisistaan

χ 2 -RIIPPUMATTOMUUSTESTI Oletukset Muuttujat ovat vähintään luokitusasteikollisia. Otos on satunnaisotos. Kaikki odotetut frekvenssit ovat suurempia kuin 1. Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5. Riskitaso Valitaan sopiva α-taso(0.05 / 0.01 / 0.001).

χ 2 -RIIPPUMATTOMUUSTESTI Testisuure -Tarvittavat kaavat on jo esitetty edellä. Odotetut frekvenssit laskettiin: e ij = f i n - ja testisuure laskettiin: χ = i= 1 j= 1 f j e 2 g h ( 2 ij ij ) f missä gon rivien lukumäärä, h sarakkeiden lukumäärä, e ij ovat odotetut frekvenssit. e ij, x 1 x 2 x 3 Yht. y 1 f 11 f 12 f 13 f 1 y 2 f 21 f 22 f 23 f 2 Yht. f 1 f 2 f 3 n Vapausasteet testisuure noudattaa χ 2 -jakaumaa vapausasteilla: df= (g 1) (h 1)

χ 2 -RIIPPUMATTOMUUSTESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p< α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että muuttujien välillä on riippuvuutta. Jos p-arvo on suurempi kuin riskitaso(p> α), nollahypoteesia ei voida hylätä ja sanotaan, että muuttujien välillä ei ole riippuvuutta.

ESIMERKKI Haluttiin selvittää oliko alkumittauksessa mitattu tutkittavien oma arvio terveydentilastaan yhteydessä seurannan loppuun mennessä havaittuun kuolleisuuteen 75-vuotiailla jyväskyläläisillä Terveydentila: (1 = hyvä, 2 = tyydyttävä, 3 = huono) Kuolleisuus: (0 = kuollut, 1 = elossa) Hypoteesit Kuten edellä esitettiin. Valitaan vastahypoteesi kaksisuuntaiseksi Oletukset Muuttujat ovat luokitusasteikollisia. Kyseessä on satunnaisotos. Tarkastetaan frekvenssioletus myöhemmin Riskitaso Valitaan riskitasoksi 0.05.

Χ 2 -RIIPPUMATTOMUUSTESTI(5) Nähdään, että pienin odotettu frekvenssi on 18.2, joten frekvenssioletukset ovat kunnossa.

χ 2 -RIIPPUMATTOMUUSTESTI(6) Nollahypoteesi ei saa tukea, koska p< 0.05. Tulkinta: Seurannan päättyessä elossa olleet arvioivat alkumittauksen terveytensä paremmaksi (p < 0.001).

JÄÄNNÖKSET Jäännös Usein hankala tulkita Standardoitu jäännös # $% =& $% ' $% # (()$% = & $% ' $% )' $% Rivi: i= 1,, g Sarake: j= 1,, h Jos itseisarvo r (S)ij 1.96 (~ 2), merkittävä kontribuutio riippuvuuteen Tällaisia soluja ei aina löydy, vaikka χ 2 olisi merkitsevä Adjustoitu jäännös # (*)$% = & $% ' $% +' $% & $ - & % - Jos itseisarvo r (A)ij 1.96 (~ 2), merkittävä kontribuutio riippuvuuteen

Jäännökset (Residual): suhteellinen tulkinta (suurempi vs. pienempi). Standardoidut jäännökset (Std. Residual): heikon terveyden ryhmässä itseisarvo > 2. Adjustoidut jäännökset (Adjusted Residual): hyvä vs. huono terveys

SUHTEELLISTEN OSUUKSIEN TESTAUS YHDEN OTOKSEN TESTI Eroaako otoksesta laskettu suhteellinen osuus vertailuarvosta perusjoukossa? Olkoon p 0 vertailuarvo ja Xon muuttuja, siten että silloin, kun tutkittavalla on ominaisuus A, X= 1 muulloin, X= 0 Otoksesta suhteellinen osuus lasketaan p= f A /n, - missä on niiden tutkittavien & * =./ $ $=1 lukumäärä, joilla X= 1

HYPOTEESIT Nollahypoteesi H 0 : p= p 0 suhteellinen osuus on sama kuin vertailuarvo Vastahypoteesit (valitaan vain yksi tutk. tilanteen perusteella) H 1 : p p 0 H 1 : p> p 0 H 1 : p< p 0 Oletukset suhteellinen osuus ei ole sama kuin vertailuarvo suhteellinen osuus on suurempi kuin vertailuarvo suhteellinen osuus on pienempi kuin vertailuarvo Riippumaton otos perusjoukosta Jokaisella havainnolla on yhtä suuri havainnointitodennäköisyys Odotetut frekvenssit np 0 ja n(1 p 0 ) ovat suurempia kuin 5, missä n on kaikkien tutkittavien lukumäärä

YHDEN OTOKSEN TESTI Riskitaso Valitaan sopiva riskitaso (0.05/ 0.01 / 0.001) Testisuure z noudattaa standardoitua normaalijakaumaa nollahypoteesin ollessa voimassa. p p0 f A np0 z = = p 1 p ) / n np (1 p ) 0( 0 0 0 Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p< α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että suhteellinen osuus eroaa vertailuarvosta. Yksisuuntaisen hypoteesin tilanteessa ero ilmenee vastahypoteesin mukaiseen suuntaan Jos p-arvo on suurempi kuin riskitaso(p> α), nollahypoteesia ei voida hylätä ja sanotaan, että suhteellinen osuus ei eroa vertailuarvosta.

ESIMERKKI Yhdysvaltalainen tutkimus arvioi, että tutkittavista 75-vuotiaista 4.1 % oli kliinisesti diagnosoitu sydänkohtaus, joka oli myös todennettu EKG-mittauksilla. Jyväskyläläisillä 75-vuotiailla vastaava tieto kerättiin satunnaisotoksesta 240 tutkittavalta haastattelemalla ja heistä 12:lla havaittiin diagnosoitu sydänkohtaus Testataan 0.05 merkitsevyystasolla hypoteesia, jonka mukaan jyväskyläläisten sydänkohtauksien prevalenssioli sama kun yhdysvaltalaistutkimuksessa.

ESIMERKKI Hypoteesit H 0 : p= 0.041 H 1 : p 0.041 Valitaan kaksisuuntainen vastahypoteesi, koska ei ole syytä olettaa suuntaa mahdolliselle erolle Oletukset Satunnaisotanta Oletetaan havainnointi todennäköisyys samaksi tutkittavilla Odotetut frekvenssit ok: 240 0.041 = 9.84; 240 0.959 = 230.16 f A = 12, n= 240; p= 0.05 z = f A np np 1 0 ( 0 ) 12 240 0.041 240 0.041 (1 0.041) 2.16 3.07 0 = = = p p-arvo voidaan määrittää standardoidulta normaalijakaumalta, p = 0.482 Koska p> 0.05, nollahypoteesi jää siis voimaan ja suhteellisia osuuksia voidaan pitää yhtä suurina. 0.703

SUHTEELLISTEN OSUUKSIEN TESTAUS KAHDEN OTOKSEN TESTI Onko kahdesta otoksesta laskettujen suhteellisten osuuksien välillä eroa perusjoukossa? Olkoon X muuttuja, siten että silloin, kun tutkittavalla on ominaisuus A, X= 1 muulloin, X= 0 Otoksista suhteellinen osuus lasketaan p i = f (A)i /n i, (i= 1, 2), missä & (*)$ =./ $% on niiden tutkittavien lukumäärä ryhmässä i, joilla X = 1 - $ %=1

HYPOTEESIT Nollahypoteesi H 0 : p 1 = p 2 suhteellinen osuus on sama molemmissa ryhmissä Vastahypoteesit H 1 : p 1 p 2 suhteellinen osuus ei ole sama molemmissa ryhmissä H 1 : p 1 > p 2 suhteellinen osuus on suurempi ryhmässä 1 kuin ryhmässä 2 H 1 : p 1 < p 2 suhteellinen osuus on pienempi ryhmässä 1 kuin ryhmässä 2

KAHDEN OTOKSEN TESTI Oletukset Riippumaton otos perusjoukosta ja ryhmät ovat toisistaan riippumattomat Jokaisella havainnolla on yhtä suuri havainnointitodennäköisyys Odotetut frekvenssit n i Pja n i (1 P), i= 1, 2, ovat suurempia kuin 5 Riskitaso Valitaan sopiva riskitaso (0.05 / 0.01 / 0.001) Testisuure z P = n1 p1 n 1 + + n n 2 2 p 2 z = p p P( 1 P)(1/ n1 + 1/ n2) noudattaa standardoitua normaalijakaumaa nollahypoteesin ollessa voimassa. 1 2

KAHDEN OTOKSEN TESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p< α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että suhteellisten osuuksien välillä on eroa. Yksisuuntaisen hypoteesin tilanteessa ero ilmenee vastahypoteesin mukaiseen suuntaan. Jos p-arvo on suurempi kuin riskitaso(p> α), nollahypoteesia ei voida hylätä ja sanotaan, että suhteellisten osuuksien välillä ei ole eroa.

ESIMERKKI Tutkimuksessa selvitettiin ikääntyneiden miesten (n 1 = 119) ja naisten (n 1 = 236) kuolleiden osuutta 10 seurantavuoden jälkeen. Kuolleita miehiä oli 51 ja naisia 132. Testataan nollahypoteesia, jonka mukaan kuolleiden osuus on sama molemmissa ryhmissä. Valitaan riskitasoksi 0.05 ja vastahypoteesi kaksisuuntaiseksi.

ESIMERKKI Hypoteesit H 0 : p 1 = p 2 H 1 : p 1 p 2 Oletukset Satunnaisotanta, riippumattomat ryhmät (jos mukana ei ole aviopareja) Oletetaan havainnointitodennäköisyys samaksi tutkittavilla Odotetut frekvenssit: 51 132 p1 = = 0.429 p2 = = 0. 559 119 236 n p1 + n2 p2 119 0.429 + 236 0.559 P = = n + n 119 + 236 1 = 1 2 0.515 n P = 119 0.515 61.34 n (1 P) = 119 (1 0.515) 57. 66 1 = 1 = n P = 236 0.515 121.66 n (1 P) = 236 (1 0.515) 114. 34 2 = 2 = OK

ESIMERKKI Testisuure z = ja p= 0.020 p p P( 1 P)(1/ n1 + 1/ n2) 0.429 0.559 1 2 = = 0.515 (1 0.515) (1/119 + 1/ 236) Nollahypoteesi ei siis jää voimaan: naisten kuolleiden suhteellinen osuus on siis suurempi kuin miesten. 2.327

Tulos on merkitsevä p< 0.05: naisten kuolleiden osuus on seurannan päättyessä miesten kuolleisuutta korkeampi. Huom. (-2.327) 2 = 5.415