TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Samankaltaiset tiedostot
RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

HAVAITUT JA ODOTETUT FREKVENSSIT

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Otantajakauma

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Väliestimointi (jatkoa) Heliövaara 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Harjoitus 7: NCSS - Tilastollinen analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Otantajakauman käyttö päättelyssä

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

10. laskuharjoituskierros, vko 14, ratkaisut

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastollinen aineisto Luottamusväli

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Mat Sovellettu todennäköisyyslasku A

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Testit järjestysasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

tilastotieteen kertaus

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

dx=5&uilang=fi&lang=fi&lvv=2014

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Sovellettu todennäköisyyslaskenta B

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Otoskoko 107 kpl. a) 27 b) 2654

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Luottamusvälit. Normaalijakauma johnkin kohtaan

Sovellettu todennäköisyyslaskenta B

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

pisteet Frekvenssi frekvenssi Yhteensä

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Hypoteesin testaus Alkeet

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Kvantitatiiviset tutkimusmenetelmät maantieteessä

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Teema 8: Parametrien estimointi ja luottamusvälit

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

Keskivirheyksiköllä ilmaistuna voidaan erottaa otantajakaumalta kriittisiä kohtia: Keskimmäinen 95 % otoskeskiarvoista välillä [-1.96,+1.96] Keskimmäinen 99 % otoskeskiarvoista välillä [-2.58,+2.58] Keskimmäinen 99.9 % otoskeskiarvoista välillä [-3.29,+3.29] 99.9 % 99 % 95 % Keskiarvon keskivirhe: s.e.

Tutkija B: Kuinka todennäköistä olisi havaita keskiarvo 182 tai sitä suurempi arvo, kun poimitaan satunnaisotos perusjoukosta? Tärkeää: aikaisemman perusteella B ei tiedä voiko otoskeskiarvo olla suurempi vaiko pienempi kuin vertailuarvo 182. Tutkija B on aikaisemmin päättänyt, että jos vertailuarvo 182 on 95 % otantajakauman keskimmäisen keskiarvon joukossa, se ei poikkea tilastollisesti merkitsevästi hänen havaitsemastaan arvosta ts. olisi vielä suhteellisen todennäköistä saada perusjoukosta tällainen keskiarvo Suhteutetaan keskiarvon 182 etäisyys tutkijan B otoksen pohjalta otantajakauman : keskiarvo 171.77 ja keskivirhe 4.93: z se = (171.77-182) / 4.93 = -2.08 Koska z se = 2.08 > 1.96, ero on tilastollisesti merkitsevä (ja kysytyn todennäköisyyden tarkka arvo saadaan pinta-ala integraalina p = 0.019) Johtopäätös: B:n otoskeskiarvo 171.77 on tilastollisesti merkitsevästi matalampi kuin vertailuarvo 182 (p= 0.019). p-arvo on näiden kahden pinta-alan summa

ESTIMOINTI Tehdään päätelmiä perusjoukon parametreista (keskiarvo, korrelaatio jne.) Parametrin estimaatti on arvo, jota lasketaan otostiedon perusteella ja edustaa arvioita perusjoukon parametrin arvosta silloin, kun laskentaan liittyvät matemaattiset oletukset ovat voimassa Mitä suurempi otos, sitä tarkemmat estimaatit A. Piste-estimaatit Perusjoukon parametrin arvo vastaa yksi lukuarvo Esim. otoskeskiarvo on perusjoukon keskiarvon pisteestimaatti B. Väliestimaatit Märitetään väli, jolla perusjoukon parametrin arvo sijaitsee valitulla todennäköisyydellä (luottamusväli) Esim. väli, jolla perusjoukon keskiarvo sijaitsee 95 % luottamustasolla

KESKIARVON LUOTTAMUSVÄLI Esim. keskiarvon 95 % luottamusväli saadaan määrittämällä väli, jolla 95 % keskimmäisistä otoskeskiarvoista sijaitsee otantajakaumalla Keskivirheyksiköillä ilmaistuna tämä väli sijaitsi ±1.96 keskivirheyksikön etäisyydellä keskiarvosta 95 %

ESIMERKKI B:n otoksesta (n = 3) lasketaan Keskiarvo: 171.77 Keskihajonta: 8.54 Keskivirhe on siis 8.54 3 4.93 Koska luottamusväli on 1.96 keskivirheyksikön päässä keskiarvon ala- ja yläpuolella, lasketaan Alaraja: 171.77 1.96 4.93 = 171.77 9.66 = 162.11 Yläraja: 171.77 + 1.96 4.93 = 171.77 + 9.66 = 181.43 Huom. Tässä laskut on suoritettu tarkoilla arvoilla, jotka on pyöristetty kahden desimaalin tarkkuudelle. Tulkinta: tutkijalla on 95 % luottamus siihen, että perusjoukon keskiarvo sijaitsee välillä[162.11, 181.43]

KESKIARVON LUOTTAMUSVÄLI Yleisesti keskiarvon luottamusväli voidaan laskea normaalisti jakautuneelle muuttujalle, kun n> 30 kaavalla: Vakion zarvona käytetään vakiintuneita varmuuden asteita z= 1.96 (95 %) z= 2.58 (99 %) z= 3.29 (99.9 %)

Luottamusvälit, joita tutkija A voi laskea kolmen tutkittavan otoksille Otos Otoskeskiarvo Keskivirhe 95% Luottamusväli Otantayksiköt perusjoukossa 1 177.57 4.41 168.93 186.21 1 2 3 2 165.97 10.46 145.47 186.47 1 2 4 3 180.04 5.91 168.46 191.62 1 2 5 4 172.14 5.29 161.77 182.51 1 2 6 5 165.60 10.17 145.67 185.53 1 3 4 6 179.66 5.85 168.19 191.13 1 3 5 7 171.77 4.93 162.11 181.43 1 3 6 8 168.07 12.18 144.20 191.94 1 4 5 9 160.17 6.86 146.72 173.62 1 4 6 10 174.24 7.36 159.81 188.67 1 5 6 11 170.18 11.78 147.09 193.27 2 3 4 12 184.24 2.30 179.73 188.75 2 3 5 13 176.35 5.62 165.34 187.37 2 3 6 14 172.65 13.14 146.90 198.40 2 4 5 15 164.75 10.36 144.44 185.06 2 4 6 16 178.82 7.08 164.94 192.70 2 5 6 17 172.28 13.01 146.78 197.78 3 4 5 18 164.38 10.05 144.68 184.08 3 4 6 19 178.44 7.00 164.72 192.16 3 5 6 20 166.85 12.21 142.92 190.78 4 5 6

PITUUSMUUTTUJAN 95% LUOTTAMUSVÄLIT Perusjoukon keskiarvo 172.21 cm Pituus (cm) Otos (keskiarvon mukaan järjestettynä) 20

TULKINTA Lähes kaikki luottamusvälit pitävät sisällään perusjoukon keskiarvon Yksi luottamusväleistä (otos 12, kuvion viimeinen) ei sisällä perusjoukon keskiarvoa 172.21 Lasketaan: 1/20 = 0.05, eli 5 %, joten 95 % otoskeskiarvon luottamusväleistä sisältää keskiarvon Tulkinta: Tutkija B ei tiedä otostaessaan, minkä erilaisista otoksista hän saa käyttöönsä, joten hän hyväksyy 5 % riskin sille, ettei luottamusväli sisällä perusjoukon keskiarvoa Hänellä on siis 95 % luottamus siihen, että luottamusväli sisältää perusjoukon keskiarvon B:n johtopäätös: 95 % luottamuksella tutkitun muuttujan perusjoukon keskiarvo sisältyy luottamusvälille [162.11, 181.43]

VIRHEPÄÄTELMÄN RISKI Luottamustasoon liittyy siis riski virhepäätelmälle 95 % luottamus 5 % riski 99 % luottamus 1 % riski 99.9 % luottamus 0.1 % riski Riskitaso (α) kuvaa todennäköisyyttä tehdä virhepäätelmä väitettäessä, että perusjoukon keskiarvo on luottamusvälin sisällä, vaikka se ei todellisuudessa olekaan Luottamustason valintaan liittyy siis riski tehdä virhepäätelmä Yleisesti tutkimuskäytössä 5 % riskitaso on riittävä Kun määritetään esim. lääkkeiden haittavaikutuksiin liittyviä luottamusvälejä, voidaan käyttää tiukempia riskitasoja

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

TESTAUKSEN TÄRKEIMMÄT VAIHEET Testaushypoteesit: mitä testataan? Nollahypoteesi (ja vastahypoteesi) Riskitaso: millä tasolla tulkitaan p-arvoa? α= 0.05, 0.01 tai 0.001 Oletukset: sopiiko testi aineistolle? Satunnaisotanta, normaalijakautuneisuus jne. p-arvo: testin tulos nollahypoteesin suhteen Jos p> α, nollahypoteesi jää voimaan Jos p< α, nollahypoteesi hylätään Ennen aineiston tarkastelua Periaatteessa Ennen aineiston tarkastelua Aineiston pohjalta

PERUSTESTEJÄ Tarkastellaan eroja Keskiarvotestit Tarkastellaan riippuvuutta Riippuvuustestit Riippumattomat otokset Riippuvat otokset Yhden otoksen t-testi Kahden otoksen t-testi Yksisuuntainen Varianssianalyysi Kahden otoksen t-testi χ 2 -riippumattomuustesti Korrelaatiokertoimen merkitsevyystesti

KESKIARVOTESTIT Yhden otoksen keskiarvon testaus Ongelma: Onko perusjoukon keskiarvo sama kuin vertailuarvo? Esim. Poikkeaako jyväskyläläisten miesten kokonaiskolesterolin keskimääräinen arvo merkitsevästi arvosta 5 mmol/l? Hypoteesit: H 0 : µ= µ 0 H 1 : µ µ 0 tai H 1 : µ< µ 0 H 1 : µ> µ 0 Otoksesta laskettu keskiarvo on vertailuarvon suuruinen Keskiarvo poikkeaa vertailuarvosta Keskiarvo on pienempi kuin vertailuarvo Keskiarvo on suurempi kuin vertailuarvo

YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) Muuttuja on likimain normaalijakautunut perusjoukossa (vinous, huipukkuus, KS-testi) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

YHDEN OTOKSEN KESKIARVON TESTAUS Testisuure: perusjoukon keskihajonta tiedetään tai n> 30 standardoitu normaalijakauma, ks. luentomoniste, liite. yleisemmin keskihajontaa ei tiedetä (lasketaan otoksesta) ja / tai n < 30; käytetään Studentin t-jakaumaa: Otoskeskiarvo ~ t(df) Vertailuarvo Otoskeskihajonta Otoskoko Vapausasteet: lasketaan otoskoon avulla: df= n-1

VAPAUSASTEET(DEGREES OF FREEDOM) Useilla otantajakaumilla, jakauman muoto riippuu otoskoosta Esim. pienillä otoksilla (n< 30), kun perusjoukon parametrit ovat tuntemattomia keskiarvoihin liittyvät otantajakaumat noudattavat likimain Studentin t-jakaumaa Jakauman tarkemman muodon eri otoskokojen kohdalla määrittää vapausasteet (vrt. oheinen kuvio t- jakaumasta) Joillain jakaumilla käytettään kahta vapausastetta, esim. varianssianalyysin F-jakaumalle kerrotaan otoskoko (df w ) ja ryhmien lukumäärä (df b )

YHDEN OTOKSEN KESKIARVON TESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea.

YHDEN OTOKSEN KESKIARVON TESTAUS Esimerkki Haluttiin tarkastaa yleisen uimarannan bakteeripitoisuus. Bakteerikanta ei saisi ylittää 200 yksikköä. Otettiin satunnaisista paikoista 10 vesinäytettä, joiden bakteeripitoisuuden keskiarvo oli 194.8 yksikköä ja keskihajonta 13.14. Onko uimarannan vesi riittävän puhdasta? Hypoteesit Valitaan yksisuuntainen vastahypoteesi, sillä tämän asian kannalta ei ole merkitystä, jos bakteerikanta on yli 200 yks.: H 0 : µ= 200 H 1 : µ< 200

YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset Muuttuja on suhdeasteikollinen Mittauspaikat on valittu satunnaisesti Normaalijakautuneisuus oletetaan voimassa olevaksi (data ei ole saatavilla, joten oletetaan olevan voimassa) Riskitaso Valitaan 0.05, sillä asialla on suhteellisen vakavat seuraukset Testisuure p= 0.211 df= 10 1 = 9 Johtopäätös Keskiarvo ei ole alle 200, sillä p> 0.05, ja veden bakteeripitoisuutta voidaan siis pitää hälyttävänä.

TESTIN JA LUOTTAMUSVÄLIEN ERO Aikaisempien tutkimusten perusteella määritettiin painon keskiarvoksi 75-vuotiaiden jyväskyläläisille miehille 74 kg. Uudesta otoksesta lasketaan painon keskiarvoksi vastaavassa otoksessa 80 kg (keskihajonta 10 kg). Jos n= 100 95 % luottamusväli keskiarvolle [78.04, 81.96]; 74 ei sijaitse välillä, joten merkitsevä ero suhteessa vertailuarvoon Testi H 0 : µ= 74, p< 0.001: nollahypoteesi hylätään, joten merkitsevä ero suhteessa vertailuarvoon Yleensä käytetään merkitsevyystestiä, jos halutaan tietää eron merkitsevyys; jos taas halutaan tietää minkälaisia eroja olisi mahdollista havaita, lasketaan luottamusväli

Kahden riippumattoman otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri kuin göteborgilaisten miesten? Hypoteesit: H 0 : µ 1 = µ 2 Keskiarvot ovat yhtä suuret (µ 1 -µ 2 = 0) H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on pienempi kuin ensimmäisen ryhmän

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) ja tarkasteltavat kaksi ryhmää ovat riippumattomia toisistaan Muuttuja on likimain normaalijakautunut kummassakin perusjoukossa (KS-testi) Perusjoukon varianssit ovat yhtä suuret. Jos ovat erisuuret, käytetään erilaista menettelyä kuin tässä esitellään. Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure: Lasketaan yhteinen varianssiestimaatti s 2 Sitten keskiarvojen erotuksen t-testisuure: ~ t(df) Vapausasteet: lasketaan otoskokojen avulla: df= n 1 + n 2-2

Kahden riippumattoman otoksen keskiarvojen vertailu Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea Esim. jos riskitaso on α= 0.05, hylätään nollahypoteesi, jos p-arvo on tätä pienempi.

Kahden riippumattoman otoksen keskiarvojen vertailu Esimerkki Tarkastellaan kehon rasvatonta painoa 75- vuotiailla jyväskyläläisillä ja göteborgilaisilla miehillä. Molemmista perusjoukoista on kerätty satunnaisotos ja havaittiin: Hypoteesit jyväskyläläiset: n 1 = 104, x 1 = 57.43 (s 1 = 6.35) göteborgilaiset: n 2 = 118, x 2 = 59.37 (s 2 = 6.43) Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole tietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2

Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset Muuttuja on suhdeasteikollinen Otokset satunnaisotoksia ja riippumattomia toisistaan Normaalijakautuneisuus: KS-testin perusteella havaitaan: Kolmogorov-Smirnov Paikkakunta Statistic df Sig. NC2618 Kehon 1 Jyväskylä,080 104,101 rasvaton paino 2 Göteborg,061 118,200* Varianssit oletetaan yhtä suuriksi (testauksesta myöhemmin) Riskitaso Valitaan 0.05, joka on yleisesti käytetty riskitaso tutkimuksessa.

Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure df= 104 + 118 2 = 220 p= 0.025 Johtopäätös Nollahypoteesi hylätään, koska p< 0.05, ja sanotaan, että kehon rasvattoman painon keskiarvot eroavat toisistaan.

Normaalijakautuneisuus ryhmittäin

H 0 : Muuttuja on normaalistijakautunut.

Esim. suhteellisen tarkka 95 % luottamusväli: 57.433 ±1.96 0.6222 H 0 : s 12 = s 2 2 H 0 : µ 1 = µ 2 Jyväskyläläisten ja göteborgilaisten miesten ryhmien variansseja voitiin pitää yhtä suurina (p = 0.979). Paikkakuntien välillä rasvaton kehonpaino oli korkeampi göteborgilaisilla miehillä (t= -2.26, df= 220, p= 0.025).

RAPORTOINTI Table 1. Means, standard deviations(sd) and group comparisonp-valuesfor 75-year-old menlivingin Jyväskylä and Göteborg in 1989. Jyväskylä (n = 103) Göteborg (n = 116) Mean SD Mean SD p-value Lean body mass 57.4 6.35 59.4 6.42 0.034 Glucose 5.82 1.44 5.55 2.53 0.348 Waist girth 93.1 9.99 94.3 8.37 0.354 Diastolic blood pressure 85.7 9.31 81.6 11.04 0.003

NORMAALIJAKAUTUNEISUUS (JÄÄNNÖSTARKASTELU) if (sexcntry=1) z = nc2618-57.432692. if (sexcntry=3) z = nc2618-59.372881. Exe.

Data: järjestysast. Ei Kyllä Jatkuva, normaali Kyllä t-testi Ei Suuria poikkeavia arvoja Ei Mann-Whitney Kyllä Mediaani testi ks. luentomoniste Valintakaavio: Kahden riippumattoman ryhmän jakauman keskikohdan vertailu Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

Kahden riippuvan otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret, kun ryhmien välillä on riippuvuutta? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri 75 vuotiaana kuin 80 vuotiaana? Hypoteesit: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 pienempi Keskiarvot ovat yhtä suuret Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on kuin ensimmäisen ryhmän

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Riippuvuus Riippuvuutta voi otosten välillä aiheuttaa seuranta-asetelma (alku-vs. seurantamittaukset), kaksosasetelma (kaksosparien vertailu) Esim. seurantatilanteessa voidaan merkitä esim. kehon rasvaprosenttia alkumittauksessa (X) ja seurantamittauksessa (Y) Oletukset: Muuttuja on vähintään välimatka-asteikollinen Havaintoparit riippumaton otos perusjoukosta Vastinparien erotus (d i = x i y i ) on perusjoukossa normaalisti jakautunut (erotusmuuttujaa D voidaan testata esim. KStestillä) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure: Lasketaan erotusten d i keskiarvo ja keskihajonta: Sitten keskiarvojen erotuksen t-testisuure: ~ t(df) Vapausasteet: lasketaan otoskoon avulla: df= n 1

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Esimerkki Lääketehdas on tuottanut kaksi unilääkettä UNI1 ja UNI2. Nyt halutaan tietää kumpi lääke antaa pidemmän unen. Valitaan satunnaisotannallakoehenkilöt, jotka ottavat molempia uni-lääkkeitä ja kertovat unen pituuden. Aineiston perusteella tarkastellaan, onko unilääkkeillä eroa saavutetun nukkumisajan suhteen. Kh UNI1 UNI2 1 6 7 2 3 3 3 3 5 4 4 3 5 8 8 6 2 3 7 2 4 8 9 9 9 5 4 10 4 5 Yhteensä 46 51 Keskiarvo 4.6 5.1

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU 8 Unimäärä (tuntia) Keskiarvo 5 1 10 39 7 4 2 6

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Hypoteesit Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole ennakkotietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Oletukset Satunnaisotos ja suhdeasteikollinen muuttuja Erotusten jakauma on normaali KS-testillä Kolmogorov-Smirnov testattuna: Statistic df Sig. Riskitaso D,178 10,200* Valitaan α = 0.05, koska seuraukset eivät ole vakavat.

KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure Kh UNI1 UNI2 d i d i 2 1 6 7-1 1 2 3 3 0 0 3 3 5-2 4 4 4 3 1 1 5 8 8 0 0 6 2 3-1 1 7 2 4-2 4 8 9 9 0 0 9 5 4 1 1 10 4 5-1 1 p= 0.178 Johtopäätös: Nollahypoteesi jää voimaan, sillä p> 0.05. Yhteensä 46 51-5 13 Keskiarvo 4.6 5.1-0.5

H 0 : Muuttuja on normaalistijakautunut.

H 0 : ρ= 0 H 0 : µ 1 = µ 2

Data: järjestysast. Ei Jatkuva, normaali Ei Symmetrinen Kyllä Kyllä Kyllä Merkkitesti t-testi ks. luentomoniste Wilcoxon Ei Merkkitesti Valintakaavio: Kahden riippuvan ryhmän jakauman keskikohdan vertailu