HAVAITUT JA ODOTETUT FREKVENSSIT

Samankaltaiset tiedostot
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Mat Tilastollisen analyysin perusteet, kevät 2007

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

Sovellettu todennäköisyyslaskenta B

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MTTTP1, luento KERTAUSTA

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Sovellettu todennäköisyyslaskenta B

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Estimointi. Otantajakauma

Sovellettu todennäköisyyslaskenta B

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Mat Sovellettu todennäköisyyslasku A

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MTTTP1, luento KERTAUSTA

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Testejä suhdeasteikollisille muuttujille

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Harjoitus 7: NCSS - Tilastollinen analyysi

10. laskuharjoituskierros, vko 14, ratkaisut

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Testit järjestysasteikollisille muuttujille

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Hypoteesin testaus Alkeet

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

TUTKIMUSOPAS. SPSS-opas

tilastotieteen kertaus

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Todennäköisyyden ominaisuuksia

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tehtävä 1. Riku Eskelinen DEMOVASTAUKSET Demokerta 3/ vk 15 Tilastomenetelmien peruskurssi TILP150 Tulostuspv Sivu 1/6

Mat Tilastollisen analyysin perusteet, kevät 2007

I Tilastollisen aineiston ja analyysin edellytysten tarkistaminen. - Muunnokset, uudelleen koodaaminen, summamuuttujien luominen

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Korrelaatiokertoinen määrittely 165

Tilastollinen aineisto Luottamusväli

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Transkriptio:

HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 21 13 57 91 Nainen (2) 43 29 121 193 Yhteensä 64 42 178 284 Huom. Tarkoilla arvoilla laskettuna mm. E-taulukon riviprosentit ovat yhtä suuret tupakointimuuttujan luokissa miehillä ja naisilla.

59 20.507 f ij e ij : Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 38.493 14.542-53.035 0 Nainen (2) -38.493-14.542 53.035 0 0 0 0 (f ij e ij ) 2 /e ij : 38.493 2 /20.507 Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 72.254 15.713 49.316 Nainen (2) 34.068 7.409 23.252 χ 2 = 72.254 + 34.068 + 15.713 + 7.409 + 49.316 + 23.252 = 202.012

χ 2 -RIIPPUMATTOMUUSTESTI Ongelma: Onko kahden vähintään luokitusasteikollisen muuttujan välinen riippuvuus tilastollisesti merkitsevää? Nollahypoteesinmukaisessa tilanteessa mm. rivijakaumat ovat samanlaiset. Hypoteesit H 0 : f ij = e ij H 1 : f ij e ij eli muuttujat ovat riippumattomia eli muuttujat riippuvat toisistaan Oletukset Muuttujat ovat vähintään luokitusasteikollisia. Otos on riippumaton otos perusjoukosta. Kaikki odotetut frekvenssit ovat suurempia kuin 1. Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5.

χ 2 -RIIPPUMATTOMUUSTESTI Riskitaso Valitaan sopiva α-taso (0.05 / 0.01 / 0.001). Testisuure χ 2 - testisuure Vapausasteet testisuure noudattaa χ 2 -jakaumaa vapausasteilla: df = (g 1) (h 1)

χ 2 -RIIPPUMATTOMUUSTESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p < α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että muuttujien välillä on riippuvuutta. Jos p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesia ei voida hylätä ja sanotaan, että muuttujien välillä ei ole riippuvuutta.

Sukupuoli ja tupakoinnin useus: χ 2 = 202.012 Nollahypoteesi: H 0 : f ij = e ij eli muuttujat ovat riippumattomia Oletukset: Muuttujat vähintään luokitusasteikollisia Riippumaton otos perusjoukosta Toinen on Jos on satunnaisotos Kaikki odotetut frekvenssit ovat suurempia kuin 1 Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5. Pienin oli 13.458 Riskitaso: Valitaan α = 0.05 Seuraukset virhepäätelmästä eivät vakavia. Testisuure ja p-arvo: χ 2 = 202.012 df = 2 p < 0.001 Johtopäätös: Nollahypoteesi ei jää voimaan. Otostiedon perusteella näyttää vahvasti siltä, että riippuvuutta on myös perusjoukossa.

Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989. Muuttujien välillä ei ole merkitsevää riippuvuutta. Riviprosentit ovat lähes yhtä suuret.

Merkitsevä riippuvuus ulkona liikkumiskyvyn ja sukupuolen välillä (p = 0.004). Naisilla ongelmat liikkumiskyvyssä (83.4 %) olivat hieman vähäisempiä kuin miehillä (92.2 %). Koska ristiintaulukko on 2 2 taulukko, usein raportoidaan Fisherin nelikenttätestin p-arvo.

B. VÄLIMATKA- TAI SUHDEASTEIKOLLISET MUUTTUJAT: PEARSONIN KORRELAATIOKERROIN Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin tulomomenttikorrelaatiokerrointa (r, ρ) Kerroin ilmoittaa riippuvuuden suunnan ja voimakkuuden Lineaarisen yhteyden tunnusluku Korrelaation voimakkuus vaihtelee välillä [0, 1] Pienet arvot: vähäinen riippuvuus tai ei riippuvuutta Suuret arvot: korkea tai täydellinen riippuvuus suunta: etumerkki (+ tai -) Positiivinen: kasvavat X muuttujan arvot liittyvät kasvaviin Y muuttujan arvoihin Negatiivinen: kasvavat X muuttujan arvot liittyvät pieneneviin Y muuttujan arvoihin

PEARSONIN KORRELAATIOKERROIN Kertoimet erilaisista muuttujapareista ovat (ainakin matemaattisesti) vertailukelpoisia Karkea sääntö kertoimen tulkintaan: r > 0.7 : lineaarinen riippuvuus on voimakasta 0.3 < r < 0.7 : lineaarinen riippuvuus on kohtalaista r < 0.3 : lineaarinen riippuvuus on heikkoa Selitysaste (r 2 ): kuinka paljon Y-muuttujan vaihtelusta voidaan selittää X-muuttujan vaihtelulla Esim. korrelaatiokerrointa r = 0.7 vastaa r 2 = 0.49, eli 100 0.49 = 49 %, joten noin puolet Y-muuttujan vaihtelusta selittyy X-muuttujan vaihtelulla ja loput muilla tekijöillä

Kertoimen laskeminen = = ( )( ) Yhteisen hajonnan (kovarianssi) suhde muuttujien keskihajontojen tuloon Jos otoskoko on pieni, niin yksikin poikkeava havainto saattaa vaikuttaa suuresti korrelaatiokertoimen arvoon Mitä suurempi otoskoko, sitä pienempi korrelaatio tulee tilastollisesti merkitseväksi

ESIMERKKI kh Pituus Paino 1 171 78 2 178 76 3 157 70 4 180 71 5 162 81 6 150 61 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 70.5

ESIMERKKI kh Pituus Paino 1 171 78 5.1 7.5 2 178 76 12.1 5.5 3 157 70-8.9-0.5 4 180 71 14.1 0.5 5 162 81-3.9 10.5 6 150 61-15.9-9.5 7 160 70-5.9-0.5 8 169 69 3.1-1.5 9 161 63-4.9-7.5 10 171 66 5.1-4.5 x = 165.9 y = 70.5

ESIMERKKI kh Pituus Paino 1 171 78 5.1 7.5 38.25 2 178 76 12.1 5.5 66.55 3 157 70-8.9-0.5 4.45 4 180 71 14.1 0.5 7.05 5 162 81-3.9 10.5-40.95 6 150 61-15.9-9.5 151.05 7 160 70-5.9-0.5 2.95 8 169 69 3.1-1.5-4.65 9 161 63-4.9-7.5 36.75 10 171 66 5.1-4.5-22.95 238.50 x = 165.9 y = 70.5

ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 38.25 26.01 56.25 2 178 76 12.1 4.5 66.55 146.01 30.25 3 157 70-8.9-1.5 4.45 79.21 0.25 4 180 71 14.1-0.5 7.05 198.81 0.25 5 162 81-3.9 9.5-40.95 15.21 110.25 6 150 51-15.9-20.5 151.05 252.81 90.25 7 160 70-5.9-1.5 2.95 34.81 0.25 8 169 69 3.1-2.5-4.65 9.61 2.25 9 161 63-4.9-8.5 36.75 24.01 56.25 10 171 66 5.1-5.5-22.95 26.01 20.25 ~ 0 ~ 0 238.50 812.90 366.50 x = 165.9 = y = 70.5 ( )( ) =... = 0.437

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Ongelma: Onko korrelaatiokertoimen arvo nollasta poikkeava perusjoukossa? Hypoteesit: H 0 : ρ = 0 H 1 : ρ 0 tai H 1 : ρ < 0 korrelaatio H 1 : ρ > 0 korrelaatio Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujien välillä on negatiivinen Muuttujien välillä on positiivinen

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Oletukset: Muuttujat vähintään järjestysasteikollisia Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa (tästä lisää myöhemmin) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Testisuure: lasketaan korrelaatiokertoimen, r, ja otoskoon, n, avulla: 1 r Vapausasteet: t r n 2 = ~ t(df) 2 lasketaan otoskoon avulla: df = n 2

KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Muuttujien välillä sanotaan silloin olevan riippuvuutta. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea. Tällöin muuttujia pidetään toisistaan riippumattomia.

Pituus ja paino: r = 0.437 Nollahypoteesi: H 0 : ρ = 0 (ei riippuvuutta) Oletukset: Muuttujat vähintään järjestysasteikollisia Riskitaso: Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa Vinous Jatkuvia Jos on satunnaisotos Valitaan α = 0.05 Seuraukset virhepäätelmästä eivät vakavia. 0.437 10 2 Testisuure ja p-arvo: t = = 1. 374 p = 0.207 1 0.437 2 Huipukkuus Pituus -0.038 (0.687) -0.738 (1.334) Paino 0.199 (0.687) -0.660 (1.334) df = 8 Johtopäätös: Nollahypoteesi jää voimaan. Otostiedon perusteella ei voida vielä sanoa, että riippuvuutta on perusjoukossa.

ESIMERKKI Tutkimuksessa laskettiin käden puristusvoiman (KPV) ja kehon rasvattoman painon (KRP) välisen korrelaatiokertoimen arvo göteborgilaisille miehille (n = 92). Testataan riippuvuushypoteesiparia: H 0 : ρ = 0 H 1 : ρ 0 Oletukset: Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujat ovat jatkuvia Riippumaton otos perusjoukosta Normaalijakautuneisuus KPV: vinous 0.274 (0.251); huipukkuus -0.285 (0.498) KRP: vinous 0.005 (0.251); huipukkuus 0.120 (0.498)

Valitaan riskitasoksi 0.05.

r n 2 0.493 92 2 t = = 2 2 1 r 1 0.493 df = n 2 = 92 2 = 90 = 5.382 p < 0.001 Nollahypoteesi hylätään ja muuttujien välillä sanotaan olevan kohtalaista positiivista riippuvuutta.

SYY-SEURAUSSUHDE Korrelaatiosta ei voi suoraan päätellä kausaalisuutta (syy-seuraussuhde) Jos havaitaan korkea korrelaatio kahden muuttujan välillä, tästä ei voi vielä päätellä, että toinen aiheuttaa muutoksen toisessa X Y X Y X Z Y(kolmas tekijä tai muu mekanismi) Toisaalta: jos muuttujien välillä on kausaalisuhde, on niiden välillä korrelaatiota

Ilman Ruotsia: r = 0.862 N Engl J Med 2012; 367:1562-1564.