Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Samankaltaiset tiedostot
HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

MTTTP1, luento KERTAUSTA

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus tn-laskentaan perjantai

031021P Tilastomatematiikka (5 op) viikko 6

Regressioanalyysi. Kuusinen/Heliövaara 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Korrelaatiokertoinen määrittely 165

031021P Tilastomatematiikka (5 op) viikko 6

805306A Johdatus monimuuttujamenetelmiin, 5 op

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Matemaattinen Analyysi, k2012, L1

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

MTTTP1, luento KERTAUSTA

Määrällisen aineiston esittämistapoja. Aki Taanila

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

YLEISKUVA - Kysymykset

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Tilastomatematiikka Kevät 2008

Johdatus regressioanalyysiin. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Talousmatematiikan perusteet: Luento 8. Vektoreista ja matriiseista Vektorien peruslaskutoimitukset Lineaarinen riippumattomuus Vektorien sisätulo

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Määrällisen aineiston esittämistapoja. Aki Taanila

805306A Johdatus monimuuttujamenetelmiin, 5 op

Til.yks. x y z

Insinöörimatematiikka D

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Kvantitatiiviset menetelmät

Mat Tilastollisen analyysin perusteet, kevät 2007

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Koodausteoria, Kesä 2014

Moniulotteiset satunnaismuuttujat ja jakaumat

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Harjoitus 9: Excel - Tilastollinen analyysi

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 1, Kevät 2018

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

pisteet Frekvenssi frekvenssi Yhteensä

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Esimerkki 1: auringonkukan kasvun kuvailu

PITUUSJAKAUTUMINEN. mittausta katkottujen paperipuiden hakkuusta kerättyjä tutkimusainei stoja hyväksi käyttäen.

Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat

5 TILASTOJEN ANALYSOINTIA

7. laskuharjoituskierros, vko 10, ratkaisut

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

7 Osa 7: Pidempiä esimerkkejä R:n käytöstä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Kopulafunktiot. Joonas Ollila 12. lokakuuta 2011

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

1 Raja-arvo. 1.1 Raja-arvon määritelmä. Raja-arvo 1

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Yleistetyistä lineaarisista malleista

ARVIOINTIPERIAATTEET

Batch means -menetelmä

Ilkka Mellin (2008) 1/5

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

7. Normaalijakauma ja standardipisteet

Transkriptio:

Korrelaatiokerroin Hanna Heikkinen 23. toukokuuta 2012 Matemaattisten tieteiden laitos

Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170 175 150 155 160 165 170 175 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 2 / 11

Esimerkki 1: opiskelijoiden ja heidän äitiensä pituuksien sirontakuvio, n = 61 tyttären pituus (cm) 155 160 165 170 175 150 155 160 165 170 175 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 2 / 11

Miten mitataan kahden muuttujan välistä riippuvuutta, kun muuttujat ovat vähintään välimatka-asteikkoa ja muuttujien välinen riippuvuus on luonteeltaan lineaarista? Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 3 / 11

Olkoon muuttujien ja y saamat arvot n havaintoyksiköllä ( 1, y 1 ), ( 2, y 2 ),...,( n, y n ). Tällöin yhteisvaihtelun mitta kovarianssi on. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 4 / 11

Olkoon muuttujien ja y saamat arvot n havaintoyksiköllä ( 1, y 1 ), ( 2, y 2 ),...,( n, y n ). Tällöin yhteisvaihtelun mitta kovarianssi on s = s y = 1 n 1 n ( i )(y i ȳ) i=1. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 4 / 11

Olkoon muuttujien ja y saamat arvot n havaintoyksiköllä ( 1, y 1 ), ( 2, y 2 ),...,( n, y n ). Tällöin yhteisvaihtelun mitta kovarianssi on s = s y = 1 n 1 n ( i )(y i ȳ) i=1 = 1 n 1 [( 1 )(y 1 ȳ) + ( 2 )(y 2 ȳ) +... +( n )(y n ȳ)]. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 4 / 11

Olkoon muuttujien ja y saamat arvot n havaintoyksiköllä ( 1, y 1 ), ( 2, y 2 ),...,( n, y n ). Tällöin yhteisvaihtelun mitta kovarianssi on s = s y = 1 n 1 n ( i )(y i ȳ) i=1 = 1 n 1 [( 1 )(y 1 ȳ) + ( 2 )(y 2 ȳ) +... +( n )(y n ȳ)]. Millaisia arvoja kovarianssi s y saa? Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 4 / 11

Esimerkki 1 jatkuu: s y = 1 n 1 [( 1 )(y 1 ȳ) + ( 2 )(y 2 ȳ) +... + ( n )(y n ȳ)] tyttären pituus (cm) 155 160 165 170 175 150 155 160 165 170 175 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 5 / 11

Esimerkki 1 jatkuu: s y = 1 n 1 [( 1 )(y 1 ȳ) + ( 2 )(y 2 ȳ) +... + ( n )(y n ȳ)] tyttären pituus (cm) 155 160 165 170 175 167.5 cm 165.1 cm 150 155 160 165 170 175 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 5 / 11

Esimerkki 1 jatkuu: s y = 1 n 1 [( 1 )(y 1 ȳ) + ( 2 )(y 2 ȳ) +... + ( n )(y n ȳ)] tyttären pituus (cm) 155 160 165 170 175 167.5 cm 165.1 cm 150 155 160 165 170 175 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 5 / 11

Esimerkki 1 jatkuu: s y = 1 n 1 [( 1 )(y 1 ȳ) + ( 2 )(y 2 ȳ) +... + ( n )(y n ȳ)] tyttären pituus (cm) 155 160 165 170 175 167.5 cm 165.1 cm 150 155 160 165 170 175 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 5 / 11

Jos muuttujien ja y välinen riippuvuus on positiivista ja lineaarista, s y saa positiivisia arvoja, negatiivista ja lineaarista, s y saa negatiivisia arvoja. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 6 / 11

Jos muuttujien ja y välinen riippuvuus on positiivista ja lineaarista, s y saa positiivisia arvoja, negatiivista ja lineaarista, s y saa negatiivisia arvoja. Kuinka voimakasta riippuvuus on? Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 6 / 11

Jos muuttujien ja y välinen riippuvuus on positiivista ja lineaarista, s y saa positiivisia arvoja, negatiivista ja lineaarista, s y saa negatiivisia arvoja. Kuinka voimakasta riippuvuus on? Esimerkissä: s y = 17.0 cm 2. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 6 / 11

Jos muuttujien ja y välinen riippuvuus on positiivista ja lineaarista, s y saa positiivisia arvoja, negatiivista ja lineaarista, s y saa negatiivisia arvoja. Kuinka voimakasta riippuvuus on? Esimerkissä: s y = 17.0 cm 2. Kovarianssin arvoja ei voida vertailla eri muuttujaparien välillä, sillä s y on mittayksiköistä riippuvainen. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 6 / 11

Pearsonin tulomomenttikorrelaatiokerroin määritellään muuttujien ja y välillä r = r y = s y, s s y 1 jossa s = n n 1 i=1 ( i ) 2 ja s y = ovat muuttujien ja y keskihajonnat. 1 n 1 n i=1 (y i ȳ) 2 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 7 / 11

Pearsonin tulomomenttikorrelaatiokerroin määritellään muuttujien ja y välillä r = r y = s y, s s y 1 jossa s = n n 1 i=1 ( i ) 2 ja s y = ovat muuttujien ja y keskihajonnat. 1 n 1 Kun kovarianssi skaalataan keskihajonnoilla, saadaan n i=1 (y i ȳ) 2 korrelaatiokerroin välille [ 1, +1]. Korrelaatiokerroin r y ei siis ole mittayksiköistä riippuvainen. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 7 / 11

Pearsonin tulomomenttikorrelaatiokerroin määritellään muuttujien ja y välillä r = r y = s y, s s y 1 jossa s = n n 1 i=1 ( i ) 2 ja s y = ovat muuttujien ja y keskihajonnat. 1 n 1 Kun kovarianssi skaalataan keskihajonnoilla, saadaan n i=1 (y i ȳ) 2 korrelaatiokerroin välille [ 1, +1]. Korrelaatiokerroin r y ei siis ole mittayksiköistä riippuvainen. Miten tulkitaan riippuvuuden voimakkuus? Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 7 / 11

y y Korrelaatiokertoimen r tulkinta täydellinen negatiivinen ei lainkaan täydellinen positiivinen lineaarinen riippuvuus lineaarista riippuvuutta lineaarinen riippuvuus -1 0 1 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 8 / 11

y y Korrelaatiokertoimen r tulkinta täydellinen negatiivinen ei lainkaan täydellinen positiivinen lineaarinen riippuvuus lineaarista riippuvuutta lineaarinen riippuvuus -1 0 1 r = 0.52 tyttären pituus (cm) 155 160 165 170 175 150 160 170 180 äidin pituus (cm) Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 8 / 11

Esimerkki 2. Mikä on korrelaatiokertoimen r y arvo seuraavissa tilanteissa? y 20 25 30 35 y 0 5 10 20 y 0 100 300 y 0 100 300 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 9 / 11

Esimerkki 2. Mikä on korrelaatiokertoimen r y arvo seuraavissa tilanteissa? y 20 25 30 35 y 0 5 10 20 y 0 100 300 y 0 100 300 r = 0.57 r = 0 r = 0.80 r = 0.80 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 9 / 11

Esimerkki 2. Mikä on korrelaatiokertoimen r y arvo seuraavissa tilanteissa? y 20 25 30 35 y 0 5 10 20 y 0 100 300 y 0 100 300 r = 0.57 r = 0 r = 0.80 r = 0.80 s = 12 s = 0 s = 23.6 s = 236 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 9 / 11

Muistettavaa: Korrelaatiokerroin r mittaa kahden muuttujan välistä riippuvuutta, kun kumpikin muuttuja on vähintään välimatka-asteikkoa, riippuvuus on luonteeltaan lineaarista ja muuttujien jakaumat ovat vähintäänkin symmetriset. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 10 / 11

Muistettavaa: Korrelaatiokerroin r mittaa kahden muuttujan välistä riippuvuutta, kun kumpikin muuttuja on vähintään välimatka-asteikkoa, riippuvuus on luonteeltaan lineaarista ja muuttujien jakaumat ovat vähintäänkin symmetriset. Riippuvuudesta ei välttämättä seuraa muuttujien välinen syy-seuraussuhde. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 10 / 11

Muistettavaa: Korrelaatiokerroin r mittaa kahden muuttujan välistä riippuvuutta, kun kumpikin muuttuja on vähintään välimatka-asteikkoa, riippuvuus on luonteeltaan lineaarista ja muuttujien jakaumat ovat vähintäänkin symmetriset. Riippuvuudesta ei välttämättä seuraa muuttujien välinen syy-seuraussuhde. Korrelaatiokertoimen tulkinnassa pitää huomioida havaintojen lukumäärä n. Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 10 / 11

r = 0.01 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.30 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.24 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.40 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.51 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.35 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.59 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.36 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.75 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.05 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.10 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.33 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.37 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.25 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.24 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.66 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.78 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.47 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.26 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.43 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.20 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.19 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.29 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.09 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = +0.11 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.01 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11

r = 0.09 Hanna Heikkinen Oulun yliopisto 23. toukokuuta 2012 11 / 11