Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Samankaltaiset tiedostot
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testejä suhdeasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille

Väliestimointi (jatkoa) Heliövaara 1

Johdatus regressioanalyysiin

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Regressioanalyysi. Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia

Moniulotteiset satunnaismuuttujat ja jakaumat

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Estimointi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

tilastotieteen kertaus

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Mat Tilastollisen analyysin perusteet, kevät 2007

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

HAVAITUT JA ODOTETUT FREKVENSSIT

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Johdatus regressioanalyysiin. Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

MTTTP1, luento KERTAUSTA

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Korrelaatiokertoinen määrittely 165

Sovellettu todennäköisyyslaskenta B

MTTTP1, luento KERTAUSTA

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Normaalijakaumasta johdettuja jakaumia

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2004) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisten aineistojen kuvaaminen

Harjoitus 2: Matlab - Statistical Toolbox

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Harjoitus 9: Excel - Tilastollinen analyysi

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Yhden selittäjän lineaarinen regressiomalli

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

1. Tilastollinen malli??

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Tilastollinen aineisto Luottamusväli

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

10. laskuharjoituskierros, vko 14, ratkaisut

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Transkriptio:

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio TKK (c) Ilkka Mellin (2005) 1

Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin korrelaatiokertoimen estimointi ja testaus Järjestyskorrelaatiokertoimet TKK (c) Ilkka Mellin (2005) 2

Tilastollinen riippuvuus ja korrelaatio: Mitä opimme? Tarkastelemme tässä luvussa tilastollisia tutkimusasetelmia, joissa on mukana kaksi tai useampia muuttujia. Pyrimme vastaamaan seuraaviin kysymyksiin: Miten kahden (tai useamman) muuttujan samanaikainen tarkastelu vaikuttaa tilastolliseen analyysiin? Miten kahden (tai useamman) muuttujan tilastollista aineistoa kuvataan? Mitä tarkoitetaan kahden muuttujan tilastollisella riippuvuudella ja miten se eroaa eksaktista riippuvuudesta? Mitä tarkoitetaan korrelaatiolla? Mikä on korrelaation ja riippuvuuden suhde? Miten korrelaatio estimoidaan? Miten korrelaatiota koskevia hypoteeseja testataan? TKK (c) Ilkka Mellin (2005) 3

Tilastollinen riippuvuus ja korrelaatio: Esitiedot Esitiedot: ks. seuraavia lukuja: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Estimointi Estimointimenetelmät Väliestimointi Tilastolliset testit Testit suhdeasteikollisille muuttujille Tarvitset esitietoja myös seuraavista kalvokokoelman Johdatus todennäköisyyslaskentaan luvuista: Satunnaismuuttujat ja todennäköisyysjakaumat Jakaumien tunnusluvut Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (2005) 4

Tilastollinen riippuvuus ja korrelaatio: Lisätiedot Johdatus regressioanalyysiin esitetään luvussa Johdatus regressioanalyysiin Regressioanalyysia yhden selittäjän lineaarisen regressiomallin tapauksessa käsitellään luvussa Yhden selittäjän lineaarinen regressiomalli Pitemmälle meneviä regressioanalyysin kysymyksiä käsitellään luvuissa Yleinen lineaarinen malli Regressiodiagnostiikka Regressiomallin valinta Regressioanalyysin erityiskysymyksiä TKK (c) Ilkka Mellin (2005) 5

Tilastollinen riippuvuus ja korrelaatio >> Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin korrelaatiokertoimen estimointi ja testaus Järjestyskorrelaatiokertoimet TKK (c) Ilkka Mellin (2005) 6

Tilastollinen riippuvuus, korrelaatio ja regressio Avainsanat Eksakti riippuvuus Korrelaatio Korrelaatiokerroin Regressioanalyysi Regressiomalli Testit korrelaatiokertoimille Tilastollinen riippuvuus Usean muuttujan havaintoaineiston kuvaaminen TKK (c) Ilkka Mellin (2005) 7

Tilastollinen riippuvuus, korrelaatio ja regressio Muuttujien väliset riippuvuudet tilastollisen tutkimuksen kohteena Tieteellisen tutkimuksen tärkeimmät ja mielenkiintoisimmat kysymykset liittyvät tavallisesti tutkimuksen kohteena olevaa ilmiötä kuvaavien muuttujien välisiin riippuvuuksiin. Jos tilastollisen tutkimuksen kohteena olevaan ilmiöön liittyy useampia kuin yksi muuttuja, yhden muuttujan tilastolliset menetelmät antavat tavallisesti vain rajoittuneen kuvan ilmiöstä. Sovellusten kannalta ehkä merkittävin osa tilastotiedettä käsittelee kahden tai useamman muuttujan välisten riippuvuuksien kuvaamista ja mallintamista. TKK (c) Ilkka Mellin (2005) 8

Tilastollinen riippuvuus, korrelaatio ja regressio Esimerkkejä riippuvuustarkasteluista Miten työttömyysaste Suomessa (% työvoimasta) riippuu BKT:n (bruttokansantuotteen) kasvuvauhdista Suomessa, Suomen viennin volyymista sekä BKT:n kasvuvauhdista muissa EUmaissa ja USA:ssa? Miten alkoholin kulutus (l per capita vuodessa) riippuu alkoholijuomien hintatasosta, ihmisten käytettävissä olevista tuloista ja alkoholin saatavuudesta? Miten todennäköisyys sairastua keuhkosyöpään (p) riippuu tupakoinnin määrästä ja kestosta? Miten vehnän hehtaarisato (t/ha) riippuu kesän keskilämpötilasta ja sademäärästä sekä maan muokkauksesta, lannoituksesta ja tuholaisten torjunnasta? Miten betonin lujuus (kg/cm 2 ) riippuu sen kuivumisajasta? Miten kemiallisen aineen saanto (%) riippuu valmistusprosessissa käytettävästä lämpötilasta? TKK (c) Ilkka Mellin (2005) 9

Tilastollinen riippuvuus, korrelaatio ja regressio Eksakti vs tilastollinen riippuvuus Tarkastelemme tässä esityksessä yksinkertaisuuden vuoksi pääasiassa kahden muuttujan välistä riippuvuutta: (i) Muuttujien välinen riippuvuus on eksaktia, jos toisen arvot voidaan ennustaa tarkasti toisen saamien arvojen perusteella. (ii) Muuttujien välinen riippuvuus on tilastollista, jos niiden välillä ei ole eksaktia riippuvuutta, mutta toisen muuttujan arvoja voidaan käyttää apuna toisen muuttujan arvojen ennustamisessa. TKK (c) Ilkka Mellin (2005) 10

Tilastollinen riippuvuus, korrelaatio ja regressio Tilastollinen riippuvuus ja korrelaatio Kahden muuttujan välistä (lineaarista) tilastollista riippuvuutta kutsutaan tilastotieteessä tavallisesti korrelaatioksi. Korrelaation eli (lineaarisen) tilastollisen riippuvuuden voimakkuutta mittaavia tilastollisia tunnuslukuja kutsutaan korrelaatiokertoimiksi. Korrelaatiot muodostavat perustan muuttujien välisten riippuvuuksien ymmärtämiselle. TKK (c) Ilkka Mellin (2005) 11

Tilastollinen riippuvuus, korrelaatio ja regressio Tilastollinen riippuvuus ja regressio Vaikka korrelaatiot muodostavat perustan muuttujien välisten riippuvuuksien ymmärtämiselle, riippuvuuksia halutaan tavallisesti analysoida myös tarkemmin. Regressioanalyysi on tilastollinen menetelmä, jossa jonkin, ns. selitettävän muuttujan tilastollista riippuvuutta joistakin toisista, ns. selittävistä muuttujista pyritään mallintamaan regressiomalliksi kutsutulla tilastollisella mallilla; ks. lukua Johdatus regressioanalyysiin. Huomautus: Tässä luvussa rajoitutaan tarkastelemaan korrelaatioiden estimointia ja testaamista. TKK (c) Ilkka Mellin (2005) 12

Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen Kuten yhden muuttujan havaintoaineistojen tapauksessa, lähtökohdan kahden tai useamman muuttujan havaintoaineistojen kuvaamiselle muodostaa tutustuminen havaintoarvojen jakaumaan. Havaintoarvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvoihin sisältyvä informaatio sopivaan muotoon: Havaintoarvojen jakaumaa kokonaisuutena voidaan kuvata sopivasti valituilla graafisilla esityksillä. Havaintoarvojen jakauman karakteristisia ominaisuuksia voidaan kuvata sopivasti valituilla otostunnusluvuilla. TKK (c) Ilkka Mellin (2005) 13

Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen: Graafiset menetelmät Koska useampi- kuin kaksiulotteisten kuvioiden tekeminen ei ole käytännössä mahdollista, kolmen tai useamman muuttujan havaintoaineistoja havainnollistetaan tavallisesti niin, että muuttujia tarkastellaan pareittain. Kahden järjestys-, välimatka- tai suhdeasteikoillisen muuttujan havaittujen arvojen pareja havainnollistetaan tavallisesti graafisella esityksellä, jota kutsutaan pistediagrammiksi. Huomautus: Monimuuttujamenetelmissä on kehitetty myös sellaisia tilastografiikan menetelmiä, joilla voidaan havainnollistaa useampi- kuin kaksiulotteisia aineistoja. TKK (c) Ilkka Mellin (2005) 14

Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen: Tunnusluvut Usean muuttujan havaintoaineistojen karakteristisia ominaisuuksia voidaan kuvata muuttujakohtaisilla otostunnusluvuilla. Muuttujakohtaiset otostunnusluvut eivät kuitenkaan voi antaa informaatiota muuttujien välisistä riippuvuuksista. Muuttujien pareittaisia tilastollisia riippuvuuksia voidaan kuvata sopivasti valitulla korrelaation mitalla. TKK (c) Ilkka Mellin (2005) 15

Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen: Korrelaatio Tutkittavien muuttujien mitta-asteikolliset ominaisuudet ohjaavat korrelaation mitan valintaa: Välimatka- ja suhdeasteikollisille muuttujille käytetään tavallisesti Pearsonin korrelaatiokerrointa. Järjestysasteikollisille muuttujille käytetään tavallisesti Spearmanin tai Kendallin järjestyskorrelaatiokerrointa. TKK (c) Ilkka Mellin (2005) 16

Tilastollinen riippuvuus, korrelaatio ja regressio Testit korrelaatiolle Satunnaismuuttujien väliseen korrelaatioon voidaan kohdistaa erilaisia tilastollisia testejä. Tässä esityksessä tarkastellaan seuraavia Pearsonin korrelaatiokertoimelle sopivia testejä: Yhden otoksen testi korrelaatiokertoimelle Korrelaatiokertoimien vertailutesti Testi korreloimattomuudelle Tässä esityksessä tarkastellaan seuraavia Spearmanin ja Kendallin järjestyskorrelaatiokertoimille sopivia testejä: Testit korreloimattomuudelle TKK (c) Ilkka Mellin (2005) 17

Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio >> Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin korrelaatiokertoimen estimointi ja testaus Järjestyskorrelaatiokertoimet TKK (c) Ilkka Mellin (2005) 18

Kahden muuttujan havaintoaineiston kuvaaminen Avainsanat Aikasarjadiagrammi Aritmeettinen keskiarvo Keskihajonta Korrelaatio Otoskovarianssi Pearsonin otoskorrelaatiokerroin Pistediagrammi Varianssi TKK (c) Ilkka Mellin (2005) 19

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi Tarkastellaan tilannetta, jossa tutkimuksen kohteina olevista havaintoyksiköistä on mitattu kahden järjestys-, välimatka-tai suhdeasteikollisen muuttujan x ja y arvot. Muuttujien x ja y arvojen samaan havaintoyksikköön liittyvien parien muodostamaa havaintoaineistoa voidaan kuvata graafisesti pistediagrammilla. Pistediagrammi sopii erityisesti kahden muuttujan välisen riippuvuuden havainnollistamiseen. Pistediagrammi on keskeinen työväline korrelaatio-ja regressioanalyysissa. TKK (c) Ilkka Mellin (2005) 20

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: Määritelmä Olkoot x ja yjärjestys-, välimatka-tai suhdeasteikollisia muuttujia, joiden havaitut arvot ovat x 1, x 2,, x n y 1, y 2,, y n Oletetaan lisäksi, että havaintoarvot x i ja y i liittyvät samaan havaintoyksikköön kaikille i = 1, 2,, n. Havaintoarvojen x 1, x 2,, x n ja y 1, y 2,, y n parien pistediagrammi saadaan esittämällä lukuparit (x i, y i ), i = 1, 2,, n pisteinä avaruudessa 2. TKK (c) Ilkka Mellin (2005) 21

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: Havainnollistus Kuvio oikealla esittää lukuparien (x i, y i ) ja (x j, y j ) määrittelemien pisteiden esittämistä tasokoordinaatistossa. (x i, y i ) y j y i y (x j, y j ) x x i x j TKK (c) Ilkka Mellin (2005) 22

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 1. esimerkki 1/2 Hooken lain mukaan kierrejousen pituus riippuu lineaarisesti jouseen ripustetusta painosta. Oikealla on tulokset kokeesta, jossa Hooken lain pätevyyttä tutkittiin ripustamalla jouseen 6 erikokoista painoa. Merkitään: (x i, y i ), i = 1, 2, 3, 4, 5, 6 jossa x i = paino i y i = jousen pituus, kun painona on x i Paino (kg) Pituus (cm) 0 43.00 2 43.60 4 44.05 6 44.55 8 45.00 10 45.50 TKK (c) Ilkka Mellin (2005) 23

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 1. esimerkki 2/2 Pistediagrammi oikealla havainnollistaa koetuloksia graafisesti. Ovatko havainnot sopusoinnussa Hooken lain kanssa? Vastausta tarkastellaan luvuissa Johdatus regressioanalyysiin ja Yhden selittäjän lineaarinen regressiomalli. Jousen pituus (cm) 46.00 45.50 45.00 44.50 44.00 43.50 43.00 42.50 Kierrejousen pituuden riippuvuus jouseen ripustetusta painosta -2 0 2 4 6 8 10 12 Paino (kg) TKK (c) Ilkka Mellin (2005) 24

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 2. esimerkki 1/2 Perinnöllisyystieteen mukaan lapset perivät geneettiset ominaisuutensa vanhemmiltaan. Periytyykö isän pituus heidän pojilleen? Havaintoaineisto koostuu 300:n isän ja heidän poikiensa pituuksien muodostamasta lukuparista (x i, y i ), i = 1, 2,, 300 jossa x i = isän i pituus y i = isän i pojan pituus Ks. pistediagrammia oikealla. Pojan pituus (cm) Isien ja poikien pituudet 195 190 185 180 175 170 165 160 155 160 165 170 175 180 185 190 Isän pituus (cm) TKK (c) Ilkka Mellin (2005) 25

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 2. esimerkki 2/2 Yhtä pitkillä isillä näyttää olevan monen mittaisia poikia. Mutta: Lyhyillä isillä näyttää olevan keskimäärin lyhyempiä poikia kuin pitkillä isillä ja pitkillä isillä näyttää olevan keskimäärin pitempiä poikia kuin lyhyillä isillä. Tällaisten tilastollisten riippuvuuksien analysoimista lineaaristen regressiomallien avulla tarkastellaan luvuissa Johdatus regressioanalyysiin ja Yhden selittäjän lineaarinen regressiomalli. Pojan pituus (cm) Isien ja poikien pituudet 195 190 185 180 175 170 165 160 155 160 165 170 175 180 185 190 Isän pituus (cm) TKK (c) Ilkka Mellin (2005) 26

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 3. esimerkki 1/2 Onko keuhkosyöpä yleisempää sellaisissa maissa, joissa tupakoidaan paljon? Oikealla on tiedot savukkeiden kulutuksesta ja keuhkosyövän yleisyydestä 10:ssä maassa. Havaintoaineisto koostuu 10:stä lukuparista (x i, y i ), i = 1, 2,, 10 jossa x i = savukkeiden kulutus maassa i 1930 y i = sairastuvuus keuhkosyöpään maassa i 1950 Maa Savukkeiden kulutus (kpl) per capita 1930 Keuhkosyöpätapausten lkm per 1 milj. henkilöä 1950 Islanti 220 58 Norja 250 90 Ruotsi 310 115 Kanada 510 150 Tanska 380 165 Itävalta 455 170 Hollanti 460 245 Sveitsi 530 250 Suomi 1115 350 Englanti 1145 465 TKK (c) Ilkka Mellin (2005) 27

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 3. esimerkki 2/2 Pistediagrammi oikealla havainnollistaa savukkeiden kulutuksen ja keuhkosyövän yleisyyden välistä yhteyttä. Sairastuvuus keuhkosyöpään näyttää olevan keskimäärin korkeampaa sellaisissa maissa, joissa savukkeiden kulutus on ollut keskimääräistä suurempaa. Tällaisten tilastollisten riippuvuuksien analysoimista lineaaristen regressiomallien avulla tarkastellaan luvussa Yhden selittäjän lineaarinen regressiomalli. Keuhkosyöpätapausten lkm per 1 milj. henkilöä 1950 500 400 300 200 100 0 Savukkeiden kulutus ja sairastuvuus keuhkosyöpään Sveitsi Hollanti Tanska Itävalta kanada Ruotsi Norja Islanti Englanti Suomi 0 200 400 600 800 1000 1200 1400 Savukkeiden kulutus (kpl) per capita 1930 TKK (c) Ilkka Mellin (2005) 28

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 4. esimerkki 1/2 Kokeessa tutkittiin betonin vetolujuuden riippuvuutta betonin kuivumisajasta. Havaintoaineisto koostuu 21:stä lukuparista (x i, y i ), i = 1, 2,, 21 jossa x i = betoniharkon i kuivumisaika y i = betoniharkon i vetolujuus Ks. pistediagrammia oikealla. Vetolujuus (kg/cm2) 50.0 40.0 30.0 20.0 10.0 0.0 Betonin vetolujuuden riippuvuus kuivumisajasta 0 5 10 15 20 25 30 Kuivumisaika (vrk) TKK (c) Ilkka Mellin (2005) 29

Kahden muuttujan havaintoaineiston kuvaaminen Pistediagrammi: 4. esimerkki 2/2 Vetolujuus näyttää riippuvan kuivumisajasta epälineaarisesti. 50.0 Betonin vetolujuuden riippuvuus kuivumisajasta Tässä tapauksessa muuttujien välinen epälineaarinen riippuvuus voidaan kuitenkin linearisoida; ks. lukua Johdatus regressioanalyysiin. Linearisoinnin jälkeen riippuvuutta voidaan analysoida lineaaristen regressiomallien avulla. Vetolujuus (kg/cm2) 40.0 30.0 20.0 10.0 0.0 0 5 10 15 20 25 30 Kuivumisaika (vrk) TKK (c) Ilkka Mellin (2005) 30

Kahden muuttujan havaintoaineiston kuvaaminen Aikasarjadiagrammi: Määritelmä 1/2 Oletetaan, että järjestys-, välimatka-tai suhdeasteikollisen muuttujan x havaitut arvot x 1, x 2,, x n muodostavat aikasarjan. Tällä tarkoitetaan sitä, että havaintoarvot on indeksoitu niin, että indeksit viittaavat peräkkäisiin ajanhetkiin, jolloin havainnot ovat aikajärjestyksessä. TKK (c) Ilkka Mellin (2005) 31

Kahden muuttujan havaintoaineiston kuvaaminen Aikasarjadiagrammi: Määritelmä 2/2 Aikasarjadiagrammi on pistediagrammi, jossa lukuparit (t, x t ), t = 1, 2,, n 2 esitetään pisteinä avaruudessa. Tavallisesti peräkkäisiin ajanhetkiin liittyvät pisteet (t 1, x t 1 ), (t, x t ), t = 2, 3,, n yhdistetään aikasarjadiagrammissa toisiinsa janoilla. TKK (c) Ilkka Mellin (2005) 32

Kahden muuttujan havaintoaineiston kuvaaminen Aikasarjadigarammi: Havainnollistus Kuvio oikealla esittää aikasarjan x t, t = 1, 2,, n peräkkäisten havaintoarvojen x t+1 x x t (t, x t ) (t+1, x t+1 ) x t 1, x t, x t+1 määrittelemien pisteiden esittämistä tasokoordinaatistossa. x t 1 (t 1, x t 1 ) t 1 t t+1 t TKK (c) Ilkka Mellin (2005) 33

Kahden muuttujan havaintoaineiston kuvaaminen Aikasarjadiagrammi: Esimerkki Aikasarjadiagrammi oikealla esittää erään tukkukaupan kkmyynnin arvon vaihtelua. Havaintoaineisto koostuu 144:stä lukuparista (t, x t ) jossa t = aika (1970/1-1981/12) x t = kk-myynnin arvoa kuvaava indeksi (1960/1 = 100) Huomaa, että kk-myynnissä on ollut nouseva trendi ja selvää kausivaihtelua. Myynti (indeksi) Myynti 1970/1-1981/12 300 250 200 150 100 1970 1972 1974 1976 1978 1980 1982 TKK (c) Ilkka Mellin (2005) 34

Kahden muuttujan havaintoaineiston kuvaaminen Tunnusluvut Kahden välimatka- tai suhdeasteikollisen muuttujan havaintoarvojen parien muodostamaa jakaumaa voidaan karakterisoida seuraavilla tunnusluvuilla: Havaintoarvojen keskimääräistä sijaintia kuvataan aritmeettisilla keskiarvoilla. Havaintoarvojen hajaantuneisuutta tai keskittyneisyyttä kuvataan keskihajonnoilla tai (otos-) variansseilla. Havaintoarvojen (lineaarista) riippuvuutta kuvataan otoskovarianssilla ja otoskorrelaatiokertoimella. TKK (c) Ilkka Mellin (2005) 35

Kahden muuttujan havaintoaineiston kuvaaminen Havainnot Olkoot ja x 1, x 2,, x n y 1, y 2,, y n välimatka-tai suhdeasteikollisten muuttujien x ja y havaittuja arvoja. Oletetaan lisäksi, että havaintoarvot x i ja y i liittyvät samaan havaintoyksikköön i kaikille i = 1, 2,, n. TKK (c) Ilkka Mellin (2005) 36

Kahden muuttujan havaintoaineiston kuvaaminen Aritmeettiset keskiarvot: Määritelmät Havaintoarvojen x 1, x 2,, x n aritmeettinen keskiarvo on x 1 n x1+ x2 + + xn xi n i= 1 n = = Havaintoarvojen y 1, y 2,, y n aritmeettinen keskiarvo on y 1 n y1+ y2 + + yn yi n i= 1 n = = TKK (c) Ilkka Mellin (2005) 37

Kahden muuttujan havaintoaineiston kuvaaminen Aritmeettiset keskiarvot: Tulkinnat Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n laskettujen aritmeettisten keskiarvojen x ja y muodostama lukupari ( x, y) on havaintoarvojen parien muodostamien pisteiden painopiste. Havaintoarvojen aritmeettinen keskiarvo kuvaa havaintoarvojen keskimääräistä sijaintia. TKK (c) Ilkka Mellin (2005) 38

Kahden muuttujan havaintoaineiston kuvaaminen Varianssit: Määritelmät Havaintoarvojen x 1, x 2,, x n (otos-) varianssi on n 2 1 s ( ) 2 x = xi x n 1 i= 1 jossa x on x-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen y 1, y 2,, y n (otos-) varianssi on n 2 1 s ( ) 2 y = yi y n 1 i= 1 jossa y on y-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen varianssi mittaa havaintoarvojen hajaantuneisuutta tai keskittyneisyyttä havaintoarvojen aritmeettisen keskiarvon suhteen. TKK (c) Ilkka Mellin (2005) 39

Kahden muuttujan havaintoaineiston kuvaaminen Keskihajonnat: Määritelmät Havaintoarvojen x 1, x 2,, x n keskihajonta on n 1 s ( ) 2 x = xi x n 1 i= 1 jossa x on x-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen y 1, y 2,, y n keskihajonta on n 1 s ( ) 2 y = yi y n 1 i= 1 jossa y on y-havaintoarvojen aritmeettinen keskiarvo. Havaintoarvojen keskihajonta mittaa havaintoarvojen hajaantuneisuutta tai keskittyneisyyttä havaintoarvojen aritmeettisen keskiarvon suhteen. TKK (c) Ilkka Mellin (2005) 40

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi: Määritelmä Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n laskettu otoskovarianssi on n 1 sxy = ( xi x)( yi y) n 1 i= 1 jossa x = x-havaintoarvojen aritmeettinen keskiarvo y = y-havaintoarvojen aritmeettinen keskiarvo Huomaa, että x-ja y-havaintoarvojen otoskovarianssit niiden itsensä kanssa ovat niiden variansseja: 2 s = s s xx yy = s x 2 y TKK (c) Ilkka Mellin (2005) 41

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi: Merkin määräytyminen 1/4 Otoskovarianssin s xy merkin määrää summalauseke (1) ( xi x)( yi y) Summalausekkeen (1) i. termin ( xi x)( yi y) itseisarvo xi x yi y on sellaisen suorakaiteen pinta-ala, jonka sivujen pituudet ovat ja xi yi x y TKK (c) Ilkka Mellin (2005) 42

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi: Merkin määräytyminen 2/4 Summalausekkeen (1) i. termin ( xi x)( yi y) merkki määräytyy seuraavalla tavalla: jos xi x ja yi y ( xi x)( yi y) 0 jos xi x ja yi y jos xi x ja yi y ( xi x)( yi y) 0 jos xi x ja yi y Merkin määräytymistä voidaan havainnollistaa geometrisesti seuraavalla tavalla (ks. kuviota seuraavalla kalvolla): (i) Jaetaan xy-taso neljään osaan eli neljännekseen pisteen ( x, y) kautta piirretyillä koordinaattiakseleiden suuntaisilla suorilla. (ii) Termin ( xi x)( yi y) merkin määrää se, mihin neljännekseen havaintopiste (x i, y i ) sijoittuu. TKK (c) Ilkka Mellin (2005) 43

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi: Merkin määräytyminen 3/4 ( x x)( y y) 0 ( x x)( y y) 0 i i i i ( xi, y ) i ( xi, yi) ( x, y) ( x, y ) ( x, y ) i i i i ( x x)( y y) 0 ( x x)( y y) 0 i i i i TKK (c) Ilkka Mellin (2005) 44

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi: Merkin määräytyminen 4/4 Jos positiiviset termit summalausekkeeseen (1) ( xi x)( yi y) tuottavien suorakaiteiden yhteenlaskettu pinta-ala on suurempi (pienempi) kuin negatiiviset termit tuottavien suorakaiteiden yhteenlaskettu pinta-ala, otoskovarianssin s xy merkki on positiivinen (negatiivinen). Siten otoskovarianssilla on taipumus saada positiivisia (negatiivisia) arvoja, jos havaintopisteiden muodostama pistepilvi tai -parvi näyttää nousevalta (laskevalta) oikealle mentäessä; ks. pistediagrammin ilmeen ja Pearsonin otoskorrelaatiokertoimen yhteyttä kuvaavia havainnollistuksia tässä kappaleessa. TKK (c) Ilkka Mellin (2005) 45

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi: Tulkinta Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n laskettu otoskovarianssi s xy mittaa x-ja y-havaintoarvojen yhteisvaihtelua niiden aritmeettisten keskiarvojen ympärillä. Mitä suurempi on otoskovarianssin s xy itseisarvo s xy sitä voimakkaampaa on x-ja y-havaintoarvojen yhteisvaihtelu. TKK (c) Ilkka Mellin (2005) 46

Kahden muuttujan havaintoaineiston kuvaaminen Otoskovarianssi ja Pearsonin otoskorrelaatiokerroin Otoskovarianssin s xy avulla voidaan määritellä x-ja y- havaintoarvojen lineaarisen tilastollisen riippuvuuden voimakkuuden mittari, jota kutsutaan Pearsonin otoskorrelaatiokertoimeksi. Pearsonin otoskorrelaatiokerroin r xy saadaan otoskovarianssista s xy normeerausoperaatiolla, jossa x-ja y- havaintoarvojen otoskovarianssi s xy jaetaan x-ja y- havaintoarvojen keskihajonnoilla s x ja s y. TKK (c) Ilkka Mellin (2005) 47

Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin otoskorrelaatiokerroin: Määritelmä 1/2 Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n laskettu Pearsonin otoskorrelaatiokerroin on sxy rxy = ss jossa s xy = x-ja y-havaintoarvojen otoskovarianssi s x s y x y = x-havaintoarvojen keskihajonta = y-havaintoarvojen keskihajonta TKK (c) Ilkka Mellin (2005) 48

Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin otoskorrelaatiokerroin: Määritelmä 2/2 Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n laskettu Pearsonin otoskorrelaatiokerroin voidaan kirjoittaa myös muotoon r xy = n ( x x)( y y) i i i= 1 n n 2 2 ( xi x) ( yi y) i= 1 i= 1 jossa x = x-havaintoarvojen aritmeettinen keskiarvo y = y-havaintoarvojen aritmeettinen keskiarvo TKK (c) Ilkka Mellin (2005) 49

Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin otoskorrelaatiokerroin: Ominaisuuksia Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n lasketulla Pearsonin otoskorrelaatiokertoimella r xy on seuraavat ominaisuudet: (i) 1 r + 1 (ii) r xy xy =± 1, jos ja vain jos y i = α + βx i jossa α ja β ovat reaalisia vakiota ja β 0. (iii) Korrelaatiokertoimella rxy ja kovarianssilla s on aina sama merkki. xy TKK (c) Ilkka Mellin (2005) 50

Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin otoskorrelaatiokerroin: Tulkinta Havaintoarvojen pareista (x i, y i ), i = 1, 2,, n laskettu Pearsonin otoskorrelaatiokerroin r xy mittaa x- ja y-havaintoarvojen lineaarisen tilastollisen riippuvuuden voimakkuutta. Jos r xy = ±1, niin x-ja y-havaintoarvojen välillä on eksakti eli funktionaalinen lineaarinen riippuvuus, mikä merkitsee sitä, että kaikki havaintopisteet (x i, y i ) asettuvat samalle suoralle. Jos r xy = 0, niin x-ja y-havaintoarvojen välillä ei voi olla eksaktia lineaarista riippuvuutta. Vaikka r xy = 0, x-ja y-havaintoarvojen välillä saattaa silti olla jopa eksakti epälineaarinen riippuvuus. TKK (c) Ilkka Mellin (2005) 51

Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin otoskorrelaatiokerroin: Havainnollistus Kuviot alla havainnollistavat kahden muuttujan havaittujen arvojen (n = 30) pistediagrammin ilmeen ja korrelaation välistä yhteyttä. r xy = 0.81 r xy = 0.62 r xy = 0.48 r xy = 0.43 r xy = 0.83 r xy = 1 TKK (c) Ilkka Mellin (2005) 52

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen 1/4 Oletetaan, että haluamme laskea havaintoarvojen pareista (x i, y i ), i = 1, 2,, n seuraavat otostunnusluvut käsin tai käyttämällä laskinta: (i) Aritmeettiset keskiarvot: x, y 2 2 (ii) Varianssit: sx, sy (iii) Keskihajonnat: sx, sy (iv) Kovarianssi: s xy (v) Korrelaaatio: r xy Tällöin tarvittavat laskutoimitukset on mukavinta järjestää seuraavalla kalvolla esitettävän kaavion muotoon. TKK (c) Ilkka Mellin (2005) 53

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen 2/4 Määrätään ensin havaintoarvojen summat, neliösummat ja tulosumma: i x y x y x y 1 2 x x y y x x y y x y x y n x y x y x y Summa 2 2 i i i i i i 2 2 1 1 1 1 1 1 2 2 2 2 2 2 2 2 n n 2 2 n n n n n n n 2 2 i i xi yi i= 1 i= 1 i= 1 i= 1 i= 1 x y x y n i n i TKK (c) Ilkka Mellin (2005) 54

TKK (c) Ilkka Mellin (2005) 55 Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen 3/4 Havaintoarvojen aritmeettiset keskiarvot, varianssit ja kovarianssi saadaan havaintoarvojen summista, neliösummista ja tulosummasta alla esitetyillä kaavoilla: 1 2 1 2 1 1 1 1 1 2 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 n i i n i i x y xy n n i i i i n n i i i i n n n i i i i i i i x x s n n n y s n n n xy x y x y n y s n x y = = = = = = = = = = = = = =

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen 4/4 Havaintoarvojen keskihajonnat ja Pearsonin otoskorrelaatiokerroin saadaan havaintoarvojen variansseista ja kovarianssista alla esitetyillä kaavoilla: s s r x y xy = = = s s s x 2 x 2 y xy ss y TKK (c) Ilkka Mellin (2005) 56

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen: Havainnollistava esimerkki 1/5 Taulukossa oikealla on keinotekoisen kahden muuttujan aineiston havaintoarvot (n = 6). Aineistoa kuvaava pistediagrammi on oikealla alhaalla. i x y 1 1 2.5 2 3 3 3 4 6 4 6 5 5 7 7.5 6 8 8 10 Pistediagrammi 8 6 y 4 2 0 0 2 4 6 8 10 x TKK (c) Ilkka Mellin (2005) 57

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen: Havainnollistava esimerkki 2/5 Alla olevassa taulukossa on laskettu muuttujien x ja y havaittujen arvojen summat, neliösummat ja tulosumma. i x y x 2 y 2 xy 1 1 2.5 1 6.25 2.5 2 3 3 9 9 9 3 4 6 16 36 24 4 6 5 36 25 30 5 7 7.5 49 56.25 52.5 6 8 8 64 64 64 Summa 29 32 175 196.5 182 Muuttujien x ja y havaittujen arvojen aritmeettiset keskiarvot, otosvarianssit, keskihajonnat, otoskovarianssi ja otoskorrelaatio voidaan laskea näistä viidestä summasta; ks. seuraavaa kalvoa. TKK (c) Ilkka Mellin (2005) 58

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen: Havainnollistava esimerkki 3/5 Keskiarvot, otosvarianssit ja otoskovarianssi: n 1 1 x = xi = 29 = 4.833 n i= 1 6 2 2 1 n n 2 1 1 1 2 sx = xi xi = 175 29 = 6.967 n 1 i 1 n = i= 1 6 1 6 n 1 1 y = yi = 32 = 5.333 n i= 1 6 n n 2 2 1 2 1 1 1 2 sy = yi yi = 196.5 32 = 5.167 n 1 i= 1 n i= 1 6 1 6 n n n 1 1 1 1 sxy = xi yi 182 29 32 n 1 xi yi i= 1 n = i= 1 i= 1 6 1 6 = 5.467 TKK (c) Ilkka Mellin (2005) 59

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen: Havainnollistava esimerkki 4/5 Otoskeskihajonnat ja otoskorrelaatio: s s r x y xy = s = 6.967 = 2.639 2 x = s = 5.167 = 2.273 2 y sxy 5.467 = = = ss 2.639 2.273 x y 0.9112 TKK (c) Ilkka Mellin (2005) 60

Kahden muuttujan havaintoaineiston kuvaaminen Tunnuslukujen laskeminen: Havainnollistava esimerkki 5/5 Kuvioon oikealla on lisätty havaintopisteiden painopiste ( x, y ) = (4.833,5.333) 10 8 II Pistediagrammi I Lisäksi kuvioon on piirretty painopisteen kautta kulkevat koordinaattiakseleiden suuntaiset suorat sekä kovarianssin ja korrelaation merkin määräytymistä havainnollistavat suorakaiteet. Kovarianssi (ja siten myös korrelaatio) on positiivinen, koska I ja III neljänneksen suorakaiteiden yhteenlaskettu pinta-ala on suurempi kuin II ja IV neljänneksen suorakaiteiden yhteenlaskettu pinta-ala; ks. tässä kappaleessa esitettyä selitystä kovarianssin merkin määräytymisestä. y 6 4 2 0 III ( x, y) IV 0 2 4 6 8 10 x TKK (c) Ilkka Mellin (2005) 61

Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen >> Pearsonin korrelaatiokertoimen estimointi ja testaus Järjestyskorrelaatiokertoimet TKK (c) Ilkka Mellin (2005) 62

Pearsonin korrelaatiokertoimen estimointi ja testaus Avainsanat Fisherin z-muunnos Korrelaatio Korrelaatiokertoimen testaaminen Korrelaatiokertoimien vertailutesti Korreloimattomuuden testaaminen Pearsonin korrelaatiokerroin Pearsonin korrelaatiokertoimen estimointi Pearsonin korrelaatiokertoimen luottamusväli Pearsonin otoskorrelaatiokerroin TKK (c) Ilkka Mellin (2005) 63

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaation estimointi ja testaus Tarkastellaan välimatka-tai suhdeasteikollisten satunnaismuuttujien X ja Y Pearsonin (tulomomentti-) korrelaatiokertoimen ρ XY estimointia sekä seuraavia testejä korrelaatiokertoimelle ρ XY : Yhden otoksen testi korrelaatiokertoimelle Korrelaatiokertoimien vertailutesti Korreloimattomuuden testaaminen Lisätietoja moniulotteisista satunnaismuuttujista ja jakaumista: Ks. kalvokokoelman Johdatus todennäköisyyslaskentaan lukuja Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat ja Moniulotteisia jakaumia. TKK (c) Ilkka Mellin (2005) 64

Pearsonin korrelaatiokertoimen estimointi ja testaus Satunnaismuuttujien kovarianssi ja korrelaatio 1/2 Olkoon (X, Y) satunnaismuuttujien X ja Y muodostama järjestetty pari. Olkoot µ X = E( X ) µ Y = E( Y ) satunnaismuuttujien X ja Y odotusarvot ja σ = Var( X) = D ( X) = E[( X µ ) ] 2 2 2 X X 2 2 2 σ Y = Var( Y) = D ( Y) = E[( Y µ Y) ] satunnaismuuttujien X ja Y varianssit. TKK (c) Ilkka Mellin (2005) 65

Pearsonin korrelaatiokertoimen estimointi ja testaus Satunnaismuuttujien kovarianssi ja korrelaatio 2/2 Määritellään satunnaismuuttujien X ja Y kovarianssi σ XY kaavalla σ XY = Cov( X, Y) = E[( X µ X )( Y µ Y )] Määritellään satunnaismuuttujien X ja Y korrelaatio ρ XY kaavalla σ XY ρ XY = Cor( XY, ) = σ XσY jossa 2 σ = D( X ) = σ σ X Y = D( Y ) = σ 2 Y X TKK (c) Ilkka Mellin (2005) 66

Pearsonin korrelaatiokertoimen estimointi ja testaus Satunnaismuuttujien korrelaatio Satunnaismuuttujien X ja Y korrelaatiota ρ XY = Cor(X, Y) kutsutaan tavallisesti Pearsonin (tulomomentti-) korrelaatiokertoimeksi. Pearsonin korrelaatiokerroin ρ XY mittaa satunnaismuuttujien X ja Y lineaarisen riippuvuuden voimakkuutta. TKK (c) Ilkka Mellin (2005) 67

Pearsonin korrelaatiokertoimen estimointi ja testaus Pearsonin korrelaatiokertoimen estimointi 1/3 Oletetaan, että satunnaismuuttujien X ja Y muodostama järjestetty pari (X, Y) noudattaa 2-ulotteista normaalijakaumaa N 2 (µ X, µ Y, σ X2, σ Y2, ρ XY ), jossa µ X = E( X ) µ Y = E( Y ) 2 2 σ X = Var( X ) σ Y = Var( Y ) ρ XY = Cor( XY, ) Olkoon ( X i, Yi), i = 1,2,, n riippumaton satunnaisotos satunnaismuuttujien X ja Y muodostaman parin (X, Y) jakaumasta. TKK (c) Ilkka Mellin (2005) 68

Pearsonin korrelaatiokertoimen estimointi ja testaus Pearsonin korrelaatiokertoimen estimointi 2/3 Olkoot n n 1 1 X = X Y = Y i i n i= 1 n i= 1 n n 2 1 2 2 1 2 X = ( i ) Y = ( i ) n 1 i= 1 n 1 i= 1 n s X X s Y Y 1 s = ( X X)( Y Y) XY i i n 1 i= 1 sxy rxy = sxsy tavanomaiset havaintoarvojen pareista lasketut otostunnusluvut. TKK (c) Ilkka Mellin (2005) 69 ( X, Y), i = 1,2,, n i i

Pearsonin korrelaatiokertoimen estimointi ja testaus Pearsonin korrelaatiokertoimen estimointi 3/3 Satunnaismuuttujien X ja Y Pearsonin (tulomomentti-) korrelaatiokerroin σ XY ρ XY = Cor( XY, ) = σ σ voidaan estimoida vastaavalla Pearsonin otoskorrelaatiokertoimella sxy rxy = s s Huomautus: X Y X Y Estimaattori r XY voidaan johtaa sekä momenttimenetelmällä että suurimman uskottavuuden menetelmällä. TKK (c) Ilkka Mellin (2005) 70

Pearsonin korrelaatiokertoimen estimointi ja testaus Fisherin z-muunnos Määritellään Fisherin z-muunnos kaavalla 1 1+ u z = f( u) = log 2 1 u Fisherinz-muunnosta soveltamalla luottamusvälit ja testit Pearsonin tulomomenttikorrelaatiokertoimelle ρ XY voidaan konstruoida samanlaisella tekniikalla kuin luottamusvälit ja testit konstruoidaan normaalijakauman odotusarvolle; ks. lukuja Väliestimointi ja Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 71

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Oletukset Oletetaan, että satunnaismuuttujien X ja Y muodostama järjestetty pari (X, Y) noudattaa 2-ulotteista normaalijakaumaa N 2 (µ X, µ Y, σ X2, σ Y2, ρ XY ), jossa µ = E( X ) µ = E( Y ) σ X = Var( X ) σ = Var( Y ) 2 2 X Y ρ XY = Cor( XY, ) Olkoon ( X i, Yi), i = 1,2,, n riippumaton satunnaisotos satunnaismuuttujien X ja Y muodostaman parin (X, Y) jakaumasta. Y TKK (c) Ilkka Mellin (2005) 72

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Parametrien estimointi Estimoidaan 2-ulotteisen normaalijakauman parametrit tavanomaisilla estimaattoreillaan: n n 1 1 X = X Y = Y i i n i= 1 n i= 1 n n 2 1 2 2 1 2 X = ( i ) Y = ( i ) n 1 i= 1 n 1 i= 1 n s X X s Y Y 1 s = ( X X)( Y Y) r XY i i n 1 i= 1 XY = sxy s s X Y TKK (c) Ilkka Mellin (2005) 73

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Fisherin z-muunnos 1/2 Sovelletaan Fisherin z-muunnosta z = f (u) otoskorrelaatiokertoimeen r XY : 1 1+ rxy z = f( rxy ) = log 2 1 r XY Voidaan osoittaa, että satunnaismuuttuja z noudattaa suurissa otoksissa approksimatiivisesti normaalijakaumaa: 2 z a N( µ z, σ z) jossa 1 1+ ρ XY 2 1 µ z = log ja σz = 2 1 ρ XY n 3 Approksimaatio on käytännössä riittävän hyvä, kun n > 25. TKK (c) Ilkka Mellin (2005) 74

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Fisherin z-muunnos 2/2 Pearsonin korrelaatiokertoimelle ρ XY voidaan konstruoida approksimatiivinen luottamusväli Fisherin z-muunnoksen avulla. Olkoon 1 1+ ρ XY 2 1 µ z = log ja σz = 2 1 ρ XY n 3 Tällöin standardoitu satunnaismuuttuja z µ z v = σ z noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa N(0,1): v a N(0,1) TKK (c) Ilkka Mellin (2005) 75

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Luottamustaso Määrätään approksimatiivinen luottamusväli Pearsonin korrelaatiokertoimelle ρ XY. Valitaan luottamustasoksi 1 α Luottamustason valinta kiinnittää todennäköisyyden, jolla konstruoitava luottamusväli peittää korrelaatiokertoimen ρ XY oikean arvon. TKK (c) Ilkka Mellin (2005) 76

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Luottamuskertoimet 1/2 Olkoon luottamustasona (1 α). Valitaan luottamuskerroin eli piste +z α/2 siten, että se erottaa standardoidun normaalijakauman N(0, 1) oikealle hännälle todennäköisyysmassan α/2. Koska normaalijakauma on symmetrinen, luottamuskerroin eli piste z α/2 erottaa standardoidun normaalijakauman vasemmalle hännälle todennäköisyysmassan α/2. TKK (c) Ilkka Mellin (2005) 77

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Luottamuskertoimet 2/2 Siten luottamuskertoimet +z α/2 ja z α/2 valitaan siten, että α Pr( z + zα /2) = 2 α Pr( z zα /2) = 2 jossa satunnaismuuttuja z noudattaa standardoitua normaalijakaumaa: z N(0,1) Huomaa, että Pr( z z + z ) = 1 α/2 α/2 α TKK (c) Ilkka Mellin (2005) 78

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Parametrin µ z luottamusväli 1/2 Parametrin 1 1+ ρ log XY µ z = 2 1 ρ XY approksimatiivinen luottamusväli luottamustasolla (1 α) on edellä esitetyn nojalla muotoa 1 1 z zα/2, z+ zα/2 n 3 n 3 TKK (c) Ilkka Mellin (2005) 79

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Parametrin µ z luottamusväli 2/2 Parametrin µ z approksimatiivisen luottamusvälin 1 1 z zα/2, z+ zα/2 n 3 n 3 kaavassa 1 1+ rxy z = f( rxy ) = log 2 1 r XY n = havaintojen lukumäärä z α/2, +z α/2 = luottamustasoon (1 α) liittyvät luottamuskertoimet standardoidusta normaalijakaumasta N(0, 1) TKK (c) Ilkka Mellin (2005) 80

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Parametrin µ z luottamusvälin tulkinta Parametrin µ z approksimatiivisen luottamusvälin 1 1 z zα/2, z+ zα/2 n 3 n 3 konstruktiosta seuraa, että 1 1 Prz zα/2 µ z z+ zα/2 = a1 α n 3 n 3 Siten konstruoitu luottamusväli peittää parametrin µ z oikean arvon approksimatiivisesti todennäköisyydellä (1 α)ja se ei peitä parametrin µ z oikeata arvoa approksimatiivisesti todennäköisyydellä α. TKK (c) Ilkka Mellin (2005) 81

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Korrelaatiokertoimen ρ XY luottamusväli 1/2 Pearsonin korrelaatiokertoimen ρ XY approksimatiivinen luottamusväli saadaan parametrin µ z luottamusvälistä ratkaisemalla ρ XY epäyhtälöketjusta 1 1 1+ rxy 1 z zα/2 = log zα/2 n 3 2 1 rxy n 3 1 1+ ρ log XY µ z = 2 1 ρ XY 1 1 1+ rxy 1 z + zα/2 = log + zα/2 n 3 2 1 r n 3 XY TKK (c) Ilkka Mellin (2005) 82

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Korrelaatiokertoimen ρ XY luottamusväli 2/2 Pearsonin korrelaatiokertoimen ρ XY approksimatiiviseksi luottamusväliksi saadaan (lb, ub) jossa (1 + rxy ) (1 rxy ) exp + 2zα /2 n 3 lb = (1 + rxy ) + (1 rxy ) exp + 2zα /2 n 3 on luottamusvälin alaraja ja (1 + rxy ) (1 rxy ) exp 2zα /2 n 3 ub = (1 + rxy ) + (1 rxy ) exp 2zα /2 n 3 on luottamusvälin yläraja. ( ) ( ) ( ) ( ) TKK (c) Ilkka Mellin (2005) 83

Pearsonin korrelaatiokertoimen estimointi ja testaus Luottamusväli Pearsonin korrelaatiokertoimelle: Korrelaatiokertoimen ρ XY luottamusvälin tulkinta Pearsonin korrelaatiokertoimen ρ XY approksimatiivisen luottamusvälin (lb, ub) konstruktiosta seuraa, että Pr( lb ρ XY ub) = a 1 α Siten konstruoitu luottamusväli peittää korrelaatiokertoimen ρ XY oikean arvon approksimatiivisesti todennäköisyydellä (1 α)ja se ei peitä korrelaatiokertoimen ρ XY oikeata arvoa approksimatiivisesti todennäköisyydellä α. TKK (c) Ilkka Mellin (2005) 84

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Testausasetelma Tarkastellaan yhden otoksen testiä Pearsonin korrelaatiokertoimelle. Fisherinz-muunnoksen avulla testi voidaan pukea tavanomaisen t-testin muotoon. TKK (c) Ilkka Mellin (2005) 85

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Yleinen hypoteesi Yleinen hypoteesi H : (i) Oletetaan, että satunnaismuuttujien X ja Y muodostama järjestetty pari (X, Y) noudattaa 2- ulotteista normaalijakaumaa, jonka parametrit ovat µ = E( X ) µ = E( Y ) σ X = Var( X ) σ = Var( Y ) 2 2 X Y ρ XY = Cor( XY, ) (ii) Olkoon ( X i, Yi), i = 1,2,, n riippumaton satunnaisotos satunnaismuuttujien X ja Y muodostaman parin (X, Y) jakaumasta. Y TKK (c) Ilkka Mellin (2005) 86

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Nollahypoteesi ja vaihtoehtoinen hypoteesi Nollahypoteesi H 0 : H 0 : ρxy = ρ0 Vaihtoehtoinen hypoteesi H 1 : H: 1 ρxy > ρ0 1-suuntaiset vaihtoehtoiset hypoteesit H: 1 ρxy < ρ0 H : ρ ρ 2-suuntainen vaihtoehtoinen hypoteesi 1 XY 0 TKK (c) Ilkka Mellin (2005) 87

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Parametrien estimointi Estimoidaan 2-ulotteisen normaalijakauman parametrit tavanomaisilla estimaattoreillaan: n n 1 1 X = X Y = Y n n i i i= 1 i= 1 n n 2 1 2 2 1 2 X = ( i ) Y = ( i ) n 1 i= 1 n 1 i= 1 n s X X s Y Y 1 sxy = ( Xi X)( Yi Y) n 1 i= 1 sxy rxy = s s X Y TKK (c) Ilkka Mellin (2005) 88

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Fisherin z-muunnos 1/2 Sovelletaan Fisherin z-muunnosta z = f (u) otoskorrelaatiokertoimeen r XY : 1 1+ rxy z = f( rxy ) = log 2 1 r XY Satunnaismuuttuja z noudattaa suurissa otoksissa approksimatiivisesti normaalijakaumaa: 2 z a N( µ z, σ z) jossa 1 1+ ρ XY 2 1 µ z = log ja σz = 2 1 ρ XY n 3 Approksimaatio on riittävän hyvä, kun n > 25. TKK (c) Ilkka Mellin (2005) 89

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Fisherin z-muunnos 2/2 Testi nollahypoteesille H 0 : ρxy = ρ0 voidaan perustaa Fisherin z-muunnoksen käyttöön. Jos nollahypoteesi H 0 pätee, 1 1+ ρ 0 0 E( z) = log = µ z 2 1 ρ0 Siten satunnaismuuttuja 0 z µ z v = σ z noudattaa nollahypoteesin H 0 pätiessä suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa. TKK (c) Ilkka Mellin (2005) 90

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Testisuure ja sen jakauma Määritellään testisuure 1 1+ rxy 1 1+ ρ0 log log 2 1 r 2 XY 1 ρ 0 v = 1 n 3 Jos nollahypoteesi H 0: ρxy = ρ0 pätee, testisuure v noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa: v a N(0,1) TKK (c) Ilkka Mellin (2005) 91

Pearsonin korrelaatiokertoimen estimointi ja testaus Yhden otoksen testi korrelaatiokertoimelle: Testi Testisuureen v normaaliarvo = 0, koska nollahypoteesin H 0: ρxy = ρ0 pätiessä E(v) = 0 Siten itseisarvoltaan suuret testisuureen v arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos testin p-arvo on kyllin pieni. TKK (c) Ilkka Mellin (2005) 92

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Testausasetelma Tarkastellaan vertailutestiä Pearsonin korrelaatiokertoimille. Fisherinz-muunnoksen avulla testi voidaan pukea tavanomaisen riippumattomien otosten t-testin muotoon. TKK (c) Ilkka Mellin (2005) 93

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Hypoteesit Yleinen hypoteesi H : Oletetaan, että käytössä on kaksi toisistaan riippumatonta yksinkertaista satunnaisotosta perusjoukoista, jotka noudattavat 2-ulotteisia normaalijakaumia, joiden korrelaatiokertoimet ovat ρ 1 ja ρ 2. Nollahypoteesi H 0 : H 0 : ρ 1 = ρ 2 = ρ 0 Vaihtoehtoinen hypoteesi H 1 : H: 1 ρ1 > ρ2 1-suuntaiset vaihtoehtoiset hypoteesit H: 1 ρ1 < ρ2 H : ρ ρ 2-suuntainen vaihtoehtoinen hypoteesi 1 1 2 TKK (c) Ilkka Mellin (2005) 94

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Parametrien estimointi Olkoot n 1 ja n 2 otoskoot otoksista 1 ja 2. Olkoot r 1 ja r 2 otoksista 1 ja 2 lasketut Pearsonin otoskorrelaatiokertoimet. TKK (c) Ilkka Mellin (2005) 95

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Fisherin z-muunnokset Olkoon 1 1+ rk zk = f( rk) = log 2 1 r k Fisherin z-muunnos otoksesta k lasketulle otoskorrelaatiokertoimelle r k, k = 1, 2. Jos nollahypoteesi H 0 : ρ 1 = ρ 2 = ρ 0 pätee, satunnaismuuttuja z k, k = 1, 2 noudattaa suurissa otoksissa 0 2 approksimatiivisesti normaalijakaumaa N( µ z, σ k), jossa 0 1 1+ ρ 0 2 1 µ z = log ja σk = 2 1 ρ0 n k 3 Approksimaatio on riittävän hyvä, kun n 1 > 25 ja n 2 > 25. TKK (c) Ilkka Mellin (2005) 96

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Testisuure ja sen jakauma 1/2 Koska satunnaismuuttujat z 1 ja z 2 ovat riippumattomia, satunnaismuuttuja z1 z2 v = 1 1 + n 3 n 3 1 2 noudattaa nollahypoteesin H 0 : ρ 1 = ρ 2 = ρ 0 pätiessä suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa: v ~ N(0,1) a TKK (c) Ilkka Mellin (2005) 97

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Testisuure ja sen jakauma 2/2 Määritellään testisuure 1 1+ r1 1 1+ r2 log log 2 1 r 1 2 1 r 2 v = 1 1 + n1 3 n2 3 Jos nollahypoteesi H 0 : ρ 1 = ρ 2 = ρ 0 pätee, testisuure v noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa: v a N(0,1) TKK (c) Ilkka Mellin (2005) 98

Pearsonin korrelaatiokertoimen estimointi ja testaus Korrelaatiokertoimien vertailutesti: Testi Testisuureen v normaaliarvo = 0, koska nollahypoteesin H 0 : ρ 1 = ρ 2 = ρ 0 pätiessä E(v) = 0 Siten itseisarvoltaan suuret testisuureen v arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos testin p-arvo on kyllin pieni. TKK (c) Ilkka Mellin (2005) 99

Pearsonin korrelaatiokertoimen estimointi ja testaus Korreloimattomuuden testaaminen: Testausasetelma Monissa tutkimustilanteissa ollaan kiinnostuneita siitä ovatko satunnaismuuttujat X ja Y korreloimattomia vai ei. Huomautuksia: Satunnaismuuttujien X ja Y korreloimattomuudesta ei välttämättä seuraa niiden riippumattomuus, vaikka satunnaismuuttujien X ja Y riippumattomuudesta seuraa aina niiden korreloimattomuus. Jos satunnaismuuttujat X ja Y noudattavat 2-ulotteista normaalijakaumaa, satunnaismuuttujien X ja Y korreloimattomuudesta seuraa niiden riippumattomuus. Monissa tutkimusasetelmissa toivotaan, että korreloimattomuusoletus tulee testissä hylätyksi. TKK (c) Ilkka Mellin (2005) 100

Pearsonin korrelaatiokertoimen estimointi ja testaus Korreloimattomuuden testaaminen: Yleinen hypoteesi Yleinen hypoteesi H : (i) Oletetaan, että satunnaismuuttujien X ja Y järjestetty pari (X, Y) noudattaa 2-ulotteista normaalijakaumaa, jonka parametrit ovat µ = E( X ) µ = E( Y ) σ X = Var( X ) σ = Var( Y ) 2 2 X Y ρ XY = Cor( XY, ) (ii) Olkoon ( X i, Yi), i = 1,2,, n riippumaton satunnaisotos satunnaismuuttujien X ja Y muodostaman parin (X, Y) jakaumasta. Y TKK (c) Ilkka Mellin (2005) 101

Pearsonin korrelaatiokertoimen estimointi ja testaus Korreloimattomuuden testaaminen: Nollahypoteesi ja vaihtoehtoinen hypoteesi Nollahypoteesi H 0 : H 0 : ρ XY = 0 Vaihtoehtoinen hypoteesi H 1 : H: 1 ρ XY > 0 1-suuntaiset vaihtoehtoiset hypoteesit H: 1 ρ XY < 0 H : ρ 0 2-suuntainen vaihtoehtoinen hypoteesi 1 XY TKK (c) Ilkka Mellin (2005) 102

Pearsonin korrelaatiokertoimen estimointi ja testaus Korreloimattomuuden testaaminen: Parametrien estimointi Estimoidaan 2-ulotteisen normaalijakauman parametrit tavanomaisilla estimaattoreillaan: n n 1 1 X = X Y = Y i i n i= 1 n i= 1 n n 2 1 2 2 1 2 X = ( i ) Y = ( i ) n 1 i= 1 n 1 i= 1 n s X X s Y Y 1 s = ( X X)( Y Y) r XY i i n 1 i= 1 XY = sxy s s X Y TKK (c) Ilkka Mellin (2005) 103

Pearsonin korrelaatiokertoimen estimointi ja testaus Korreloimattomuuden testaaminen: Testisuure ja sen jakauma Määritellään t-testisuure rxy t = n 2 1 2 rxy Jos nollahypoteesi H 0 : ρ XY = 0 pätee, testisuure t noudattaa Studentin t-jakaumaa, jonka vapausasteluku on n 2: t t( n 2) TKK (c) Ilkka Mellin (2005) 104

Pearsonin korrelaatiokertoimen estimointi ja testaus Korreloimattomuuden testaaminen: Testi Testisuureen t normaaliarvo = 0, koska nollahypoteesin H 0 : ρ XY = 0pätiessä E(t) = 0 Siten itseisarvoltaan suuret testisuureen t arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos testin p-arvo on kyllin pieni. TKK (c) Ilkka Mellin (2005) 105

Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan havaintoaineiston kuvaaminen Pearsonin korrelaatiokertoimen estimointi ja testaus >> Järjestyskorrelaatiokertoimet TKK (c) Ilkka Mellin (2005) 106

Järjestyskorrelaatiokertoimet Avainsanat Järjestyskorrelaatiokertoimet Kendallin järjestyskorrelaatiokerroin Korrelaatio Korreloimattomuuden testaaminen Spearmanin järjestyskorrelaatiokerroin TKK (c) Ilkka Mellin (2005) 107

Järjestyskorrelaatiokertoimet Korreloimattomuuden testaaminen järjestysasteikollisilla muuttujilla Tarkastellaan korrelaatiokertoimen määrittelemistä ja korreloimattomuuden testaamista järjestysasteikollisille muuttujille. Tarkastelun kohteena ovat seuraavat järjestyskorrelaatiokertoimet: Spearmanin järjestyskorrelaatiokerroin Kendallin järjestyskorrelaatiokerroin Tarkasteltavat järjestyskorrelaatiokertoimet ja testit sopivat myös välimatka-ja suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 108

Järjestyskorrelaatiokertoimet Spearmanin järjestyskorrelaatiokerroin: Kertoimen idea Spearmanin järjestyskorrelaatiokerroin ρ S mittaa kahden muuttujan havaintoarvojen suuruusjärjestyksien yhteensopivuutta. Spearmanin järjestyskorrelaatiokerroin sopii järjestys-, välimatka-ja suhdeasteikollisille muuttujille. Spearmanin järjestyskorrelaatiokertoimella on samantapaiset ominaisuudet kuin Pearsonin otoskorrelaatiokertoimella. TKK (c) Ilkka Mellin (2005) 109

Järjestyskorrelaatiokertoimet Spearmanin järjestyskorrelaatiokerroin: Määritelmä 1/3 Olkoot X 1, X 2,, X n ja Y 1, Y 2,, Y n järjestys-, välimatka-tai suhdeasteikollisten satunnaismuuttujien X ja Y havaittuja arvoja. Oletetaan lisäksi, että havainnot X i ja Y i liittyvät samaan havaintoyksikköön kaikille i = 1, 2,, n. Järjestetään sekä X-että Y-muuttujan havaitut arvot suuruusjärjestykseen pienimmästä suurimpaan. TKK (c) Ilkka Mellin (2005) 110

Järjestyskorrelaatiokertoimet Spearmanin järjestyskorrelaatiokerroin: Määritelmä 2/3 Liitetään sekä X- että Y-muuttujan havaittuihin arvoihin niiden suuruusjärjestyksien mukaiset järjestysnumerot: R(X i ) = havainnon X i järjestysnumero parissa i R(Y i ) = havainnon Y i järjestysnumero parissa i sekä määritellään erotukset D i = R(X i ) R(Y i ) Muuttujien X ja Y havaituille arvoille voidaan määritellä järjestyskorrelaatiokerroin erotuksien D i avulla. TKK (c) Ilkka Mellin (2005) 111