Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Sisältö

Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme tästä enemmän luennolla 1.) Kahden tai useamman satunnaismuuttujan välisellä riippuvuudella tarkoitetaan mitä tahansa poikkeamaa tästä stokastisesta riippumattomuudesta.

Tilastollinen riippuvuus Tilastotieteessä ollaan hyvin usein kiinnostuneita satunnaismuuttujien välisistä riippuvuuksista. Työttömyysasteen riippuvuus BKTn kasvuvauhdista Suomessa, Suomen viennin volyymista, vaalilupauksista, yms. Alkoholin kulutuksen riippuvuus hintatasosta, ihmisten tuloista, alkoholin saatavuudesta, varoituslapuista, yms. Keuhkosyövän todennäköisyyden riippuvuus tupakoinnin määrästä ja kestosta.

Olkoot x ja y satunnaismuuttujia. Olkoon y = ax + b, a, b R, a 0. Tällöin muuttuja y on muuttujan x lineaarikombinaatio ja muuttujat x ja y riippuvat toisistaan lineaarisesti (täydellisesti). Kahden satunnaismuuttujan välistä lineaarista riippuvuutta voidaan mitata esim. korrelaatiokertoimen avulla.

Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Tällöin otoskovarianssi s xy = 1 n 1 n (x i x)(y i ȳ) i=1 estimoi populaatiokovarianssia E[(x E[x])(y E[y])] = σ xy, ja ˆρ(x, y) = s n xy i=1 = (x i x)(y i ȳ) s x s n y i=1 (x i x) 2 n i=1 (y i ȳ) 2 estimoi ta ρ(x, y) = σ xy σ x σ y.

Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Jos muutujat x ja y ovat toisistaan riippumattomia, niin tällöin E[(x E[x])(y E[y])] = E[(x E[x])]E[(y E[y])] = 0 ja edelleen ρ(x, y) = 0. Jos taas y = ax + b, a, b R, a 0, niin ρ(x, y) = 1 kun a > 0 ja ρ(x, y) = 1 kun a < 0. (Lisää tästä [3], sivu 102.) Yleisesti mittaa numeerisesti kahden satunnaismuuttujan välistä lineaarista riippuvuutta. Kerroin on aina välillä [ 1, 1].

Huomaa, että lineaarinen ei takaa riippumattomuutta. Esim. jos x on tasaisesti jakautunut välillä ( 1, 1) ja y = x 2, niin satunnaismuuttujien x ja y välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Kuitenkin normaalijakautuneeet muuttujat ovat korreloimattomia jos ja vain jos ne ovat riippumattomia.

Esimerkki 1 Korrelaatiokertoimia 1 0.8 0.4 0 0.4 0.8 1

Esimerkki 2 Korrelaatiokertoimia 1 1 1 1 1 1

Esimerkki 3 Korrelaatiokertoimia 0 0 0 0 0.1 0 0

Kaksiulotteinen normaalijakauma Kaksiulotteisen normaalijakautuneen muuttujan tiheysfunktio f(x, y) = 1 2π 1 ρ 2 (x, y)σ x σ y ( 1 ( (x µx ) 2 exp 2(1 ρ 2 2ρ(x, y) (x µ x) (y µ y ) (x, y)) σ x σ 2 x + (y µ y) 2 )). σ y σ 2 y

Luottamusväli Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta. Tilastollisten ohjelmistojen laskemat luottamusvälien estimaatit perustuvat yleensä normaalisuusoletukseen. Olkoon ja olkoon l = (1+ ˆρ(x, y)) (1 ˆρ(x, y)) exp(2z α/2/ n 3) (1+ ˆρ(x, y))+(1 ˆρ(x, y)) exp(2z α/2 / n 3) u = (1+ ˆρ(x, y)) (1 ˆρ(x, y)) exp( 2z α/2/ n 3) (1+ ˆρ(x, y))+(1 ˆρ(x, y)) exp( 2z α/2 / n 3), missä z α/2 on standardinormaalijakauman luottamuskerroin α 2. Tällöin, kun otoskoko n on suuri, väli (l, u) estimoi korrelaatiokertoimen luottamusväliä 1 α.

Luottamusväli ilman normaalisuusoletusta Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Silloin kun aineisto ei ole normaalijakautunut, niin luottamusväliä voidaan arvioida ns. bootstrap menetelmän avulla.

Luottamusväli ilman normaalisuusoletusta 1. Poimi havaituista arvoista (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) uusi otoskokoa n oleva satunnaisotos palauttaen. Palauttaen otannassa otospisteitä valitaan uuteen otokseen yksi kerrallaan ja jokaisen riippumaton valinta tehdään koko alkuperäisestä otoksesta. Sama havainto saatetaan tällöin valita useaan kertaan. 2. Laske kohdassa 1 valitusta otoksesta. 3. Toista kohdat 1 ja 2 useita kertoja ja järjestä näin saadut estimaatit suuruusjärjestykseen. Ota mukaan bootstrap estimaattien lisäksi alkuperäisestä otoksesta laskettu estimaatti. 4. Muodosta luottamusvälin 1 α estimaatti valitsemalla luottamusvälin alarajaksi piste, jota suurempia tai yhtäsuuria on 1 α 2 osuus järjestetyistä estimaateista ja ylärajaksi piste, jota pienempiä tai yhtäsuuria on 1 α 2 osuus järjestetyistä estimaateista. (Esim. jos bootstrap otoksia on 99 ja lisäksi alkuperäinen estimaatti, niin suuruusjärjestyksessä 5. ja 95. estimaatti muodostavat 90% luottamusvälin.)

vertaa ta annettuun vakioon.

, oletukset Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta. Nollahypoteesi H 0 : ρ(x, y) = ρ 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) > ρ 0 (yksisuuntainen), H 1 : ρ(x, y) < ρ 0 (yksisuuntainen) tai H 1 : ρ(x, y) ρ 0 (kaksisuuntainen).

Testisuure z = 1/2 ln[(1+ ˆρ(x, y))/(1 ˆρ(x, y))] 1/2 ln[(1+ρ 0 )/(1 ρ 0 )]. 1/(n 3) Kun n on suuri, niin nollahypoteesin vallitessa testisuure z noudattaa likimain standardinormaalijakaumaa. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[z] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Korrelaatiokertoimien Korrelaatiokertoimien vertaa kahden riippumattoman otoksen korrelaatiokertoimia.

Korrelaatiokertoimien, oletukset Olkoot (x 1, y 1 ) 1,(x 2, y 2 ) 1...,(x n, y n ) 1 kaksiulotteisen satunnaismuuttujan (x, y) 1 havaitut arvot ja olkoot (x 1, y 1 ) 2,(x 2, y 2 ) 2...,(x m, y m ) 2 kaksiulotteisen satunnaismuuttujan (x, y) 2 havaitut arvot. Oletetaan, että havaintopisteet (x 1, y 1 ) 1,(x 2, y 2 ) 1...,(x n, y n ) 1 ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta, jonka on ρ(x, y) 1, ja oletetaan, että havaintopisteet (x 1, y 1 ) 2,(x 2, y 2 ) 2...,(x m, y m ) 2 ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta, jonka on ρ(x, y) 2. Oletetaan vielä, että (x i, y i ) 1 ja (x j, y j ) 2 ovat riippumattomia kaikilla i, j. Nollahypoteesi H 0 : ρ(x, y) 1 = ρ(x, y) 2. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) 1 > ρ(x, y) 2 (yksisuuntainen), H 1 : ρ(x, y) 1 < ρ(x, y) 2 (yksisuuntainen) tai H 1 : ρ(x, y) 1 ρ(x, y) 2 (kaksisuuntainen).

Korrelaatiokertoimien Testisuure z = 1/2 ln[(1+ ˆρ(x, y) 1 )/(1 ˆρ(x, y) 1 )] 1/2 ln[(1+ ˆρ(x, y) 2 )/(1 ˆρ(x, y) 2 )]. 1/(n 3)+1/(m 3) Kun n ja m ovat suuria, niin nollahypoteesin vallitessa testisuure z noudattaa likimain standardinormaalijakaumaa. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[z] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

, oletukset Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta. Nollahypoteesi H 0 : ρ(x, y) = 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) > 0 (yksisuuntainen), H 1 : ρ(x, y) < 0 (yksisuuntainen) tai H 1 : ρ(x, y) 0 (kaksisuuntainen).

Testisuure t = ˆρ(x, y) n 2/ 1 (ˆρ(x, y)) 2. Jos nollahypoteesi pätee, niin testisuure noudattaa Studentin t jakaumaa vapausastein n 2. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[t] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

ilman normaalisuusoletusta Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Nollahypoteesi H 0 : ρ(x, y) = 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) > 0 (yksisuuntainen), H 1 : ρ(x, y) < 0 (yksisuuntainen) tai H 1 : ρ(x, y) 0 (kaksisuuntainen).

ilman normaalisuusoletusta Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Havaitun otoskorrelaatiokertoimen todennäköisyyttä nollahypoteesin vallitessa voidaan arvioida ns. Monte Carlo permutaatiotestin avulla. 1. Muodosta havaituista arvoista (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) satunnaisesti n uutta paria (x 1, y 1 ),(x 2, y 2 )...,(x n, y n) siten että jokainen alkuperäinen y j esiintyy yhdessä ja vain yhdessä uudessa parissa. 2. Laske otoksesta (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ). 3. Toista kohdat 1 ja 2 useita kertoja ja arvioi estimaatin arvon ˆρ(x, y) todennäköisyyttä nollahypoteesin vallitessa kohdassa 2 laskettujen kertoimien avulla (ts. laske kuinka monta prosenttia kohdassa 2 lasketuista estimaateista on pienempiä/suurempia kuin ˆρ(x, y)).

ilman normaalisuusoletusta Monte Carlo permutaatiotestiä tarkempi estimaatti saadaan käyttämällä permutaatiotestiä ilman simulointia. Tällöin alkuperäisistä havainnoista muodostetaan kaikki mahdolliset n! kombinaatiota ja arvon ˆρ(x, y) todennäköisyyttä nollahypoteesin vallitessa arvioidaan kaikkien n! avulla.

Monotoninen riippuvuus Olkoot x ja y satunnaismuuttujia. Olkoon y = g(x), missä g on monotoninen (kasvava tai vähenevä) funktio. Tällöin muuttuja y on muuttujan x monotoninen funktio ja muuttujat x ja y riippuvat toisistaan monotonisesti (täydellisesti). Kahden satunnaismuuttujan välistä monotonista riippuvuutta voidaan mitata esim. Spearmanin järjestyskorrelaatiokertoimen avulla.

Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Olkoon R(x i ) havainnon x i järjestysluku otoksessa x 1, x 2,..., x n ja olkoon R(y i ) havainnon y i järjestysluku otoksessa y 1, y 2,..., y n. Tällöin Spearmanin järjestys on laskettuna tästä järjestyslukuaineistosta. Spearmanin järjestys mittaa numeerisesti kahden satunnaismuuttujan välistä monotonista riippuvuutta. Kerroin on aina välillä [ 1, 1].

Myös Spearmanin korrelaatiokertoimen luottamusväliä voidaan estimoida bootstrap menetelmällä!

Monotonisen riippumattomuuden, oletukset Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Nollahypoteesi H 0 : ρ S (x, y) = 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ S (x, y) > 0 (yksisuuntainen), H 1 : ρ S (x, y) < 0 (yksisuuntainen) tai H 1 : ρ S (x, y) 0 (kaksisuuntainen).

Monotonisen riippumattomuuden Testisuure z = ˆρ S (x, y) n 2/ 1 (ˆρ S (x, y)) 2. Kun n on suuri, niin nollahypoteesin vallitessa testisuure z noudattaa likimain standardinormaalijakaumaa. Kun otoskoko on pieni, tilastolliset ohjelmistot laskevat tarkan p arvon. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[z] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Myös Spearmanin korrelaatiokertoimen merkitsevyyttä voidaan tarkastella permutaatiotestin avulla!

Jos ta laskiessa osalla otospisteistä on sama järjestysluku, niin tällöin kaikille näille otospisteille valitaan järjestysluvuksi keskimmäinen. Esim. jos kahden havainnon järjestysluku on sama, vastaten järjestyslukuja 7 ja 8, niin molemmille havainnoille asetetaan järjestysluvuksi 7.5. Jos kolmen havainnon järjestysluku on sama, vastaten järjestyslukuja 3, 4 ja 5, niin järjestysluvuksi valitaan kaikille kolmelle 4.

Numeerinen esimerkki Spearmanin järjestyskorrelaatiokertoimesta. Kaksossisaruksia pyydettiin järjestämään kymmenen erilaista keksimerkkiä mielijärjestykeensä. Keksit merkittiin jokainen omalla kirjaimella. Haluttiin selvittää riippuvatko sisarusten keksimieltymykset toisistaan monotonisesti 5% merkitsevyystasolla. Nollahypoteesi on siis muotoa ˆρ(x, y) = 0. X J G D H A C B I E F Y G H D C A B J E I F R 10 9 8 7 6 5 4 3 2 1 Taulukko: Kaksosten tekemät keksivalinnat Taulukon arvoista saadaan jokaiselle kaksille järjestysluvuista parit: (6,6), (4,5), (5,7), (8,8), (2,3), (1,1), (9,10), (7,9), (3,2), (10,4).

Otosvarianssi X ja Y valintojen järjestylukujen otosvarianssit ovat s X = 3.02765 ja s Y = 3.02765 ja otoskovarianssi s XY = 6.5. ˆρ S (X, Y) = 0.7090909. Testisuureen arvoksi saadaan 0.7090909 8 n 2 z = ˆρ S (X, Y) 1 (ˆρS (X, Y)) = 2 1 (0.7090909) 2 = 2.844367. Nollahypoteesin pätiessä testisuure noudattaa likimain standardinormaalijakaumaa. Kriittisiksi arvoiksi 5% merkitsevyystasolla saadaan -1.96 ja 1.96. Koska 2.844... > 1.96 ja p-arvoksi saadaan 0.0046, nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi astuu voimaan. Kaksosten makumieltymykset eroavat toisistaan.

Mikä meni pieleen edellisessä esimerkissä?

Tämä meni pieleen Esimerkissä otoskoko ei ole kovin suuri, joten asymptoottisiin p-arvoihin nojaaminen on kyseenalaista. Parempi vaihtoehto olisi nojata esim. R-ohjelmiston laskemaan tarkkaan p-arvoon tai käyttää permutaatiotestiä.

, Esimerkki Esimerkkinä pituus ja kengän numero.

Pari sanaa Kendallin järjestyskorrelaatiokertoimesta Wikipediasta.

Riippuvuus ei ole sama asia kuin lineaarinen riippuvuus! Riippuvuus on vain riippuvuutta, se ei kerro kausaalisuhteesta!

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. J. Crawshaw, J. Chambers: A Concise Course in Advanced Level Statistics, Nelson Thornes Ltd 2013. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.