Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Harjoitus 7: NCSS - Tilastollinen analyysi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Testit järjestysasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

10. laskuharjoituskierros, vko 14, ratkaisut

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollinen aineisto Luottamusväli

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Testejä suhdeasteikollisille muuttujille

Estimointi. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Osa 2: Otokset, otosjakaumat ja estimointi

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Regressioanalyysi. Kuusinen/Heliövaara 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Mat Sovellettu todennäköisyyslasku A

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Kopulafunktiot. Joonas Ollila 12. lokakuuta 2011

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

2. TILASTOLLINEN TESTAAMINEN...

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Parametrin estimointi ja bootstrap-otanta

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

2. Keskiarvojen vartailua

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollisia peruskäsitteitä ja Monte Carlo

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Moniulotteiset satunnaismuuttujat ja jakaumat

Tutkimustiedonhallinnan peruskurssi

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

6. laskuharjoitusten vastaukset (viikot 10 11)

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

Korrelaatiokertoinen määrittely 165

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Sovellettu todennäköisyyslasku A

1. Tilastollinen malli??

Transkriptio:

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Sisältö

Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme tästä enemmän luennolla 1.) Kahden tai useamman satunnaismuuttujan välisellä riippuvuudella tarkoitetaan mitä tahansa poikkeamaa tästä stokastisesta riippumattomuudesta.

Tilastollinen riippuvuus Tilastotieteessä ollaan hyvin usein kiinnostuneita satunnaismuuttujien välisistä riippuvuuksista. Työttömyysasteen riippuvuus BKTn kasvuvauhdista Suomessa, Suomen viennin volyymista, vaalilupauksista, yms. Alkoholin kulutuksen riippuvuus hintatasosta, ihmisten tuloista, alkoholin saatavuudesta, varoituslapuista, yms. Keuhkosyövän todennäköisyyden riippuvuus tupakoinnin määrästä ja kestosta.

Olkoot x ja y satunnaismuuttujia. Olkoon y = ax + b, a, b R, a 0. Tällöin muuttuja y on muuttujan x lineaarikombinaatio ja muuttujat x ja y riippuvat toisistaan lineaarisesti (täydellisesti). Kahden satunnaismuuttujan välistä lineaarista riippuvuutta voidaan mitata esim. korrelaatiokertoimen avulla.

Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Tällöin otoskovarianssi s xy = 1 n 1 n (x i x)(y i ȳ) i=1 estimoi populaatiokovarianssia E[(x E[x])(y E[y])] = σ xy, ja ˆρ(x, y) = s n xy i=1 = (x i x)(y i ȳ) s x s n y i=1 (x i x) 2 n i=1 (y i ȳ) 2 estimoi ta ρ(x, y) = σ xy σ x σ y.

Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Jos muutujat x ja y ovat toisistaan riippumattomia, niin tällöin E[(x E[x])(y E[y])] = E[(x E[x])]E[(y E[y])] = 0 ja edelleen ρ(x, y) = 0. Jos taas y = ax + b, a, b R, a 0, niin ρ(x, y) = 1 kun a > 0 ja ρ(x, y) = 1 kun a < 0. (Lisää tästä [3], sivu 102.) Yleisesti mittaa numeerisesti kahden satunnaismuuttujan välistä lineaarista riippuvuutta. Kerroin on aina välillä [ 1, 1].

Huomaa, että lineaarinen ei takaa riippumattomuutta. Esim. jos x on tasaisesti jakautunut välillä ( 1, 1) ja y = x 2, niin satunnaismuuttujien x ja y välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Kuitenkin normaalijakautuneeet muuttujat ovat korreloimattomia jos ja vain jos ne ovat riippumattomia.

Esimerkki 1 Korrelaatiokertoimia 1 0.8 0.4 0 0.4 0.8 1

Esimerkki 2 Korrelaatiokertoimia 1 1 1 1 1 1

Esimerkki 3 Korrelaatiokertoimia 0 0 0 0 0.1 0 0

Kaksiulotteinen normaalijakauma Kaksiulotteisen normaalijakautuneen muuttujan tiheysfunktio f(x, y) = 1 2π 1 ρ 2 (x, y)σ x σ y ( 1 ( (x µx ) 2 exp 2(1 ρ 2 2ρ(x, y) (x µ x) (y µ y ) (x, y)) σ x σ 2 x + (y µ y) 2 )). σ y σ 2 y

Luottamusväli Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta. Tilastollisten ohjelmistojen laskemat luottamusvälien estimaatit perustuvat yleensä normaalisuusoletukseen. Olkoon ja olkoon l = (1+ ˆρ(x, y)) (1 ˆρ(x, y)) exp(2z α/2/ n 3) (1+ ˆρ(x, y))+(1 ˆρ(x, y)) exp(2z α/2 / n 3) u = (1+ ˆρ(x, y)) (1 ˆρ(x, y)) exp( 2z α/2/ n 3) (1+ ˆρ(x, y))+(1 ˆρ(x, y)) exp( 2z α/2 / n 3), missä z α/2 on standardinormaalijakauman luottamuskerroin α 2. Tällöin, kun otoskoko n on suuri, väli (l, u) estimoi korrelaatiokertoimen luottamusväliä 1 α.

Luottamusväli ilman normaalisuusoletusta Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Silloin kun aineisto ei ole normaalijakautunut, niin luottamusväliä voidaan arvioida ns. bootstrap menetelmän avulla.

Luottamusväli ilman normaalisuusoletusta 1. Poimi havaituista arvoista (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) uusi otoskokoa n oleva satunnaisotos palauttaen. Palauttaen otannassa otospisteitä valitaan uuteen otokseen yksi kerrallaan ja jokaisen riippumaton valinta tehdään koko alkuperäisestä otoksesta. Sama havainto saatetaan tällöin valita useaan kertaan. 2. Laske kohdassa 1 valitusta otoksesta. 3. Toista kohdat 1 ja 2 useita kertoja ja järjestä näin saadut estimaatit suuruusjärjestykseen. Ota mukaan bootstrap estimaattien lisäksi alkuperäisestä otoksesta laskettu estimaatti. 4. Muodosta luottamusvälin 1 α estimaatti valitsemalla luottamusvälin alarajaksi piste, jota suurempia tai yhtäsuuria on 1 α 2 osuus järjestetyistä estimaateista ja ylärajaksi piste, jota pienempiä tai yhtäsuuria on 1 α 2 osuus järjestetyistä estimaateista. (Esim. jos bootstrap otoksia on 99 ja lisäksi alkuperäinen estimaatti, niin suuruusjärjestyksessä 5. ja 95. estimaatti muodostavat 90% luottamusvälin.)

vertaa ta annettuun vakioon.

, oletukset Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta. Nollahypoteesi H 0 : ρ(x, y) = ρ 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) > ρ 0 (yksisuuntainen), H 1 : ρ(x, y) < ρ 0 (yksisuuntainen) tai H 1 : ρ(x, y) ρ 0 (kaksisuuntainen).

Testisuure z = 1/2 ln[(1+ ˆρ(x, y))/(1 ˆρ(x, y))] 1/2 ln[(1+ρ 0 )/(1 ρ 0 )]. 1/(n 3) Kun n on suuri, niin nollahypoteesin vallitessa testisuure z noudattaa likimain standardinormaalijakaumaa. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[z] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Korrelaatiokertoimien Korrelaatiokertoimien vertaa kahden riippumattoman otoksen korrelaatiokertoimia.

Korrelaatiokertoimien, oletukset Olkoot (x 1, y 1 ) 1,(x 2, y 2 ) 1...,(x n, y n ) 1 kaksiulotteisen satunnaismuuttujan (x, y) 1 havaitut arvot ja olkoot (x 1, y 1 ) 2,(x 2, y 2 ) 2...,(x m, y m ) 2 kaksiulotteisen satunnaismuuttujan (x, y) 2 havaitut arvot. Oletetaan, että havaintopisteet (x 1, y 1 ) 1,(x 2, y 2 ) 1...,(x n, y n ) 1 ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta, jonka on ρ(x, y) 1, ja oletetaan, että havaintopisteet (x 1, y 1 ) 2,(x 2, y 2 ) 2...,(x m, y m ) 2 ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta, jonka on ρ(x, y) 2. Oletetaan vielä, että (x i, y i ) 1 ja (x j, y j ) 2 ovat riippumattomia kaikilla i, j. Nollahypoteesi H 0 : ρ(x, y) 1 = ρ(x, y) 2. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) 1 > ρ(x, y) 2 (yksisuuntainen), H 1 : ρ(x, y) 1 < ρ(x, y) 2 (yksisuuntainen) tai H 1 : ρ(x, y) 1 ρ(x, y) 2 (kaksisuuntainen).

Korrelaatiokertoimien Testisuure z = 1/2 ln[(1+ ˆρ(x, y) 1 )/(1 ˆρ(x, y) 1 )] 1/2 ln[(1+ ˆρ(x, y) 2 )/(1 ˆρ(x, y) 2 )]. 1/(n 3)+1/(m 3) Kun n ja m ovat suuria, niin nollahypoteesin vallitessa testisuure z noudattaa likimain standardinormaalijakaumaa. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[z] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

, oletukset Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia, samoin jakautuneita ja tulevat kaksiulotteisesta normaalijakaumasta. Nollahypoteesi H 0 : ρ(x, y) = 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) > 0 (yksisuuntainen), H 1 : ρ(x, y) < 0 (yksisuuntainen) tai H 1 : ρ(x, y) 0 (kaksisuuntainen).

Testisuure t = ˆρ(x, y) n 2/ 1 (ˆρ(x, y)) 2. Jos nollahypoteesi pätee, niin testisuure noudattaa Studentin t jakaumaa vapausastein n 2. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[t] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

ilman normaalisuusoletusta Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Nollahypoteesi H 0 : ρ(x, y) = 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ(x, y) > 0 (yksisuuntainen), H 1 : ρ(x, y) < 0 (yksisuuntainen) tai H 1 : ρ(x, y) 0 (kaksisuuntainen).

ilman normaalisuusoletusta Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Havaitun otoskorrelaatiokertoimen todennäköisyyttä nollahypoteesin vallitessa voidaan arvioida ns. Monte Carlo permutaatiotestin avulla. 1. Muodosta havaituista arvoista (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) satunnaisesti n uutta paria (x 1, y 1 ),(x 2, y 2 )...,(x n, y n) siten että jokainen alkuperäinen y j esiintyy yhdessä ja vain yhdessä uudessa parissa. 2. Laske otoksesta (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ). 3. Toista kohdat 1 ja 2 useita kertoja ja arvioi estimaatin arvon ˆρ(x, y) todennäköisyyttä nollahypoteesin vallitessa kohdassa 2 laskettujen kertoimien avulla (ts. laske kuinka monta prosenttia kohdassa 2 lasketuista estimaateista on pienempiä/suurempia kuin ˆρ(x, y)).

ilman normaalisuusoletusta Monte Carlo permutaatiotestiä tarkempi estimaatti saadaan käyttämällä permutaatiotestiä ilman simulointia. Tällöin alkuperäisistä havainnoista muodostetaan kaikki mahdolliset n! kombinaatiota ja arvon ˆρ(x, y) todennäköisyyttä nollahypoteesin vallitessa arvioidaan kaikkien n! avulla.

Monotoninen riippuvuus Olkoot x ja y satunnaismuuttujia. Olkoon y = g(x), missä g on monotoninen (kasvava tai vähenevä) funktio. Tällöin muuttuja y on muuttujan x monotoninen funktio ja muuttujat x ja y riippuvat toisistaan monotonisesti (täydellisesti). Kahden satunnaismuuttujan välistä monotonista riippuvuutta voidaan mitata esim. Spearmanin järjestyskorrelaatiokertoimen avulla.

Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ) kaksiulotteisen satunnaismuuttujan (x, y) toisistaan riippumattomat havaitut arvot. Olkoon R(x i ) havainnon x i järjestysluku otoksessa x 1, x 2,..., x n ja olkoon R(y i ) havainnon y i järjestysluku otoksessa y 1, y 2,..., y n. Tällöin Spearmanin järjestys on laskettuna tästä järjestyslukuaineistosta. Spearmanin järjestys mittaa numeerisesti kahden satunnaismuuttujan välistä monotonista riippuvuutta. Kerroin on aina välillä [ 1, 1].

Myös Spearmanin korrelaatiokertoimen luottamusväliä voidaan estimoida bootstrap menetelmällä!

Monotonisen riippumattomuuden, oletukset Olkoot (x 1, y 1 ),(x 2, y 2 )...,(x n, y n ), kaksiulotteisen satunnaismuuttujan (x, y) havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja samoin jakautuneita. Nollahypoteesi H 0 : ρ S (x, y) = 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : ρ S (x, y) > 0 (yksisuuntainen), H 1 : ρ S (x, y) < 0 (yksisuuntainen) tai H 1 : ρ S (x, y) 0 (kaksisuuntainen).

Monotonisen riippumattomuuden Testisuure z = ˆρ S (x, y) n 2/ 1 (ˆρ S (x, y)) 2. Kun n on suuri, niin nollahypoteesin vallitessa testisuure z noudattaa likimain standardinormaalijakaumaa. Kun otoskoko on pieni, tilastolliset ohjelmistot laskevat tarkan p arvon. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[z] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Myös Spearmanin korrelaatiokertoimen merkitsevyyttä voidaan tarkastella permutaatiotestin avulla!

Jos ta laskiessa osalla otospisteistä on sama järjestysluku, niin tällöin kaikille näille otospisteille valitaan järjestysluvuksi keskimmäinen. Esim. jos kahden havainnon järjestysluku on sama, vastaten järjestyslukuja 7 ja 8, niin molemmille havainnoille asetetaan järjestysluvuksi 7.5. Jos kolmen havainnon järjestysluku on sama, vastaten järjestyslukuja 3, 4 ja 5, niin järjestysluvuksi valitaan kaikille kolmelle 4.

Numeerinen esimerkki Spearmanin järjestyskorrelaatiokertoimesta. Kaksossisaruksia pyydettiin järjestämään kymmenen erilaista keksimerkkiä mielijärjestykeensä. Keksit merkittiin jokainen omalla kirjaimella. Haluttiin selvittää riippuvatko sisarusten keksimieltymykset toisistaan monotonisesti 5% merkitsevyystasolla. Nollahypoteesi on siis muotoa ˆρ(x, y) = 0. X J G D H A C B I E F Y G H D C A B J E I F R 10 9 8 7 6 5 4 3 2 1 Taulukko: Kaksosten tekemät keksivalinnat Taulukon arvoista saadaan jokaiselle kaksille järjestysluvuista parit: (6,6), (4,5), (5,7), (8,8), (2,3), (1,1), (9,10), (7,9), (3,2), (10,4).

Otosvarianssi X ja Y valintojen järjestylukujen otosvarianssit ovat s X = 3.02765 ja s Y = 3.02765 ja otoskovarianssi s XY = 6.5. ˆρ S (X, Y) = 0.7090909. Testisuureen arvoksi saadaan 0.7090909 8 n 2 z = ˆρ S (X, Y) 1 (ˆρS (X, Y)) = 2 1 (0.7090909) 2 = 2.844367. Nollahypoteesin pätiessä testisuure noudattaa likimain standardinormaalijakaumaa. Kriittisiksi arvoiksi 5% merkitsevyystasolla saadaan -1.96 ja 1.96. Koska 2.844... > 1.96 ja p-arvoksi saadaan 0.0046, nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi astuu voimaan. Kaksosten makumieltymykset eroavat toisistaan.

Mikä meni pieleen edellisessä esimerkissä?

Tämä meni pieleen Esimerkissä otoskoko ei ole kovin suuri, joten asymptoottisiin p-arvoihin nojaaminen on kyseenalaista. Parempi vaihtoehto olisi nojata esim. R-ohjelmiston laskemaan tarkkaan p-arvoon tai käyttää permutaatiotestiä.

, Esimerkki Esimerkkinä pituus ja kengän numero.

Pari sanaa Kendallin järjestyskorrelaatiokertoimesta Wikipediasta.

Riippuvuus ei ole sama asia kuin lineaarinen riippuvuus! Riippuvuus on vain riippuvuutta, se ei kerro kausaalisuhteesta!

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. J. Crawshaw, J. Chambers: A Concise Course in Advanced Level Statistics, Nelson Thornes Ltd 2013. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.