Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Tlastollnen rppuvuus ja korrelaato Ka Vrtanen
Muuttujen välsten rppuvuuksen analysont Tlastollsssa analyysessä tutktaan usen muuttujen välsä rppuvuuksa Työttömyysasteen rppuvuus BKT kasvuvauhdsta Suomessa, Suomen vennn volyymsta, vaallupaukssta, yms. Alkoholn kulutuksen rppuvuus hntatasosta, hmsten tulosta, alkoholn saatavuudesta, varotuslapusta, yms. Keuhkosyövän todennäkösyyden rppuvuus tupakonnn määrästä ja kestosta Yhden muuttujan tlastollset menetelmät kuvaavat rajottuneest lmötä Mten kuvataan ja mallnnetaan kahden ta useamman muuttujan välsä rppuvuuksa? Ka Vrtanen 2
Tlastollnen rppuvuus, korrelaato ja regresso Kahden muuttujan välnen eksakt rppuvuus: tosen arvot vodaan ennustaa tarkast tosen saamen arvojen perusteella Kahden muuttujan välnen tlastollnen rppuvuus: tosen arvoja vodaan käyttää apuna tosen arvojen ennustamsessa Tlastollsta rppuvuutta kutsutaan korrelaatoks Korrelaaton vomakkuutta mttaavat tunnusluvut korrelaatokertomet Regressoanalyys: seltettävän muuttujan tlastollsen rppuvuuden mall selttävstä muuttujsta Ka Vrtanen 3
Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Kahden muuttujan havantoaneston kuvaamnen Ka Vrtanen 4
Pstedagramm Havantoja kahdesta järjestys-, välmatka- ta suhdeastekollsesta muuttujasta Havantoanestoa kuvataan graafsest pstedagrammlla Hooken lak: jousen ptuus rppuu lneaarsest jouseen rpustetusta panosta Tulokset kokeesta, jossa jouseen rpustettn 6 er panoa Perytyykö sän ptuus hedän pojlleen? Yhtä ptkllä sllä näyttää olevan monen mttasa poka Lyhyllä sllä näyttää olevan keskmäärn lyhyempä poka kun ptkllä sllä ja pänvaston Jousen ptuus (cm) 46.00 45.50 45.00 44.50 44.00 43.50 43.00 Kerrejousen ptuuden rppuvuus jouseen rpustetusta panosta S42.50 ysteemanalyysn -2 0 2 4 6 8 0 2 Pano (kg) Pojan ptuus (cm) 95 90 85 80 75 70 65 60 Isen ja poken ptuudet 55 60 65 70 75 80 85 90 Ka Vrtanen 5 Isän ptuus (cm)
Tunnusluvut Kahden välmatka- ta suhdeastekollsen muuttujan havantoarvojen muodostamaa jakaumaa karaktersovat tunnusluvut: Havantoarvojen keskmääränen sjant artmeettnen keskarvo x n x + x2 + L+ xn x n = n = = Havantoarvojen hajaantunesuus (otos)varanss n 2 sx = x x n = n 2 = ( ) ( ) 2 Havantoarvojen hajaantunesuus (otos)keskhajonta sx x x n = Havantoarvojen lneaarnen rppuvuus otoskovaranss ta otoskorrelaatokerron Ka Vrtanen 6
Otoskovaranss Havantoarvosta (x, y ), =, 2,, n laskettu otoskovaranss: n s = x x y y ( )( ) xy n = jossa x = x-havantoarvojen artmeettnen keskarvo y = y-havantoarvojen artmeettnen keskarvo x- ja y-havantoarvojen otoskovaransst tsensä kanssa varansst: s s xx yy = = s s 2 x 2 y Ka Vrtanen 7
Otoskovaranssn merkn määräytymnen Otoskovaranssn s xy merkn määrää summalauseke ( x x )( y y ) Otoskovaranss saa postvsa (negatvsa) arvoja, jos havantopsteden muodostama psteparv nouseva (laskeva) ( x x )( y y ) 0 ( x x )( y y ) 0 ( x, y ) ( x, y ) ( x, y ) ( x x )( y y ) 0 ( x x )( y y ) 0 ( x, y ) ( x, y ) Ka Vrtanen 8
Pearsonn otoskorrelaatokerron x- ja y-havantoarvojen lneaarsen tlastollsen rppuvuuden vomakkuuden mttar: Pearsonn otoskorrelaatokerron r xy = jossa s xy s x xy s s s x ja s y ja x y y r xy = = = otoskovaranss = keskhajonnat = artmeettset keskarvot n ( x x)( y y) n n 2 2 ( x x) ( y y) = = Ka Vrtanen 9
Otoskorrelaatokertomen omnasuuksa () r + () r xy xy =±, jos ja van jos y = α + β x jossa α ja β ovat reaalsa vakota ja β 0. () Korrelaatokertomella rxy ja kovaransslla on ana sama merkk. r xy = ± => eksakt el funktonaalnen lneaarnen rppuvuus => havantopsteet suoralla r xy = 0 => e eksakta ekä tlastollsta lneaarsta rppuvuutta Vakka r xy = 0, havantoarvojen välllä saattaa slt olla jopa eksakt epälneaarnen rppuvuus s xy Ka Vrtanen 0
Esmerkkejä otoskorrelaatokertomesta r xy = 0.8 r xy = 0.62 r xy = 0.48 r xy = 0.43 r xy = 0.83 r xy = Ka Vrtanen
Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Pearsonn korrelaatokertomen estmont ja testaus Ka Vrtanen 2
Korrelaaton estmont ja testaus Kaks välmatka- ta suhdeastekollsta satunnasmuuttujaa X ja Y oletus: X ja Y noudattavat 2-ulottesta normaaljakaumaa tuntemattomat parametrt: odotusarvot, varansst ja korrelaatokerron Pearsonn korrelaatokertomen estmont ja luottamusväl normaaljakauman tuntemattoman korrelaatokerronparametrn estmont vrt. yksulottesn normaaljakauman odotusarvon ja varanssn estmont Yhden otoksen test korrelaatokertomelle korrelaatokertomen vertaamnen vakoon Korrelaatokertomen vertalutest kaks tosstaan rppumatonta satunnasotosta korrelaatokertomen vertaamnen Korrelomattomuuden testaamnen yks satunnasotos korrelaatokertomen vertaamnen nollaan Ka Vrtanen 3
Satunnasmuuttujen korrelaato Satunnasmuuttujat X ja Y Odotusarvot Varansst Kovaranss µ µ E( X ) E( Y ) Korrelaato ρ = Cor(X, Y) X Y = = σ = Var( X ) = D ( X ) = E[( X µ ) ] 2 2 2 X X σ = Var( Y ) = D ( Y ) = E[( Y µ ) ] 2 2 2 Y Y σ = Cov( X, Y ) = E[( X µ )( Y µ )] ρ X Y σ = Cor( X, Y ) = σ σ Satunnasmuuttujen korrelaatota kutsutaan tavallsest Pearsonn (tulomomentt)korrelaatokertomeks Korrelaatokerron mttaa satunnasmuuttujen X ja Y lneaarsen rppuvuuden vomakkuutta X Y Ka Vrtanen 4
Korrelaatokertomen estmont Oletetaan, että satunnasmuuttujat X ja Y noudattavat 2-ulottesta normaaljakaumaa N 2 (µ X, µ Y, σ X 2, σ Y 2, ρ ), Olkoon rppumaton satunnasotos satunnasmuuttujen X ja Y jakaumasta Satunnasmuuttujen X ja Y korrelaatokerron estmodaan otoskorrelaatokertomella ( X, Y ), =, 2, K, n ρ r σ = Cor( X, Y ) = σ σ = s s s X Y X Y Ka Vrtanen 5
Korrelaatokertomen luottamusväl Korrelaatokertomelle ρ vodaan konstruoda luottamusväl ja testt samassa hengessä (Fshern z-muunnos) kun luottamusväl ja testt konstruodaan normaaljakauman odotusarvolle Approksmatvseks luottamusvälks (lb, ub) saadaan (jee, jee) lb = ( α / 2 ) ( α / 2 ) ( + r ) ( r )exp + 2z n 3 ( + r ) + ( r )exp + 2z n 3 ub = ( α / 2 ) ( α / 2 ) ( + r ) ( r )exp 2z n 3 ( + r ) + ( r )exp 2z n 3 Nyt luottamustaso on α ja ( lb ρ ub) Pr = α Luottamusväl pettää korrelaatokertomenρ okean arvon todennäkösyydellä ( α) ja se e petä okeata arvoa todennäkösyydelläα a Ka Vrtanen 6
Yhden otoksen test korrelaatokertomelle, hypoteest Korrelaatokertomen vertaamnen annettuun vakoon Ylenen hypotees H : () () H : ρ Satunnasmuuttujen X ja Y par noudattaa 2-ulottesta normaaljakaumaa Rppumaton satunnasotos ( X, Y ), =, 2, K, n Nollahypotees H 0 : H : ρ = ρ 0 0 Vahtoehtonen hypotees H : H : ρ > ρ 0 -suuntaset vahtoehtoset hypoteest H : ρ < ρ 0 2-suuntanen vahtoehtonen hypotees ρ 0 Ka Vrtanen 7
Yhden otoksen test korrelaatokertomelle, testsuure ja p-arvo Testsuure v = + r + ρ log 2 r 2 n 3 0 log ρ 0 H 0 ok => testsuure noudattaa approksmatvsest standardotua normaaljakaumaa Testsuureen normaalarvo = 0 Suuret testsuureen arvot => nollahypotees e päde p-arvo pen => H 0 hylkyyn Ka Vrtanen 8
Korrelaatokertomen vertalutest, hypoteest Kahden korrelaatokertomen vertaamnen Ylenen hypotees H : Kaks tosstaan rppumatonta satunnasotosta perusjoukosta, jotka noudattavat 2-ulottesa normaaljakauma, korrelaatokertomet ρ ja ρ 2 Nollahypotees H 0 : H 0 : ρ = ρ 2 = ρ 0 Vahtoehtonen hypotees H : H : ρ > ρ 2 H : ρ < ρ 2 H : ρ ρ 2 -suuntaset vahtoehtoset hypoteest 2-suuntanen vahtoehtonen hypotees Ka Vrtanen 9
Korrelaatokertomen vertalutest, testsuure ja p-arvo Testsuure v = + r + r log log 2 2 2 r r 2 n + 3 n 3 2 jossa n, n 2 otoskoot ja r, r 2 otoskorrelaatokertomet Testsuureen normaalarvo = 0 H 0 ok => testsuure approksmatvsest normaaljakautunut tsesarvoltaan penet testsuureen arvot suur p-arvo Ka Vrtanen 20
Korrelomattomuuden testaamnen, hypoteest Ovatko satunnasmuuttujat X ja Y korrelomattoma va e? Huom : Korrelomattomuudesta e välttämättä seuraa rppumattomuus, vakka rppumattomuudesta seuraa ana korrelomattomuus!!!!!! Huom 2: X ja Y noudattavat 2-ulottesta normaaljakaumaa => korrelomattomuus rppumattomuus Ylenen hypotees H : X ja Y noudattaa 2-ulottesta normaaljakaumaa rppumaton satunnasotos ( X, Y ), =, 2, K, n Nollahypotees H 0 : H 0 : ρ = 0 Vahtoehtonen hypotees H : H : ρ > 0 -suuntaset vahtoehtoset hypoteest H : ρ < 0 H : ρ 0 2-suuntanen vahtoehtonen hypotees Ka Vrtanen 2
Korrelomattomuuden testaamnen, testsuure ja p-arvo T-testsuure H 0 ok => t = n testsuure noudattaa Studentn t-jakaumaa vapausasten n-2 testsuureen normaalarvo = 0 penet testsuureen arvot r 2 r 2 p-arvo pen => nollahypotees hylkyyn Ka Vrtanen 22
Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Järjestyskorrelaatokertomet Ka Vrtanen 23
Spearmann järjestyskorrelaatokerron Myös järjestysastekollslle muuttujlle on korrelaatokertoma ja korrelomattomuuden testejä ok myös välmatka- ja suhdeastekollslle muuttujlle vrt. keskarvo ja medaan sekä nähn lttyvät testt Spearmann järjestyskorrelaatokerron kahden muuttujan havantoarvojen suuruusjärjestyksen yhteensopvuus kahden muuttujan välsen lneaarsen tlastollsen rppuvuuden vomakkuus ja suunta e jakaumaoletusta => e-parametrnen test Ka Vrtanen 24
Spearmann järjestyskorrelaatokerron, määrtelmä /2 Olkoot X ja Y j satunnasmuuttujen X ja Y havattuja arvoja Oletetaan, että havannot X ja Y lttyvät samaan havantoykskköön kaklle Järjestetään sekä X- että Y-muuttujan havatut arvot suuruusjärjestykseen penmmästä suurmpaan Ltetään sekä X- että Y-muuttujan havattuhn arvohn nden suuruusjärjestyksen mukaset rankt: R(X ) R(Y ) = havannon X rank parssa = havannon Y rank parssa sekä määrtellään erotukset D = R(X ) R(Y ) Ka Vrtanen 25
Spearmann järjestyskorrelaatokerron, määrtelmä 2/2 Spearmann järjestyskorrelaatokerron ρ S el Spearmann rho = 6 = ρ S 3 Spearmann järjestyskorrelaatokerron = Pearsonn otoskorrelaatokerron ranken paresta (R(X ), R(Y )) n n D n 2 Ka Vrtanen 26
Spearmann järjestyskorrelaatokertomen omnasuudet ρ S + Muuttujen X ja Y rankt ovat jokasessa havantoparssa samat => ρ S = + Muuttujen X ja Y rankt lttyvät tosnsa täysn satunnasest => ρ S 0, => muuttujat korrelomattoma Sekä suuret että penet muuttujen X ja Y rankt lttyvät havantoparessa tosnsa => ρ S saa postvsa arvoja Suuret ja penet muuttujen X ja Y rankt lttyvät havantoparessa tosnsa => ρ S saa negatvsa arvoja Ka Vrtanen 27
Spearmann järjestyskorrelaatokerron, korrelomattomuuden testaamnen H 0 : Cor( X, Y ) = 0 Testsuure ρ S 2 ρ H 0 ok => testsuure suurssa otoksssa approksmatvsest normaaljakautunut approksmaato on melko hyvä, kun n > 0 ja rttävä, kun n > 30 Testsuureen normaalarvo = 0 z = n Itsesarvoltaan suuret testsuureen arvot => H 0 e päde Nollahypotees hylkyyn, jos p-arvo on kylln pen 2 S Ka Vrtanen 28