Mat Tilastollisen analyysin perusteet, kevät 2007

Samankaltaiset tiedostot
Muuttujien välisten riippuvuuksien analysointi

Tilastollinen riippuvuus ja korrelaatio. Tilastollinen riippuvuus ja korrelaatio. Tilastollinen riippuvuus ja korrelaatio: Esitiedot

Mat Tilastollinen päättely 7. harjoitukset / Tehtävät. Hypoteesien testaus. Avainsanat:

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen riippuvuus ja korrelaatio

3.5 Generoivat funktiot ja momentit

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Lohkoasetelmat. Lohkoasetelmat. Lohkoasetelmat: Mitä opimme? Lohkoasetelmat. Lohkoasetelmat. Satunnaistettu täydellinen lohkoasetelma 1/4

Tilastolliset menetelmät: Lineaarinen regressioanalyysi

4. Datan käsittely lyhyt katsaus. Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman

5. Datan käsittely lyhyt katsaus. Havaitsevan tähtitieteen peruskurssi I, luento Thomas Hackman

3. Datan käsittely lyhyt katsaus

Generoidaan tiedostoon BINORM satunnaislukuja jakaumasta N(0,1) muuttujiksi U, V: (U, V): N 2 (0, 0, 1, 1, 0)

MTTTP1 SELITYKSIÄ JA ESIMERKKEJÄ KAAVAKOKOELMAN KAAVOIHIN LIITTYEN

Tilastolliset menetelmät: Lineaarinen regressioanalyysi

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

AB TEKNILLINEN KORKEAKOULU

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

on tavanomainen yhden selittäjän lineaarinen regressiomalli, jossa jäännöstermit ε i toteuttavat seuraavat oletukset:

Mat Sovellettu todennäköisyyslasku A

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Koesuunnittelu ja tilastolliset mallit. Yhden selittäjän lineaarinen regressiomalli. Avainsanat:

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin. Sovellettu todennäköisyyslasku: Kaavat ja taulukot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

MS-A0205/MS-A0206 Differentiaali- ja integraalilaskenta 2 Luento 7: Lagrangen kertojat. Pienimmän neliösumman menetelmä.

Mat Sovellettu todennäköisyyslaskenta B 8. harjoitukset / Ratkaisut Aiheet: Otos ja otosjakaumat Avainsanat:

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 6

Mat Tilastollisen analyysin perusteet, kevät 2007

Väliestimointi (jatkoa) Heliövaara 1

5. Datan käsittely lyhyt katsaus

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

1. PARAMETRIEN ESTIMOINTI

2-suuntainen vaihtoehtoinen hypoteesi

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 5 Aiheet: Tilastolliset testit Avainsanat:

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Luvut 1, 10 on laitettu ympyrän kehälle. Osoita, että löytyy kolme vierekkäistä

1. (Monisteen teht. 5.16) Eräiden kuulalaakereiden kestoa (miljoonaa kierrosta) on totuttu kuvaamaan Weibull-jakaumalla, jonka tiheysfunktio on

Kokonaislukuoptimointi

Mat Lineaarinen ohjelmointi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Mittausvirhe. Mittaustekniikan perusteet / luento 6. Mittausvirhe. Mittausepävarmuus ja siihen liittyvää terminologiaa

= E(Y 2 ) 1 n. = var(y 2 ) = E(Y 4 ) (E(Y 2 )) 2. Materiaalin esimerkin b) nojalla log-uskottavuusfunktio on l(θ; y) = n(y θ)2

Mat Lineaarinen ohjelmointi

COULOMBIN VOIMA JA SÄHKÖKENTTÄ, PISTEVARAUKSET, JATKUVAT VARAUSJAKAUMAT

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Testit järjestysasteikollisille muuttujille

Tilastollisen fysiikan luennot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Epälineaaristen pienimmän neliösumman tehtävien ratkaiseminen numeerisilla optimointimenetelmillä (valmiin työn esittely)

Mat Tilastollisen analyysin perusteet, kevät 2007

3 Tilayhtälöiden numeerinen integrointi

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Testejä suhdeasteikollisille muuttujille

Mat Tilastollisen analyysin perusteet, kevät 2007

Kuluttajahintojen muutokset

Suoran sovittaminen pistejoukkoon

Mat Sovelletun matematiikan erikoistyöt Spatiaalinen autokorrelaatio viljelykokeiden havainnoissa

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Ilkka Mellin (2008) 1/24

Markov-prosessit (Jatkuva-aikaiset Markov-ketjut)

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Monte Carlo -menetelmä

Jaksolliset ja toistuvat suoritukset

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Moderni portfolioteoria

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 7B Ratkaisuehdotuksia.

LIITE 2 SUORAN SOVITTAMINEN HAVAINTOPISTEISIIN

Kaksisuuntainen varianssianalyysi. Kaksisuuntainen varianssianalyysi. Kaksisuuntainen varianssianalyysi

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Estimointi. Vilkkumaa / Kuusinen 1

Johdatus tekoälyn taustalla olevaan matematiikkaan

10. laskuharjoituskierros, vko 14, ratkaisut

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A

Tilastollisten aineistojen kerääminen ja mittaaminen Tilastolliset aineistot

Maanhintojen vikasietoisesta mallintamisesta

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

FYSA220/2 (FYS222/2) VALON POLARISAATIO

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Todennäköisyyden ominaisuuksia

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Sovellettu todennäköisyyslaskenta B

W Hz. kohinageneraattori. H(f) W Hz. W Hz. ELEC-A7200 Signaalit ja järjestelmät Laskuharjoitukset. LASKUHARJOITUS 5 Sivu 1/7

6. Stokastiset prosessit (2)

Moniulotteiset satunnaismuuttujat ja jakaumat

Konvergenssikäsitteet ja raja-arvolauseet. Konvergenssikäsitteet ja raja-arvolauseet. Konvergenssikäsitteet ja raja-arvolauseet: Mitä opimme?

Transkriptio:

Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Tlastollnen rppuvuus ja korrelaato Ka Vrtanen

Muuttujen välsten rppuvuuksen analysont Tlastollsssa analyysessä tutktaan usen muuttujen välsä rppuvuuksa Työttömyysasteen rppuvuus BKT kasvuvauhdsta Suomessa, Suomen vennn volyymsta, vaallupaukssta, yms. Alkoholn kulutuksen rppuvuus hntatasosta, hmsten tulosta, alkoholn saatavuudesta, varotuslapusta, yms. Keuhkosyövän todennäkösyyden rppuvuus tupakonnn määrästä ja kestosta Yhden muuttujan tlastollset menetelmät kuvaavat rajottuneest lmötä Mten kuvataan ja mallnnetaan kahden ta useamman muuttujan välsä rppuvuuksa? Ka Vrtanen 2

Tlastollnen rppuvuus, korrelaato ja regresso Kahden muuttujan välnen eksakt rppuvuus: tosen arvot vodaan ennustaa tarkast tosen saamen arvojen perusteella Kahden muuttujan välnen tlastollnen rppuvuus: tosen arvoja vodaan käyttää apuna tosen arvojen ennustamsessa Tlastollsta rppuvuutta kutsutaan korrelaatoks Korrelaaton vomakkuutta mttaavat tunnusluvut korrelaatokertomet Regressoanalyys: seltettävän muuttujan tlastollsen rppuvuuden mall selttävstä muuttujsta Ka Vrtanen 3

Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Kahden muuttujan havantoaneston kuvaamnen Ka Vrtanen 4

Pstedagramm Havantoja kahdesta järjestys-, välmatka- ta suhdeastekollsesta muuttujasta Havantoanestoa kuvataan graafsest pstedagrammlla Hooken lak: jousen ptuus rppuu lneaarsest jouseen rpustetusta panosta Tulokset kokeesta, jossa jouseen rpustettn 6 er panoa Perytyykö sän ptuus hedän pojlleen? Yhtä ptkllä sllä näyttää olevan monen mttasa poka Lyhyllä sllä näyttää olevan keskmäärn lyhyempä poka kun ptkllä sllä ja pänvaston Jousen ptuus (cm) 46.00 45.50 45.00 44.50 44.00 43.50 43.00 Kerrejousen ptuuden rppuvuus jouseen rpustetusta panosta S42.50 ysteemanalyysn -2 0 2 4 6 8 0 2 Pano (kg) Pojan ptuus (cm) 95 90 85 80 75 70 65 60 Isen ja poken ptuudet 55 60 65 70 75 80 85 90 Ka Vrtanen 5 Isän ptuus (cm)

Tunnusluvut Kahden välmatka- ta suhdeastekollsen muuttujan havantoarvojen muodostamaa jakaumaa karaktersovat tunnusluvut: Havantoarvojen keskmääränen sjant artmeettnen keskarvo x n x + x2 + L+ xn x n = n = = Havantoarvojen hajaantunesuus (otos)varanss n 2 sx = x x n = n 2 = ( ) ( ) 2 Havantoarvojen hajaantunesuus (otos)keskhajonta sx x x n = Havantoarvojen lneaarnen rppuvuus otoskovaranss ta otoskorrelaatokerron Ka Vrtanen 6

Otoskovaranss Havantoarvosta (x, y ), =, 2,, n laskettu otoskovaranss: n s = x x y y ( )( ) xy n = jossa x = x-havantoarvojen artmeettnen keskarvo y = y-havantoarvojen artmeettnen keskarvo x- ja y-havantoarvojen otoskovaransst tsensä kanssa varansst: s s xx yy = = s s 2 x 2 y Ka Vrtanen 7

Otoskovaranssn merkn määräytymnen Otoskovaranssn s xy merkn määrää summalauseke ( x x )( y y ) Otoskovaranss saa postvsa (negatvsa) arvoja, jos havantopsteden muodostama psteparv nouseva (laskeva) ( x x )( y y ) 0 ( x x )( y y ) 0 ( x, y ) ( x, y ) ( x, y ) ( x x )( y y ) 0 ( x x )( y y ) 0 ( x, y ) ( x, y ) Ka Vrtanen 8

Pearsonn otoskorrelaatokerron x- ja y-havantoarvojen lneaarsen tlastollsen rppuvuuden vomakkuuden mttar: Pearsonn otoskorrelaatokerron r xy = jossa s xy s x xy s s s x ja s y ja x y y r xy = = = otoskovaranss = keskhajonnat = artmeettset keskarvot n ( x x)( y y) n n 2 2 ( x x) ( y y) = = Ka Vrtanen 9

Otoskorrelaatokertomen omnasuuksa () r + () r xy xy =±, jos ja van jos y = α + β x jossa α ja β ovat reaalsa vakota ja β 0. () Korrelaatokertomella rxy ja kovaransslla on ana sama merkk. r xy = ± => eksakt el funktonaalnen lneaarnen rppuvuus => havantopsteet suoralla r xy = 0 => e eksakta ekä tlastollsta lneaarsta rppuvuutta Vakka r xy = 0, havantoarvojen välllä saattaa slt olla jopa eksakt epälneaarnen rppuvuus s xy Ka Vrtanen 0

Esmerkkejä otoskorrelaatokertomesta r xy = 0.8 r xy = 0.62 r xy = 0.48 r xy = 0.43 r xy = 0.83 r xy = Ka Vrtanen

Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Pearsonn korrelaatokertomen estmont ja testaus Ka Vrtanen 2

Korrelaaton estmont ja testaus Kaks välmatka- ta suhdeastekollsta satunnasmuuttujaa X ja Y oletus: X ja Y noudattavat 2-ulottesta normaaljakaumaa tuntemattomat parametrt: odotusarvot, varansst ja korrelaatokerron Pearsonn korrelaatokertomen estmont ja luottamusväl normaaljakauman tuntemattoman korrelaatokerronparametrn estmont vrt. yksulottesn normaaljakauman odotusarvon ja varanssn estmont Yhden otoksen test korrelaatokertomelle korrelaatokertomen vertaamnen vakoon Korrelaatokertomen vertalutest kaks tosstaan rppumatonta satunnasotosta korrelaatokertomen vertaamnen Korrelomattomuuden testaamnen yks satunnasotos korrelaatokertomen vertaamnen nollaan Ka Vrtanen 3

Satunnasmuuttujen korrelaato Satunnasmuuttujat X ja Y Odotusarvot Varansst Kovaranss µ µ E( X ) E( Y ) Korrelaato ρ = Cor(X, Y) X Y = = σ = Var( X ) = D ( X ) = E[( X µ ) ] 2 2 2 X X σ = Var( Y ) = D ( Y ) = E[( Y µ ) ] 2 2 2 Y Y σ = Cov( X, Y ) = E[( X µ )( Y µ )] ρ X Y σ = Cor( X, Y ) = σ σ Satunnasmuuttujen korrelaatota kutsutaan tavallsest Pearsonn (tulomomentt)korrelaatokertomeks Korrelaatokerron mttaa satunnasmuuttujen X ja Y lneaarsen rppuvuuden vomakkuutta X Y Ka Vrtanen 4

Korrelaatokertomen estmont Oletetaan, että satunnasmuuttujat X ja Y noudattavat 2-ulottesta normaaljakaumaa N 2 (µ X, µ Y, σ X 2, σ Y 2, ρ ), Olkoon rppumaton satunnasotos satunnasmuuttujen X ja Y jakaumasta Satunnasmuuttujen X ja Y korrelaatokerron estmodaan otoskorrelaatokertomella ( X, Y ), =, 2, K, n ρ r σ = Cor( X, Y ) = σ σ = s s s X Y X Y Ka Vrtanen 5

Korrelaatokertomen luottamusväl Korrelaatokertomelle ρ vodaan konstruoda luottamusväl ja testt samassa hengessä (Fshern z-muunnos) kun luottamusväl ja testt konstruodaan normaaljakauman odotusarvolle Approksmatvseks luottamusvälks (lb, ub) saadaan (jee, jee) lb = ( α / 2 ) ( α / 2 ) ( + r ) ( r )exp + 2z n 3 ( + r ) + ( r )exp + 2z n 3 ub = ( α / 2 ) ( α / 2 ) ( + r ) ( r )exp 2z n 3 ( + r ) + ( r )exp 2z n 3 Nyt luottamustaso on α ja ( lb ρ ub) Pr = α Luottamusväl pettää korrelaatokertomenρ okean arvon todennäkösyydellä ( α) ja se e petä okeata arvoa todennäkösyydelläα a Ka Vrtanen 6

Yhden otoksen test korrelaatokertomelle, hypoteest Korrelaatokertomen vertaamnen annettuun vakoon Ylenen hypotees H : () () H : ρ Satunnasmuuttujen X ja Y par noudattaa 2-ulottesta normaaljakaumaa Rppumaton satunnasotos ( X, Y ), =, 2, K, n Nollahypotees H 0 : H : ρ = ρ 0 0 Vahtoehtonen hypotees H : H : ρ > ρ 0 -suuntaset vahtoehtoset hypoteest H : ρ < ρ 0 2-suuntanen vahtoehtonen hypotees ρ 0 Ka Vrtanen 7

Yhden otoksen test korrelaatokertomelle, testsuure ja p-arvo Testsuure v = + r + ρ log 2 r 2 n 3 0 log ρ 0 H 0 ok => testsuure noudattaa approksmatvsest standardotua normaaljakaumaa Testsuureen normaalarvo = 0 Suuret testsuureen arvot => nollahypotees e päde p-arvo pen => H 0 hylkyyn Ka Vrtanen 8

Korrelaatokertomen vertalutest, hypoteest Kahden korrelaatokertomen vertaamnen Ylenen hypotees H : Kaks tosstaan rppumatonta satunnasotosta perusjoukosta, jotka noudattavat 2-ulottesa normaaljakauma, korrelaatokertomet ρ ja ρ 2 Nollahypotees H 0 : H 0 : ρ = ρ 2 = ρ 0 Vahtoehtonen hypotees H : H : ρ > ρ 2 H : ρ < ρ 2 H : ρ ρ 2 -suuntaset vahtoehtoset hypoteest 2-suuntanen vahtoehtonen hypotees Ka Vrtanen 9

Korrelaatokertomen vertalutest, testsuure ja p-arvo Testsuure v = + r + r log log 2 2 2 r r 2 n + 3 n 3 2 jossa n, n 2 otoskoot ja r, r 2 otoskorrelaatokertomet Testsuureen normaalarvo = 0 H 0 ok => testsuure approksmatvsest normaaljakautunut tsesarvoltaan penet testsuureen arvot suur p-arvo Ka Vrtanen 20

Korrelomattomuuden testaamnen, hypoteest Ovatko satunnasmuuttujat X ja Y korrelomattoma va e? Huom : Korrelomattomuudesta e välttämättä seuraa rppumattomuus, vakka rppumattomuudesta seuraa ana korrelomattomuus!!!!!! Huom 2: X ja Y noudattavat 2-ulottesta normaaljakaumaa => korrelomattomuus rppumattomuus Ylenen hypotees H : X ja Y noudattaa 2-ulottesta normaaljakaumaa rppumaton satunnasotos ( X, Y ), =, 2, K, n Nollahypotees H 0 : H 0 : ρ = 0 Vahtoehtonen hypotees H : H : ρ > 0 -suuntaset vahtoehtoset hypoteest H : ρ < 0 H : ρ 0 2-suuntanen vahtoehtonen hypotees Ka Vrtanen 2

Korrelomattomuuden testaamnen, testsuure ja p-arvo T-testsuure H 0 ok => t = n testsuure noudattaa Studentn t-jakaumaa vapausasten n-2 testsuureen normaalarvo = 0 penet testsuureen arvot r 2 r 2 p-arvo pen => nollahypotees hylkyyn Ka Vrtanen 22

Mat-2.204 Tlastollsen analyysn perusteet, kevät 2007 5. luento: Järjestyskorrelaatokertomet Ka Vrtanen 23

Spearmann järjestyskorrelaatokerron Myös järjestysastekollslle muuttujlle on korrelaatokertoma ja korrelomattomuuden testejä ok myös välmatka- ja suhdeastekollslle muuttujlle vrt. keskarvo ja medaan sekä nähn lttyvät testt Spearmann järjestyskorrelaatokerron kahden muuttujan havantoarvojen suuruusjärjestyksen yhteensopvuus kahden muuttujan välsen lneaarsen tlastollsen rppuvuuden vomakkuus ja suunta e jakaumaoletusta => e-parametrnen test Ka Vrtanen 24

Spearmann järjestyskorrelaatokerron, määrtelmä /2 Olkoot X ja Y j satunnasmuuttujen X ja Y havattuja arvoja Oletetaan, että havannot X ja Y lttyvät samaan havantoykskköön kaklle Järjestetään sekä X- että Y-muuttujan havatut arvot suuruusjärjestykseen penmmästä suurmpaan Ltetään sekä X- että Y-muuttujan havattuhn arvohn nden suuruusjärjestyksen mukaset rankt: R(X ) R(Y ) = havannon X rank parssa = havannon Y rank parssa sekä määrtellään erotukset D = R(X ) R(Y ) Ka Vrtanen 25

Spearmann järjestyskorrelaatokerron, määrtelmä 2/2 Spearmann järjestyskorrelaatokerron ρ S el Spearmann rho = 6 = ρ S 3 Spearmann järjestyskorrelaatokerron = Pearsonn otoskorrelaatokerron ranken paresta (R(X ), R(Y )) n n D n 2 Ka Vrtanen 26

Spearmann järjestyskorrelaatokertomen omnasuudet ρ S + Muuttujen X ja Y rankt ovat jokasessa havantoparssa samat => ρ S = + Muuttujen X ja Y rankt lttyvät tosnsa täysn satunnasest => ρ S 0, => muuttujat korrelomattoma Sekä suuret että penet muuttujen X ja Y rankt lttyvät havantoparessa tosnsa => ρ S saa postvsa arvoja Suuret ja penet muuttujen X ja Y rankt lttyvät havantoparessa tosnsa => ρ S saa negatvsa arvoja Ka Vrtanen 27

Spearmann järjestyskorrelaatokerron, korrelomattomuuden testaamnen H 0 : Cor( X, Y ) = 0 Testsuure ρ S 2 ρ H 0 ok => testsuure suurssa otoksssa approksmatvsest normaaljakautunut approksmaato on melko hyvä, kun n > 0 ja rttävä, kun n > 30 Testsuureen normaalarvo = 0 z = n Itsesarvoltaan suuret testsuureen arvot => H 0 e päde Nollahypotees hylkyyn, jos p-arvo on kylln pen 2 S Ka Vrtanen 28