JÄRJESTYSKORRELAATIO 1. Hannu ja Kerttu pitävät karamelleista, mutta heidän mieltymyksensä poikkeavat hieman. Hannun mielestä punaiset karkit ovat parhaita ja keltaiset miellyttävät häntä vähiten. Kerttu pitää erityisesti vihreistä karkeista ja punaiset ovat hänestä vähiten haluttavia. Laske Hannun ja Kertun karkkimakujen korrelaatiot. puna vihreä kelta Hannu 1 2 3 Kerttu 3 1 2 a) Kendall: 4*(0+1)/(3 2-3)-1=-0.33333333333333 Spearman: 1-6*((1-3) 2 +(2-1) 2 +(3-2) 2 )/(3 3-3)=-0.5 Pearson : ((1-2)*(3-2)+(2-2)*(1-2)+(3-2)*(2-2))/sqrt(((1-2) 2 +(2-2) 2 +(3-2) 2 )*((3-2) 2 +(1-2) 2 +(2-2) 2 ))=-0.5 Alla on laskettu korrelaatiokertoimet ja niitä vastaavat todennäköisyydet kaikilla mahdollisilla järjestyksillä. Kendallin tapauksessahan kyse on todennäköisyydestä, että saadaan kyseinen tai poikkeavampi järjestys. Vaihtoehtoisia järjestyksiä on kuusi. Ainoa poikkeavampi kuin vkp on kvp, josta seuraa, että todennäköisyys on 2/6. Spearmanin kohdalla ei ole mitään vastaavaa tulkintaa, sillä sehän on Pearsonin korrelaatiokerroin järjestysluvuille. Korrelaatiot: Kendall pvk 4*(2+1)/(3 2-3)-1=1 pkv 4*(2+0)/(3 2-3)-1=0.33333333333333 vpk 4*(1+1)/(3 2-3)-1=0.33333333333333 vkp 4*(1+0)/(3 2-3)-1=-0.33333333333333 kpv 4*(0+1)/(3 2-3)-1=-0.33333333333333 kvp 4*(0+0)/(3 2-3)-1=-1 Todennäköisyydet : Kendall pvk 2*(2+1)/(3 2-3)=1 pkv 2*(2+0)/(3 2-3)=0.66666666666667 vpk 2*(1+1)/(3 2-3)=0.66666666666667 vkp 2*(1+0)/(3 2-3)=0.33333333333333 kpv 2*(0+1)/(3 2-3)=0.33333333333333 kvp 2*(0+0)/(3 2-3)=0 Spearman pvk 1-6*((1-1) 2 +(2-2) 2 +(3-3) 2 )/(3 3-3)=1 pkv 1-6*((1-1) 2 +(2-3) 2 +(3-2) 2 )/(3 3-3)=0.5 vpk 1-6*((1-2) 2 +(2-1) 2 +(3-3) 2 )/(3 3-3)=0.5 vkp 1-6*((1-2) 2 +(2-3) 2 +(3-1) 2 )/(3 3-3)=-0.5 kpv 1-6*((1-3) 2 +(2-1) 2 +(3-2) 2 )/(3 3-3)=-0.5 kvp 1-6*((1-3) 2 +(2-2) 2 +(3-1) 2 )/(3 3-3)=-1 Spearman pvk 1-3*((1-1) 2 +(2-2) 2 +(3-3) 2 )/(3 3-3)=1 pkv 1-3*((1-1) 2 +(2-3) 2 +(3-2) 2 )/(3 3-3)=0.75 vpk 1-3*((1-2) 2 +(2-1) 2 +(3-3) 2 )/(3 3-3)=0.75 vkp 1-3*((1-2) 2 +(2-3) 2 +(3-1) 2 )/(3 3-3)=0.25 kpv 1-3*((1-3) 2 +(2-1) 2 +(3-2) 2 )/(3 3-3)=0.25 kvp 1-3*((1-3) 2 +(2-2) 2 +(3-1) 2 )/(3 3-3)=0 1
LINEAARINEN REGRESSIOMALLI, jossa pituudella selitetään painoa. Perustunnusluvut: Means, std.devs and correlations of AINEISTO N=142 Variable Mean Std.dev. PITUUS 173.0070 9.964118 PAINO 72.49296 13.87111 Variable=muuttuja, mean=average=keskiarvo, standard deviation=keskihajonta Korrelaatiomatriisi: Correlations: PITUUS PAINO PITUUS 1.0000 0.6047 PAINO 0.6047 1.0000 Regressiomallin tuloste: Linear regression analysis: Data AINEISTO, Regressand PAINO N=142 Variable Regr.coeff. Std.dev. t beta PITUUS 0.841740 0.093711 8.982 0.605 constant -73.13392 16.23927-4.504 Variance of regressand PAINO=192.4077515 df=141 Residual variance=122.9346299 df=140 R=0.6047 R^2=0.3656 regressand=selitettävä muuttuja, regression coefficent=regressiokerroin, constant=vakio Mallin yhtälö: PAINO=-73.13+0.842*PITUUS Mallin selitysaste, eli kuinka monta prosenttia selittävä muuttuja selittää selitettävän vaihtelusta ja päinvastoin: R 2 =0.366=36.6% Regressiosuora sovitettuna aineistoon: Diagram of AINEISTO 120 PAINO 110 100 90 80 70 60 50 40 30 150 160 170 180 190 200 210 PITUUS Esimerkin aineistossa on henkilö, jonka pituus on 167 cm ja hän painaa 58 kiloa. Mallin antama painoennuste: Painoennuste = -73.13+0.842*167=67.484 (prediktori) Ennustevirhe on tämän henkilön kohdalla: Ennustevirhe = 58-67.5= -9.5 (residuaali) 2
Usean selittäjän malli Means, std.devs and correlations of AINEISTO N=144 Variable Mean Std.dev. Ikä 36.37500 14.57552 Pituus 172.3125 9.138766 Paino 70.45139 14.49950 Kenkä 40.50694 2.991822 Correlations: Ikä Pituus Paino Kenkä Ikä 1.0000 0.0858 0.3847 0.1308 Pituus 0.0858 1.0000 0.6299 0.7863 Paino 0.3847 0.6299 1.0000 0.5745 Kenkä 0.1308 0.7863 0.5745 1.0000 Linear regression analysis: Data AINEISTO, Regressand Paino N=144 Variable Regr.coeff. Std.dev. t beta Ikä 0.321583 0.059029 5.448 0.323 Pituus 0.763287 0.151058 5.053 0.481 Kenkä 0.746310 0.463702 1.609 0.154 constant -103.0007 16.22398-6.349 Variance of regressand Paino=210.2353827 df=143 Residual variance=103.9630120 df=140 R=0.7182 R^2=0.5159 Mallin yhtälö: PAINO=0.322*IKÄ+0.763*PITUUS+0.746*KENKÄ-103.0 Aiemmin mainitun 167 cm pitkä ja 58 kiloa painavan henkilön ikä on 49 vuotta ja kengännumero on 38. Painoennuste = 0.322*49+0.763*167+0.746*38-103.0=68.5 (prediktori) Ennustevirhe = 58-68.5= -10.5 (residuaali) Yhteiskorrelaatiokerroin kolmen selittäjän mallissa: R=0.7182 (multippelikorrelaatiokerroin) Malli selitysaste = R 2 =0.516=51.6% Osittaiskorrelaatio: Osittaiskorrelaatiokerroin pituuden ja kengänkoon välillä, kun halutaan jättää pois painon vaikutus: r xy.z =(0.7863-(0.6299*0.5745))/sqrt((1-0.6299 2 )*(1-0.5745 2 ))=0.6676321020778 Standardoidun mallin yhtälö olisi tässä tapauksessa: Z paino =0.323*Z ikä +0.481*Z pituus +0.154*Z kenkä Z paino =0.323*0.8659-0.481*0.5810-0.154*0.8389=-0.1298318 Standardoidun mallin painoennuste olisi siis: -0.1289*14.500+70.45=68.6 3
TODENNÄKÖISYYSLASKENTA Seuraavat esimerkkitehtävät ovat suurelta osalta joko Juha Purasen tai Pyry-Matti Vasaman vanhoja harjoitustehtäviä. 1. Oletetaan, että perusjoukko E muodostuu alkeistapahtumista E={a,b,c,d,e,f,g}, joilla on todennäköisyydet. P(a)=0.07 P(b)=0.08 P(c)=0.10 P(d)=0.15 P(e)=0.25 P(f)=0.13 P(g)=0.22. Tarkasta, että kyseessä on mahdollinen perusjoukko ts. P(E)=1 Tarkastellaan seuraavia tapahtumia A={a,e,f} B={c,e,g} C={b,e,f}. Määrää: a) P(A), P(B), P(C) b) P(A ja B), P(B tai C), P(ei A) c) P(A ehdolla B) Kaikki todennäköisyydet ovat nolla ja yhden välillä, alkeistapahtumat ovat toisensa poissulkevia ja P(E)=0.07+0.08+0.10+0.15+0.25+0.13+0.22=1, eli on todennäköisyyskenttä. a) P(A)=0.07+0.25+0.13=0.45, P(B)=0.10+0.25+0.22=0.57, P(C)=0.08+0.25+0.13=0.46 b) P(A B)=0.25, P(BUC)=P(B)+P(C)-P(B C)=0.57+0.46-0.25=0.78, P(A c )=1-P(A)=1-0.45=0.55 c) P(A B)=P(A B)/P(B)=0.25/0.57=0.439 2. Oletetaan, että P(A) = 0.5, P(B) = 0.3 ja P(A B) = 0.2. Määrää seuraavat todennäköisyydet: a) A ja B tapahtuu b) A tai B tapahtuu c) joko A tai B tapahtuu d) vain A tapahtuu e) ainakin A tapahtuu f) korkeintaan A tapahtuu g) Mikä tulisi P(A B) n, jotta A ja B olisivat riippumattomia? (Halutessasi voit konkretisoida tehtävää taustatarinalla. Teealla on mahdollisuus valita ottaako hän teetä vai kahvia. Lisäksi Teea voi halutessaan laittaa valitsemaansa juomaan maitoa. Tapahtuma A olkoon, että Teea ottaa teetä. Tapahtuma B olkoon, että Teea laittaa juomaan maitoa.) a) P(A B) = 0.2 b) P(AUB)=P(A)+P(B)-P(A B)=0.5+0.3-0.2=0.6 c) P(AUB)-P(A B) =0.6-0.2=0.4 d) P(A)-P(A B)=0.5-0.2=0.3 e) P(A)=0.5 f) P(B c )=1-P(B)=1-0.3=0.7 g) P(A)=P(A B)/P(B) <=> P(A B)=P(A)*P(B)=0.5*0.3=0.15 3. Korissa on 4 paria sinisiä, 2 paria vihreitä sukkia sekä yksi ruskea ja yksi valkea sukka. Sukkia ei ole järjestetty pareittain. Mikä on todennäköisyys, että valitessani satunnaisesti 2 sukkaa ne ovat... a) molemmat sinisiä? b) molemmat vihreitä? c) molemmat samaa väriä? d) ruskea ja valkea sukka? e) vähintään yksi sininen sukka? a) 8/14*7/13=4/13 b) 4/14*3/13=6/91 c) 8/14*7/13+4/14*3/13=34/91 d) 2/14*1/13=1/91 (tai 1/14*1/13=1/182, jos järjestyksellä väliä) e) 1-(6/14*5/13)=76/91 4. Henkilöllä on 10 jazz-levyä ja 8 levyä klassista musiikkia. Hän valitsee kaksi levyä umpimähkään soitettavaksi. Mikä on todennäköisyys, että... a) molemmat ovat jazz-levyjä, b) ainakin toinen levyistä on jazzia, kun levyt valitaan ilman takaisinpanoa. a) P(A)=10/18*9/17=5/17 0.294 b) 1-P(B)=1-(8/18*7/17)=125/153 0.817 5. Kuten tehtävä 4, mutta levyt valitaan takaisinpanoa käyttäen. a) P(A)=10/18*10/18=25/81 0.309 b) 1-P(B)=1-(8/18*8/18)=65/81 0.802 6. Heitetään kahta harhatonta arpakuutiota. Määritellään seuraavat tapahtumat: A={silmälukujen summa > 7} B={1. Nopan silmäluku on suurempi kuin 2. nopan} C={kummankin nopan silmäluku on korkeintaan 4} Määrää: a) P(AUB) b) P(AUC) c) P(BUC) d) P(AUBUC) e) P(A B) f) P(A C) g) P(B C) h) P(C A) P(A)=15/36, P(B)=15/36, P(C)=16/36, P(A B)=6/36, P(A C)=1/36, P(B C)=6/36, P(A B C)=0/36 a) (15+15-6)/36=24/36 b) (15+16-1)/36=30/36 c) (15+16-6)/36=25/36 d) (15+15+16-6-1-6+0)/36=33/36 e) (6/36)/(15/36)=6/15 f) (1/36)/(16/36)=1/16 g) (6/36)/(16/36)=6/16 h) (1/36)/(15/36)=1/15 7. Riippumattomilla tapahtumilla on aina leikkausjoukko, eli yhteisiä alkioita. Peräkkäiset nopanheitot. 4
a) Jos ensimmäinen heitto on 2, niin toinen heitto voi saada edelleen minkä tahansa arvon samalla todennäköisyydellä, jos ehdollistetaan vain toisen heiton tulokseen liittyvillä ehdoilla. Tällöin tilanne on riippumaton. Asetetaan ehdoksi, että toinen noppaa on parillinen. Leikkausjoukossa on toisen heiton tuloksesta riippumatta aina vähintään yksi yhteinen alkio. b) Jos ensimmäinen heitto on 2 ja toisena ehtona on, että noppien summa on suurempi kuin kahdeksan, niin ehdot ovat toisensa poissulkevia. Summa on suurempi kuin kahdeksan ja ensimmäisen nopan tulos on kaksi, ovat siis toisensa poissulkevia. Joukoilla ei ole yhteisiä alkioita, eli ne eivät voi olla riippumattomia. c) Jos ensimmäinen heitto on 2 ja toisena ehtona on, että noppien summa on suurempi kuin kuusi, niin joukoilla on yhteisiä alkioita. Koska todennäköisyys, että heittojen summa on suurempi kuin kuusi ennen ensimmäistä heittoa ja ensimmäisen heiton jälkeen poikkeaa, niin tulokset eivät ole riippumattomia. 8. Autoilija arvioi, että todennäköisyys joutua onnettomuuteen ohitustilanteessa on hänen kohdallaan 0.002. Autoilija suorittaa 1000 toisistaan riippumatonta ohitusta. Millä todennäköisyydellä hän joutuu onnettomuuteen ainakin kerran? P(O)=0.002, P(O c )=1-0.002=0.998 P(ainakin yksi onnettomuus)=1-(1-0.002) 1000 =1-0.998 1000 =1-0.13506=0.86494 9. Kirjahyllyssä on 3 tilastotieteen, 8 kansantaloustieteen ja 6 sosiologian kirjaa. a) Monessako järjestyksessä kirjat voivat olla, jos saman pääaineen kirjojen on oltava vierekkäin? b) Monessako järjestyksessä kirjat voivat olla, jos vain kansantaloustieteen kirjojen on oltava vierekkäin? c) Monessako järjestyksessä kirjat voivat olla, jos kirjojen on oltava aakkosjärjestyksessä pääaineittain? d) Monessako järjestyksessä kirjat voivat olla, jos ei ole mitään rajoituksia? a) (3!*8!*6!)*3!=1045094400 b) 8!*10!=146313216000 c) 3!=6 d) 17!= 3.557*10 14 10. Bayesin kaavailua: (T T=teetä, T K=kahvia, S 0= ei sokeria, S 1= yksi pala sokeria, S 2= kaksi palaa sokeria) Oletetaan, että P(T T ) = 0.6 ja P(T K )= 0.4, eli todennäköisyys ottaa teetä on 60% ja lopuissa tapauksissa otetaan kahvia. Juomavalinnalla ehdollistetut todennäköisyydet laittaa juomaan joko nolla, yksi tai kaksi palaa sokeria ovat: Tee: P(S 0 T T )=0.3, P(S 1 T T )=0.5, P(S 2 T T )=0.2. Kahvi: P(S 0 T K )=0.1, P(S 1 T K )=0.4, P(S 2 T K )=0.5. a) Teetä ehdolla kaksi palaa sokeria: b) Kahvia ehdolla kaksi palaa sokeria: P(T T S 2 )=0.6*0.2/(0.6*0.2+0.4*0.5)=0.375 P(T K S 2 )=0.4*0.5/(0.6*0.2+0.4*0.5)=0.625 0.3 => 0.18 / tee / 0.5 => 0.30 /\ 0.6/ \ 0.2 => 0.12 / \ 0.1 => 0.04 \ / 0.4 \/ 0.4 => 0.16 kahvi\ \ 0.5 => 0.20 Muut ehdolliset todennäköisyydet: P(T T S 0 )=0.6*0.3/(0.6*0.3+0.4*0.1)=0.81818181818182 P(T K S 0 )=0.4*0.1/(0.6*0.3+0.4*0.1)=0.18181818181818 P(T T S 1 )=0.6*0.5/(0.6*0.5+0.4*0.4)=0.65217391304348 P(T K S 1 )=0.4*0.4/(0.6*0.5+0.4*0.4)=0.34782608695652 5