806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus- Suhteellinen pisteet Frekvenssi frekvenssi 0 20 21 1 4 4 2 11 12 3 59 63 Yhteensä 94 100 a) Muuttuja on suhdeasteikon muuttuja, joka on diskreetti ja sillä on vain muutamia mahdollisia arvoja. Jakauman graafiseen esittämiseen soveltuu siten janakuvio. 60 50 Frekvenssi 40 30 20 10 0 0 1 2 3 Harjoituspisteet b) Tehtävän alussa annetun frekvenssijakauman ja alla annetun R-tulostuksen perusteella voidaan laskea/ilmoittaa mm. seuraavat sijainti- ja hajontatunnusluvut: > numsummary(harjoituspisteet, statistics=c("mean", "sd", "IQR", "skewness", + "quantiles"), quantiles=c(0,.25,.5,.75,1)) mean sd IQR skewness 0% 25% 50% 75% 100% n 2.16 1.23 2-1.02 0 1 3 3 3 94 Sijaintiluvut: Moodi = 3, Mediaani = 3 ja aritmeettinen keskiarvo x = 2.16. Huom.: yksittäiset fraktiilipisteet minimi, ala- ja yläkvartiili sekä maksimi ovat myös sijaintilukuja. Hajontaluvut: Vaihteluväli W = (0, 3), vaihteluvälin pituus w = 3 0 = 3, kvartiiliväli Q = (1, 3), kvartiilivälin pituus Q = 3 1 = 2 keskihajonta s = 1.23, varianssi s 2 = 1.23 2 1.51 ja variaatiokerroin V = s/ x = 1.23/2.16 0.57. c) R-tulostuksessa olevan vinoustunnusluvun g 1 = 1.02 ja a)-kohdassa piirretyn kuvion perusteella jakauma on vino vasemmalle, joten sijaintitunnusluvuksi kannattaa valita mediaani ja hajontatunnusluvuksi kvartiiliväli. Myös moodi ja vaihteluväli kävisivät tämän muuttujan kohdalla hyvin.
d) Muunnoksen y = 2x 1 jälkeen harjoitusaktiivisuudesta saatavien pisteiden jakauma summajakaumalla täydennettynä on seuraava: Harjoitus- Suhteellinen Summa- Suhteellinen pisteet Frekvenssi frekvenssi jakauma summajakauma -1 20 21 20 21 1 4 4 24 26 3 11 12 35 37 5 59 63 94 100 Yhteensä 94 100 Keskiarvo on nyt ȳ = 1 n r f i X i = 1 94 [20 1 + 4 1 + 11 3 + 59 5] = 312/94 3.32 Mediaani = 5 (se arvo, jossa suhteellinen summajakauma on ensimmäisen kerran vähintään 50 %). Varianssi s 2 = 1 n 1 1 94 1 r f i (X i x) 2 [ 20 ( 1 3.32) 2 + 4 (1 3.32) 2 + 11 (3 3.32) 2 + 59 (5 3.32) 2] 562.43/93 6.05. d)-kohdan voisi ratkaista myös lyhyemmin vetoamalla siihen, että muunnos y = 2x 1 on muotoa y = ax + b oleva lineaarimuunnos, jolle pätee, että ȳ = a x + b ja s 2 y = a 2 s 2 x. 2. Syntyvän lapsen sukupuoli on poika hieman yli 50 %:n todennäköisyydellä. a) Oletetaan perheen lasten sukupuolet toisistaan riippumattomiksi. Tällöin kolmilapsisessa perheessä poikien lukumäärä (= X) noudattaa seuraavanlaista todennäköisyysjakaumaa: x i 0 1 2 3 Σ p i 0.11 0.36 0.39 0.14 1 a1) E(X) = µ = k x i p i = 0 0.11 + 1 0.36 + 2 0.39 + 3 0.14 = 1.56. Varianssi D 2 (X) = σ 2 = k x 2 i p i µ 2 = (0 2 0.11 + 1 2 0.36 + 2 2 0.39 + 3 2 0.14) 1.56 2 0.7464 Keskihajonta D(X) = D 2 (X) 0.7464 0.86. a2) Merkitään A i = kolmilapsisella perheellä i on poikia enemmän kuin tyttöjä (,2). P (A 1 ) = P (A 2 ) = 0.39 + 0.14 = 0.53. P ( ainakin toisessa perheessä poikia on enemmän kuin tyttöjä ) = 1 P ( kummassakin perheessä tyttöjä enemmän kuin poikia ) = 1 P (A C 1 AC 2 ) = 1 (1 0.53) 2 = 0.779
b) Oletetaan, että X N(51.2, 1.8 2 ). b1) P (X > 50.0) = P ( X 51.2 50.0 51.2 } 1.8 1.8 ) {{} =Z N(0,1) = P (Z > 0.67) = 1 P (Z 0.67) = 1 P (Z 0.67) = 1 0.2514 = 0.7486. b2) Olkoon X 1 = 1. vastasyntyneen syntymäpituus ja X 2 = 2. vastasyntyneen syntymäpituus. Nyt X 1 N(51.2, 1.8 2 ) ja X 2 N(51.2, 1.8 2 ). Merkitään S = X 1 X 2, jolloin E(S) = E(X 1 X 2 ) = E(X 1 ) E(X 2 ) = 51.2 51.2 = 0 ja D 2 (S) = D 2 (X 1 X 2 ) = D 2 (X 1 ) + D 2 (X 2 ) = 1.8 2 + 1.8 2 = 6.48 2 S N(0, 6.48 2 )-jakaumaa. P ( S 3.0) = P (S 3 tai S 3) = 2 P (S 3) S 0 = 2 P ( 3 0 6.48 6.48 ) }{{} =Z N(0,1) = 2 P (Z 1.18) = 2 0.1190 = 0.2380 c) T-jakauman hännät ovat paksummat kuin N(0,1)-jakaumassa, sitä paksummat mitä pienempi t-jakauman vapausastemäärä on. Tämä nähdään liitteenä olevien taulukoiden perusteella mm. siitä, että piste, jossa todennäköisyyskertymä on 0.05, on t(1)-jakaumassa -6.314, t(4)-jakaumassa -2.132 ja N(0,1)-jakaumassa -1.64. Vastaavasti piste, jossa todennäköisyyskertymä on 0.95, on t(1)-jakaumassa 6.314, t(4)-jakaumassa 2.132 ja N(0,1)-jakaumassa 1.64. Yllä olevan perusteella kuvassa merkinnällä B merkitty kertymäfunktio on t(4)-jakauman kertymäfunktio. T-jakauman taulukosta nähdään, että kun T t(4)-jakaumaa, niin. 0.05 < P (T 1.7) < 0.10 0.90 < P (T 1.7) = F (1.7) < 0.95 3. Kandipalautekysely vuodelta 2016. a) Tyytyväisyysmuuttuja on mitta-asteikoltaan järjestysasteikkoa ja luonteeltaan epäjatkuva.
b) Järjestysastikon muuttujalle sopii graafiseksi esitykseksi pylväskuvio: Mielipiteen jakauma pylväskuviona 0 1000 2000 3000 4000 5000 Eri mieltä Osittain eri mieltä Osittain samaa mieltä Samaa mieltä c) Tilastollinen päättely. c1) Piste-estimaatti omaan opiskeluunsa tyytyväisten suhteelliselle osuudelle perusjoukossa: π = P = 4363/(4363 + 5008 + 1631 + 343) = 4363/11345 0.385. c2) Yhden suhteellisen osuuden testi 1) populaatio: kandidaatiksi valmistuneet { 1, kun henkilö i on omaan opiskeluunsa tyytyväinen Merk. X i = 0, kun henkilö i ei ole omaan opiskeluunsa tyytyväinen (X 1, X 2,... X 11345 ) on satunnaisotos ko. populaatiosta. Oletetaan, että X Bern(π) ja P (X = 1) = π. 2) Hypoteesit: { H 0 : π = 0.40 H 1 : π 0.40 3) Testisuure Z = P π 0 π0 (1 π 0 ) n 4) Testisuureen havaittu arvo: N(0, 1), likimain, kun H 0 on tosi z = 4363/11345 0.40 0.40 (1 0.40) 11345 3.35 5) p-arvo = P (Z 3.35 tai Z 3.35 H 0 ) = P ( Z 3.35 H 0 ) = 2 P (Z 3.35 H 0 ) = 2 0.0004 = 0.0008 6) Johtopäätökset: Aineisto on ristiriidassa H 0 :n kanssa eli aineiston perusteella näyttäisi sille, että omaan opiskeluunsa tyytyväisten suhteellinen osuus perusjoukossa ei ole 40 prosenttia.
d) Vastaajien keski-iän arviointi 95 % luottamusvälin avulla. > t.test(vastaajan.ika, mu=25, conf.level=0.95, alternative = "two.sided") One Sample t-test data: otos t = 0.4771, df = 49, p-value = 0.6354 alternative hypothesis: true mean is not equal to 25 95 percent confidence interval: 24.069 26.511 sample estimates: mean of x 25.29 Tulostuksen perusteella perusjoukon keski-ikä on 95 %:n varmuudella välillä 24.069 26.511 vuotta. Kaikkien vastaajien keski-ikä voi olla 25 vuotta, koska kyseinen arvo sisältyy luottamusvälin sisään.