VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain a) 0.38 b) 0.21 c) 0.29 d) 0.43 ( 165 170 P (165 < X < 175) = P < X 170 ) 175 170 < 10 10 10 = P ( 0.5 < Z < 0.5) = Φ(0.5) Φ( 0.5) = Φ(0.5) (1 Φ(0.5)) = 2Φ(0.5) 1, jossa Z = (X 170)/10 noudattaa standardoitua normaalijakaumaa N(0, 1) ja Φ(x) on standardoidun normaalijakauman kertymäfunktio. Liitteen perusteella Φ(0.5) = 0.6915, joten P (165 < X < 175) = 2Φ(0.5) 1 = 2 0.6915 1 = 1.383 1 = 0.383 0.38. 1.2 Pearsonin korrelaatiokerroin a) mittaa sekä lineaarista että epälineaarista riippuvuutta b) voidaan laskea vähintään nominaaliasteikollisille muuttujille c) mittaa ainoastaan lineaarista riippuvuutta d) on keskiluku 1.3 Lukujen 1, 4, 7, 5, 3 varianssi on a) 2.4 b) 5.0 c) 3.8 d) 4.4 ȳ = 1 n s 2 = = 1 n 1 y i = 1 (1 + 4 + 7 + 5 + 3) = 20/5 = 4. 5 (y i ȳ) 2 1 5 1 ((1 4)2 + (4 4) 2 + (7 4) 2 + (5 4) 2 + (3 4) 2 ) = 1 4 (9 + 0 + 9 + 1 + 1) = 20 4 = 5. 1
1.4 Henkilöt A, B ja C hakevat samaa työpaikkaa. Henkilöillä A ja B on samat todennäköisyydet saada paikka. Henkilö C saa paikan 3 kertaa todennäköisemmin kuin henkilö A. Paikkaan valitaan henkilö A, B tai C. Millä todennäköisyydellä henkilö B ei saa paikkaa? a) 4/5 b) 1/5 c) 5/7 d) 6/7 Olkoon P (A) = P ( Henkilö A saa paikan ) P (B) = P ( Henkilö B saa paikan ) P (C) = P ( Henkilö C saa paikan ) Tehtävänannon perusteella ja P (A) = P (B), P (C) = 3P (A) = 3P (B) P (A) + P (B) + P (C) = 1. Kun sijoitetaan P (A) = P (B) ja P (C) = 3P (B) kolmanteen yhtälöön, niin saadaan P (B) + P (B) + 3P (B) = 1 5P (B) = 1 P (B) = 1/5. Henkilö B ei saa paikkaa todennäköisyydellä P (B C ) = 1 P (B) = 1 1/5 = 4/5. 1.5 Tarkastellaan erästä painotettua noppaa ja siihen liittyvää satunnaismuuttujaa X = "Nopan silmäluku yhdellä heitolla". Oletetaan, että P (X = 6) = 0.25 ja P (X = i) = 0.15, i = 1,..., 5. Satunnaismuuttujan X odotusarvo on a) 3.85 b) 3.5 c) 3.75 d) 4 E(X) = 6 i P (X = i) = (1 + 2 + 3 + 4 + 5) 0.15 + 6 0.25 = 15 0.15 + 1.5 = 2.25 + 1.5 = 3.75. 2
1.6 Laatikossa on 3 valkoista ja 5 sinistä palloa. Siitä nostetaan peräkkäin 3 palloa palauttamatta. Mikä on todennäköisyys, että kaikki nostetut pallot ovat samanvärisiä? a) 1/56 b) 13/112 c) 1/7 d) 11/56 ( 3 P ( Nostetut pallot ovat valkoisia ) = ( 3) 8 ) = 3 8 2 7 1 6 = 1 56. 3 ( 5 P ( Nostetut pallot ovat sinisiä ) = ( 3) 8 ) = 5 8 4 7 3 6 = 10 56. 3 P ( Nostetut pallot ovat samanvärisiä ) = 1 56 + 10 56 = 11 56. PISTEYTYS: 0.5 pistettä/kysymys 3
2. Tehdas valmistaa pultteja, joiden pituus vaihtelee hieman satunnaisien tekijöiden takia. Tasalaatuisuuden tutkimiseksi tehtaan valmistamista pulteista otettiin 100 kappaleen satunnaisotos. Otoksesta saatiin seuraavat mittaustulokset: keskiarvo x = 105.5 mm ja keskihajonta s = 20 mm. Laske pulttien pituuden odotusarvolle 95 %:n luottamusväli, kun oletetaan, että pulttien pituudet noudattavat likimain normaalijakaumaa. Kun havainnot x 1,..., x n tulevat normaalijakaumasta N(µ, σ 2 ), niin odotusarvon µ 95% luottamusväli on ( x t n 1 (0.025) s, x + t n 1 (0.025) s ), n n jossa x = 1 n x i, s 2 = 1 n 1 (x i x) 2 ja t n 1 (0.025) on se piste, jonka oikealla puolella on 2.5% jakauman t n 1 (eli t- jakauma vapausasteilla n 1) todennäköisyysmassasta. Huom! Jakauman odotusarvo µ ja varianssi σ 2 ovat siis tuntemattomia. Havaintoaineiston koko on n = 100, joten t-jakaumalla on vapausasteita df = n 1 = 99. Taulukon perusteella t 99 (0.025) 1.9840. Pulttien pituuden odotusarvon 95 %:n luottamusväliksi saadaan ( 105.5 1.9840 20, 105.5 + 1.9840 20 ) = (105.5 1.9840 2, 105.5 + 1.9840 2) 100 100 = (105.5 3.968, 105.5 + 3.968) = (105.5 3.968, 105.5 + 3.968) = (101.532, 109.469) (101.5, 109.5). Huom! Saadulla luottamusvälillä ei ole mitään todennäköisyystulkintaa! Ei voi sanoa, että odotusarvo kuuluu saadulle luottamusvälille (101.5, 109.5) 95% todennäköisyydellä. PISTEYTYS: max 4 pistettä. Vastauksesta vähennetty 0.5 pistettä, jos t-jakauman sijasta on käytetty normaaliapproksimaatiota. Normaaliapproksimaation käyttö voisi olla perusteltua silloin kun t-jakaumataulukkoa ei ole käytettävissä. 4
3. Eräs yritys väittää, että heidän myymissään lisäainepillereissä on C-vitamiinia 500 mg. Väitteen testaamiseksi otettiin 100 pillerin satunnaisotos. Pillereistä mitatuista C-vitamiinimääristä saatiin seuraavat tulokset: keskiarvo x = 450 mg ja keskihajonta s = 200 mg. Testaa yksisuuntaisen t-testin avulla yrityksen väitteen paikkaansapitävyyttä, kun vastahypoteesina on H 1 : "C-vitamiinipitoisuus < 500 mg". Käytä 1% merkitsevyystasoa. Oletetaan, että lisäainepillerien C-vitamiinimäärä noudattaa normaalijakaumaa N(µ, σ 2 ) ja tarkastellaan yksisuuntaista testausasetelmaa eli H 0 : µ = 500 mg vastaan H 1 : µ < 500 mg H 0 : C-vitamiinipitoisuus = 500 mg vastaan H 1 : C-vitamiinipitoisuus < 500 mg Testisuureena käytetään t-testisuuretta T = x 500 s/ n, joka noudattaa t n 1 -jakaumaa eli t-jakaumaa vapausastein n 1 = 99, kun nollahypoteesi on tosi. Testisuureen pienet havaitut arvot puoltavat vastahypoteesia H 1. Testisuureen T havaituksi arvoksi saadaan 450 500 t = 200/ 100 = 50 20 = 2.5. Jakaumataulukosta nähdään, että P (T 2.3642) 0.01, joten havaittu arvo t = 2.5 kuuluu kriittiselle alueella ja näin ollen nollahypoteesi H 0 voidaan hylätä merkitsevyystasolla 0.01=1%. Vaikuttaa siltä, että pillereiden keskimääräinen C-vitamiinipitoisuus on pienempi kuin yrityksen antama arvo. PISTEYTYS: max 5 pistettä. Vastauksesta vähennetty 0.5 pistettä, jos t-jakauman sijasta on käytetty normaaliapproksimaatiota. Normaaliapproksimaation käyttö voisi olla perusteltua silloin kun t-jakaumataulukkoa ei ole käytettävissä. 5
4. Eräässä kokeessa kolme arvostelijaa A, B ja C hyväksyi ja hylkäsi suorituksia seuraavasti: A B C hyväksytty 50 60 40 hylätty 50 40 60 a) Testaa χ 2 -riippumattomuustestin avulla riippuuko suorituksen tulos arvostelijasta. Käytä 5 % merkitsevyystasoa b) Muotoile nollahypoteesi H 0 ja vastahypoteesi H 1. c) Anna myös sanallinen tulkinta saamallesi tulokselle. a) Lasketaan havaittujen frekvenssien taulukosta rivisummat r i, sarakesummat c i ja kokonaislukumäärä n: A B C Σ hyväksytty o 11 =50 o 12 =60 o 13 =40 r 1 =150 hylätty o 21 =50 o 22 =40 o 23 =60 r 2 =150 Σ c 1 =100 c 2 =100 c 3 =100 n = 300 Odotetut frekvenssit saadaan laskettua rivi- ja sarakesummien avulla: e ij = r ic j n Tarkastellaan testausasetelmaa = 150 100 300 = 50, i = 1, 2, j = 1, 2, 3. H 0 : Suorituksen tulos ei riipu arvostelijasta vastaan H 1 : Suorituksen tulos riippuu arvostelijasta Testisuureena käytetään χ 2 -testisuuretta n r n c χ 2 = j=1 (o ij e ij ) 2 e ij, joka noudattaa χ 2 -jakaumaa vapausastein df = (n r 1)(n c 1), kun nollahypoteesi on tosi. Testisuureen suuret arvot puoltavat vastahypoteesia. Nyt taulukossa on rivejä n r = 2 ja sarakkeita n c = 3, joten testisuure on χ 2 - jakautunut vapausastein df = (2 1)(3 1) = 2. Testisuureen havaituksi arvoksi saadaan (50 50) 2 (60 50)2 (40 50)2 + + + 50 50 50 = 0 + 2 + 2 + 0 + 2 + 2 = 8. (50 50)2 50 + (40 50)2 50 + (60 50)2 50 6
Jakaumataulukosta nähdään, että P (χ 2 5.991) = 0.05, joten testisuureen havaittu arvo 8 kuuluu kriittiselle alueelle ja nollahypoteesi voidaan hylätä merkitsevyystasolla 5% = 0.05. b) Sama kuin a)-kohdassa: H 0 : Suorituksen tulos ei riipu arvostelijasta vastaan H 1 : Suorituksen tulos riippuu arvostelijasta c) χ 2 -testin perusteella on melko epätodennäköistä, että kyseinen aineisto saataisiin nollahypoteesin pätiessä. Vaikuttaa siltä, että suorituksen tulos riippuu arvostelijasta. PISTEYTYS: a) max 4 pistettä, b) max 1 piste. Vastauksesta vähennetty vähintään 0.5 pistettä, jos hypoteesissa käytetty havaittuja frekvenssejä, b) max 1 piste. 7