VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 7.6.2011 Ratkaisut ja arvostelu 1.1 Noudattakoon satunnaismuuttuja X normaalijakaumaa a) b) c) d) N(5, 15). Tällöin P (1.4 < X 12.7) on likimain a) 0.65 b) 0.70 c) 0.75 d) 0.80 d) P (1.4 < X 12.7) = P ( 1.4 5 < X 5 12.7 5 ) ( P 0.93 < X 5 ) 1.99 15 15 15 15 = Φ(1.99) Φ( 0.93) = Φ(1.99) (1 Φ(0.93)) = Φ(1.99) + Φ(0.93) 1 0.9767 + 0.8238 1 = 0.8005 0.80 1.2 Spearmanin korrelaatiokerrointa on sallittua käyttää vain silloin kun muuttujan mitta-asteikko on a) vähintään järjestysasteikollinen b) vähintään välimatka-asteikollinen c) vähintään laatueroasteikollinen d) vähintään suhde-asteikollinen 1.3 Kvartiilivälin pituus a) on yläkvartiilin ja alakvartiilin erotus b) on suurimman ja pienimmän arvon erotus c) on keskiluku d) voidaan laskea laatueroasteikollisille muuttujille 1.4 Rahaa heitetään viisi kertaa. Millä todennäköisyydellä saadaan ainakin kaksi klaavaa? a) 0.7789 b) 0.8125 c) 0.6456 d) 0.5867 b) Olkoon k = "klaavojen lukumäärä viidellä heitolla". Tällöin k Bin(5, 0.5) ja P (k 2) = 1 P (k 1) = 1 1 i=0 ( 5 i) 0.5 i (1 0.5) 5 i = 1 (1 + 5)0.5 5 = 0.8125. 1.5 Lukujen 2.3, 6.1, 3.8, 8.9, 9.1, 1.1, 2.1, 5.2, 6.3, 8.5, 4.4 mediaani on a) 4.4 b) 5.2 c) 5.3 d) 3.8 b) Järjestetyn aineiston 1.1, 2.1, 2.3, 3.8, 4.4, 5.2, 6.1, 6.3, 8.5, 8.9, 9.1 keskimmäinen havainto on 5.2. 1.6 Mikä on todennäköisyys, että lukujonosta 1, 2,..., 150 ilman takaisinpanoa valituista kahdesta luvusta toinen 1
on > 90 ja toinen < 50? a) 165 854 b) 201 678 c) 196 745 d) 167 331 c) Olkoon X 1 ="Ensimmäisenä valittu luku" ja X 2 ="Toisena valittu luku". Tällöin P ({{X 1 < 50} {X 2 > 90}} {{X 1 > 90} {X 2 < 50}}) = P ({X 1 < 50} {X 2 > 90}) + P ({X 1 > 90} {X 2 < 50}) = P (X 1 < 50)P (X 2 > 90 X 1 < 50) + P (X 1 > 90)P (X 2 < 50 X 1 > 90) = 49 150 60 149 + 60 150 49 149 = 2 49 150 60 149 = 196 0, 26. 745 PISTEYTYS: 1 piste/kysymys 2
2.1 Selitä lyhyesti mutta täsmällisesti, mitä tarkoittaa a) Summakäyrä (1 p.) b) Laatikko-diagrammi (Box-Whiskers) (1 p.) c) Merkitsevyystaso (1 p.) a) Summakäyrä muodostetaan summafrekvenssitaulukon tai graasesti kumulatiivisen histogrammin avulla. Lisätään luokituksen alkuun yksi nollaluokka. Sen jälkeen yhdistetään janoilla kunkin luokan todellisen ylärajan kumulatiiviset frekvenssit. Käyrä jatkuu viimeisen luokan todellisen ylärajan kohdalta vaakasuorassa eteenpäin. Esim. Oletetaan, että meillä on seuraavanlainen luokiteltu aineisto (ensimmäinen luokka on nollaluokka). luokka tod. luokkarajat luokkakeskus frekv. f i summafrekv. F i -4-0 -4.5-0.5-2 0 0 1-5 0.5-5.5 3 1 1 6-10 5.5-10.5 8 2 3 11-15 10.5-15.5 13 5 8 16-20 15.5-20.5 18 4 12 Tällöin summakäyräksi saadaan F 0 2 4 6 8 10 12 0 5 10 15 20 25 Kuva 1: Summakäyrä b) Havaintoarvojen jakaumaa voidaan havainnollistaa laatikko-diagrammin avulla. Kuvassa 2 on esimerkki laatikko-diagrammista. Laatikko sisältää 50% havainnoista. Laatikon alareuna on alakvartiilissa ja yläreuna yläkvartiilissa. Laatikon sisällä oleva viiva kuvaa mediaania. Alemmassa "viiksessä" on pienimmät havainnot ja ylemmässä "viiksessä" suurimmat havainnot. c) Joskus halutaan tehdä havaitun aineiston perusteella selkeä päätös: nollahypoteesi H 0 joko hyväksytään tai se hylätään ja vastahypoteesi H 1 hyväksytään. Kiinnitetään 3
168 169 170 171 172 173 174 Kuva 2: Laatikko-diagrammi ennalta jokin luku α (0, 1), jota kutsutaan merkitsevyystasoksi. Lasketaan aineiston perusteella p-arvo eli todennäköisyys sille, että testisuure saa aineistosta lasketun arvon tai vielä poikkeuksellisempia arvoja nollahypoteesin ollessa voimassa. Jos p- arvo on suurempi kuin α, niin H 0 hyväksytään ja jos taas p-arvo on pienempi tai yhtäsuuri kuin α, niin H 0 hylätään ja vastahypoteesi H 1 hyväksytään. PISTEYTYS: a) Max 1 piste, b) Max 1 piste, c) Max 1 piste. 2.2 Tehdas valmistaa painonnostajia varten 20 kiloa painavia levytankoja, joiden todellinen paino vaihtelee hieman satunnaisien tekijöiden vuoksi. a) Laske levytankojen painon odotusarvolle 99% luottamusväli, kun otoskoko on n = 50, keskiarvo on x = 20.4 kg ja otoskeskihajonta on s x = 1.5 kg. Oletetaan, että levytankojen paino noudattaa normaalijakaumaa. (2 p.) b) Minkälainen tulkinta on (a)-kohdassa lasketulla luottamusvälillä? (1 p.) a) Odotusarvon µ 100(1 α)% luottamusväli on ( x t n 1 (α/2) s, x + t n 1 (α/2) s ), n n jossa x on keskiarvo, s on otoskeskihajonta ja t n 1 (α/2) on valittu siten, että sen oikealla puolella on t n 1 -jakauman massasta osuus α/2. Taulukosta nähdään, että t 49 (0.005) 2.6778, joten odotusarvon 100(1 α)% =99% luottamusväliksi saadaan ( 20.4 2.6778 1.5, 20.4 + 2.6778 1.5 ) = (19.8, 21.0). 50 50 b) Yhdellä luottamusvälin realisaatiolla ei ole mitään todennäköisyystulkintaa. Voidaan ainoastaan päätellä, että saadun luottamusjoukon sisälle jäävät arvot ovat havaintoaineiston valossa uskottavampia kuin luottamusjoukon ulkopuoliset arvot. 4
Luottamusvälillä on seuraavanlainen yhteys hypoteesin testaukseen. Jos nollahypoteesina on H 0 : µ = µ 0 eli levytangon painon odotusarvo on µ 0 (tunnettu vakio), niin luottamusväli antaa kaikki ne nollahypoteesiarvot µ 0, joilla nollahypoteesi tulee hyväksytyksi käytettäessä kaksisuuntaista t-testiä (merkitsevyystasolla α = 0.01). Koska µ 0 = 20 kuuluu 99% luottamusvälille, niin nollahypoteesi H 0 : µ = 20 hyväksyttäisiin t-testin perusteella. PISTEYTYS: a) Max 2 pistettä ja b) Max 1 piste. 3. Ostaja väittää, että tehtaan valmistamissa tuotteissa virheellisten kappaleiden osuus on 20%. Tehtaan tuotannosta valittiin satunnaisesti 120 tuotteen otos, jolloin virheellisiä kappaleita löytyi 27. Testaa väite käyttäen merkitsevyystasoa α = 0.05. Anna sanallinen tulkinta saamallesi tulokselle. (6 p.) H 0 : p = 0.20, H 1 : p 0.20. Olkoon X = "Virheellisten lukumäärä 120 tuotteen otoksessa". Nollahypoteesin pätiessä X Bin(120, 0.20) ja keskeisen raja-arvolauseen nojalla standardoitu muuttuja X 120 0.20 Z = = X 24 120 0.20 (1 0.20) 19.2 on likimain N(0, 1)-jakautunut. Itseisarvoltaan suuret testisuureen Z arvot puoltavat vastahypoteesia H 1. Lasketaan testisuureen havaittu arvo: Lasketaan p-arvo: z = 27 24 19.2 0.68. P ( Z > z ) = 2P (Z > z ) = 2(1 P (Z z )) 2(1 Φ( z )) = 2(1 Φ(0.68)) = 2(1 0.7517) = 0.4966. Saatu p-arvo on suurempi kuin merkitsevyystaso α = 0.05, joten nollahypoteesi H 0 jää voimaan. Havaintoaineisto tukee ostajan väitettä virheellisten kappaleiden suhteellisesta osuudesta. Tapa 2: Khii-toiseen -yhteensopivuustesti. Jos H 0 : p = 0.20 on tosi, niin virheellisten tuotteiden odotettu frekvenssi on 0.2 120 = 24 ja virheettömien tuotteiden 120 24 = 96. Virheellisten tuotteiden havaittu frekvenssi on 27 ja virheettömien tuotteiden 120 27 = 93. Khii-toiseen testisuureen arvo on tällöin (27 24) 2 + 24 (93 96)2 96 = 9 24 + 9 96 = 45 96 0.47. Vapausasteita on 2 1 = 1 ja taulukosta nähdään, että 0.10 < P (χ 2 (1) 0.47) < 0.90 (koska P (χ 2 (1) 0.016) = 0.90 ja P (χ 2 (1) 2.706) = 0.10). Saatu p-arvo on suurempi kuin α = 0.05, joten nollahypoteesi H 0 jää voimaan. Havaintoaineisto tukee ostajan väitettä virheellisten kappaleiden suhteellisesta osuudesta. PISTEYTYS: Max 6 pistettä. 5