Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat, Estimaattori, Frekvenssijakauma, Havaintoarvojen jakauma, Histogrammi, Huipukkuus, Jatkuvat muuttujat, Keskiarvon keskivirhe, Luokiteltu frekvenssijakauma, Luottamusväli, Mitta-asteikot, Otanta, Otos, Parametri, Pylväsdiagrammi, Tunnusluvut, Vinous 1. Mitta-asteikot, frekvenssijakauma, pylväsdiagrammi, tunnusluvut Matematiikan kurssin välikokeen 1. tehtävästä saatiin seuraavat pisteet: 6, 0, 0, 2, 1, 0, 5, 5, 0, 6, 5, 0, 1, 5, 6, 5, 1, 6, 6, 0 Muodosta aineistosta STATISTIX-tiedosto KOEPIST, johon koepisteet syötetään muuttujaksi PISTEET. (a) (b) (c) Mikä on muuttujan PISTEET mitta-asteikko? Muodosta havaintoarvoista frekvenssijakauma ja piirrä pylväsdiagrammi. Mitä voit sanoa koepisteiden jakaumasta kuvan perusteella? Määrää seuraavat tunnusluvut: aritmeettinen keskiarvo, keskihajonta, varianssi, minimi, maksimi, mediaani, moodi Mitä voit sanoa näiden tunnuslukujen mielekkyydestä muuttujan PISTEET havaintoarvojen kuvaajana? Ratkaisu: (a) Mitta-asteikko Muuttujaa PISTEET voidaan pitää järjestysasteikollisena muuttujana, koska tehtävästä annettujen pisteiden erot ja suhteet eivät ole merkityksellisiä, vaan korkeampi pistemäärä kuvaa vain sitä, että vastaus on ollut parempi. Muuttuja PISTEET on diskreetti, koska se voi saada vain äärellisen määrän erillisiä arvoja. (b) Frekvenssijakauma ja pylväsdiagrammi Diskreettien muuttujien arvojen jakautumista kuvataan frekvenssijakaumalla ja sitä vastaavalla graafisella esityksellä pylväsdiagrammilla. Olkoot y 1, y 2,, y m diskreetin muuttujan x mahdolliset arvot ja olkoot x 1, x 2,, x n muuttujan x havaitut arvot. Muuttujan x mahdollisen arvon y k frekvenssi f k kertoo kuinka monta kertaa y k esiintyy muuttujan x havaittujen arvojen x 1, x 2,, x n joukossa. TKK @ Ilkka Mellin (2005) 1/15
Frekvenssijakauma Statistics > Summary Statistic > Frequency Distribution Frequency Variables = PISTEET Bin Size Low = 0 High = 7 Step = 1 FREQUENCY DISTRIBUTION OF PISTEET CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 0 1 6 30.0 6 30.0 1 2 3 15.0 9 45.0 2 3 1 5.0 10 50.0 3 4 0 0.0 10 50.0 4 5 0 0.0 10 50.0 5 6 5 25.0 15 75.0 6 7 5 25.0 20 100.0 TOTAL 20 100.0 Huomautus: Alaraja (LOW) kuuluu luokkaväliin, yläraja (HIGH) ei kuulu. Pylväsdiagrammi Statistics > Summary Statistics > Histogram Histogram Variables = Pisteet Graph Type = Histogram 6 Histogram 4 Frequency 2 0 0 1 2 3 4 5 6 PISTEET TKK @ Ilkka Mellin (2005) 2/15
Koepisteiden jakauma on kaksihuippuinen. Koetehtävä on ollut voimakkaasti erotteleva. (c) Tunnusluvut Muuttujan x havaittujen arvojen x 1, x 2,, x n aritmeettinen keskiarvo saadaan kaavalla 1 n xi n i = 1 x = (otos-) varianssi saadaan kaavalla s 1 n 2 2 = ( xi x ) n 1 i= 1 ja keskihajonta saadaan kaavalla n 1 s = ( xi x ) 1 n i= 1 2 Havaintoarvojen minimi, maksimi, vaihteluväli ja mediaani (kuten muutkin järjestystunnusluvut) saadaan järjestämällä havaintoarvot suuruusjärjestykseen. Olkoot z 1, z 2,, z n havaintoarvot x 1, x 2,, x n suuruusjärjestyksessä pienimmästä suurimpaan. Tällöin havaintoarvojen minimi ja maksimi ovat min{x 1, x 2,, x n } = z 1 max{x 1, x 2,, x n } = z n Havaintoarvojen vaihteluväli on (z 1, z n ) ja vaihteluvälin pituus on z n z 1 Havaintoarvojen mediaani Me on suuruusjärjestykseen asetetuista havaintoarvoista keskimmäinen, jos havaintojen lukumäärä on pariton tai kahden keskimmäisen aritmeettinen keskiarvo, jos havaintojen lukumäärä on parillinen. Mediaani jakaa siis havaintoarvot kahteen yhtä suureen osaan, joista toisessa kaikki havaintoarvot ovat mediaania pienempiä, toisessa kaikki havaintoarvot ovat mediaania suurempia. Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = PISTEET TKK @ Ilkka Mellin (2005) 3/15
DESCRIPTIVE STATISTICS PISTEET MEAN 3.0000 SD 2.6358 VARIANCE 6.9474 MINIMUM 0.0000 MEDIAN 3.5000 MAXIMUM 6.0000 Aritmeettinen keskiarvo, mediaani, keskihajonta ja varianssi eivät kuvaa havaintoarvojen jakaumaa tässä tapauksessa kovinkaan hyvin. Sen sijaan globaalin moodin 0 ja lokaalien moodien 5 ja 6 kertominen antaa jakaumasta paljon paremman kuvan. 2. Mitta-asteikot, luokiteltu frekvenssijakauma, histogrammi, tunnusluvut, luottamusväli Aurinkoöljyä valmistavalla tehtaalla haluttiin selvittää tehtaalla täytettyjen aurinkoöljypullojen sisällön painon vaihtelu. STATISTIX-tiedostoon SUNTAN on talletettu aurinkoöljypullojen sisällön painot (WEIGHTS; yksikkö = mg) yksinkertaisesta satunnaisotoksesta, jonka koko oli 100. (a) (b) (c) Mikä on muuttujan WEIGHTS mitta-asteikko? Muodosta havaintoarvoista luokiteltu frekvenssijakauma ja piirrä histogrammi. Mitä voit sanoa painojen jakaumasta kuvan perusteella? Tutki myös luokituksen vaikutusta histogrammiin. Määrää seuraavat tunnusluvut: aritmeettinen keskiarvo, keskihajonta, varianssi, minimi, maksimi, mediaani, moodi, vinous, huipukkuus, keskiarvon keskivirhe, 95 %:n luottamusväli (d) Piirrä aineistosta ns. Box and Whisker -kuvio. Mitä voit sanoa tunnuslukujen mielekkyydestä muuttujan WEIGHTS havaintoarvojen kuvaajana? Ratkaisu: Varmista vielä se, että keskiarvon keskivirheen neliö toteuttaa kaavan 2 s Var( x) = n jossa s 2 on havaintoarvojen harhaton varianssiestimaattori. (a) Mitta-asteikko Muuttujaa WEIGHTS voidaan pitää suhdeasteikollisena muuttujana, koska paino on muuttuja, jonka arvojen suhteet ovat merkityksellisiä. Muuttuja WEIGHTS on jatkuva, koska se voi saada mitä tahansa (ei-negatiivisia) reaalilukuarvoja. TKK @ Ilkka Mellin (2005) 4/15
(b) Luokiteltu frekvenssijakauma, histogrammi Jatkuvien muuttujien arvojen jakautumista kuvataan luokitellulla frekvenssijakaumalla ja sitä vastaavalla graafisella esityksellä histogrammilla. Olkoot x 1, x 2,, x n jatkuvan muuttujan x havaitut arvot. Jaetaan muuttujan x mahdollisten arvojen alue toisensa poissulkeviin luokkiin I 1, I 1,, I m Luokkafrekvenssi f k kertoo niiden havaintoarvojen x 1, x 2,, x n lukumäärän, jotka kuuluvat luokkaan I k. Luokiteltu frekvenssijakauma Statistics > Summary Statistics > Frequency distribution Frequency Variables = WEIGHTS Bin Size Low = 220 High = 254 Step = 2 STATISTIX FOR WINDOWS SUNTAN FREQUENCY DISTRIBUTION OF WEIGHTS CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 220 222 0 0.0 0 0.0 222 224 0 0.0 0 0.0 224 226 1 1.0 1 1.0 226 228 0 0.0 1 1.0 228 230 4 4.0 5 5.0 230 232 11 11.0 16 16.0 232 234 9 9.0 25 25.0 234 236 13 13.0 38 38.0 236 238 17 17.0 55 55.0 238 240 13 13.0 68 68.0 240 242 12 12.0 80 80.0 242 244 11 11.0 91 91.0 244 246 5 5.0 96 96.0 246 248 2 2.0 98 98.0 248 250 2 2.0 100 100.0 250 252 0 0.0 100 100.0 252 254 0 0.0 100 100.0 TOTAL 100 100.0 TKK @ Ilkka Mellin (2005) 5/15
Histogrammi Statistics > Summary Statistics > Histogram Histogram Variables = WEIGHTS 18 Histogram 12 Frequency 6 0 224 226 228 230 232 234 236 238 240 242 244 246 248 250 WEIGHTS Jakauma on yksihuippuinen ja silmämääräisesti lähellä normaalijakaumaa. Pullojen painon voidaan ajatella määräytyvän seuraavan tilastollisen mallin mukaan: x = µ + ε i i jossa x i = pullon i paino µ = pullon painon tavoitearvo ε i = satunnaisvirhe koneen toiminnassa (c) Tunnusluvut Muuttujan x havaittujen arvojen x 1, x 2,, x n aritmeettinen keskiarvo, varianssi, keskihajonta, minimi, maksimi ja mediaani on määritelty tehtävässä 1. TKK @ Ilkka Mellin (2005) 6/15
Muuttujan x havaittujen arvojen x 1, x 2,, x n aritmeettisen keskiarvon 1 n xi n i = 1 x = keskivirhe on Se ( x) = s n jossa s on muuttujan x havaittujen arvojen x 1, x 2,, x n keskihajonta. Muuttujan x havaittujen arvojen x 1, x 2,, x n k. keskusmomentti saadaan kaavalla n 1 k m = ( x x), k = 1,2,3, k n i = 1 i Muuttujan x havaittujen arvojen x 1, x 2,, x n vinous c 1 ja huipukkuus c 2 määritellään kaavoilla m m c = c = 3 3 4 1 3/2 2 2 m2 m2 Oletetaan, että muuttujan x havaitut arvot x 1, x 2,, x n on saatu yksinkertaisella satunnaisotannalla normaalijakaumasta N(µ, σ 2 ) Tällöin parametrin µ luottamusväli luottamustasolla (1 α) on muotoa x ± t α /2 s n jossa luottamustasoa (1 α) vastaavat luottamuskertoimet ± t α /2 määrätään yhtälöistä α Pr( t tα /2) = 2 α Pr( t + tα /2) = 2 jossa satunnaismuuttuja t noudattaa Studentin t-jakaumaa vapausastein (n 1): t t(n 1) Tällöin ± tα /2 toteuttavat yhtälön Pr( t t + t ) = 1 α /2 α /2 α TKK @ Ilkka Mellin (2005) 7/15
Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = Weights DESCRIPTIVE STATISTICS WEIGHTS LO 95% CI 236.02 MEAN 236.99 UP 95% CI 237.96 SD 4.8793 VARIANCE 23.808 SE MEAN 0.4879 MINIMUM 224.00 MEDIAN 237.00 MAXIMUM 249.00 SKEW 0.1340 KURTOSIS -0.2806 Havaintoarvojen aritmeettinen keskiarvo ja mediaani kuvaavat havaintoarvojen jakaumaa tässä tapauksessa hyvin. Havaintoarvojen vinous ja huipukkuus ovat lähellä normaalijakautuneen aineiston tuottamia arvoja. Keskiarvon keskivirhe: s 4.8793 Se( x) = = = 0.48793 n 100 (d) Box and Whisker -kuvio Havaintoaineistoa koskeva tieto kannattaa usein tiivistää ns. Box and Whisker -kuvioksi. Kuvion pääosa muodostuu laatikosta (box) ja viiksistä (whisker). Lisäksi kuvioon merkitään ulkopuoliset havainnot (ks. tarkemmin luentokalvoja) tähdillä ja ympyröillä. (i) Kvartiilit Q 1, Q 2, Q 3 jakavat suuruusjärjestykseen asetetun havaintoaineiston neljään yhtä suureen osaan. Box and Whisker -kuvion laatikko kuvaa havaintoarvojen kvartiiliväliä (Q 1, Q 3 ) Havaintoarvojen mediaani (suuruusjärjetykseen asetetun havaintoaineiston keskimmäinen havaintoarvo) Me = Q 2 merkitään laatikkoon poikkiviivalla. TKK @ Ilkka Mellin (2005) 8/15
(ii) Määritellään Box and Whisker -kuvion sisäaidat f 1 ja f 3 kaavoilla f 1 = Q 1 1.5 IQR f 3 = Q 3 + 1.5 IQR jossa IQR = Q 3 Q 1 on kvartiilivälin (Q 1, Q 3 ) pituus. Olkoon a 1 pienin havaintoarvo, joka toteuttaa ehdon a 1 f 1. Olkoon a 3 suurin havaintoarvo, joka toteuttaa ehdon a 3 f 3. Määritellään Box and Whisker -kuvion ulkoaidat F 1 ja F 3 kaavoilla F 1 = Q 1 3 IQR F 3 = Q 3 + 3 IQR Piirretään Box and Whisker -kuvion viikset laatikon molemmille puolille kuvaamaan välejä (a 1, Q 1 ) ja (Q 3, a 3 ) (iii) Merkitään väleihin (F 1, a 1 ) ja (a 3, F 3 ) kuuluvat havaintoarvot Box and Whisker -kuvioon tähdillä. Merkitään väleihin (, F 1 ) ja (F 3, + ) kuuluvat havaintoarvot Box and Whisker -kuvioon ympyröillä. Niitä havaintoarvoja, jotka tulevat merkityiksi tähdillä tai ympyröillä voidaan pitää poikkeuksellisina. Box and Whisker -kuvio toimii parhaiten tilanteissa, joissa havainnot voidaan jakaa kahteen tai useampaan ryhmään ja tehtävänä on verrata havaintoarvojen jakaumia eri ryhmissä toisiinsa (ks. tarkemmin 2. harjoitusten tehtävän 1 ratkaisua). Statistics > Summary Statistics > Box and Whisker Plots Descriptive Variables = Weights TKK @ Ilkka Mellin (2005) 9/15
Box and Whisker Plot 249 244 WEIGHTS 239 234 229 224 100 cases Kuvio vastaa tässä tapauksessa hyvin histogrammikuvion antamaa kuvaa aineistosta: (i) Havaintoarvojen jakauma on suhteellisen symmetrinen. (ii) Havaintoarvojen joukossa ei ole poikkeuksellisia havaintoja. Koska Box-Whisker-kuvio perustuu kvartiileihin Q 1, Q 2 ja Q 3, laskemme ne vielä erikseen: Alakvartiili Q 1 = 25. persentiili Keskikvartiili Q 2 = 50. persentiili = Mediaani Yläkvartiili Q 3 = 75. persentiili Statistics > Summary Statistics > Percentiles Percentile Variables = Weights Percentiles #1 = 25 #2 = 50 #3 = 75 STATISTIX FOR WINDOWS PERCENTILES VARIABLE CASES 25.0 50.0 75.0 --------- ------- --------- --------- --------- WEIGHTS 100 233.25 237.00 241.00 TKK @ Ilkka Mellin (2005) 10/15
Koska kvartiilivälin pituus on tässä IQR = Q 3 Q 1 = 241.00 233.25 = 7.75 sisäaidoiksi saadaan f 1 = Q 1 1.5 IQR = 233.25 1.5 7.75 = 221.625 f 3 = Q 3 + 1.5 IQR = 241.00 + 1.5 7.75 = 252.625 Koska niin min = 224 > f 1 = 221.625 max = 249 < f 3 = 252.625 a 1 = min = 224 a 3 = max = 249 3. Satunnaisotanta, luottamusväli Tulkitaan tehtävän 2 aurinkoöljypullojen joukko perusjoukoksi. Tehtävässä tutkitaan perusjoukon pullojen sisällön keskimääräisen painon estimointia otoksesta poimimalla perusjoukosta 20 pullon yksinkertainen satunnaisotos ja muodostamalla perusjoukon pullojen keskimääräiselle painolle 95 %:n luottamusväli otoksen perusteella. Peittääkö konstruoitu luottamusväli perusjoukon parametrin arvon? Toista otantaa useita kertoja ja seuraa miten otostunnusluvut ja luottamusväli vaihtelevat otoksesta toiseen. Ratkaisu: Otanta Tulkitaan tiedoston SUNTAN havaintoyksiköt (aurinkoöljypullot) perusjoukoksi, jonka koko N = 100. Poimitaan perusjoukosta yksinkertainen satunnaisotos, jonka koko n = 20. Otoksen poiminta voidaan toteuttaa 3:ssa vaiheessa: (1) Generoidaan tiedostoon SUNTAN 100 satunnaislukua tasaisesta jakaumasta Uniform(0,1) (2) Lajitellaan havainnot generoitujen satunnaislukujen suhteen nousevaan järjestykseen. (3) Valitaan otokseen 20 ensimmäistä havaintoa. Uusia otoksia saadaan toistamalla satunnaislukujen generointia. Lisätään ennen satunnaislukujen generointia tiedostoon SUNTAN havaintonumero uudeksi muuttujaksi OBS. Näin päästään parhaiten näkemään lajittelun vaikutus vaiheessa (2). TKK @ Ilkka Mellin (2005) 11/15
Data > Transformations Transformation Expression OBS = Case Satunnaislukujen generointi muuttujaksi Z: Data > Transformations Transformation Expression Z = Random Havaintojen järjestäminen muuttujan Z arvojen suhteen nousevaan järjestykseen: Data > Sort Cases Key variables = Z Sort Order = Ascending 20 ensimmäisen havainnon valinta: Data > Omit Cases Omit Expression Omit Case > 20 Kaikkien havaintojen saattaminen uudelleen käyttöön: Data > Restore Cases Restore Expression Restore Case > 20 Valituiksi tulivat tätä kirjoitettaessa havainnot (vaihtelee kerta kerralta): 93, 21, 12, 26, 65, 39, 25, 54, 80, 63, 57, 75, 23, 18, 17, 22, 45, 5, 98, 55 TKK @ Ilkka Mellin (2005) 12/15
Tunnusluvut Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = Weights DESCRIPTIVE STATISTICS WEIGHTS LO 95% CI 235.38 MEAN 237.60 UP 95% CI 239.82 SD 4.7395 VARIANCE 22.463 SE MEAN 1.0598 Tässä 95 %:n luottamusväli on laskettu ilman äärellisen perusjoukon korjaustekijää. Tässä otoksessa perusjoukon aritmeettinen keskiarvo 236.99 on välin sisäpuolella. Luottamusväli, jossa on otettu huomioon äärellisen perusjoukon korjaustekijä saadaan seuraavalla kaavalla: jossa x ± t Se( x) x = otoskeskiarvo t = luottamuskerroin t-jakaumasta, jonka vapausasteiden lukumäärä df = n 1 (n = otoskoko) s n Se( x) = keskiarvon keskivirhe äärellisessä otoksessa = 1 n N N = perusjoukon koko n = otoskoko s = otoskeskihajonta 95 %:n luottamusvälin luottamuskerroin on t = 2.09: STATISTICS: Statistics > Probability Functions Function = T Inverse P = 0.975 DF = 19 TKK @ Ilkka Mellin (2005) 13/15
Keskiarvon keskivirhe: jossa s n 4.7395 20 Se( x) = 1 1 0.9480 n N = 20 100 = N = perusjoukon koko = 100 n = otoskoko = 20 s = otoshajonta = 4.7395 Luottamusväli: (235.62, 239.58) Saatu luottamusväli on äärellisen perusjoukon korjaustekijän takia kapeampi, kuin STATISTIX-ohjelman tulostama väli, mutta peittää kuitenkin perusjoukon aritmeettisen keskiarvon 236.99. Kommentteja: Jos otantaa toistetaan generoimalla uusia satunnaislukuja, vaihtelevat kaikki otoksesta lasketut suureet otoksesta toiseen. Tämä on sitä otosvaihtelua, jota otantajakaumat kuvaavat. Luottamustason tulkinnan mukaan suunnilleen 95 % generoiduista luottamusväleistä peittää perusjoukon aritmeettisen keskiarvon ja suunnilleen 5 % ei sitä tee. TKK @ Ilkka Mellin (2005) 14/15
Liitteet Satunnaisotoksen poiminta STATISTIX-ohjelman avulla (i) Muodostetaan tiedostoon funktiolla Random muuttuja Z, jonka arvoiksi annetaan N (N = havaintojen lukumäärä tiedostossa) satunnaislukua jatkuvasta tasaisesta jakaumasta väliltä (0, 1): (ii) Z = Random Järjestetään aineisto muuttujan Z arvojen suhteen nousevaan järjestykseen. (iii) Valitaan otokseen n ensimmäistä havaintoa (n = otoskoko). Huomautus: Tiedostoon kannattaa havaintojen tunnistamiseksi lisätä muuttuja ennen vaihetta (i). Obs = Case Keskiarvon keskivirheen laskeminen äärellisestä perusjoukosta Koska perusjoukko on äärellinen, luottamusvälin konstruoinnissa tarvittava keskiarvon keskivirhe lasketaan usein kaavalla jossa s n Se( x) = 1 n N N = perusjoukon koko n = otoskoko TKK @ Ilkka Mellin (2005) 15/15