Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Samankaltaiset tiedostot
Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisten aineistojen kuvaaminen

tilastotieteen kertaus

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Vilkkumaa / Kuusinen 1

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollinen aineisto Luottamusväli

Osa 2: Otokset, otosjakaumat ja estimointi

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Teema 8: Parametrien estimointi ja luottamusvälit

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Harjoitus 2: Matlab - Statistical Toolbox

7. laskuharjoituskierros, vko 10, ratkaisut

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Testejä suhdeasteikollisille muuttujille

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

9. laskuharjoituskierros, vko 12-13, ratkaisut

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

pisteet Frekvenssi frekvenssi Yhteensä

Sovellettu todennäköisyyslaskenta B

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Testit järjestysasteikollisille muuttujille

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Testit laatueroasteikollisille muuttujille

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Til.yks. x y z

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

2. Aineiston kuvailua

MTTTP5, luento Luottamusväli, määritelmä

Harjoittele tulkintoja

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Harjoitus 7: NCSS - Tilastollinen analyysi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Kandidaatintutkielman aineistonhankinta ja analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Havaintoaineiston trimmauksen vaikutus otoskeskiarvoon

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tutkimustiedonhallinnan peruskurssi

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus todennäköisyyslaskentaan Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2005) 1

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Luottamusvälit. Normaalijakauma johnkin kohtaan

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

riippumattomia ja noudattavat samaa jakaumaa.

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

031021P Tilastomatematiikka (5 op) viikko 4

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Laskari 1 P I T U U S

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Parametrin estimointi ja bootstrap-otanta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Transkriptio:

Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi Diskreetit muuttujat, Estimaattori, Frekvenssijakauma, Havaintoarvojen jakauma, Histogrammi, Huipukkuus, Jatkuvat muuttujat, Keskiarvon keskivirhe, Luokiteltu frekvenssijakauma, Luottamusväli, Mitta-asteikot, Otanta, Otos, Parametri, Pylväsdiagrammi, Tunnusluvut, Vinous 1. Mitta-asteikot, frekvenssijakauma, pylväsdiagrammi, tunnusluvut Matematiikan kurssin välikokeen 1. tehtävästä saatiin seuraavat pisteet: 6, 0, 0, 2, 1, 0, 5, 5, 0, 6, 5, 0, 1, 5, 6, 5, 1, 6, 6, 0 Muodosta aineistosta STATISTIX-tiedosto KOEPIST, johon koepisteet syötetään muuttujaksi PISTEET. (a) (b) (c) Mikä on muuttujan PISTEET mitta-asteikko? Muodosta havaintoarvoista frekvenssijakauma ja piirrä pylväsdiagrammi. Mitä voit sanoa koepisteiden jakaumasta kuvan perusteella? Määrää seuraavat tunnusluvut: aritmeettinen keskiarvo, keskihajonta, varianssi, minimi, maksimi, mediaani, moodi Mitä voit sanoa näiden tunnuslukujen mielekkyydestä muuttujan PISTEET havaintoarvojen kuvaajana? Ratkaisu: (a) Mitta-asteikko Muuttujaa PISTEET voidaan pitää järjestysasteikollisena muuttujana, koska tehtävästä annettujen pisteiden erot ja suhteet eivät ole merkityksellisiä, vaan korkeampi pistemäärä kuvaa vain sitä, että vastaus on ollut parempi. Muuttuja PISTEET on diskreetti, koska se voi saada vain äärellisen määrän erillisiä arvoja. (b) Frekvenssijakauma ja pylväsdiagrammi Diskreettien muuttujien arvojen jakautumista kuvataan frekvenssijakaumalla ja sitä vastaavalla graafisella esityksellä pylväsdiagrammilla. Olkoot y 1, y 2,, y m diskreetin muuttujan x mahdolliset arvot ja olkoot x 1, x 2,, x n muuttujan x havaitut arvot. Muuttujan x mahdollisen arvon y k frekvenssi f k kertoo kuinka monta kertaa y k esiintyy muuttujan x havaittujen arvojen x 1, x 2,, x n joukossa. TKK @ Ilkka Mellin (2005) 1/15

Frekvenssijakauma Statistics > Summary Statistic > Frequency Distribution Frequency Variables = PISTEET Bin Size Low = 0 High = 7 Step = 1 FREQUENCY DISTRIBUTION OF PISTEET CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 0 1 6 30.0 6 30.0 1 2 3 15.0 9 45.0 2 3 1 5.0 10 50.0 3 4 0 0.0 10 50.0 4 5 0 0.0 10 50.0 5 6 5 25.0 15 75.0 6 7 5 25.0 20 100.0 TOTAL 20 100.0 Huomautus: Alaraja (LOW) kuuluu luokkaväliin, yläraja (HIGH) ei kuulu. Pylväsdiagrammi Statistics > Summary Statistics > Histogram Histogram Variables = Pisteet Graph Type = Histogram 6 Histogram 4 Frequency 2 0 0 1 2 3 4 5 6 PISTEET TKK @ Ilkka Mellin (2005) 2/15

Koepisteiden jakauma on kaksihuippuinen. Koetehtävä on ollut voimakkaasti erotteleva. (c) Tunnusluvut Muuttujan x havaittujen arvojen x 1, x 2,, x n aritmeettinen keskiarvo saadaan kaavalla 1 n xi n i = 1 x = (otos-) varianssi saadaan kaavalla s 1 n 2 2 = ( xi x ) n 1 i= 1 ja keskihajonta saadaan kaavalla n 1 s = ( xi x ) 1 n i= 1 2 Havaintoarvojen minimi, maksimi, vaihteluväli ja mediaani (kuten muutkin järjestystunnusluvut) saadaan järjestämällä havaintoarvot suuruusjärjestykseen. Olkoot z 1, z 2,, z n havaintoarvot x 1, x 2,, x n suuruusjärjestyksessä pienimmästä suurimpaan. Tällöin havaintoarvojen minimi ja maksimi ovat min{x 1, x 2,, x n } = z 1 max{x 1, x 2,, x n } = z n Havaintoarvojen vaihteluväli on (z 1, z n ) ja vaihteluvälin pituus on z n z 1 Havaintoarvojen mediaani Me on suuruusjärjestykseen asetetuista havaintoarvoista keskimmäinen, jos havaintojen lukumäärä on pariton tai kahden keskimmäisen aritmeettinen keskiarvo, jos havaintojen lukumäärä on parillinen. Mediaani jakaa siis havaintoarvot kahteen yhtä suureen osaan, joista toisessa kaikki havaintoarvot ovat mediaania pienempiä, toisessa kaikki havaintoarvot ovat mediaania suurempia. Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = PISTEET TKK @ Ilkka Mellin (2005) 3/15

DESCRIPTIVE STATISTICS PISTEET MEAN 3.0000 SD 2.6358 VARIANCE 6.9474 MINIMUM 0.0000 MEDIAN 3.5000 MAXIMUM 6.0000 Aritmeettinen keskiarvo, mediaani, keskihajonta ja varianssi eivät kuvaa havaintoarvojen jakaumaa tässä tapauksessa kovinkaan hyvin. Sen sijaan globaalin moodin 0 ja lokaalien moodien 5 ja 6 kertominen antaa jakaumasta paljon paremman kuvan. 2. Mitta-asteikot, luokiteltu frekvenssijakauma, histogrammi, tunnusluvut, luottamusväli Aurinkoöljyä valmistavalla tehtaalla haluttiin selvittää tehtaalla täytettyjen aurinkoöljypullojen sisällön painon vaihtelu. STATISTIX-tiedostoon SUNTAN on talletettu aurinkoöljypullojen sisällön painot (WEIGHTS; yksikkö = mg) yksinkertaisesta satunnaisotoksesta, jonka koko oli 100. (a) (b) (c) Mikä on muuttujan WEIGHTS mitta-asteikko? Muodosta havaintoarvoista luokiteltu frekvenssijakauma ja piirrä histogrammi. Mitä voit sanoa painojen jakaumasta kuvan perusteella? Tutki myös luokituksen vaikutusta histogrammiin. Määrää seuraavat tunnusluvut: aritmeettinen keskiarvo, keskihajonta, varianssi, minimi, maksimi, mediaani, moodi, vinous, huipukkuus, keskiarvon keskivirhe, 95 %:n luottamusväli (d) Piirrä aineistosta ns. Box and Whisker -kuvio. Mitä voit sanoa tunnuslukujen mielekkyydestä muuttujan WEIGHTS havaintoarvojen kuvaajana? Ratkaisu: Varmista vielä se, että keskiarvon keskivirheen neliö toteuttaa kaavan 2 s Var( x) = n jossa s 2 on havaintoarvojen harhaton varianssiestimaattori. (a) Mitta-asteikko Muuttujaa WEIGHTS voidaan pitää suhdeasteikollisena muuttujana, koska paino on muuttuja, jonka arvojen suhteet ovat merkityksellisiä. Muuttuja WEIGHTS on jatkuva, koska se voi saada mitä tahansa (ei-negatiivisia) reaalilukuarvoja. TKK @ Ilkka Mellin (2005) 4/15

(b) Luokiteltu frekvenssijakauma, histogrammi Jatkuvien muuttujien arvojen jakautumista kuvataan luokitellulla frekvenssijakaumalla ja sitä vastaavalla graafisella esityksellä histogrammilla. Olkoot x 1, x 2,, x n jatkuvan muuttujan x havaitut arvot. Jaetaan muuttujan x mahdollisten arvojen alue toisensa poissulkeviin luokkiin I 1, I 1,, I m Luokkafrekvenssi f k kertoo niiden havaintoarvojen x 1, x 2,, x n lukumäärän, jotka kuuluvat luokkaan I k. Luokiteltu frekvenssijakauma Statistics > Summary Statistics > Frequency distribution Frequency Variables = WEIGHTS Bin Size Low = 220 High = 254 Step = 2 STATISTIX FOR WINDOWS SUNTAN FREQUENCY DISTRIBUTION OF WEIGHTS CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 220 222 0 0.0 0 0.0 222 224 0 0.0 0 0.0 224 226 1 1.0 1 1.0 226 228 0 0.0 1 1.0 228 230 4 4.0 5 5.0 230 232 11 11.0 16 16.0 232 234 9 9.0 25 25.0 234 236 13 13.0 38 38.0 236 238 17 17.0 55 55.0 238 240 13 13.0 68 68.0 240 242 12 12.0 80 80.0 242 244 11 11.0 91 91.0 244 246 5 5.0 96 96.0 246 248 2 2.0 98 98.0 248 250 2 2.0 100 100.0 250 252 0 0.0 100 100.0 252 254 0 0.0 100 100.0 TOTAL 100 100.0 TKK @ Ilkka Mellin (2005) 5/15

Histogrammi Statistics > Summary Statistics > Histogram Histogram Variables = WEIGHTS 18 Histogram 12 Frequency 6 0 224 226 228 230 232 234 236 238 240 242 244 246 248 250 WEIGHTS Jakauma on yksihuippuinen ja silmämääräisesti lähellä normaalijakaumaa. Pullojen painon voidaan ajatella määräytyvän seuraavan tilastollisen mallin mukaan: x = µ + ε i i jossa x i = pullon i paino µ = pullon painon tavoitearvo ε i = satunnaisvirhe koneen toiminnassa (c) Tunnusluvut Muuttujan x havaittujen arvojen x 1, x 2,, x n aritmeettinen keskiarvo, varianssi, keskihajonta, minimi, maksimi ja mediaani on määritelty tehtävässä 1. TKK @ Ilkka Mellin (2005) 6/15

Muuttujan x havaittujen arvojen x 1, x 2,, x n aritmeettisen keskiarvon 1 n xi n i = 1 x = keskivirhe on Se ( x) = s n jossa s on muuttujan x havaittujen arvojen x 1, x 2,, x n keskihajonta. Muuttujan x havaittujen arvojen x 1, x 2,, x n k. keskusmomentti saadaan kaavalla n 1 k m = ( x x), k = 1,2,3, k n i = 1 i Muuttujan x havaittujen arvojen x 1, x 2,, x n vinous c 1 ja huipukkuus c 2 määritellään kaavoilla m m c = c = 3 3 4 1 3/2 2 2 m2 m2 Oletetaan, että muuttujan x havaitut arvot x 1, x 2,, x n on saatu yksinkertaisella satunnaisotannalla normaalijakaumasta N(µ, σ 2 ) Tällöin parametrin µ luottamusväli luottamustasolla (1 α) on muotoa x ± t α /2 s n jossa luottamustasoa (1 α) vastaavat luottamuskertoimet ± t α /2 määrätään yhtälöistä α Pr( t tα /2) = 2 α Pr( t + tα /2) = 2 jossa satunnaismuuttuja t noudattaa Studentin t-jakaumaa vapausastein (n 1): t t(n 1) Tällöin ± tα /2 toteuttavat yhtälön Pr( t t + t ) = 1 α /2 α /2 α TKK @ Ilkka Mellin (2005) 7/15

Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = Weights DESCRIPTIVE STATISTICS WEIGHTS LO 95% CI 236.02 MEAN 236.99 UP 95% CI 237.96 SD 4.8793 VARIANCE 23.808 SE MEAN 0.4879 MINIMUM 224.00 MEDIAN 237.00 MAXIMUM 249.00 SKEW 0.1340 KURTOSIS -0.2806 Havaintoarvojen aritmeettinen keskiarvo ja mediaani kuvaavat havaintoarvojen jakaumaa tässä tapauksessa hyvin. Havaintoarvojen vinous ja huipukkuus ovat lähellä normaalijakautuneen aineiston tuottamia arvoja. Keskiarvon keskivirhe: s 4.8793 Se( x) = = = 0.48793 n 100 (d) Box and Whisker -kuvio Havaintoaineistoa koskeva tieto kannattaa usein tiivistää ns. Box and Whisker -kuvioksi. Kuvion pääosa muodostuu laatikosta (box) ja viiksistä (whisker). Lisäksi kuvioon merkitään ulkopuoliset havainnot (ks. tarkemmin luentokalvoja) tähdillä ja ympyröillä. (i) Kvartiilit Q 1, Q 2, Q 3 jakavat suuruusjärjestykseen asetetun havaintoaineiston neljään yhtä suureen osaan. Box and Whisker -kuvion laatikko kuvaa havaintoarvojen kvartiiliväliä (Q 1, Q 3 ) Havaintoarvojen mediaani (suuruusjärjetykseen asetetun havaintoaineiston keskimmäinen havaintoarvo) Me = Q 2 merkitään laatikkoon poikkiviivalla. TKK @ Ilkka Mellin (2005) 8/15

(ii) Määritellään Box and Whisker -kuvion sisäaidat f 1 ja f 3 kaavoilla f 1 = Q 1 1.5 IQR f 3 = Q 3 + 1.5 IQR jossa IQR = Q 3 Q 1 on kvartiilivälin (Q 1, Q 3 ) pituus. Olkoon a 1 pienin havaintoarvo, joka toteuttaa ehdon a 1 f 1. Olkoon a 3 suurin havaintoarvo, joka toteuttaa ehdon a 3 f 3. Määritellään Box and Whisker -kuvion ulkoaidat F 1 ja F 3 kaavoilla F 1 = Q 1 3 IQR F 3 = Q 3 + 3 IQR Piirretään Box and Whisker -kuvion viikset laatikon molemmille puolille kuvaamaan välejä (a 1, Q 1 ) ja (Q 3, a 3 ) (iii) Merkitään väleihin (F 1, a 1 ) ja (a 3, F 3 ) kuuluvat havaintoarvot Box and Whisker -kuvioon tähdillä. Merkitään väleihin (, F 1 ) ja (F 3, + ) kuuluvat havaintoarvot Box and Whisker -kuvioon ympyröillä. Niitä havaintoarvoja, jotka tulevat merkityiksi tähdillä tai ympyröillä voidaan pitää poikkeuksellisina. Box and Whisker -kuvio toimii parhaiten tilanteissa, joissa havainnot voidaan jakaa kahteen tai useampaan ryhmään ja tehtävänä on verrata havaintoarvojen jakaumia eri ryhmissä toisiinsa (ks. tarkemmin 2. harjoitusten tehtävän 1 ratkaisua). Statistics > Summary Statistics > Box and Whisker Plots Descriptive Variables = Weights TKK @ Ilkka Mellin (2005) 9/15

Box and Whisker Plot 249 244 WEIGHTS 239 234 229 224 100 cases Kuvio vastaa tässä tapauksessa hyvin histogrammikuvion antamaa kuvaa aineistosta: (i) Havaintoarvojen jakauma on suhteellisen symmetrinen. (ii) Havaintoarvojen joukossa ei ole poikkeuksellisia havaintoja. Koska Box-Whisker-kuvio perustuu kvartiileihin Q 1, Q 2 ja Q 3, laskemme ne vielä erikseen: Alakvartiili Q 1 = 25. persentiili Keskikvartiili Q 2 = 50. persentiili = Mediaani Yläkvartiili Q 3 = 75. persentiili Statistics > Summary Statistics > Percentiles Percentile Variables = Weights Percentiles #1 = 25 #2 = 50 #3 = 75 STATISTIX FOR WINDOWS PERCENTILES VARIABLE CASES 25.0 50.0 75.0 --------- ------- --------- --------- --------- WEIGHTS 100 233.25 237.00 241.00 TKK @ Ilkka Mellin (2005) 10/15

Koska kvartiilivälin pituus on tässä IQR = Q 3 Q 1 = 241.00 233.25 = 7.75 sisäaidoiksi saadaan f 1 = Q 1 1.5 IQR = 233.25 1.5 7.75 = 221.625 f 3 = Q 3 + 1.5 IQR = 241.00 + 1.5 7.75 = 252.625 Koska niin min = 224 > f 1 = 221.625 max = 249 < f 3 = 252.625 a 1 = min = 224 a 3 = max = 249 3. Satunnaisotanta, luottamusväli Tulkitaan tehtävän 2 aurinkoöljypullojen joukko perusjoukoksi. Tehtävässä tutkitaan perusjoukon pullojen sisällön keskimääräisen painon estimointia otoksesta poimimalla perusjoukosta 20 pullon yksinkertainen satunnaisotos ja muodostamalla perusjoukon pullojen keskimääräiselle painolle 95 %:n luottamusväli otoksen perusteella. Peittääkö konstruoitu luottamusväli perusjoukon parametrin arvon? Toista otantaa useita kertoja ja seuraa miten otostunnusluvut ja luottamusväli vaihtelevat otoksesta toiseen. Ratkaisu: Otanta Tulkitaan tiedoston SUNTAN havaintoyksiköt (aurinkoöljypullot) perusjoukoksi, jonka koko N = 100. Poimitaan perusjoukosta yksinkertainen satunnaisotos, jonka koko n = 20. Otoksen poiminta voidaan toteuttaa 3:ssa vaiheessa: (1) Generoidaan tiedostoon SUNTAN 100 satunnaislukua tasaisesta jakaumasta Uniform(0,1) (2) Lajitellaan havainnot generoitujen satunnaislukujen suhteen nousevaan järjestykseen. (3) Valitaan otokseen 20 ensimmäistä havaintoa. Uusia otoksia saadaan toistamalla satunnaislukujen generointia. Lisätään ennen satunnaislukujen generointia tiedostoon SUNTAN havaintonumero uudeksi muuttujaksi OBS. Näin päästään parhaiten näkemään lajittelun vaikutus vaiheessa (2). TKK @ Ilkka Mellin (2005) 11/15

Data > Transformations Transformation Expression OBS = Case Satunnaislukujen generointi muuttujaksi Z: Data > Transformations Transformation Expression Z = Random Havaintojen järjestäminen muuttujan Z arvojen suhteen nousevaan järjestykseen: Data > Sort Cases Key variables = Z Sort Order = Ascending 20 ensimmäisen havainnon valinta: Data > Omit Cases Omit Expression Omit Case > 20 Kaikkien havaintojen saattaminen uudelleen käyttöön: Data > Restore Cases Restore Expression Restore Case > 20 Valituiksi tulivat tätä kirjoitettaessa havainnot (vaihtelee kerta kerralta): 93, 21, 12, 26, 65, 39, 25, 54, 80, 63, 57, 75, 23, 18, 17, 22, 45, 5, 98, 55 TKK @ Ilkka Mellin (2005) 12/15

Tunnusluvut Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = Weights DESCRIPTIVE STATISTICS WEIGHTS LO 95% CI 235.38 MEAN 237.60 UP 95% CI 239.82 SD 4.7395 VARIANCE 22.463 SE MEAN 1.0598 Tässä 95 %:n luottamusväli on laskettu ilman äärellisen perusjoukon korjaustekijää. Tässä otoksessa perusjoukon aritmeettinen keskiarvo 236.99 on välin sisäpuolella. Luottamusväli, jossa on otettu huomioon äärellisen perusjoukon korjaustekijä saadaan seuraavalla kaavalla: jossa x ± t Se( x) x = otoskeskiarvo t = luottamuskerroin t-jakaumasta, jonka vapausasteiden lukumäärä df = n 1 (n = otoskoko) s n Se( x) = keskiarvon keskivirhe äärellisessä otoksessa = 1 n N N = perusjoukon koko n = otoskoko s = otoskeskihajonta 95 %:n luottamusvälin luottamuskerroin on t = 2.09: STATISTICS: Statistics > Probability Functions Function = T Inverse P = 0.975 DF = 19 TKK @ Ilkka Mellin (2005) 13/15

Keskiarvon keskivirhe: jossa s n 4.7395 20 Se( x) = 1 1 0.9480 n N = 20 100 = N = perusjoukon koko = 100 n = otoskoko = 20 s = otoshajonta = 4.7395 Luottamusväli: (235.62, 239.58) Saatu luottamusväli on äärellisen perusjoukon korjaustekijän takia kapeampi, kuin STATISTIX-ohjelman tulostama väli, mutta peittää kuitenkin perusjoukon aritmeettisen keskiarvon 236.99. Kommentteja: Jos otantaa toistetaan generoimalla uusia satunnaislukuja, vaihtelevat kaikki otoksesta lasketut suureet otoksesta toiseen. Tämä on sitä otosvaihtelua, jota otantajakaumat kuvaavat. Luottamustason tulkinnan mukaan suunnilleen 95 % generoiduista luottamusväleistä peittää perusjoukon aritmeettisen keskiarvon ja suunnilleen 5 % ei sitä tee. TKK @ Ilkka Mellin (2005) 14/15

Liitteet Satunnaisotoksen poiminta STATISTIX-ohjelman avulla (i) Muodostetaan tiedostoon funktiolla Random muuttuja Z, jonka arvoiksi annetaan N (N = havaintojen lukumäärä tiedostossa) satunnaislukua jatkuvasta tasaisesta jakaumasta väliltä (0, 1): (ii) Z = Random Järjestetään aineisto muuttujan Z arvojen suhteen nousevaan järjestykseen. (iii) Valitaan otokseen n ensimmäistä havaintoa (n = otoskoko). Huomautus: Tiedostoon kannattaa havaintojen tunnistamiseksi lisätä muuttuja ennen vaihetta (i). Obs = Case Keskiarvon keskivirheen laskeminen äärellisestä perusjoukosta Koska perusjoukko on äärellinen, luottamusvälin konstruoinnissa tarvittava keskiarvon keskivirhe lasketaan usein kaavalla jossa s n Se( x) = 1 n N N = perusjoukon koko n = otoskoko TKK @ Ilkka Mellin (2005) 15/15