Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin muuttuja: yhtä asiaa koskevat mitatut ja koodatut tiedot esim. kyselylomakkeen yhden kysymyksen vastaukset Aineiston tyypillisin esitystapa: havaintomatriisi vaakariveinä havainnot, pystyriveinä muuttujat NYT21-aineiston ensimmäiset 2 havaintoa ja 13 muuttujaa: hav ika suk ammatti tulot puo usk val var vas hei lyo kii 1 18 2 opiskelija 9 8 4 1 1 2 21 2 opiskelija/kouluavustaja 3 12 2 1 1 1 1 3 38 2 opiskelija 7 12 3 1 1 1 4 24 2 opiskelija 4 8 2 1 1 5 21 2 opiskelija/kouluavustaja - - - 6 24 1 myyjä 16-2 1 1 1 1 7 19 2 opiskelija - 2 4 1 1 1 8 3 2 kotiäiti 4 12 2 1 1 1 1 9 19 1 opiskelija - - 1 1 1 1 1 1 17 2 opiskelija - - 1 1 1 1 1 11 21 2 opiskelija 2 3 1 1 1 12 22 2 opiskelija 1 12 2 1 1 1 1 13 22 2 toimistotyöntekijä 9 2 5 1 1 1 1 14 27 1 opiskelija - 8 3 1 1 15 25 1 opiskelija 12 13 4 1 1 1 1 1 16 27 1 insinööri 132-4 1 1 1 17 19 2 opiskelija - - 3 1 1 1 1 18 47 2 emäntä 1 2 2 1 1 1 19 29 2 lomasihteeri 12 1 2 1 1 1 2 23 2 opiskelija 12 4 1 Tilastoaineiston eri tyyppiset muuttujat Muuttujan tyypistä riippuu, millaisilla tilastollisilla kuvilla ja tunnusluvuilla sitä on mielekästä kuvailla ja tiivistää. määrälliset (kvantitatiiviset) muuttujat: jatkuvat muuttujat (esim. ikä, pituus, paino jne.) (vain vähän samoja arvoja) diskreetit muuttujat (esim. mielipideasteikot, lukumäärät) (paljonkin samoja arvoja) käytännössä mittaaminen ja tietokoneelle tallettaminen on mahdollista vain äärellisellä tarkkuudella ( kaikki diskreettiä ) muuttujan voi kuitenkin tulkita jatkuvaksi, jos sen taustalla on jatkuva ilmiö tai asia (kuten ikä) laadulliset (kvalitatiiviset) muuttujat (kaikki diskreettejä): järjestystason (ordinaaliset) muuttujat (esim. koulutus) luokittelutason (kategoriset) muuttujat (esim. sukupuoli) määrällisistä muuttujista saa luokittelemalla laadullisia, muttei toisinpäin (kannattaa siis mitata mahdollisimman tarkasti!)
Yleinen tavoite: aineiston tiivistäminen Tilastollisten menetelmien yleinen tavoite on tiivistää aineistoon sisältyvää informaatiota kuviksi ja tunnusluvuiksi. tiivistäminen (ja muu analysointi) edellyttää ehdottomasti kunnollista aineistoon tutustumista tutustumisen ja tiivistämisen kannalta keskeistä: jakauman kuvaaminen graafisesti (ja tunnuslukuina) (empiirinen) jakauma: aineiston yhden muuttujan kaikki (mitatut ja koodatut) arvot tiivistämiseen paljon muitakin keinoja: muuttujien yhdistely, esim. summamuuttujien muodostaminen (mielekästä vain, jos arvojen yhteenlaskeminen mielekästä) monimuuttujamenetelmät (ei käsitellä tällä kurssilla) Seuraavaksi: keskeisimpiä kuvia ja tunnuslukuja. Kuvat on piirretty muokatusta WebOodin rekisteriaineistosta Survo-ohjelmistolla. Aineisto on anonymisoitu muuttamalla tunnisteet (opiskelijanumerot) tunnistamattomiksi. Tilastolliset kuvat 1: laatikkokuva Ikä (vuosina) tulkitaan tässä jatkuvaksi muuttujaksi: Osallistujien (N=43) ikäjakauma 2 25 3 35 4 45 vuotta tiivistää jakauman muutaman tunnusluvun avulla yksityiskohdat tarkemmin tunnuslukujen yhteydessä
Tilastolliset kuvat 2a: histogrammi Ikä edelleen jatkuva, luokkavälinä mittaustarkkuus (1 vuosi): Osallistujien (N=43) ikäjakauma 7 6 4 3 2 1 2 25 3 35 4 45 vuotta jatkuvuus: pylväät kiinni toisissaan, vaaka-akseli sama kuin ed. pystyakseli kuvaa havaintojen lukumäärää eli frekvenssiä Tilastolliset kuvat 2b: histogrammi Ikä edelleen jatkuva, luokkavälinä nyt 5 vuotta: Osallistujien (N=43) ikäjakauma 2 2 1 1 2 25 3 35 4 45 vuotta tiivistys selkiyttää, mutta osa informaatiosta häviää yli 33-vuotiaat: lukumäärään nähden liikaa luokkia
Tilastolliset kuvat 3: pylväskuva Ikä ei enää jatkuva vaan järjestetty neljään luokkaan: Osallistujien (N=43) ikäjakauma 2 2 1 1 17-22 v 23-27 v 28-32 v 33 v tai yli muuttuja voitaisiin koodata esimerkiksi numeroin 1, 2, 3, 4 jos pelkkä luokittelu, pylväät hyvä laittaa suuruusjärjestykseen Tilastolliset kuvat 4: piirakkakuva Mielekäs vain osuuksien esittämiseen, tässä ikäluokitukset (%): Osallistujien (N=43) ikäjakauma (%) 17-22 v 23-27 v 56.6% 5.7% 8.2% 28-32 v 29.5% 33 v tai yli prosenttien yhteydessä on mainittava lukumäärä (N) 3-ulotteiset piirakat ja pylväät on parasta hylätä
Tilastolliset tunnusluvut 1: keskiarvo Kun tiivistetään tietoja tunnusluvuiksi, on muistettava: osa informaatiosta menetetään (vrt. kuvat 2a,b) yksittäinen tunnusluku ei kerro läheskään kaikkea ensin kuvia, vasta sen jälkeen tunnuslukuja (jos tarpeen) Yleisin kaikista tunnusluvuista on keskiarvo: muuttujan arvojen summa jaettuna havaintojen lukumäärällä mielekäs vain, jos arvojen yhteenlaskeminen mielekästä soveltuu ainoastaan määrällisille muuttujille pelkkä keskiarvo ei riitä (ei kerro mitään vaihtelusta) vaihtelua kuvaa keskihajonta (johon palataan Teemassa 4) Tilastolliset tunnusluvut 2: mediaani ym. Monessa tapauksessa keskiarvoa käyttökelpoisempi on mediaani: suuruusjärjestetyn muuttujan keskimmäinen arvo arvoilla ei lasketa: soveltuu myös järjestystasolle ei herkkä suurillekaan poikkeamille (toisin kuin keskiarvo) pelkkä mediaani ei riitä (ei kerro mitään vaihtelusta) vaihtelua kuvaa joukko muita järjestystunnuslukuja: esim. muuttujan pienin ja suurin arvo Usein puhutaan 5-lukuisesta yhteenvedosta: pienin arvo, alakvartiili (25 %), mediaani ( %), yläkvartiili (75 %), suurin arvo nämä tunnusluvut voidaan esittää graafisesti laatikkokuvana (kuvassa 1 on lisäksi merkitty keskiarvo rastilla) huomaa, että laatikossa tällöin puolet havainnoista
Tunnusluvut: esimerkkinä kurssin osallistujat Tunnuslukuja Survo-ohjelmistolla (STAT): Basic statistics: JK8S N=43 Variable: ikä ikä vuosina min=17 in obs.#17 (13-2-17) max=46 in obs.#69 (11-2-69) mean=23.2347 stddev=5.311987 Descriptive skewness=2.166878 Statistics kurtosis=5.44894 lower_q=2 median=22 upper_q=25 Descriptive Statistics Tunnuslukuja SPSS-ohjelmistolla (Descriptives): ikä Valid N (listwise) ikä Valid N (listwise) Statistics N ikä Mean N Median Minimum Mean Maximum Median Percentiles Minimum Maximum Percentiles Statistics Valid Missing Valid Missing 25 75 25 75 N Minimum Maximum Mean 43 17. 46. 23.2347 5.311987 Std. N 43 Minimum Maximum Mean Deviation 43 17. 46. 23.2347 5.311987 43 Tunnuslukuja ikä SPSS-ohjelmistolla (Frequencies): 43 23.2347 43 22. 23.2347 17. 22. 46. 2. 17. 22. 46. 25. 2. 22. 25. Std. Deviation