Kuvioita, taulukoita ja tunnuslukuja Aki Taanila 2.2.2011 1
Tilastokuviot Pylväs Piirakka Viiva Hajonta 2
Kuviossa huomioitavia asioita 1 Kuviolla tulee olla tarkoitus ja tehtävä (minkä tiedon haluat välittää katsojalle?) Kuviolla tulee olla kohderyhmä (kenelle kuvio on tarkoitettu?) Kokeile eri vaihtoehtoja ja valitse tarkoitukseen ja kohderyhmälle parhaiten sopiva esitystapa Kuvion tulee olla selkeä ja helposti ymmärrettävä Johdata katsojan huomio esitettävään asiaan, eikä kuvion tehosteisiin 3
Kuviossa huomioitavia asioita 2 Esitä tiedot peittelemättä ja rehellisesti Otsikoi akselit ja esitä käytetyt yksiköt selkeästi Ilmoita tiedon lähde, jos tieto on peräisin ulkopuolisesta lähteestä Lisää tarvittaessa kuvioon huomautuksia korostaaksesi epätavallisten tai poikkeavien arvojen syitä Yhdistä kuvio luontevasti sitä edeltävään sanalliseen selitykseen, jossa kerrot mihin asioihin katsojan pitää kuviossa kiinnittää huomioita 4
Pylväskuvio Pylväillä voidaan kuvata mm. lukumääriä, prosenttiosuuksia, rahamääriä ja keskiarvoja Suosi vaakapylväitä, kun esität eri pylväissä kategorisen muuttujan eri luokkia Suosi pystypylväitä, kun esität eri pylväissä määrällisen muuttujan eri luokkia 5
miljoonaa euroa Pylväskuvion rakenne 6 5 4 3 2 1 0 2001 2002 2003 Turku Tampere Helsinki 6
Lukumääriä pylväskuviona Ylempi korkeakoulu 2 Korkeakoulu 22 Toinen aste 30 Peruskoulu 27 0 10 20 30 40 Henkilöä Työntekijöiden koulutus (n=81) 7
Keskiarvoja pylväskuviona Työtovereihin 4,06 Työympäristöön 3,22 Työtehtäviin 3,20 Johtoon 3,06 Palkkaan 2,11 1,00 1,50 2,00 2,50 3,00 3,50 4,00 4,50 5,00 Keskiarvo (1=Erittäin tyytymätön, 5=Erittäin tyytyväinen) Tyytyväisyys työn eri osa-alueisiin (n=81-82) 8
Työntekijöitä Histogrammi (ryhmitelty määrällinen muuttuja) 30 25 20 15 10 5 0 0-1600 1601-2100 2101-2600 2601-3100 3101-3600 3601- Palkka euroa Työntekijöiden palkkajakauma (n=82) 9
100 % pinottu pylväskuvio Erittäin tyytymätön Tyytymätön Neutraali Tyytyväinen Erittäin tyytyväinen Palkkaan Johtoon Työtehtäviin Työympäristöön Työtovereihin 0 % 20 % 40 % 60 % 80 % 100 % Prosenttia vastaajista Tyytyväisyys työn eri osa-alueisiin (n= 81-82) 10
Viivakuvio Viivakuvio sopii aikasarjan esittämiseen Aikasarjoja esitettäessä viivakuvion vaaka-akselilla on aika Arvoakseli voidaan aloittaa muualtakin kuin nollakohdasta, jos halutaan kuvata vaihtelua itsessään Arvoakselia ei saa katkaista, jos halutaan tarkastella vaihtelun osuutta kokonaismäärästä 11
Miljoonaa euroa Viivakuvion rakenne 6 5 4 3 2 1 0 2001 2002 2003 Vuosi Turku Tampere Helsinki 12
henkilöauto mrd km joukkoliikenne mrd km Viivakuvio (kaksi arvoakselia) 70 65 60 55 50 45 40 35 30 Henkilöauto Joukkoliikenne 1980 1985 1990 1995 2000 2005 Vuosi 14 13,5 13 12,5 12 Kotimaanliikenteen henkilökilometrit henkilöautolla ja joukkoliikenteessä vuosina 1980-2009 (Lähde: Tilastokeskus) 13
Liikevaihto (milj. euroa) Hajontakuvio 70,0 65,0 60,0 55,0 50,0 45,0 40,0 35,0 30,0 25,0 20,0 60,0 70,0 80,0 90,0 100,0 110,0 120,0 130,0 Markkinointikustannukset (10 000 euroa) Hajontakuvio on havainnollinen väline kahden määrällisen muuttujan välisen riippuvuuden tarkasteluun 14
Piirakkakuvio Kuvaa kokonaisuuden jakaantumista osiin; muuhun tarkoitukseen piirakkaa ei tule käyttää Kaikkien kokonaisuuden osien oltava mukana Piirakka ei ole suositeltavaa, jos siivuja on enemmän kuin 6 15
Piirakkakuvio esim. Turku 7 % Tampere 19 % Helsinki 74 % Myynnin suhteellinen osuus eri toimipisteissä 16
Taulukointi Yhteenvetotaulukko Luokittelu Ristiintaulukointi 17
Yhteenvetotaulukko Koulutus Lukumäärä % Summa % Peruskoulu 27 33,3 33,3 Toinen aste 30 37,0 70,4 Korkeakoulu 22 27,2 97,5 Ylempi korkeakoulu 2 2,5 100,0 Yhteensä 81 100,0 18
Ryhmittely Yleensä määrälliset muuttujat täytyy ryhmitellä ennen taulukointia Tällaisia muuttujia ovat esim. palkka, liikevaihto, polttoaineen kulutus, henkilön paino,... 19
Ryhmiteltävä aineisto 52,0 64,7 60,3 55,9 56,2 56,4 68,2 62,1 58,9 59,4 59,8 54,5 64,9 60,6 61,0 61,7 56,8 69,4 62,7 63,6 64,0 60,2 55,8 66,2 67,0 67,9 62,0 57,6 55,9 56,4 54,4 64,8 60,5 59,4 59,5 56,7 68,9 62,6 60,8 61,4 60,0 55,7 65,7 63,1 63,8 61,8 57,2 77,1 66,8 67,1 Ohessa otos desibelimittauksia asuntoalueella sijaitsevassa risteyksessä Jos havainnot halutaan taulukoida, niin tarvitaan ryhmittelyä 20
Ryhmittelyn suorittaminen Etsi pienin ja suurin (52,0 ja 77,1) Päätä ryhmien lukumäärä (6) Laske ryhmäväli siten, että ryhmät peittävät hieman enemmän kuin pienimmän ja suurimman välisen matkan (5) Valitse ensimmäisen ryhmän alaraja (50) 21
Ryhmitelty yhteenvetotaulukko Desibeliä Lukumäärä % Summa % 50,0-54,9 3 6 6 55,0-59,9 16 32 38 60,0-64,9 21 42 80 65,0-69,9 9 18 98 70,0-74,9 0 0 98 75,0-79,9 1 2 100 50 100 22
Huomioita ryhmittelystä Esitä ryhmien rajat havaintojen tarkkuudella Esitä ryhmien rajat siten, ettei ole epäselvää mihin ryhmäänn mikin arvo kuuluu Tasaväliset ryhmät, jos mahdollista (esim. palkkoja ei useinkaan voi ryhmitellä tasavälisesti) Vältä avoimia ryhmiä (iän kohdalla joudutaan käyttämään usein avointa ryhmää esim. 65+) Enemmän ryhmiä Tarkempaa tietoa Vähemmän ryhmiä Helppolukuisempi taulukko 23
Ristiintaulukointi Soveltuu riippuvuuksien tarkasteluun ja ryhmien vertailuun Ryhmäkohtaisia lukumääriä ja/tai prosentteja Prosenttien vertailu helpompaa kuin lukumäärien vertailu Sukupuoli Tyytyväisyys johtoon Mies n=63 Nainen n=19 Yhteensä n=82 Tyytymätön 34,9 % 5,3 % 28,0 % Neutraali 36,5 % 36,8 % 36,6 % Tyytyväinen 28,6 % 57,9 % 35,4 % Yhteensä 100,0 % 100,0 % 100,0 % 24
Tunnuslukuja Moodi Keskiarvo ja keskihajonta Mediaani Neljännekset ja muut prosenttipisteet Geometrinen keskiarvo Korrelaatiokerroin 25
Miksi tunnuslukuja lasketaan? Tunnuslukuja lasketaan, jotta muodostuisi todellista vastaava mielikuva tarkasteltavasta asiasta. x Reaalimaailma 26
Keskipalkka? 35000 5500 4500 2500... pääjohtajan mielestä keskipalkka on yli 5900 (keskiarvo)... ulkopuolisen mielestä keskipalkka on 2500 (mediaani)... työntekijöiden mielestä keskipalkka on 1500 (moodi) 1500 27
Muuttujan mitta-asteikko ja tunnusluvut Kategorisille muuttujille moodi Asteikolla mitatuille muuttujille keskiarvo, keskihajonta (vähintään 5-portainen asteikko, joka voidaan olettaa tasaväliseksi) Asteikolla mitatuille sopii joissain tapauksissa moodi Määrällisille muuttujille keskiarvo ja keskihajonta Määrällisille muuttujille viiden luvun yhteenveto: pienin, alaneljännes, mediaani, yläneljännes, suurin Määrällisille muuttujille voidaan lisäksi laskea muita prosenttipisteitä 28
Moodi Moodi eli tyyppiarvo on useimmin esiintyvä havaintoarvo Sopii kategorisille muuttujille Esim. Lehden tyypillinen lukija on akateemisesti koulutettu 35-45-vuotias mies 29
Keskiarvo Keskiarvo: havaintojen summa jaettuna havaintojen lukumäärällä Keskiarvon kohdalta keinulauta saadaan tasapainoon Keskiarvo on herkkä erityisen suurille ja pienille arvoille Keskiarvon yhteydessä käytetään keskihajontaa vaihtelun mittaamiseen 30
Keskihajonta Keskiarvon yhteydessä vaihtelun mittarina käytetään keskihajontaa Keskihajonta on havaintojen keskimääräinen poikkeama keskiarvosta 31
Keskihajonnan laskeminen Lasketaan yksittäisen havainnon poikkeama keskiarvosta ja korotetaan poikkeama toiseen potenssiin 2 ( x i x) Lasketaan kaikkiin havaintoihin liittyvien poikkeamien toisten potenssien summa ( x x) 2 i Jaetaan otoskoolla, jolloin saadaan poikkeamien toisten potenssien keskiarvo (kutsutaan varianssiksi). Kumotaan lopuksi toinen potenssi neliöjuurella 2 ( x i n x) 32
Perusjoukon keskihajonta Kun arvioidaan otoksen avulla perusjoukon keskihajontaa, tehdään vielä tekninen korjaus korvaamalla luku n luvulla n-1 Voidaan osoittaa, että näin saadaan parempi arvio 33
Volatiliteetti Keskihajontaa käytetään yleisesti arvopaperin kokonaisriskin mittarina Tässä yhteydessä keskihajontaa kutsutaan volatiliteetiksi Prosentuaalisista päivätuotoista laskettu volatiliteetti muunnetaan vuositasolle kertomalla se kaupantekopäivien (250) neliöjuurella 34
Volatiliteetteja Osake Volatiliteetti 12 kk (21.11.2007) SanomaWSOY 20 % UPM-Kymmene 24 % Nokia 28 % Tietoenator 36 % Perlos 45 % Biotie Therapies 77 % 35
Mediaani Jos havainnot laitetaan suuruusjärjestykseen, niin mediaani on keskimmäinen havainto tai kahden keskimmäisen keskiarvo Puolet havainnoista mediaania pienempiä, puolet mediaania suurempia Mediaani ei ole herkkä erityisen suurille tai pienille arvoille mediaani 36
Neljännekset eli kvartiilit Jos havainnot laitetaan järjestykseen, niin alaneljänneksen (alakvartiili) alapuolelle jää 25% ja yläneljänneksen (yläkvartiili) alapuolelle jää 75% havainnoista 50% 25% 25% alaneljännes yläneljännes 37
Prosenttipisteet eli Fraktiilit alaneljännes on 25% prosenttipiste Mediaani on 50% prosenttipiste yläneljännes on 75% prosenttipiste Vastaavalla tavalla voidaan muodostaa muitakin prosenttipisteitä (esim. 5%, 95%) Prosenttipisteet sopivat havainnollisuutensa vuoksi hyvin jakauman kuvailuun (esim. asuntojen neliömetrihinnat, työntekijäryhmän palkat, osakkeen päivätuotot jne.) 38
Prosenttipisteitä Kerrostaloyksiöiden neliöhintojen (euroa) prosenttipisteitä vuonna 2007 Prosenttipiste Helsinki (N=250) Tampere (N=250) Pienin 2136 1176 10% 2655 1552 25% 3108 1804 Mediaani 3785 2255 75% 4544 2684 90% 5137 3000 Suurin 7515 4763 39
Geometrinen keskiarvo Peräkkäisiä muutoksia kuvaaville prosenttiluvuille käytetään geometrista keskiarvoa Geometrinen keskiarvo kuvaa keskimääräistä muutosvauhtia Geometrinen keskiarvo on n:s juuri muutoskertoimien tulosta 40
Geometrinen keskiarvo esim. Jos peräkkäiset hinnan muutokset ovat 1,5%; 2,3%; -1,2% ja 10,0%, niin muutoskertoimet ovat 1,015; 1,023; 0,988 ja 1,100 Geometrinen keskiarvo: 4 1,015 1,023 0,988 1,100 Tämä keskiarvo kuvailee keskimääräistä hinnan muutosta Neljä peräkkäistä 3,07% suuruista hinnan muutosta johtaa samaan lopputulokseen kuin alkuperäiset hinnanmuutokset 1,0307 41
Pearsonin korrelaatiokerroin Pearsonin korrelaatiokerroin mittaa lineaarista eli suoraviivaista riippuvuutta. 42
Korrelaatiokertoimen arvot Täydellinen negatiivinen korrelaatio Ei korrelaatiota Täydellinen positiivinen korrelaatio -1.0 -.5 0 +.5 +1.0 43
Pearsonin korrelaatiokertoimia 44
Korrelaatiokertoimen arvon karkea tulkinta r < 0,3 muuttujien välillä ei ole juurikaan lineaarista riippuvuutta 0,3 < r < 0,7 muuttujien välillä on jonkin verran lineaarista riippuvuutta r > 0,7 muuttujien välillä on selvä lineaarinen riippuvuus. 45
Muita tunnuslukuja vaihteluväli (väli suurimmasta pienimpään) varianssi (keskihajonnan toinen potenssi) variaatiokerroin (keskihajonta/keskiarvo) mittaa suhteellista vaihtelua; variaatiokertoimen avulla voidaan vertailla eri asteikoilla mitattujen muuttujien vaihtelua 46
Tiekartta Tarkoitus Kategorinen Muuttujan mitta-asteikko Määrällinen Yhteenveto muuttujan arvoista Yhteenvetotaulukko Pylväskuvio Piirakkakuvio Moodi Ryhmitelty yhteenvetotaulukko Histogrammi Keskiarvo*, keskihajonta* 5 luvun yhteenveto Ryhmien vertailu Ristiintaulukointi Keskiarvojen ja keskihajontojen vertailu* Muiden tunnuslukujen vertailu Kahden muuttujan välinen riippuvuus Ristiintaulukointi Pylväskuvio 100 % pinotut pylväät Hajontakuvio Aikasarjakuvio Korrelaatiokerroin* Mielipideasteikoille sopii kategoristen muuttujien menetelmät. Jos mielipideasteikko on vähintään 5-portainen ja voidaan olettaa tasaväliseksi, niin tähdellä* merkityt määrällisten muuttujien menetelmät ovat harkinnanarvoisia. 47