Luku 6 Datajoukkojen jakaumat, tunnusluvut ja kuvaajat Lasse Leskelä Aalto-yliopisto. lokakuuta 207 6. Datajoukko ja datakehikko Tässä monisteessa datajoukko tarkoittaa järjestettyä listaa keskenään samantyyppisiä alkioita, esimerkiksi lukuja, lukupareja, kirjaimia tai merkkijonoja. Datakehikko puolestaan on kaksiulotteinen taulukko, jonka jokaisen sarakkeen alkiot ovat keskenään samaa tyyppiä. Datakehikon sarakkeita kutsutaan muuttujiksi. Allaoleva datakehikko kuvastaa fiktiivisen kurssin kurssipalautetta, jossa muuttujaa Yleisarvio vastaa datajoukko (,, 4, 4, 3). Koska opiskelijoita on Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 234A 9879K 2 3332K 4 4 3 2343B 4 4 3 243U 3 3 3 Taulukko 6.: Opiskelijoiden kurssipalautteen datakehikko. vain viisi, saa datakehikkoa vilkaisemalla suoraan hyvän mielikuvan kurssipalautteesta. Suurempien datajoukkojen kohdalla (esim. yli sadan oppilaan kurssipalaute) ei datakehikkoa suoraan tarkastelemalla ole helppoa tehdä päätelmiä datasta, vaan avuksi tarvitaan kuvaajia, jakaumia ja tunnuslukuja. Datajoukko ei ole tarkassa matemaattisessa mielessä joukko, sillä datajoukossa sama alkio voi esiintyä monta kertaa. 69
6.2 Esiintyvyystaulukko ja empiirinen jakauma Datajoukon esiintyvyystaulukko eli frekvenssitaulukko on taulukko, josta voidaan lukea kuinka monta kertaa mikäkin arvo esiintyy. Esimerkiksi ylläolevan datakehikon muuttujaa x = Yleisarvio vastaavan datajoukon (,, 4, 4, 3) esiintyvyystaulukko on esitetty alla. x 2 3 4 Lukumäärä 0 2 Taulukko 6.2: Datajoukon Yleisarvio esiintyvyydet. Esiintyvyystaulukko yleensä visualisoidaan palkkikaaviona 4 3 2 0 2 0 2 3 Datajoukon arvojen suhteelliset esiintyvyydet saadaan jakamalla esiintyvyystaulukon lukumäärät datajoukon koolla, jolloin saadaan allaoleva taulukko. Yleisen datajoukon (x,..., x n ) arvojen suhteelliset osuudet voidaan myös x 2 3 4 Osuus 0 Taulukko 6.3: Datajoukon Yleisarvio suhteelliset esiintyvyydet. ilmaista funktiona f(x) = #{ i n : x i = x}, (6.) n jonka lähtöjoukko sisältää datajoukon erilliset arvot. Koska suhteelliset osuudet ovat ei-negatiivisia ja summautuvat ykköseksi, on f(x) erään diskreetin jakauman tiheysfunktio. Kyseinen jakauma on datajoukon (x,..., x n ) empiirinen jakauma, ja kaavan (6.) funktio sitä vastaava empiirinen tiheysfunktio. Listasta (x,..., x n ) tasaisen satunnaisesti poimittu arvo on diskreetti satunnaismuuttuja, joka noudattaa empiiristä jakaumaa. Empiirisen tiheysfunktion arvo f(x) siis kertoo, millä todennäköisyydellä datajoukosta tasaisen satunnaisesti valittu alkio on arvoltaan x. Kuten muutkin diskreettien jakaumien tiheysfunktiot, empiiriset tiheysfunktiot on tapana esittää pylväskaaviona 2 70
0. 0.4 0.3 0.2 0. 0.0 2 3 4 6.3 Ristitaulukko ja empiirinen yhteisjakauma Kahden muuttujan datajoukko on järjestetty lista pareja ((x, y ),..., (x n, y n )). Sen esiintyvyystaulukko ilmaisee, miten monta kertaa mikäkin pari esiintyy datajoukossa. Taulukon 6. datakehikon muuttujat x = Yleisarvio ja y = Hyödyllisyys voidaan koostaa datajoukoksi ((, ), (, 2), (4, 3), (4, 3), (3, 3)) ja sitä vastaava esiintyvyystaulukko on luontevaa kirjoittaa muodossa y x 2 3 4 Yht 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 4 0 0 2 0 0 2 0 0 0 0 Yht 0 3 0 Ylläoleva esitys on muuttujien x ja y esiintyvyyksien ristitaulukko (engl. contingency table) ja tällaista esitysmenetelmää kutsutaan ristiintaulukoimiseksi (engl. cross tabulation). Ristitaulukon rivisummista saadaan muuttujan x esiintyvyydet (vrt. taulukko 6.2) ja sarakesummista muuttujan y esiintyvyydet. Jakamalla esiintyvyystaulukon alkiot datajoukon koolla saadaan lukuparien (x i, y i ) suhteelliset osuudet taulukoitua muodossa y x 2 3 4 Yht 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 2 2 4 0 0 0 0 0 0 0 0 Yht 0 3 0 7
Koska suhteelliset ovat ei-negatiivisia ja summautuvat ykköseksi, vastaa ylläoleva taulukko erään kahden muuttujan yhteisjakauman tiheysfunktiota. Kyseinen yhteisjakauma on kahden muuttujan datajoukon ((, ), (, 2), (4, 3), (4, 3), (3, 3)) empiirinen yhteisjakauma. Aivan kuin yleisillekin diskreeteille yhteisjakaumille, myös empiirisen yhteisjakauman rivisummista saadaan x:n empiirinen jakauma (vrt. taulukko 6.3) ja sarakesummista y:n empiirinen jakauma. Jos datajoukosta valitaan tasaisen satunnaisesti pari (X, Y ), niin tällöin X:n ja Y :n yhteisjakauma on empiirinen yhteisjakauma. Jos taulukon 6. datakehikosta valitaan tasaisen satunnainen opiskelija, niin empiirisen yhteisjakauman tiheysfunktio f(x, y) kertoo, millä todennäköisyydellä kyseinen opiskelija antaa yleisarvioksi x ja hyödyllisyydeksi y. 6.4 Datajoukon sijaintia kuvaavat tunnusluvut Lukuarvoisen datajoukon (x,..., x n ) sijaintia kuvaavista tunnusluvuista tyypillisin on keskiarvo x i. n i= Datajoukon keskiarvo on myös datajoukon empiirisen jakauman odotusarvo. Muita yleisesti käytettyjä tunnuslukuja ovat tyyppiarvo ja mediaani. Datajoukon tyyppiarvo eli moodi on arvo, jonka esiintyvyys on suurin mahdollinen. Tyyppiarvo ei välttämättä ole yksikäsitteinen. Lukuarvoisen datajoukon mediaani on sellainen luku q, että datapisteistä vähintään puolet sisältyy välille (, q] ja vähintään puolet välille [q, ). Mediaani määritetään järjestämällä datapisteet ensin suuruusjärjestykseen x () x (2) x (n). Kun datapisteiden lukumäärä n on pariton, saadaan mediaani poimimalla järjestyn listan (x (),..., x (n) ) keskimmäinen arvo x (n+)/2. Kun taas datapisteiden lukumäärä on parillinen, voidaan mediaaniksi periaatteessa valita mikä tahansa luku väliltä [x n/2, x (n+)/2 ]. Useimmat tilasto-ohjelmistot palauttavat tässä tapauksessa mediaaniksi keskiarvon (x 2 n/2 + x (n+)/2 ). Tässä monisteessa noudatetaan samaa käytäntöä. Mediaani jakaa suuret datajoukot, joissa sama arvo ei toistu, likimain kahteen yhtä suureen osaan. Tällöin nimittäin avoimille välille (, q) ja (q, ) sisältyvien datapisteiden osuus on joko ( /n) (kun datapisteiden lukumäärä on parillinen); tai täsmälleen (kun datapisteiden lukumäärä on pa- 2 2 2 riton). Esimerkki 6.. Määritä datajoukkojen x = (,,,, 000) ja y = (,,, 7) keskiarvo, tyyppiarvo ja mediaani. Datajoukkojen keskiarvot ovat m(x) = ( + + + + 000) = 20.6, m(y) = ( + + + 7) = 3.. 4 72
Molempien datajoukkojen tyyppiarvo on. Datajoukon x pisteet suuruusjärjestettynä listana ovat (,,,, 000). Mediaani on kyseisen listan keskimmäinen piste eli. Datajoukon y pisteet suuruusjärjestettynä listana ovat (,,, 7). Näin ollen y:n mediaaniksi voidaan valita välin [, ] keskipiste ( )/2 = 2. Lukuarvoisen datajoukon (x,..., x n ) tason p (0, ) kvantiili on sellainen luku q, että välille (, q] sisältyvien datapisteiden osuus on vähintään p ja välille [q, ) sisältyvien datapisteiden osuus vähintään p. Tason p = 0. kvantiili on mediaani. Tasojen p = 0.2 ja p = 0.7 kvantiilit tunnetaan nimillä alakvartiili ja yläkvartiili. Tason k/00 kvantiileja kutsutaan prosenttipisteiksi tai prosentiileiksi. Kuten mediaaninkin tapauksessa, kvantiilit eivät yleensä aina ole yksikäsitteisesti määriteltyjä. Kirjallisuudesta löytyy itse asiassa monia eri tapoja määritellä yleinen kvantiili (katso esim. R-ohjelmiston ohjetiedostoja). Kvantiilit voidaan määritellä myös yleisen lukuarvoisen satunnaismuuttujan X jakaumalle. Tällöin tason p kvantiili on sellainen luku q, että P(X q) p ja P(X q) p. Jos X:n kertymäfunktiolla F X (t) on olemassa käänteisfunktio, saadaan kvantiilit määritettyä käänteisfunktiosta kaavalla q = F X (p). Yleisen kontekstin näkökulmasta siis datajoukon (x,..., x n ) kvantiili on datajoukon empiirisen jakauman kvantiili. 6. Datajoukon keskihajonta Luonnollinen tapa luonnehtia lukuarvoisen datajoukon (x,..., x n ) hajontaa on tarkastella satunnaismuuttujaa X, joka määritellään valitsemalla tasaisen satunnaisesti alkio listasta (x,..., x n ). Tällöin X noudattaa datajoukon empiiristä jakaumaa odotusarvona E(X) = n i= x i = m(x). Datajoukon (x,..., x n ) empiirisen jakauman keskihajonta on luku ( ) /2 SD(X) = (x i m(x)) 2. (6.2) n i= Tämä luku kuvastaa normitettua keskiarvoista neliöpoikkeamaa laskettuna suuresta määrästä satunnaislukuja, jotka on poimittu tasaisen satunnaisesti ja toisistaan riippumattomasti datajoukosta (x,..., x n ). Silloin kun tuntemattoman jakauman keskihajontaa pyritään estimoimaan siitä tuotettujen satunnaislukujen avulla, kannattaa ylläolevaa keskihajontaa yleensä korjata kertoimella ( n n )/2. Näin saatu tunnusluku on datajoukon (x,..., x n ) otoskeskihajonta ( ) /2 s(x) = (x i m(x)) 2. (6.3) n i= 73
Suurin osa tilasto-ohjelmistoista oletusarvoisesti laskee datajoukon otoskeskihajonnan. Estimointia käsitellään tarkemmin myöhemmissä luvuissa. 6.6 Kahden muuttujan datajoukon korrelaatio Luonnollinen tapa luonnehtia kahden muuttujan datajoukkoa ((x, y ),..., (x n, y n )) on tarkastella satunnaista lukuparia (X, Y ), joka saadaan valitsemalla tasaisen satunnainen lukupari kyseisestä listasta. Tällöin (X, Y ) noudattaa datajoukon empiiristä yhteisjakaumaa, X noudattaa datajoukon (x,..., x n ) empiiristä jakaumaa, ja Y noudattaa datajoukon (y,..., y n ) empiiristä jakaumaa. Luonteva tapa mitata datajoukon muuttujien korrelaatiota on empiirisen yhteisjakauman korrelaatio Cor(X, Y ) = Cov(X, Y ) SD(X) SD(Y ). Tässä empiirisen yhteisjakauman kovarianssi saadaan kaavasta Cov(X, Y ) = n (x i m(x))(y i m(y)) i= ja empiiristen jakaumien keskihajonnat SD(X), SD(Y ) kaavasta (6.2). Empiirisen yhteisjakauman korrelaatio kuvastaa hyvin datajoukon ((x, y ),..., (x n, y n )) muuttujien normitettua yhteisvaihtelua, mutta ei ole tuntemattoman yhteisjakauman estimoinnin kannalta paras mahdollinen tunnusluku. Estimoinnin kannalta parempi korrelaation lauseke saadaan korvaamalla empiirisen yhteisjakauman kovarianssi datajoukon otoskovarianssilla s(x, y) = n (x i m(x))(y i m(y)). i= ja empiiristen jakaumat keskihajonnat kaavan otoskeskihajonnoilla s(x) ja s(y) (kaava (6.3)). Näin saatu tunnusluku r(x, y) = s(x, y) s(x)s(y) on nimeltään datajoukon ((x, y ),..., (x n, y n )) otoskorrelaatio. 6.7 Histogrammi Silloin kun datajoukko sisältää suuren määrän arvoja, saattaa tarkka esiintyvyystaulukko tai empiirinen jakauma olla liian yksityiskohtainen, jotta sen voisi selkeästi hahmottaa. Tällöin on tapana karkeistaa dataa osittamalla arvojoukko pienempään määrään lukuvälejä. Näin saadaan datajoukon luokiteltu esiintyvyystaulukko. Luokitellun esiintyvyystaulukon suhteellisia osuuksia esittävä kuvaaja on datajoukon histogrammi. Histogrammi piirretään yleensä näin: 74
Yksi pylväs per luokka Pylvään leveys = luokkavälin leveys (yksikkönä vuosi) Pylvään korkeus = datapisteiden suhteellinen osuus jaettuna palkin leveydellä (yksikkönä % per vuosi) Seuraava esimerkki valaisee asiaa. Esimerkki 6.2 (Suomalaisten ikärakenne). Suomalaisten ikärakenne 3.2.20 sisältää n = 487 308 miljoonaa datapistettä 2. Ei ole järkeä piirtää jokaista pistettä kuvaajaan, vaan jaetaan datapisteet luokkiin. Esim: Suomalaiset Ikä (v) Lukumäärä 0 4 896 023 24 640 387 2 44 363 4 64 464 640 6 74 642 428 7 480 67. pylväs käsittää suomalaiset, joiden ikä on 0 4 vuotta. pylvään leveys = v Datapisteiden lkm luokassa on 896023 ja suhteellinen osuus 896023/487308 6.3% Pylvään korkeus = 6.3/.09 (yksikkönä % per vuosi). 2 Lähde: Tilastokeskus 7
prosenttia per v 0 0.2 0.4 0.6 0.8.2.4.6 6.3%.7% 24.8% 26.7%.7% 8.8% 0 2 4 6 7 0 v 76
Hakemisto Bayesin kaava, Bernoulli-jakauma, 7 binomijakauma, 7 binomikerroin, 8 bitti, 42 Chebyshevin epäyhtälö, 49 eksponenttijakauma, 2 entropia, 42 ergodinen, 4 erotus, 9 esiintyvyysharha, indikaattorifunktio, 26 jakauma, 2 diskreetti, 23 empiirinen, 70 jatkuva, 23 kertoma, 7 kertymäfunktio, 22 keskihajonta jakauman, 47 satunnaismuuttujan, 47 kombinatoriikka, 6 komplementti, 9 korrelaatio yhteisjakauman, 0 kovarianssi yhteisjakauman, 0 leikkaus, 9 lukumäärä listat, 7 osajoukot, 8 lukumäärä, järjestykset, 7 mitallinen funktio, 33 joukko, 9 momentti, 4 multinomijakauma, 9 normaalijakauma normitettu, 62 osajoukko, 8 ositus, 8 osituskaava, 4 otoskeskihajonta, 73 otoskorrelaatio, 74 otoskovarianssi, 74 perusjoukko, 7 pistemassafunktio, 23 pistetodennäköisyysfunktio, 23 Poisson-jakauma, 24, 67 reunajakauma diskreetti, 28 jatkuva, 28 reunatiheysfunktio diskreetti, 28 jatkuva, 28 riippumattomat satunnaismuuttujat, 30 tapahtumat, 2 satunnaismuuttuja, 20 diskreetti, 23 sigma-algebra, 9 suppeneminen stokastinen, 36 suurten lukujen laki, 36 vahva, 4 tapahtuma, 7 98
poissulkevat, 8 tasajakauma diskreetti, 24 jatkuva, 24 tiheysfunktio, 23 empiirinen, 70 todennäköisyys aksiooma, 0 ehdollinen, 2 frekvenssitulkinta, 38 jakauma, 0 mitta, 0 monotonisuus, 0 summasääntö, 0 tulosääntö, 2 todennäköisyysfunktio, 23 toteuma, 7 tulojoukko, 9 tyhjä joukko, 9 varianssi jakauman, 47 satunnaismuuttujan, 47 yhdiste, 9 yhteisjakauma, 2 diskreetti, 26 jatkuva, 26 tiheysfunktio, 27 99
Kirjallisuutta [JP04] Jean Jacod and Philip Protter. Probability Essentials. Springer, second edition, 2004. [Kal02] Olav Kallenberg. Foundations of Modern Probability. Springer, second edition, 2002. [Wil9] David Williams. Probability with Martingales. Cambridge University Press, 99. 00