Luku 6 Datajoukkoje jakaumat, tuusluvut ja kuvaajat Lasse Leskelä Aalto-yliopisto 28. marraskuuta 207 6. Datajoukko ja datakehikko Tässä moisteessa datajoukko tarkoittaa järjestettyä listaa keskeää samatyyppisiä alkioita, esimerkiksi lukuja, merkkijooja tai äistä muodostettuja listoja. Moiulotteie datajoukko o datajoukko, joka alkiot ovat järjestettyjä listoja. Moiulotteie datajoukko esitetää yleesä datakehikkoa (egl. data frame) eli taulukkoa, joka jokaie rivi vastaa yhtä moiulotteise datajouko alkiota, ja joka sarakkeita kutsutaa datajouko muuttujiksi. Esimerkki 6.. Allaoleva datakehikko kuvastaa fiktiivise kurssi kurssipalautteesta koostettua eliulotteista datajoukkoa ((2345A, 5,, 5), (98759K,, 5, 2), (3332K, 4, 4, 3), (23453B, 4, 4, 3), (2453U, 3, 3, 3)), jossa o yksi merkkijooarvoie muuttuja (opiskelijaumero) ja kolme lukuarvoista muuttujaa (yleisarvio, työläys, hyödyllisyys). Opiskelijaumero Yleisarvio Työläys Hyödyllisyys 2345A 5 5 98759K 5 2 3332K 4 4 3 23453B 4 4 3 2453U 3 3 3 Tämä datajoukko voidaa myös tulkita eljä yksiulotteise datajouko listaa, esimerkiksi muuttujaa Yleisarvio vastaa datajoukko (5,, 4, 4, 3). Datajoukko ei ole tarkassa matemaattisessa mielessä joukko, sillä datajoukossa sama alkio voi esiityä mota kertaa. 76
6.2 Empiirie jakauma Suuresta datajoukosta (x,..., x ) o hakala muodostaa mielikuvaa pelkästää tarkastelemalla sitä vastaavaa datakehikkoa. Silloi kaattaa tutkia eri arvoje esiityvyyksiä. Arvo x esiityvyys eli frekvessi (x) = #{i : x i = x} o datajoukossa arvoltaa x olevie alkioide lukumäärä. Yksiulotteiselle datajoukolle eri arvoje esiityvyydet o tapaa raportoida esiityvyystaulukkoa tai vaakasuutaisea palkkikaavioa. Esimerki 6. datakehiko muuttujaa Yleisarvio vastaava datajouko (5,, 4, 4, 3) esiityvyystaulukko o esitetty alla. 5 x 2 3 4 5 (x) 0 2 4 3 2 0 2 0 2 3 Taulukko 6.: Datajouko (5,, 4, 4, 3) esiityvyydet. Ku halutaa vertailla arvoje esiityvyyksiä moessa erikokoisissa datajoukoissa, o absoluuttiste lukumäärie sijaa suositeltavaa vertailla suhteellisia esiityvyyksiä. Arvo x suhteellie esiityvyys f(x) = (x) (6.) kertoo, mikä osuus datajouko alkioista o arvoltaa x. Suhteelliset esiityvyydet o tapaa raportoida taulukkoa tai pylväskaavioa. Taulukossa 6. esitety datajouko suhteelliset esiityvyydet o esitetty alla. 0.5 0.4 x 2 3 4 5 f(x) 5 0 5 2 5 5 0.3 0.2 0. 0.0 2 3 4 5 Taulukko 6.2: Datajouko (5,, 4, 4, 3) suhteelliset esiityvyydet. Ylläoleva tauluko suhteelliset esiityvyydet ovat ei-egatiivisia ja summautuvat ykköseksi. Tästä seuraa, että kaava (6.) määrittämä fuktio f(x) o joki diskreeti jakauma tiheysfuktio. Kyseie diskreetti jakauma o 77
datajouko (x,..., x ) empiirie jakauma, ja fuktio f(x) sitä vastaava empiirie tiheysfuktio. Seuraava tulos ataa ituitiivise tulkia datajouko empiiriselle jakaumalle. Se mukaa empiirie jakauma voidaa tulkita todeäköisyysjakaumaa satuaismuuttujalle, joka saadaa valitsemalla datajoukosta yksi alkio tasaise satuaisesti. Datajouko empiirie tiheysfuktio f(x) kertoo siis todeäköisyyde, jolla datajoukosta tasaise satuaisesti valittu alkio o arvoltaa x. Fakta 6.2. Datajoukosta (x,..., x ) satuaisotaalla valitu alkio arvo X oudattaa datajouko empiiristä jakaumaa tiheysfuktioa f(x). Lisäksi pätee E[X] = x i (6.2) ja yleisemmi E[g(X)] = i= g(x i ). (6.3) Todistus. Datajoukosta tasaise satuaisesti poimittu alkio voidaa kirjoittaa satuaismuuttujaa X = x I, missä satuaismuuttuja I oudattaa ideksijouko {,..., } tasajakaumaa. Satuaismuuttuja X saa arvo x täsmällee silloi, ku satuaismuuttuja I kuuluu joukkoo A = {i : x i = x}, joka koko o #A = (x). Koska I oudattaa lukujouko {,..., } tasajakaumaa, pätee i= P(X = x) = P(I A) = #A = (x) = f(x). Perustellaa seuraavaksi kaava (6.3). Todetaa esiksi, että g(x i ) = x i= g(x)(x), sillä (x) kertoo lukumäärä, kuika mota kertaa arvo x esiityy yllä vasemma puole summassa. Odotusarvo yleistä laskukaavaa (3.2) ja empiirise tiheysfuktio määritelmää (6.) soveltamalla ähdää, että mielivaltaiselle fuktiolle g pätee E[g(X)] = x g(x)f(x) = x g(x) (x) = g(x)(x) = x g(x i ). i= Kaava (6.2) saadaa erikoistapauksea kaavasta (6.3), ku valitaa g(x) = x. 78
6.3 Ristitaulukko ja empiirie yhteisjakauma Kahde muuttuja datajoukko o järjestetty lista pareja ((x, y ),..., (x, y )). Arvopari (x, y) esiityvyys (x, y) = #{i : x i = x ja y i = y} o datajoukossa arvoltaa (x, y) olevie alkioide lukumäärä. Esimerki 6. muuttujat Yleisarvio ja Hyödyllisyys voidaa koostaa datajoukoksi ((5,5), (,2), (4,3), (4,3), (3,3)). Se arvoparie esiityvyydet voidaa taulukoida muodossa y x 2 3 4 5 Yht 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 4 0 0 2 0 0 2 5 0 0 0 0 Yht 0 3 0 Ylläoleva esitys o muuttujie x ja y esiityvyyksie ristitaulukko (egl. cotigecy table) ja tällaista esitysmeetelmää kutsutaa ristiitaulukoimiseksi (egl. cross tabulatio). Ristitauluko rivisummista saadaa muuttuja x esiityvyydet (vrt. taulukko 6.) ja sarakesummista muuttuja y esiityvyydet. Arvopari (x, y) suhteellie esiityvyys määritellää kaavalla. f(x, y) = (x, y). (6.4) Datajouko ((5,5), (,2), (4,3), (4,3), (3,3)) suhteelliset esiityvyydet voidaa taulukoida muodossa y x 2 3 4 5 Yht 0 0 0 0 5 5 2 0 0 0 0 0 0 3 0 0 0 0 5 5 2 2 4 0 0 0 0 5 5 5 0 0 0 0 5 5 Yht 0 5 3 5 0 Aiva kui yksiulotteisilleki datajoukoille, myös kaksiulotteise datajouko suhteelliset esiityvyydet f(x, y) ovat ei-egatiivisia ja summautuvat ykköseksi. Näi olle ylläoleva taulukko vastaa erää diskreeti yhteisjakauma tiheysfuktiota. Kyseie diskreetti jakauma o datajouko ((x, y ),..., (x, y )) empiirie yhteisjakauma, ja kaava (6.4) määrittämä fuktio f(x, y) sitä vastaava tiheysfuktio. Empiirise yhteisjakauma rivisummista saadaa datajouko (x,..., x ) empiirie jakauma (vrt. taulukko 6.2) ja sarakesummista datajouko (y,..., y ) empiirie jakauma. 79 5
Seuraava tulos tarjoaa todeäköisyystulkia empiiriselle yhteisjakaumalle. Se mukaa empiirie jakauma voidaa tulkita datajoukosta satuaisotaalla valitu pari yhteisjakaumaa, jolloi empiirie tiheysfuktio f(x, y) kertoo todeäköisyyde, jolla datajoukosta satuaisesti valitu pari arvot ovat x ja y. Tulokse todistus o raketeeltaa sama kui fakta 6.2 todistus. Fakta 6.3. Datajoukosta ((x, y ),..., (x, y )) satuaisotaalla valitu pari (X, Y ) yhteisjakauma o datajouko empiirie yhteisjakauma tiheysfuktioa f(x, y). Lisäksi pätee E[X] = x i, E[Y ] = y i, (6.5) ja yleisemmi i= E[g(X, Y )] = i= g(x i, y i ). (6.6) Todistus. Tarkastelu kohteea oleva datajoukko voidaa tulkita yksiulotteisea datajoukkoa (z,..., z ), joka alkiot koostuvat lukupareista z i = (x i, y i ). Satuaisesti valittu lukupari puolestaa voidaa esittää satuaismuuttujaa Z = (X, Y ). Tällöi fakta 6.2 mukaa P(Z = z) = i= ˆf(z), missä ˆf(z) o arvo z suhteellie esiityvyys datajoukossa (z,..., z ). Koska lukupari z = (x, y) suhteelliselle esiityvyydelle pätee ˆf(z) = f(x, y), havaitaa tästä että P(X = x, Y = y) = P(Z = z) = ˆf(z) = f(x, y). Satuaise lukupari (X, Y ) jakauma o siis datajouko empiirie yhteisjakauma. Kaava (6.6) perustelemiseksi tulkitaa g(x, y) yhde muuttuja fuktioa g(z) = g(x, y), joka syötteeä ovat lukuparit z = (x, y). Soveltamalla kaavaa (6.3) datajoukosta (z,..., z ) satuaisesti poimittuu alkioo Z havaitaa, että E[g(X, Y )] = E[ g(z)] = g(z i ) = g(x i, y i ). Näi olle kaava (6.6) o tosi. Kaavat (6.5) seuraavat erikoistapauksia sijoittamalla kaavaa (6.6) g(x, y) = x ja g(x, y) = y. 6.4 Datajouko keskiarvo ja keskihajota Yksiulotteise datajouko empiirie jakauma f(x) ataa hyvä kuva datajouko eri arvoje esiityvyyksistä. Kokoaise fuktio sijaa halutaa kuiteki usei raportoida yksittäisiä lukuja, jotka kuvaavat datajoukkoa. Tällaisia lukuja kutsutaa tuusluvuiksi. Lukuarvoise datajouko x = (x,..., x ) 80 i= i=
sijaitia kuvaavista tuusluvuista yleisi o keskiarvo m(x) = x i. i= Fakta 6.2 mukaa voidaa keskiarvo m(x) tulkita odotusarvoa E(X) datajoukosta satuaisotaalla poimitulle alkiolle X. Datajouko moodi o arvo, joka esiityvyys o suuri mahdollie. Toisi kui keskiarvo, moodi ei välttämättä ole yksikäsitteie. Datajouko hajotaa kuvaavia tuuslukuja ovat empiirie keskihajota sd e (x) = ( ) /2 (x i m(x)) 2, (6.7) i= ja otoskeskihajota sd s (x) = ( ) /2 (x i m(x)) 2. (6.8) i= Empiirie keskihajota o luoteva tapa mitata datajouko (x,..., x ) ormitettua eliöllistä vaihtelua, joka fakta 6.2 mukaa voidaa myös tulkita keskihajotaa SD(X) datajoukosta satuaisotaalla poimitulle alkiolle X. Otoskeskihajotaa puolestaa käytetää usei tilateissa, joissa tutemattoma datalähtee satuaisvaihtelu voimakkuutta pyritää estimoimaa siitä saadu rajallise havaio perusteella (tästä lisää luvussa 7). Empiirie keskihajota ja otoskeskihajota saadaa muuettua toisiksee kaava sd s (x) = ( ) /2 sd e (x) avulla, josta ähdää että sd s (x) sd e (x) suurille datajoukoille. Datajouko empiirie variassi ja otosvariassi määritellää kaavoilla var e (x) = sd e (x) 2 ja var s (x) = sd s (x) 2. (Yhteeveto tuusluvuista o kappaleessa 6.8.) 6.5 Kvatiilit Lukuarvoise datajouko kvatiili tasolla p (0, ) o tuusluku Q(p), joka avulla pilkotaa datajoukko kahtia ii, että alkioista suuri piirtei osuus p sijaitsee luvu Q(p) alapuolella ja loput alkioista luvu Q(p) yläpuolella. Tasoje 0.25, 0.5 ja 0.75 kvatiileja kutsutaa kvartiileiksi ja e tuetaa imillä alakvartiili, mediaai ja yläkvartiili. Tasoje 0.0, 0.02,... kvatiileja puolestaa kutsutaa prosetiileiksi. Yleisesti ottae kvatiilit määritellää järjestämällä datajouko (x,..., x ) alkiot suuruusjärjestyksee muodossa x () x (2) x (). 8
Luku x (k) o datajouko k:es järjestystuusluku. Taso p (0, ) kvatiili määritellää R-ohjelmistossa oletusarvoisesti peräkkäiste järjestystuuslukuje paiotettua keskiarvoa Q(p) = ( γ)x (j) + γx (j+), missä 2 j = p + ( p) ja γ = p + ( p) j. Ylläoleva kuvaus tulkittua p: fuktioksi o datajouko kvatiilifuktio 3. Kvatiilifuktio voi tulkita helpoite piirtämällä se kuvaaja seuraavasti: Jaetaa vaaka-akseli yksikköväli tasapituisee välii päätepisteiä luvut p k = (k )/( ), k =,...,. Piirretää tasoo pisteet (p k, x (k) ) ja yhdistetää e viivoilla. Esimerkki 6.4. Pieessä yrityksessä työsketelee eljä hekilöä, joide bruttopalkat ovat 2500, 3500, 2500, 9500 (eur/kk). Laske bruttopalkkoje järjestystuusluvut, piirrä kvatiilifuktio, ja määritä kvatiilifuktio avulla palkkajakauma alakvartiili, mediaai ja yläkvartiili. Datajouko (2500, 3500, 2500, 9500) järjestystuusluvut ovat x () = 2500, x (2) = 2500, x (3) = 3500 ja x (4) = 9500. Jaetaa vaaka-akseli yksikköväli kolmee yhtäpitkää osavälii päätepisteiä p = 0, p 2 = 3, p 3 = 2 3 ja p 4 =. Kvatiilifuktio kuvaaja saadaa piirtämällä tasoo pisteet (p, x () ),... (p 4, x (4) ) ja yhdistämällä e viivoilla. 0000 8000 6000 4000 2000 0 0.00 0.25 0.50 0.75.00 Kvatiilifuktio kuvaajasta luetaa: alakvartiili Q(0.25) = 2500, mediaai Q(0.5) = 3000 ja yläkvartiili Q(0.75) = 5000. Tässä datajoukossa mediaai 3000 o reilusti pieempi kui keskiarvo 4500. 2 x o luku x pyöristettyä alaspäi kokoaisluvuksi. 3 Kvatiilifuktio määritellää eri yhteyksissä hiema eri tavoi, esim. R-ohjelmisto tarjoaa kahdeksa vaihtoehtoista tapaa kvatiilifuktio laskemisee. 82
6.6 Kaksiulotteise datajouko tuusluvut Kahde muuttuja datajouko ((x, y ),..., (x, y )) yhteisvaihtelu suutaa ja voimakkuutta mitataa yleesä laskemalla empiirie kovariassi cov e (x, y) = (x i m(x))(y i m(y)) tai otoskovariassi cov s (x, y) = i= (x i m(x))(y i m(y)). i= Empiirie kovariassi ja otoskovariassi saadaa muuettua toisiksee kaava ( ) cov s (x) = cov e (x) avulla, josta ähdää että cov s (x) cov e (x) suurille datajoukoille. Kahde muuttuja datajouko korrelaatio määritellää ormittamalla empiirie kovariassi datajoukkoje x ja y empiirisillä keskihajooilla cor(x, y) = cov e(x, y) sd e (x) sd e (y). (6.9) Fakta 6.3 perusteella havaitaa, että empiirie kovariassi voidaa tulkita kovariassia Cov(X, Y ) satuaismuuttujie parille (X, Y ), joka saadaa poimimalla datajoukosta satuaie lukupari. Koska lisäksi pätee sd e (x) = SD(X) ja sd e (y) = SD(Y ), saadaa datajouko korrelaatiolle todeäköisyystulkita cor(x, y) = Cor(X, Y ). Soveltamalla faktaa (4.2) havaitaa, että mielivaltaise datajouko korrelaatio toteuttaa cor(x, y) +. Kaksiulotteie datajoukko voidaa visualisoida hajotakuvioa piirtämällä datajouko lukuparit (x, y)-tasoo. Alla o esitetty hajotakaaviot kolmelle kaksiulotteiselle sada alkio datajoukolle sekä iide korrelaatiot. 20 20 20 0 0 0 0 0 0 0 0 0 20 20 20 20 0 0 0 20 20 0 0 0 20 20 0 0 0 20 cor(x, y) = 0.645 cor(x, y) = 0.44 cor(x, y) = 0.75 83
Koska määritelmässä (6.9) muotoa / olevat termit osoittajassa ja imittäjässä kumoavat toisesa, voidaa datajouko korrelaatio laskea myös muodossa i= cor(x, y) = (x i m(x))(y i m(y)) ( i= (x i m(x)) 2 ) /2 ( i= (y i m(y)) 2 ) /2 tai otoskovariassi ja otoskeskihajotoje avulla muodossa cor(x, y) = cov s(x, y) sd s (x) sd s (y). Datajouko korrelaatiota kutsutaa myös imellä Pearsoi korrelaatiokerroi erotuksea muista, järjestyslukuihi perustuvista korrelaatiokertoimista. 6.7 Histogrammi Silloi ku datajoukko sisältää suure määrä arvoja, saattaa tarkka esiityvyystaulukko tai empiirie jakauma olla liia yksityiskohtaie, jotta se voisi selkeästi hahmottaa. Tällöi o tapaa karkeistaa dataa osittamalla arvojoukko pieempää määrää lukuvälejä. Näi saadaa datajouko luokiteltu esiityvyystaulukko. Luokitellu esiityvyystauluko suhteellisia osuuksia esittävä kuvaaja o datajouko histogrammi. Histogrammi piirretää yleesä äi: Yksi pylväs per luokka Pylvää leveys = luokkaväli leveys (yksikköä vuosi) Pylvää korkeus = datapisteide suhteellie osuus jaettua palki leveydellä (yksikköä % per vuosi) Seuraava esimerkki valaisee asiaa. Esimerkki 6.5 (Suomalaiste ikärakee). Suomalaiste ikärakee 3.2.205 sisältää = 5 487 308 miljooaa datapistettä 4. Ei ole järkeä piirtää jokaista pistettä kuvaajaa, vaa jaetaa datapisteet luokkii. Esim: Suomalaiset Ikä (v) Lukumäärä 0 4 896 023 5 24 640 387 25 44 363 55 45 64 464 640 65 74 642 428 75 480 675 4 Lähde: Tilastokeskus 84
. pylväs käsittää suomalaiset, joide ikä o 0 4 vuotta. pylvää leveys = 5 v Datapisteide lkm luokassa o 896023 ja suhteellie osuus 896023/5487308 6.3% Pylvää korkeus = 6.3/5.09 (yksikköä % per vuosi). prosettia per v 0 0.2 0.4 0.6 0.8.2.4.6 6.3%.7% 24.8% 26.7%.7% 8.8% 0 5 25 45 65 75 0 v 6.8 Yhteeveto Alla o lista datajoukkoje ja satuaismuuttujie tuuslukuihi liittyvistä merkiöistä sekä iitä vastaavat R- ja Excel-komeot. Merkitä Selitys R Excel m(x) Datajouko (x,..., x ) keskiarvo mea(x) AVERAGE sd s(x) Datajouko (x,..., x ) otoskeskihajota sd(x) STDEV.S sd e(x) Datajouko (x,..., x ) empiirie keskihajota - STDEV.P var s(x) Datajouko (x,..., x ) otosvariassi var(x) VAR.S var e(x) Datajouko (x,..., x ) empiirie variassi - VAR.P cov s(x, y) Datajouko ((x, y ),..., (x, y )) otoskovariassi cov(x,y) COVARIANCE.S cov e(x, y) Datajouko ((x, y ),..., (x, y )) empiirie kovariassi - COVARIANCE.P cor(x, y) Datajouko ((x, y ),..., (x, y )) korrelaatio cor(x,y) CORREL E(X) Satuaismuuttuja X jakauma odotusarvo - - SD(X) Satuaismuuttuja X jakauma keskihajota - - Var(X) Satuaismuuttuja X jakauma variassi - - Cov(X, Y ) Satuaismuuttujie X ja Y jakauma kovariassi - - Cor(X, Y ) Satuaismuuttujie X ja Y jakauma korrelaatio - - 85
6.9 Saastoa Alla tässä luvussa esiityyttä saastoa eglaiksi kääettyä. Moet tähä aihepiirii liittyvät termit eivät kuitekaa ole täysi vakiitueita kummassakaa kielessä. suomi alakvartiili datajoukko datakehikko empiirie jakauma empiirie keskihajota empiirie kovariassi empiirie tiheysfuktio empiirie yhteisjakauma esiityvyys esiityvyystaulukko histogrammi järjestystuusluku keskiarvo keskihajota korrelaatio kovariassi kvatiili kvartiili mediaai moodi muuttuja otoskeskiarvo otoskeskihajota otoskorrelaatio otoskovariassi prosetiili ristiitaulukoiti ristitaulukko suhteellie esiityvyys taulukko tuusluku yläkvartiili eglati lower quartile data set data frame empirical distributio empirical/populatio stadard deviatio empirical/populatio covariace empirical desity fuctio empirical joit distributio frequecy cotigecy table histogram order statistic mea, average stadard deviatio correlatio covariace quatile quartile media mode variable sample mea/average sample stadard deviatio sample correlatio sample covariace percetile cross tabulatio cotigecy table relative frequecy table statistic upper quartile 86
Hakemisto alakvartiili, 8 Bayesi kaava, 7, 06 Beroulli-jakauma, 63, 88 betajakauma, 0 biomijakauma, 63 biomikerroi, 20 bitti, 47 Chebyshevi epäyhtälö, 54 datajoukko, 76 datakehikko, 76 ekspoettijakauma, 28 empiirie kovariassi, 82 etropia, 47 ergodie, 50 erotus, esiityvyysharha, 7 estimaattori, 97 harhato estimaattori, 97 hylkäysalue, 29 hyperparametri, 2 idikaattorifuktio, 29 järjestystuusluku, 8 jakauma, 24 diskreetti, 26 empiirie, 77, 79 jatkuva, 26 kertoma, 20 kertymäfuktio, 25 keskiarvo, 80 keskihajota jakauma, 52 satuaismuuttuja, 52 keskieliövirhe, 94 kombiatoriikka, 8 komplemetti, korrelaatio yhteisjakauma, 56 kovariassi yhteisjakauma, 55 kvatiilifuktio, 8 kvartiili, 8 leikkaus, lukumäärä listat, 9 osajoukot, 20 lukumäärä, järjestykset, 20 mediaai, 8 merkitsevyystaso, 26 mitallie fuktio, 37 joukko, 2 mometti, 46 moodi, 80 multiomijakauma, 35 muuttuja, 76 ollahypoteesi, 23 ormaalijakauma ormitettu, 69 osajoukko, 0 ositus, 0 osituskaava, 6 otoskovariassi, 82 p-arvo, 24 perusjoukko, 9 pieimmä eliösumma meetelmä, 94 pistemassafuktio, 26 38
pistetodeäköisyysfuktio, 26 Poisso-jakauma, 27, 74 posteriorijakauma, 06 priorijakauma, 06 prosetiili, 8 reuajakauma diskreetti, 32 jatkuva, 32 reuatiheysfuktio diskreetti, 32 jatkuva, 32 riippumattomat satuaismuuttujat, 33 tapahtumat, 4 satuaismuuttuja, 23 diskreetti, 26 sigma-algebra, 2 suppeemie stokastie, 4 suurimma uskottavuude estimaatti, 89 suurte lukuje laki, 4 vahva, 50 toteuma, 9 tulojoukko, tyhjä joukko, uskottavuusfuktio, 89, 06 logaritmie, 90 variassi jakauma, 52 satuaismuuttuja, 52 vastahypoteesi, 23 yhdiste, yhteisjakauma, 28 diskreetti, 30 jatkuva, 30 tiheysfuktio, 30 yläkvartiili, 8 tapahtuma, 9 poissulkevat, 0 tasajakauma diskreetti, 27 jatkuva, 27 tiheysfuktio, 26 empiirie, 77 tilastollie merkitsevyys, 24 tilastollie testi, 23 todeäköisyys aksiooma, 2 ehdollie, 4 frekvessitulkita, 43 jakauma, 2 mitta, 2 mootoisuus, 2 summasäätö, 2 tulosäätö, 4 todeäköisyysfuktio, 26 todeäköisyysväli, 20 39
Kirjallisuutta [JP04] Jea Jacod ad Philip Protter. Probability Essetials. Spriger, secod editio, 2004. [Kal02] Olav Kalleberg. Foudatios of Moder Probability. Spriger, secod editio, 2002. [Wil9] David Williams. Probability with Martigales. Cambridge Uiversity Press, 99. 40