Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Samankaltaiset tiedostot
Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Keskihajonta ja korrelaatio

Bayesläiset tilastolliset mallit

Satunnaismuuttujan odotusarvo ja laskusäännöt

Satunnaismuuttujien summa ja keskiarvo

Satunnaismuuttujien summa ja keskiarvo

Satunnaismuuttujan odotusarvo ja laskusäännöt

Liite B. Suomi englanti-sanasto

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

Todennäköisyyden käsite ja laskusäännöt

30A02000 Tilastotieteen perusteet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Satunnaismuuttujat ja jakaumat

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Ilkka Mellin (2008) 1/5

Stokastiikka ja tilastollinen ajattelu

Stokastiikka ja tilastollinen ajattelu

Stokastiikka ja tilastollinen ajattelu

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 2: Matlab - Statistical Toolbox

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Johdatus tn-laskentaan perjantai

Stokastiikka ja tilastollinen ajattelu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Tilastollinen aineisto Luottamusväli

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

Todennäköisyyslaskenta. β versio. Todennäköisyyslaskenta. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio. Ilkka Mellin (2006) I

Todennäköisyyden käsite ja laskusäännöt

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

Moniulotteisia todennäköisyysjakaumia

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastomatematiikka Kevät 2008

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Verkot ja todennäköisyyslaskenta Verkko Verkko eli graafi muodostuu pisteiden joukosta V, särmien joukosta A ja insidenssikuvauksesta : A V V jossa

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Teema 7: Todennäköisyyksien laskentaa

Johdatus todennäköisyyslaskentaan Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

((12345A, 5, 1, 5), (98759K, 1, 5, 2), (33312K, 4, 4, 3), (23453B, 4, 4, 3), (21453U, 3, 3, 3)),

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Jatkuvat satunnaismuuttujat

Todennäköisyyden ominaisuuksia

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

7. laskuharjoituskierros, vko 10, ratkaisut

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut

Moniulotteiset satunnaismuuttujat ja jakaumat

Esimerkki 1: auringonkukan kasvun kuvailu

dx=2&uilang=fi&lang=fi&lvv=2015

Luottamusvälit. Normaalijakauma johnkin kohtaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskenta

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Osa 2: Otokset, otosjakaumat ja estimointi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Yleistä tietoa kokeesta

Transkriptio:

Luku 6 Datajoukkojen jakaumat, tunnusluvut ja kuvaajat Lasse Leskelä Aalto-yliopisto. lokakuuta 207 6. Datajoukko ja datakehikko Tässä monisteessa datajoukko tarkoittaa järjestettyä listaa keskenään samantyyppisiä alkioita, esimerkiksi lukuja, lukupareja, kirjaimia tai merkkijonoja. Datakehikko puolestaan on kaksiulotteinen taulukko, jonka jokaisen sarakkeen alkiot ovat keskenään samaa tyyppiä. Datakehikon sarakkeita kutsutaan muuttujiksi. Allaoleva datakehikko kuvastaa fiktiivisen kurssin kurssipalautetta, jossa muuttujaa Yleisarvio vastaa datajoukko (,, 4, 4, 3). Koska opiskelijoita on Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 234A 9879K 2 3332K 4 4 3 2343B 4 4 3 243U 3 3 3 Taulukko 6.: Opiskelijoiden kurssipalautteen datakehikko. vain viisi, saa datakehikkoa vilkaisemalla suoraan hyvän mielikuvan kurssipalautteesta. Suurempien datajoukkojen kohdalla (esim. yli sadan oppilaan kurssipalaute) ei datakehikkoa suoraan tarkastelemalla ole helppoa tehdä päätelmiä datasta, vaan avuksi tarvitaan kuvaajia, jakaumia ja tunnuslukuja. Datajoukko ei ole tarkassa matemaattisessa mielessä joukko, sillä datajoukossa sama alkio voi esiintyä monta kertaa. 69

6.2 Esiintyvyystaulukko ja empiirinen jakauma Datajoukon esiintyvyystaulukko eli frekvenssitaulukko on taulukko, josta voidaan lukea kuinka monta kertaa mikäkin arvo esiintyy. Esimerkiksi ylläolevan datakehikon muuttujaa x = Yleisarvio vastaavan datajoukon (,, 4, 4, 3) esiintyvyystaulukko on esitetty alla. x 2 3 4 Lukumäärä 0 2 Taulukko 6.2: Datajoukon Yleisarvio esiintyvyydet. Esiintyvyystaulukko yleensä visualisoidaan palkkikaaviona 4 3 2 0 2 0 2 3 Datajoukon arvojen suhteelliset esiintyvyydet saadaan jakamalla esiintyvyystaulukon lukumäärät datajoukon koolla, jolloin saadaan allaoleva taulukko. Yleisen datajoukon (x,..., x n ) arvojen suhteelliset osuudet voidaan myös x 2 3 4 Osuus 0 Taulukko 6.3: Datajoukon Yleisarvio suhteelliset esiintyvyydet. ilmaista funktiona f(x) = #{ i n : x i = x}, (6.) n jonka lähtöjoukko sisältää datajoukon erilliset arvot. Koska suhteelliset osuudet ovat ei-negatiivisia ja summautuvat ykköseksi, on f(x) erään diskreetin jakauman tiheysfunktio. Kyseinen jakauma on datajoukon (x,..., x n ) empiirinen jakauma, ja kaavan (6.) funktio sitä vastaava empiirinen tiheysfunktio. Listasta (x,..., x n ) tasaisen satunnaisesti poimittu arvo on diskreetti satunnaismuuttuja, joka noudattaa empiiristä jakaumaa. Empiirisen tiheysfunktion arvo f(x) siis kertoo, millä todennäköisyydellä datajoukosta tasaisen satunnaisesti valittu alkio on arvoltaan x. Kuten muutkin diskreettien jakaumien tiheysfunktiot, empiiriset tiheysfunktiot on tapana esittää pylväskaaviona 2 70

0. 0.4 0.3 0.2 0. 0.0 2 3 4 6.3 Ristitaulukko ja empiirinen yhteisjakauma Kahden muuttujan datajoukko on järjestetty lista pareja ((x, y ),..., (x n, y n )). Sen esiintyvyystaulukko ilmaisee, miten monta kertaa mikäkin pari esiintyy datajoukossa. Taulukon 6. datakehikon muuttujat x = Yleisarvio ja y = Hyödyllisyys voidaan koostaa datajoukoksi ((, ), (, 2), (4, 3), (4, 3), (3, 3)) ja sitä vastaava esiintyvyystaulukko on luontevaa kirjoittaa muodossa y x 2 3 4 Yht 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 4 0 0 2 0 0 2 0 0 0 0 Yht 0 3 0 Ylläoleva esitys on muuttujien x ja y esiintyvyyksien ristitaulukko (engl. contingency table) ja tällaista esitysmenetelmää kutsutaan ristiintaulukoimiseksi (engl. cross tabulation). Ristitaulukon rivisummista saadaan muuttujan x esiintyvyydet (vrt. taulukko 6.2) ja sarakesummista muuttujan y esiintyvyydet. Jakamalla esiintyvyystaulukon alkiot datajoukon koolla saadaan lukuparien (x i, y i ) suhteelliset osuudet taulukoitua muodossa y x 2 3 4 Yht 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 2 2 4 0 0 0 0 0 0 0 0 Yht 0 3 0 7

Koska suhteelliset ovat ei-negatiivisia ja summautuvat ykköseksi, vastaa ylläoleva taulukko erään kahden muuttujan yhteisjakauman tiheysfunktiota. Kyseinen yhteisjakauma on kahden muuttujan datajoukon ((, ), (, 2), (4, 3), (4, 3), (3, 3)) empiirinen yhteisjakauma. Aivan kuin yleisillekin diskreeteille yhteisjakaumille, myös empiirisen yhteisjakauman rivisummista saadaan x:n empiirinen jakauma (vrt. taulukko 6.3) ja sarakesummista y:n empiirinen jakauma. Jos datajoukosta valitaan tasaisen satunnaisesti pari (X, Y ), niin tällöin X:n ja Y :n yhteisjakauma on empiirinen yhteisjakauma. Jos taulukon 6. datakehikosta valitaan tasaisen satunnainen opiskelija, niin empiirisen yhteisjakauman tiheysfunktio f(x, y) kertoo, millä todennäköisyydellä kyseinen opiskelija antaa yleisarvioksi x ja hyödyllisyydeksi y. 6.4 Datajoukon sijaintia kuvaavat tunnusluvut Lukuarvoisen datajoukon (x,..., x n ) sijaintia kuvaavista tunnusluvuista tyypillisin on keskiarvo x i. n i= Datajoukon keskiarvo on myös datajoukon empiirisen jakauman odotusarvo. Muita yleisesti käytettyjä tunnuslukuja ovat tyyppiarvo ja mediaani. Datajoukon tyyppiarvo eli moodi on arvo, jonka esiintyvyys on suurin mahdollinen. Tyyppiarvo ei välttämättä ole yksikäsitteinen. Lukuarvoisen datajoukon mediaani on sellainen luku q, että datapisteistä vähintään puolet sisältyy välille (, q] ja vähintään puolet välille [q, ). Mediaani määritetään järjestämällä datapisteet ensin suuruusjärjestykseen x () x (2) x (n). Kun datapisteiden lukumäärä n on pariton, saadaan mediaani poimimalla järjestyn listan (x (),..., x (n) ) keskimmäinen arvo x (n+)/2. Kun taas datapisteiden lukumäärä on parillinen, voidaan mediaaniksi periaatteessa valita mikä tahansa luku väliltä [x n/2, x (n+)/2 ]. Useimmat tilasto-ohjelmistot palauttavat tässä tapauksessa mediaaniksi keskiarvon (x 2 n/2 + x (n+)/2 ). Tässä monisteessa noudatetaan samaa käytäntöä. Mediaani jakaa suuret datajoukot, joissa sama arvo ei toistu, likimain kahteen yhtä suureen osaan. Tällöin nimittäin avoimille välille (, q) ja (q, ) sisältyvien datapisteiden osuus on joko ( /n) (kun datapisteiden lukumäärä on parillinen); tai täsmälleen (kun datapisteiden lukumäärä on pa- 2 2 2 riton). Esimerkki 6.. Määritä datajoukkojen x = (,,,, 000) ja y = (,,, 7) keskiarvo, tyyppiarvo ja mediaani. Datajoukkojen keskiarvot ovat m(x) = ( + + + + 000) = 20.6, m(y) = ( + + + 7) = 3.. 4 72

Molempien datajoukkojen tyyppiarvo on. Datajoukon x pisteet suuruusjärjestettynä listana ovat (,,,, 000). Mediaani on kyseisen listan keskimmäinen piste eli. Datajoukon y pisteet suuruusjärjestettynä listana ovat (,,, 7). Näin ollen y:n mediaaniksi voidaan valita välin [, ] keskipiste ( )/2 = 2. Lukuarvoisen datajoukon (x,..., x n ) tason p (0, ) kvantiili on sellainen luku q, että välille (, q] sisältyvien datapisteiden osuus on vähintään p ja välille [q, ) sisältyvien datapisteiden osuus vähintään p. Tason p = 0. kvantiili on mediaani. Tasojen p = 0.2 ja p = 0.7 kvantiilit tunnetaan nimillä alakvartiili ja yläkvartiili. Tason k/00 kvantiileja kutsutaan prosenttipisteiksi tai prosentiileiksi. Kuten mediaaninkin tapauksessa, kvantiilit eivät yleensä aina ole yksikäsitteisesti määriteltyjä. Kirjallisuudesta löytyy itse asiassa monia eri tapoja määritellä yleinen kvantiili (katso esim. R-ohjelmiston ohjetiedostoja). Kvantiilit voidaan määritellä myös yleisen lukuarvoisen satunnaismuuttujan X jakaumalle. Tällöin tason p kvantiili on sellainen luku q, että P(X q) p ja P(X q) p. Jos X:n kertymäfunktiolla F X (t) on olemassa käänteisfunktio, saadaan kvantiilit määritettyä käänteisfunktiosta kaavalla q = F X (p). Yleisen kontekstin näkökulmasta siis datajoukon (x,..., x n ) kvantiili on datajoukon empiirisen jakauman kvantiili. 6. Datajoukon keskihajonta Luonnollinen tapa luonnehtia lukuarvoisen datajoukon (x,..., x n ) hajontaa on tarkastella satunnaismuuttujaa X, joka määritellään valitsemalla tasaisen satunnaisesti alkio listasta (x,..., x n ). Tällöin X noudattaa datajoukon empiiristä jakaumaa odotusarvona E(X) = n i= x i = m(x). Datajoukon (x,..., x n ) empiirisen jakauman keskihajonta on luku ( ) /2 SD(X) = (x i m(x)) 2. (6.2) n i= Tämä luku kuvastaa normitettua keskiarvoista neliöpoikkeamaa laskettuna suuresta määrästä satunnaislukuja, jotka on poimittu tasaisen satunnaisesti ja toisistaan riippumattomasti datajoukosta (x,..., x n ). Silloin kun tuntemattoman jakauman keskihajontaa pyritään estimoimaan siitä tuotettujen satunnaislukujen avulla, kannattaa ylläolevaa keskihajontaa yleensä korjata kertoimella ( n n )/2. Näin saatu tunnusluku on datajoukon (x,..., x n ) otoskeskihajonta ( ) /2 s(x) = (x i m(x)) 2. (6.3) n i= 73

Suurin osa tilasto-ohjelmistoista oletusarvoisesti laskee datajoukon otoskeskihajonnan. Estimointia käsitellään tarkemmin myöhemmissä luvuissa. 6.6 Kahden muuttujan datajoukon korrelaatio Luonnollinen tapa luonnehtia kahden muuttujan datajoukkoa ((x, y ),..., (x n, y n )) on tarkastella satunnaista lukuparia (X, Y ), joka saadaan valitsemalla tasaisen satunnainen lukupari kyseisestä listasta. Tällöin (X, Y ) noudattaa datajoukon empiiristä yhteisjakaumaa, X noudattaa datajoukon (x,..., x n ) empiiristä jakaumaa, ja Y noudattaa datajoukon (y,..., y n ) empiiristä jakaumaa. Luonteva tapa mitata datajoukon muuttujien korrelaatiota on empiirisen yhteisjakauman korrelaatio Cor(X, Y ) = Cov(X, Y ) SD(X) SD(Y ). Tässä empiirisen yhteisjakauman kovarianssi saadaan kaavasta Cov(X, Y ) = n (x i m(x))(y i m(y)) i= ja empiiristen jakaumien keskihajonnat SD(X), SD(Y ) kaavasta (6.2). Empiirisen yhteisjakauman korrelaatio kuvastaa hyvin datajoukon ((x, y ),..., (x n, y n )) muuttujien normitettua yhteisvaihtelua, mutta ei ole tuntemattoman yhteisjakauman estimoinnin kannalta paras mahdollinen tunnusluku. Estimoinnin kannalta parempi korrelaation lauseke saadaan korvaamalla empiirisen yhteisjakauman kovarianssi datajoukon otoskovarianssilla s(x, y) = n (x i m(x))(y i m(y)). i= ja empiiristen jakaumat keskihajonnat kaavan otoskeskihajonnoilla s(x) ja s(y) (kaava (6.3)). Näin saatu tunnusluku r(x, y) = s(x, y) s(x)s(y) on nimeltään datajoukon ((x, y ),..., (x n, y n )) otoskorrelaatio. 6.7 Histogrammi Silloin kun datajoukko sisältää suuren määrän arvoja, saattaa tarkka esiintyvyystaulukko tai empiirinen jakauma olla liian yksityiskohtainen, jotta sen voisi selkeästi hahmottaa. Tällöin on tapana karkeistaa dataa osittamalla arvojoukko pienempään määrään lukuvälejä. Näin saadaan datajoukon luokiteltu esiintyvyystaulukko. Luokitellun esiintyvyystaulukon suhteellisia osuuksia esittävä kuvaaja on datajoukon histogrammi. Histogrammi piirretään yleensä näin: 74

Yksi pylväs per luokka Pylvään leveys = luokkavälin leveys (yksikkönä vuosi) Pylvään korkeus = datapisteiden suhteellinen osuus jaettuna palkin leveydellä (yksikkönä % per vuosi) Seuraava esimerkki valaisee asiaa. Esimerkki 6.2 (Suomalaisten ikärakenne). Suomalaisten ikärakenne 3.2.20 sisältää n = 487 308 miljoonaa datapistettä 2. Ei ole järkeä piirtää jokaista pistettä kuvaajaan, vaan jaetaan datapisteet luokkiin. Esim: Suomalaiset Ikä (v) Lukumäärä 0 4 896 023 24 640 387 2 44 363 4 64 464 640 6 74 642 428 7 480 67. pylväs käsittää suomalaiset, joiden ikä on 0 4 vuotta. pylvään leveys = v Datapisteiden lkm luokassa on 896023 ja suhteellinen osuus 896023/487308 6.3% Pylvään korkeus = 6.3/.09 (yksikkönä % per vuosi). 2 Lähde: Tilastokeskus 7

prosenttia per v 0 0.2 0.4 0.6 0.8.2.4.6 6.3%.7% 24.8% 26.7%.7% 8.8% 0 2 4 6 7 0 v 76

Hakemisto Bayesin kaava, Bernoulli-jakauma, 7 binomijakauma, 7 binomikerroin, 8 bitti, 42 Chebyshevin epäyhtälö, 49 eksponenttijakauma, 2 entropia, 42 ergodinen, 4 erotus, 9 esiintyvyysharha, indikaattorifunktio, 26 jakauma, 2 diskreetti, 23 empiirinen, 70 jatkuva, 23 kertoma, 7 kertymäfunktio, 22 keskihajonta jakauman, 47 satunnaismuuttujan, 47 kombinatoriikka, 6 komplementti, 9 korrelaatio yhteisjakauman, 0 kovarianssi yhteisjakauman, 0 leikkaus, 9 lukumäärä listat, 7 osajoukot, 8 lukumäärä, järjestykset, 7 mitallinen funktio, 33 joukko, 9 momentti, 4 multinomijakauma, 9 normaalijakauma normitettu, 62 osajoukko, 8 ositus, 8 osituskaava, 4 otoskeskihajonta, 73 otoskorrelaatio, 74 otoskovarianssi, 74 perusjoukko, 7 pistemassafunktio, 23 pistetodennäköisyysfunktio, 23 Poisson-jakauma, 24, 67 reunajakauma diskreetti, 28 jatkuva, 28 reunatiheysfunktio diskreetti, 28 jatkuva, 28 riippumattomat satunnaismuuttujat, 30 tapahtumat, 2 satunnaismuuttuja, 20 diskreetti, 23 sigma-algebra, 9 suppeneminen stokastinen, 36 suurten lukujen laki, 36 vahva, 4 tapahtuma, 7 98

poissulkevat, 8 tasajakauma diskreetti, 24 jatkuva, 24 tiheysfunktio, 23 empiirinen, 70 todennäköisyys aksiooma, 0 ehdollinen, 2 frekvenssitulkinta, 38 jakauma, 0 mitta, 0 monotonisuus, 0 summasääntö, 0 tulosääntö, 2 todennäköisyysfunktio, 23 toteuma, 7 tulojoukko, 9 tyhjä joukko, 9 varianssi jakauman, 47 satunnaismuuttujan, 47 yhdiste, 9 yhteisjakauma, 2 diskreetti, 26 jatkuva, 26 tiheysfunktio, 27 99

Kirjallisuutta [JP04] Jean Jacod and Philip Protter. Probability Essentials. Springer, second edition, 2004. [Kal02] Olav Kallenberg. Foundations of Modern Probability. Springer, second edition, 2002. [Wil9] David Williams. Probability with Martingales. Cambridge University Press, 99. 00