Geneettinen analyysi. Tilastotieteen kertausta

Samankaltaiset tiedostot
Tilastollinen aineisto Luottamusväli

Harjoitus 2: Matlab - Statistical Toolbox

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

30A02000 Tilastotieteen perusteet

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Jatkuvat satunnaismuuttujat

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta. Osa 3: Todennäköisyysjakaumia. Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2007) 1

D ( ) Var( ) ( ) E( ) [E( )]

Matemaatikot ja tilastotieteilijät

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

dx=2&uilang=fi&lang=fi&lvv=2015

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit laatueroasteikollisille muuttujille

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

pisteet Frekvenssi frekvenssi Yhteensä

Teema 7: Todennäköisyyksien laskentaa

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Vilkkumaa / Kuusinen 1

52746 Geneettinen analyysi

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Normaalijakaumasta johdettuja jakaumia

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

&idx=2&uilang=fi&lang=fi&lvv=2015

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

dx=5&uilang=fi&lang=fi&lvv=2014

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

&idx=2&uilang=fi&lang=fi&lvv=2015

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Todennäköisyyden ominaisuuksia

Sovellettu todennäköisyyslaskenta B

4. laskuharjoituskierros, vko 7, ratkaisut

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

6. laskuharjoitusten vastaukset (viikot 10 11)

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Mat Tilastollisen analyysin perusteet, kevät 2007

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Mat Tilastollisen analyysin perusteet, kevät 2007

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

3.7 Todennäköisyysjakaumia

Testejä suhdeasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

riippumattomia ja noudattavat samaa jakaumaa.

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Verkot ja todennäköisyyslaskenta Verkko Verkko eli graafi muodostuu pisteiden joukosta V, särmien joukosta A ja insidenssikuvauksesta : A V V jossa

Tilastolliset jakaumat, niiden esittäminen ja tunnusluvut

Transkriptio:

Kertaus: Luento 1 Todennäköisyyksien perusperiaatteita Testille suotuisten tapauksien joukko Toisensa poissulkevat tapaukset Leikkaus Yhdiste Komplementti Riippumattomat tapahtumat, niiden kertolasku Ehdollinen todennäköisyys Venn-diagrammit Permutaatiot ja kombinaatiot Binomitodennäköisyys Yhteistodennäköisyys

Geneettinen analyysi Tilastotieteen kertausta

Tilastotieteen rooli biologiassa / genetiikassa Esim. näytteet Tvärminnen kalliolammikoiden vesikirppupopulaatioista, vertaillaan kirppujen kokoa lammikoittain tai vaikkapa muuntogeeninen hiirilinja jonka perusteella pitäisi arvioida tuodun geenin vaikutus hiiren muiden geenien ekspressoitumiseen Miten analysoida tätä informaatiota? Mitä menetelmiä voi käyttää missäkin tilanteessa?

Tilastotieteen rooli biologiassa / genetiikassa Tilastotieteen menetelmiä käyttämällä haluamme päätellä jotakin yleistä, koko vesikirppupopulaatiota tai hiiren geeniekspressiotasoa tätä tarkoitusta varten poimitun otoksen/tehdyn kokeen avulla: haluamme selvittää, ovatko eri otokset peräisin samanlaisista populaatioista (esim. ovatko eri lammikoiden vesikirppupopulaatiot keskenään saman vai erikokoisia?) verrata havaittua jakaumaa teoreettisesti ennustettuun

Deskriptiivinen eli kuvaileva tilastotiede Aineiston tiivistäminen Hyvin oleellinen osa tilastollista analyysiä on tiivistää ja kuvata datan antamaa informaatiota selkeällä ja ymmärrettävällä tavalla. Esimerkiksi, tutkija on hankkinut kaikkiaan 250 vesikirppua kalliolammikoista. Miten kuvailla aineistoa? Numeerinen ja graafinen lähestymistapa: Vesikirppujen koon keskiarvo ja keskihajonta eri lammikoissa. Piirretään scatter plot, jossa x-akselilla on vesikirpun koko ja y- akselilla asuinlammikon lämpötila. Graafiset menetelmät soveltuvat numeerisia paremmin erilaisten systemaattisuuksien havaitsemiseen aineistossa. Numeeriset ovat taas tarkempia ja objektiivisempia. Koskapa graafiset ja numeeriset lähestymistavat täydentävät toisiaan, on viisasta käyttää aina molempia. https://www.khanacademy.org/math/probability/descriptive-statistics

Numeerinen vs Graafinen tapa Sama aineisto kuvattuna eri tavoin: Numeerisesti 200 havaintoa joiden keskiarvo on 0.04 ja keskihajonta on 1.04 200 havaintoa joiden mediaani on 0, minimi on -4.0 ja maksimi on 2.7 Graafisesti histogrammina sirontakuvana

Luokka- ja määrämuuttujat Tilastollista aineistoa käsiteltäessä aineiston muuttujat voidaan laadun perusteella jakaa kahteen ryhmään: Luokkamuuttujat ja määrämuuttujat Luokkamuuttujia ovat esim. väri, sukupuoli määrämuuttujat voidaan edelleen jakaa kahteen alaryhmään: diskreetit muuttujat (esim. raajojen määrä, jälkeläisten määrä) jatkuvat muuttujat (esim. pituus, paino, ikä) Jos tutkittava muuttuja on ainakin intervalliasteikkoinen, voidaan oleellisin tieto tiivistää muutamaan tunnuslukuun, kuten keskiarvoon ja hajontaan. Tilastollista aineistoa voidaan helposti kuvata joillakin melko yksinkertaisilla arvoilla Jos aineisto järjestetään luokkiin, sitä luokkaa, jolla on suurin frekvenssi kutsutaan tyyppiluokaksi tai arvoksi eli moodiksi.

Numeerinen aineiston tiivistys Tilastollista aineistoa voidaan helposti kuvata joillakin melko yksinkertaisilla arvoilla Jos tutkittava muuttuja on ainakin intervalliasteikkoinen, voidaan oleellisin tieto tiivistää muutamaan tunnuslukuun, kuten keskiarvoon ja hajontaan. Jos aineisto järjestetään luokkiin, sitä luokkaa, jolla on suurin frekvenssi kutsutaan tyyppiluokaksi tai arvoksi eli moodiksi. Sitä arvoa, joka jakaa aineiston kahteen yhtä suureen osaan, sanotaan mediaaniksi. Jos aineistossa on parillinen määrä muuttujia, mediaani on kahden keskimmäisen arvon puolivälissä

Numeerinen aineiston tiivistys Kvartiilit ovat ne arvot, jotka jakavat aineiston neljään yhtä suureen osaan. keskimmäinen kvartiili on sama kuin mediaani yläkvartiilin arvon alle jää kolme neljäsosaa aineistosta, vastaavasti alakvartiilin arvon yläpuolelle jää kolme neljäsosaa aineistosta kvartiilien arvot määräytyvät samalla tavalla kuin mediaaninkin Vaihteluväli on aineiston suurimman ja pienimmän luvun erotus

Numeerinen aineiston tiivistys Eri lukuja jotka tiivistävät esimerkkiaineiston Keskiarvo: -0.04 ja keskihajonta 1.04 Kvartiilit: -4.01, -0.75, 0.00, 0.64, 2.74 Vaihteluväli: 6.8 Huomioita: Keskiarvo ja mediaani eroavat vähän toisistaan. Kvartiilien rajat -0.75 ja 0.64 ovat lähempänä mediaania ja keskiarvoa kuin mitä keskihajonnan (1.04) perusteella kuvittelisi

Esimerkki 20. Alla on esitetty 50 opiskelijan sykkeet 62 64 65 66 68 70 71 71 72 72 73 74 74 75 75 76 77 77 77 78 78 78 79 79 79 80 80 80 80 81 81 81 81 82 82 82 83 83 85 85 86 87 87 88 89 90 90 92 94 96 Aineiston vaihteluväli on 34 (96-62) ja mediaaniarvo (25.s arvo) on 79 ja 80 puolivälissä, eli 79,5. Vastaavasti 12. ja 13. arvot ovat 74 ja 74, joten alakvartiili on 74. Yläkvartiiliksi saadaan 84, sillä se on 37:nnen (83) ja 38:nnen arvon (85) välissä. Tässä aineistossa vaikuttaisi olevan kaksi moodiarvoa, 80 ja 81. Moodi on helpompi selvittää, jos arvoja yhdistetään luokiksi esim. seuraavan taulukon mukaisesti:

Syke-aineisto Syke määrä 60-64 2 65-69 3 70-74 8 75-79 12 80-84 13 85-89 7 90-94 4 95-99 1 Nyt moodiluokaksi saadaan 80-84. yht. 50

Keskiarvo Määrämuuttujista koostuvaa aineistoa kuvataan yleisimmin keskiarvolla Aritmeettinen keskiarvo lasketaan summaamalla kaikki arvot ja jakamalla aineiston alkioiden kokonaislukumäärällä x n i1 n x i

Huom! Keskiarvo ja mediaani eivät välttämättä ole samansuuruisia Esim. Edellisestä aineistosta saadaan keskiarvoksi 79,1 lyöntiä minuutissa (huomaa ero mediaaniin).

Hajonta Keskihajonta, s, kuvaa aineiston keskimääräistä etäisyyttä keskiarvosta (positiivista tai negatiivista) Otetaan havainnon ja keskiarvon erotuksen neliö Keskihajonnan neliö s 2 on varianssi käsiteltäessä otosvarianssia ja -keskihajontaa, nimittäjänä käytetään n-1 pelkän aineistokoon (n) sijaan. s n i1 x i n x 2

Keskiarvon keskivirhe Kun halutaan arvioida, kuinka paljon samasta perusjoukosta peräisin olevien otosten keskiarvot vaihtelevat, käytetään keskiarvon keskivirhettä (SE) keskiarvon keskivirhe saadaan jakamalla otoksen keskihajonta otoskoon neliöjuurella Keskiarvon keskivirhe ilmaisee otoksen keskiarvon tarkkuuden, ts. eri toistokerroilla poimittujen otosten keskiarvojen hajonnan S x s n

Esimerkki 21. Alla on kahdessa eri kokeessa saadut aineistot. Mitkä ovat niiden keskiarvot ja keskihajonnat? 6 24 37 49 64 111 114 117 118 119 Vastaus: aineistolle a) x 6 24 37 49 64 5 36 s 2 (6 36) 2 (12 36) 2 (37 36) 5 2 (49 36) 2 (64 36) 2 1998 5 399,6 s s 2 399,6 20

Vastaavasti aineistolle b) arvot ovat x=116, s 2 = 10 ja s = 3,16

Esimerkki kvartiilien käytöstä tulosanalyysissä Tutkimuksessa testattiin menetelmää oikealla datalla (musta viiva) ja sotketulla datalla (Mishra et al. in review) Tavoitteena oli esittää miten varsinainen ja sotkettu analyysi eroavat toisistaan Datan sotkeminen toistettiin tuhat kertaa Tuhatta viivaa esittävä kuvaaja on sekava Kvartiilien käytöllä kuvaajasta tulee selkeämpi (mukana myös 10% ja 90 % rajat)

Inferentiaalinen tilastotiede Tilastollinen päättely Tilastotiedettä käytetään usein apuna päätöksen teossa Onko lääkeyhdiste aiheuttama parannus ollut merkittävä? Onko geenin X aktiivisuus muuttunut selkeästi kahden koeeläinryhmän välillä Tilastotieteitä käytetään myös arvioitaessa parametreja, kuten muutoksia aineistoista Kuinka paljon geenin X aktiivisuus on muuttunut? Kuinka paljon on haitallisia bakteereita järven vedessä? Näihin kysymyksiin pyritään vastaamaan tilastollisen päättelyn avulla. http://en.wikipedia.org/wiki/statistical_inference http://www.helsinki.fi/~pjniemin/paattely/paattely.pdf TAI kevyemmin http://myy.haaga-helia.fi/~taaak/p/paattelyalkeet.pdf

Tilastollinen päättely Tilastollinen päättely tekee usein johtopäätöksiä koko populaatiosta tutkitun otoksen (=näytteen) perusteella. Otos esimerkiksi: satunnaisesti valittu joukko väestöstä Testattava joukko voi olla myös koko populaatio Vaikkapa kaikki tutkittavan eliön geenit Esimerkiksi, eräässä kokeessa 10 koehenkilöä suorittaa tehtävän 24 h valvomisen jälkeen. Koehenkilöiden keskimääräinen tulostaso oli 12 pistettä alempi kuin 10:llä verrokkihenkilöllä, jotka suorittivat kokeen normaalien yöunien jälkeen. Onko ero todellinen, vai voisiko se johtua sattumasta?

Tilastollisessa päättelyssä on kaksi päälähestymistapaa: parametrien estimointi ja hypoteesin testaus. Estimoinnissa otosta käytetään jonkin parametrin ja sen luottamusvälien estimointiin. Hypoteesin testauksessa asetetaan nollahypoteesi ja päätellään testin avulla, onko aineisto riittävän erikoinen jotta nollahypoteesi voidaan hylätä. Valvomiskokeessa nollahypoteesi olisi valvomisella ei ole vaikutusta kokeen tulokseen. Käsittelemme tilastollista päättelyä tarkemmin seuraavalla luennolla, jossa tutustumme tilastolliseen testaamiseen.

Todennäköisyysjakaumat Esimerkki 22. Mendel risteytti siemenen muodon suhteen eroavia (sileä- ja kurttusiemenisiä herneitä), sukusiitettyjä hernelinjoja keskenään. F1-polvessa kaikki herneet olivat sileitä. F1-polven kasvit risteytettiin jälleen keskenään, ja tulokseksi saatiin jälleen molempia tyyppejä. Mendel esitti hypoteesin, että ominaisuutta kontrolloi yksi geeni, jossa on kaksi alleelia: dominoiva sileän siemenen aiheuttava geeni ja resessiivinen kurttuisen pinnan muodostava.

Käsitteitä Määritellään genotyyppi satunnaismuuttujaksi. F2-polvessa mahdollisia genotyyppejä eli satunnaismuuttujan tulosmahdollisuuksia on neljä: AA, Aa, aa, ja aa. Nämä tulosmahdollisuudet määrittävät perusjoukon (tässä F2-polven) otosavaruuden. Otosavaruuden osajoukot voivat määrittää tapahtuman. Tapahtuma koostuu yhdestä tai useammasta arvosta otosavaruudessa. Tässä esimerkissä tapahtuma voisi olla vaikkapa yhden satunnaisesti valitun siemenen genotyyppi.

Jos taas tarkastelisimme dominanttien alleelien (A) määrää satunnaisesti valitun herneensiemenen genotyypissä, niin X on satunnaismuuttuja, jonka otosavaruus on = {0, 1, 2}. X 0 1 2 jos jos jos aa Aa,aA AA Satunnaismuuttuja: muuttuja, joka kuvaa satunnaisilmiön tapahtumavaihtoehtoja numeerisesti. Jos satunnaismuuttujaksi otetaan siemenen muoto, tulosmahdollisuuksia on kaksi, sileä tai kurttuinen.

Satunnaismuuttujan todennäköisyysjakauma on sääntö, joka kertoo, millä todennäköisyyksillä satunnaismuuttuja saa arvonsa. Satunnaismuuttujan todennäköisyysjakauma on täysin määrätty, jos tunnetaan satunnaismuuttujan saamat arvot ja niiden todennäköisyydet. Huomaa, että kaikkien muuttujan arvojen todennäköisyyksien on oltava nollia tai suurempia, ja niiden summan on oltava yksi.

Esimerkissä, mikäli Mendelin käsitys herneen siemenen muodon periytymisestä oli oikea, todennäköisyys syntyä sileä herneensiemen on 3/4, kurttuinen 1/4. Summa on yksi. Diskreetillä satunnaismuuttujalla tarkoitetaan satunnaismuuttujaa, joka saa erillisiä arvoja, tai eksaktimmin ilmaistuna, jonka otosavaruus on äärellinen tai numeroituvasti ääretön. Vastaava todennäköisyysjakauma on tällöin diskreetti todennäköisyysjakauma. (Teoreettisen diskreetin jakauman määrittelevää lauseketta kutsutaan pistetodennäköisyysfunktioksi)

Jatkuva satunnaismuuttuja on sellainen, joka voi saada arvoja jatkuvasti tietyltä väliltä, kuten esim. pituus tai paino saavat Vastaavaa todennäköisyysjakaumaa kutsutaan jatkuvaksi jakaumaksi. Teoreettisen jatkuvan todennäköisyysjakauman määrittelevää lauseketta kutsutaan tiheysfunktioksi. Tiheysfunktiossa yksittäisen pisteen arvon todennäköisyys on 0, mutta todennäköisyys, että muuttuja saa arvoja joltain väliltä on positiivinen.

Teoreettinen jakauma on matemaattinen lauseke, joka kuvaa muuttujan arvojen jakaumaa perusjoukossa. Kertymäfunktio F(x)=P(Xx) niin jatkuville kuin diskreeteillekin satunnaismuuttujille.

Satunnaismuuttujan odotusarvo ja varianssi Odotusarvo: Jos satunnaisilmiön numeerisina tulosvaihtoehtoina ovat luvut x 1,x 2,,x n ja niiden todennäköisyydet ovat p 1, p 2,,p n, satunnaismuuttujan odotusarvo kuvaa tuloksen odotettavissa olevaa arvoa. Se määritellään E n ( X ) pi xi p1x1 i1... Tilastotieteen ja matematiikan oppikirjoissa (hiukan matemaattisemmin ilmaistuna) diskreeteille ja jatkuville satunnaismuuttujille E( X ) x x xf p ( x ) ( x) dx p diskreetti jatkuva jossa p x (x i ) tarkoittaa samaa kuin p i ylempänä, ja f x on jatkuvan satunnaismuuttujan tiheysfunktio. i x x i n x n

Varianssi on jakauman vaihtelevuuden mitta. Se määritellään Var( X ) x xi x E( X ) E( X ) 2 2 p f x x ( x i ) ( x) dx diskreetti jatkuva Esimerkki 22, jatkoa: Mendelin hernekokeessa määriteltiin satunnaismuuttuja Z, joka sai arvon 0 jos siemen oli kurttuinen ja arvon 1 jos sileä. Niiden todennäköisyydet olivat siis P(Z=0)= ¼ ja P(Z=1)=¾.

Odotusarvo yksittäiselle siemenelle on 13/4+01/4=3/4. Se on selvästi lähempänä ykköstä (sileä) kuin nollaa (kurttuinen), kuten odotettavissa onkin sileyden aiheuttavan alleelin dominoivuuden vuoksi. Z:n teoreettinen varianssi on Var ( Z) z E( Z) p( ) i 2 i z i =(0-3/4) 2 1/4+(1-3/4) 2 3/4=3/16

Standardijakaumia Kun mikä tahansa aineisto asetetaan järjestykseen se muodostaa (empiirisen) jakauman Teoreettiset jakaumat ovat hyvin tärkeitä tilastotieteessä: esim. binomi- ja Poisson-jakaumat ovat teoreettisia diskreettejä jakaumia Normaalijakauma on tyypillinen esimerkki jatkuvasta jakaumasta, missä periaatteessa on mahdollista saada kaikki arvot negatiivisesta äärettömästä positiiviseen äärettömään.

Binomijakauma Binomijakauma on tärkeä diskreetti todennäköisyysjakauma. Jos satunnaiskoetta A toistetaan riippumattomasti n kertaa ja tarkastellaan tapahtumaa A, jonka todennäköisyys yksittäisessä kokeessa on P(A)=p sanotaan A:n esiintymisten lukumäärän n:ssä kokeessa olevan binomiaalisesti jakautunut. Todennäköisyys sille, että A tapahtuu n-kertaisessa toistokokeessa täsmälleen x kertaa, on f ( x) n p x x nx (1 ) p Esimerkiksi tyttöjen lukumäärä vaikkapa nelilapsisessa perheessä on binomijakautunut, samoin resessiivisesti periytyvään sairauteen sairastuneiden lasten lukumäärä sisarussarjassa, joiden vanhemmat ovat heterotsygootteja. Teoreettisesti voidaan osoittaa, että binomijakauman odotusarvo on np, ja varianssi np(1-p).

Bin(10,0.3) Binomijakautuneisuuden edellytykset: tapahtumalla on kaksi tulosvaihtoehtoa (tai kategoriaa) tapahtumat ovat toisensa poissulkevat (vain jompikumpi tapahtuu kerrallaan) toistojen tulokset ovat toisistaan riippumattomat

Poisson -jakauma Kun n on hyvin suuri, binomitodennäköisyyksien laskemisesta tulee hankalaa: esim. mikä on todennäköisyys että 3000 yksilön populaatiossa on täsmälleen 18 harvinaista fenotyyppiä ilmentävää yksilöä, jos tiedetään fenotyypin esiintymisfrekvenssiksi 0.005? joudutaan laskemaan sekä 0.005 18 0.995 2982 Onkin hyödyllistä tietää, että binomijakauma lähestyy Poisson-jakaumaa, kun n ja p on pieni. Tällöin np pysyy samana. Jos np merkitään :lla, 3000 18

n x p x (1 p) nx e x x! jossa e on Neperin luku, e 2,718 Jälkimmäinen lauseke on Poisson-jakauman tiheysfunktio Poisson-jakauma approksimoi hyvin binomijakaumaa, kun n20 ja p0,05 Poisson-jakauman odotusarvo ja varianssi ovat keskenään yhtä suuret ().

Poisson-jakaumaa noudattavia asioita: Esim. harvinaisen sairauden ilmaantuvuus väestössä Tietyn ajan kuluessa petrimaljalle ilmestyvien bakteerien lukumäärä noudattaa suhteellisen tarkasti Poissonjakaumaa. Tällöin maljan pohja ajatellaan jaetuksi hyvin pieniin alueisiin, joissa kussakin bakteerin esiintymistodennäköisyys on pieni, mutta alueita eli toistoja on paljon. Crossing-overia kuvataan tavallisesti Poisson-prosessilla, jossa niiden lukumäärä kromosomissa on Poissonjakautunut ja sijainnit jakautuvat tasaisesti yli kromosomin.