52746 Geneettinen analyysi

Koko: px
Aloita esitys sivulta:

Download "52746 Geneettinen analyysi"

Transkriptio

1 52746 Geneettinen analyysi Päivi Onkamo Sampo Sammalisto Jack Leo Pekka Uimari Perinnöllisyystieteen oppiaine, Biotieteiden laitos, Helsingin yliopisto 2011

2 Sisällysluettelo Johdanto... 3 Luennot Todennäköisyyslaskennan perusteet geneettisin esimerkein Tilastotieteen perusteet Todennäköisyysjakaumat Tilastollinen testaaminen Geneettisen analyysin sovelluksia Laskuharjoitukset Mendelistinen genetiikka Geneettiset interaktiot Todennäköisyyslaskennan perusteet Tilastollisen käsittelyn perusteet Sukupuiden analysointi Kytkentä ja geneettinen kartoitus Populaatiogenetiikan perusteet Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

3 Johdanto Perinnöllisyystieteen eli genetiikan huima teoreettinen kehitys viime vuosisadan alkupuoliskolla on viime vuosikymmeninä alkanut tuottaa tulosta; ihmisen perimä on jaksotettu, tunnemme satoja tautigeenejä jotka aiheuttavat vakavia sairauksia ja kilpajuoksu monitekijäisten sairauksien kuten psykiatristen sairauksien, syöpien ja sydän- ja verisuonitautien on hyvässä vauhdissa. Tietokoneiden kehitys on ollut edellytys tälle kehitykselle, sillä perinnöllisyystieteellinen tutkimus erityisesti eikokeellisissa eliöissä kuten ihmisissä vaatii matemaattisia analyysimenetelmiä, jotka ovat usein liian työläitä käsin laskettavaksi. Onkin arvoitu, että tulevina vuosina leijonanosa maailman supertietokoneiden laskentakapasiteetista tulee omistautumaan biotieteelliselle tutkimukselle. Bioinformatiikka on nopeasti kasvava tieteenala, joka pyrkii lähestymään biologisia ongelmia hyödyntämällä tietojenkäsittelytieteen menetelmiä. Bioinformatiikan monia osa-alueita voitaisiin toisaalta kutsua myös geneettiseksi analyysiksi; tämän vuoksi termien välinen ero onkin häilyvä. Bioinformatiikan keskeisimpiä sovelluksia ovat sekvenssianalyysit, geenien ilmentymisen analysointi (ekpressioanalyysi), proteiinien ja muiden makromolekyylien laskostumisen ennustaminen sekä solun proteiinien ja muiden molekyylien yhteistoiminnan ennustaminen ja analysointi. Kaikki nämä menetelmät perustuvat matemaattisten menetelmien soveltamiseen biologisesti merkityksellisellä tavalla. Tämän takia onkin tärkeää, että näitä menetelmiä soveltavilla ja kehittävillä tutkijoilla on vahva perusosaaminen sekä biologiasta että matematiikasta. Tämän kurssin tarkoitus on esitellä geneettisessä analyysissä vaadittavat matemaattiset perustyökalut sekä soveltaa niitä geneettisten ongelmien ratkaisemiseen. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

4 Luennot 1. Todennäköisyyslaskennan perusteet geneettisin esimerkein Todennäköisyyden käsite Subjektiivinen tulkinta Useimmilla ihmisillä on kyky tulkita todennäköisyysväittämiä intuitiivisesti; olemmehan tottuneet käsittelemään todennäköisyyksiä lähes päivittäin sekä tekemään päätöksiä niiden nojalta. Esimerkki 1: Ihmiset osaavat yleensä antaa mielekkään merkityksen väittämille Tänään sataa 70% todennäköisyydellä tai Tutkijat arvioivat sodan syttymistodennäköisyydeksi 15%. Edellistä väittämää kannattaa tulkita siten, että on parasta ottaa sateenvarjo mukaan. Jälkimmäisestä väitteestä voi päätellä, että sota onnistutaan ehkä välttämään. Todennäköisyyden ajatellaan tällöin kuvaavan henkilön varmuuden astetta tai uskomuksen voimakkuutta. Tämä todennäköisyystulkinta on ns. bayeslaisen koulukunnan ajatusten pohjana. Frekventistinen tulkinta Todennäköisyyden frekvenssitulkinnassa koe toistetaan monta kertaa, ja todennäköisyys kuvaa tällöin niiden tapahtumien suhteellista osuutta, joissa saavutetaan suotuisa lopputulos. Tällaiset todennäköisyyslaskelmat perustuvat äärelliseen määrään toistoja, ja laskettavan suhteellisen osuuden ajatellaan vastaavan taustalla olevaa tarkkaa todennäköisyyttä sitä tarkemmin, mitä suurempi on toistojen lukumäärä. Tällöin tapahtuman A todennäköisyys p(a) voidaan esittää muodossa na p( A), N jossa n A on suotuisten lopputulosten lukumäärä ja N toistojen kokonaislukumäärä. Esimerkki 2: Tutkimuksessa analysoidaan 500 kromosomia erään kaksialleelisen lokuksen suhteen ja havaitaan, että alleeli A esiintyy 118 kromosomissa ja alleeli a 382 kromosomissa. Mikä on alleelin A absoluuttinen ja suhteellinen frekvenssi? Mikä on alleelin A esiintymistodennäköisyys sattumanvaraisesti poimitussa kromosomissa? Ratkaisu: Allelin A absoluuttinen frekvenssi on sama kuin sen lukumäärä, eli 118. Suhteellinen frekvenssi on puolestaan 118/500 = 0.236; tämä on myös alleelin A esiintymistodennäköisyys sattumanvaraisesti poimitussa kromosomissa. Klassinen tulkinta Klassisessa todennäköisyystulkinnassa oletetaan, että voidaan määrittää kaikkien mahdollisten tapahtumien joukko, otosavaruus, joka koostuu keskenään yhtä todennäköisistä alkeistapauksista. Tällöin todennäköisyys kuvaa sitä, kuinka suuren osuuden tästä otosavaruudesta suotuisat tapahtumat kattavat. Tapahtuman A todennäköisyys p(a) voidaan nyt kirjoittaa Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

5 ns p( A) M missä n S on suotuisien alkeistapausten lukumäärä ja M kaikkien mahdollisten alkeistapausten lukumäärä. Esimerkki 3: Tarkastellaan silmän värin aiheuttavaa geeniä, jonka suhteen vanhemmat ovat heterotsygootteja siten, että kummallakin vanhemmalla on sekä sinisilmäisyyttä aiheuttava alleeli s että ruskeasilmäisyyttä aiheuttava alleeli S. Lisäksi tiedetään, että alleeli S dominoi. Halutaan laskea todennäköisyys sille, että pariskunnalle syntyvä lapsi on sinisilmäinen. Määritä alkeistapaukset. Mikä on suotuisien alkeistapauksien lukumäärä? Mikä on todennäköisyys, että lapsi on sinisilmäinen? Ratkaisu: Alkeistapaukset ovat SS, Ss, ss ja ss. Suotuisa alkeistapaus: lapsi on sinisilmäinen (genotyyppi ss) ja lapsi on ruskeasilmäinen (genotyyppi SS ja Ss). Tarkastelemalla risteytystä taulukossa huomataan, että pariskunnan todennäköisyys saada sinisilmäinen lapsi on 1/4. S s S SS Ss s ss ss Todennäköisyyden periaatteita Klassisen todennäköisyyden pääperiaatteita: Tapahtuman A todennäköisyys merkitään P(A). Mille tahansa tapahtumalle A on 0 P(A) 1 (eli todennäköisyys on aina 0:n ja 1:n välissä). Mahdottoman tapahtuman todennäköisyys on 0 ja varman tapahtuman 1. Tapahtuman A vastatapahtuman eli komplementin A c todennäköisyys on P(A c ) = 1 - P(A). (esim. jos punaisten hiusten todennäköisyys P(A) = 0.2, niin todennäköisyys sille, että hiukset ovat muun väriset (eivät ole punaiset) on P(A c ) = 1 - P(A) = = 0.8. Komplementti merkitään usein myös B. Toisensa poissulkevat tapahtumat Toisensa poissulkevilla tapahtumilla tarkoitetaan tapahtumia, jotka eivät voi olla samaan aikaan voimassa. Esimerkiksi tapahtumat Maija on sinisilmäinen ja Maija on ruskeasilmäinen ovat toisensa poissulkevia, koska sama henkilö ei (yleensä) voi olla sekä sini- että ruskeasilmäinen. Tapahtumat Maija on sinisilmäinen ja Maija on vasenkätinen eivät sen sijaan ole toisensa poissulkevia, koska sama henkilö voi olla sekä sinisilmäinen että vasenkätinen. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

6 Yhdiste, leikkaus ja komplementti Tapahtumia ja niiden keskinäistä suhdetta kuvataan usein ns. Venn-diagrammeilla: A B A B AB AB= Vasemmanpuoleisen kuvan tilanteessa tapahtumat A ja B voivat tapahtua samanaikaisesti, mutta oikeanpuoleisen kuvan tilanteessa eivät (niiden leikkaus on tyhjä joukko). Oikeanpuoleisen kuvan tapahtumat ovat siis toisensa poissulkevia. Kahden tapahtuman yhdistettä merkitään AB. Yhdisteen todennäköisuus P(AB) kertoo todennäköisyyden sille, että joko A tai B tai molemmat tapahtuvat. Kahden tapahtuman A ja B leikkausta merkitään AB. Leikkauksen todennäköisyys kuvaa todennäköisyyttä sille, että molemmat tapahtumista A ja B tapahtuvat. Huomaa, että toisensa poissulkevien tapahtumien leikkauksen todennäköisyys on nolla. Yhdisteen todennäköisyys P( A B) P( A) P( B) P( A B) Esimerkki 4: 32 prosenttia erästä perinnöllistä sairautta sairastavista kantaa mutaatiota A. Samaa tautia sairastavista ihmisistä 16 prosenttia kantaa toisessa kromosomissa sijaitsevaa mutaatiota B. Sairaista henkilöistä 10 prosenttia kantaa molempia mutaatioita. Millä todennäköisyydellä umpimähkäisesti valittu sairas henkilö kantaa vähintään jompaakumpaa mutaatiota? Ratkaisu: Tehtävässä kysytään todennäköisyyttä, että sairas henkilö kantaa jompaa kumpaa tai molempia mutaatioita. Kyseessä on siis mutaation A ja B kantajien yhdiste: P(A U B) = P(A) + P(B) - P(AB)= 0,32 + 0,16-0,10 = 0,38. Eli 38 prosenttia sairaista henkilöistä kantaa vähintään jompaa kumpaa mutaatiota. Tapahtuman A komplementin eli vastatapahtuman (A ei tapahdu, A C ) todennäköisyydelle pätee: Komplemetin todennäköisyys P( A C ) 1 P( A) Esimerkki 4, jatkoa: Millä todennäköisyydellä umpimähkään valittu sairas henkilö ei kanna kumpaakaan mutaatiota? Ratkaisu: P(Henkilö ei kanna kumpaakaan mutaatiota) = 1 - P(henkilö kantaa vähintään jompaa kumpaa mutaatiota) = = Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

7 Riippumattomien tapahtumien kertolaskusääntö Kaksi tapahtumaa ovat toisistaan riippumattomia, jos se, tapahtuuko ensimmäinen tapahtuma, ei vaikuta toisen tapahtuman todennäköisyyteen ja päinvastoin. Esim. kahta noppaa heitettäessä ensimmäisen heiton tulos ei vaikuta seuraavan heiton tulokseen. Riippumattomien tapauksien leikkauksen todennäköisyys voidaan laskea kertolaskusäännön avulla. Jos tapahtumat A ja B ovat toisistaan riippumattomia, pätee seuraava kaava: Riippumattomien tapahtumien kertolaskusääntö P( A B) P( A)* P( B) Huomaa, että jos tapahtumat A ja B eivät ole toisistaan riippumattomia, silloin P(AB) P(A)*P(B) Riippuvuuden ei tarvitse olla kausaalista (syy-seuraus-suhteista). Esimerkiksi jäätelön kulutus ja hukkumisonnettomuudet näyttävät korreloivan todellisten tilastojen valossa. Selitys tähän riippuvuuteen löytyy kuitenkin kolmannesta, sekoittavasta tekijästä (confounding factor, confounder) eli kesästä. Riippumattomuusoletusta voidaan käyttää, jos se voidaan perustella esim. genetiikan lainalaisuuksista johtuvaksi. Tällöin tapahtumien yhteistodennäköisyys voidaan laskea edellisen kertolaskusäännön mukaan. Riippumattomuus on tärkeä oletus monissa genetiikan ilmiöissä. Esimerkiksi gameettien muodostumisessa (meioosissa) alleelit eroavat toisistaan. Jos gameetissa on alleeli A, siinä ei voi olla alleelia a. Jos yksilön genotyyppi on Aa, todennäköisyydet sille, että hänen tuottamassaan gameetissa on alleeli A tai a ovat yhtä suuret (0,5). Toisen esimerkin riippumattomuudesta tarjoaa gameettien yhdistyminen; hedelmöityksessä isän ja äidin gameetit yhdistyvät sattumanvaraisesti (siittiön kantama alleeli ei vaikuta siihen minkä alleelin kantavan munasolun se hedelmöittää). Geenien kytkeytymistä (linkage) voidaan arvioida arvioimalla niiden keskinäistä riippumattomuutta: jos geenit sijaitsevat eri kromosomeissa tai tarpeeksi etäällä toisistaan samassa kromosomissa, niiden alleelit ajautuvat gameetteihin toisistaan riippumatta ja yhdistyvät toisistaan riippumatta tsygootissa. Tällöin ne siis eivät ole kytkeytyneitä toisiinsa vaan periytyvät toisistaan riippumatta Mendelin lakien mukaisesti. Myös kytkentäepätasapainoa (linkage disequilibrium, LD) eri lokusten välillä voidaan myös arvioida testaamalla riippumattomuusoletusta lokusten sisältämien alleelien välillä. Hardy-Weinbergin tasapainossa (kts. laskuharjoitukset 7, s. 67 alkaen tässä monisteessa!) olevan populaation genotyyppien frekvenssit voidaan johtaa suoraan alleelifrekvensseistä käyttäen riippumattomuusoletusta; mikäli havaitut genotyyppifrekvenssit eivät seuraa alleelifrekvensseistä johdettuja frekvenssejä, ei populaatio ole kyseisen lokuksen suhteen HW-tasapainossa. Esimerkki 5: Heitetään kahta noppaa kerran. Mikä on todennäköisyys, että molemmilla nopilla saadaan silmäluku joka on pienempi kuin neljä? Ratkaisu: Todennäköisyys saada ensimmäisellä nopalla silmäluku, joka on alle 4 (tapahtuma A: silmäluku nopalla 1 on 1, 2 tai 3) on 0,5. Samoin todennäköisyys saada toisella nopalla silmäluku 1, 2 tai 3 (tapahtuma B) on 0,5. Todennäköisyys, että kummankin nopan silmäluku jää alle neljän on siis Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

8 P(A ja B) = P(A) * P(B) = 0,5 * 0,5 = 0,25 Esimerkki 6: Tarkastellaan heterotsygootteja vanhempia, joilla on eräässä lokuksessa alleelit A ja a, sekä toisessa, eri kromosomissa sijaitsevassa lokuksessa alleelit B ja b. Määritä lapsen mahdollisten genotyyppien todennäköisyydet? Ratkaisu: Alleelien periytymiset eri vanhemmilta ovat toisistaan riippumattomia tapahtumia. Lapsen eri genotyyppien todennäköisyydet ovat: P(AA) = P(BB) = 1/4 P(Aa) = P(Bb) = 1/2 P(aa) = P(bb) = 1/4 Genotyyppien todennäköisyydet ovat: P(AABB) = 1/4 * 1/4 = 1/16 P(AaBB) = 1/2 * 1/4 = 1/8 P(P(aaBB) = 1/4 * 1/4 = 1/16 P(AABb) = 1/4 * 1/2 = 1/8 P(AaBb) = 1/2 * 1/2 = 1/4 P(P(aaBb) = 1/4 * 1/2 = 1/8 P(AAbb) = 1/4 * 1/4 = 1/16 P(Aabb) = 1/2 * 1/4 = 1/8 P(P(aabb) = 1/4 * 1/4 = 1/16 Ehdollinen todennäköisyys Ehdollisella todennäköisyydellä tarkoitetaan todennäköisyyttä sille, että jokin tapahtuma A tapahtuu, kun tiedetään, että jokin toinen tapahtuma B on jo tapahtunut. Tapahtuman A todennäköisyyttä ehdolla B merkitään P(A B), ja se voidaan laskea ehdollisen todennäköisyyden kaavasta: Ehdollinen todennäköisyys P( A B) P( A B) P( B) Huomaa, että jos tapahtumat A ja B ovat toisistaan riippumattomia tapahtumia, sievenee kaava muotoon P(A B)=P(A). Ehdollinen todennäköisyys on tärkeä käsite genetiikassa mm. seuraavissa ilmiöissä: genotyypin ja ilmiasun välinen yhteys (ilmiasu riippuu genotyypistä), sukupuolikromosomeissa periytyvät taudit (ilmiasu riippuu sukupuolikromosomeista), sukupuolesta riippuvaiset ominaisuudet (ilmiasu riippuu fenotyyppisestä sukupuolesta), geenien kytkentä ja kytkentäepätasapaino (lokusten genotyyppit riippuvat toisistaan). Esimerkki 7. Oletetaan, että johonkin syöpään on löydetty altistava geeni, jossa tavataan mutanttimuotoa D ja useita normaalimuotoja, joita kaikkia yhdessä merkitään +. P(syöpä kehittyy jossain elämän vaiheessa DD) = 0,25 P(syöpä kehittyy jossain elämän vaiheessa D+) = 0,10 P(syöpä kehittyy jossain elämän vaiheessa ++) = 0,05 Näitä todennäköisyyksiä voidaan verrata keskenään suhteellisen riskin avulla. Esimerkiksi yksilöllä, joka on perinyt kaksi D alleelia, on viisinkertainen mahdollisuus saada syöpä verrattuna Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

9 yksilöön joka perinyt kaksi + alleelia (0,25/0,05). Riski voidaan suhteuttaa myös taudin esiintyvyyteen populaatiossa (prevalenssi). Esimerkiksi, jos riski saada syöpä populaatiossa on 0,0625, tällöin henkilöllä joka on perinyt kaksi D alleelia on 0,25/0,0625 = 4,0 eli 4 kertaa suurempi riski saada kyseinen syöpä, kuin populaatiosta satunnaisesti valitulla yksilöllä. Esimerkki 8: tarkastellaan resessiivistä sairautta. Penetranssit eli kuhunkin genotyyppiin liittyvät sairastumistodennäköisyydet voidaan esittää taulukkona: Genotyyppi Todennäköisyys sairastua AA 0,0 Aa 0,0 aa 1,0 Tällöin P(sairas aa) = 1,0 P(sairas Aa) = P(sairas AA) = 0,0 Penetranssit ovat siis kunkin genotyypin todennäköisyyksiä ilmentää tarkasteltavaa ilmiasua (sairautta). Esimerkki 9: Eräästä keuhkosairaudesta tiedetään, että 5% sairaista henkilöistä kantaa mutaatiota A, 80% mutaatiota B ja 1%:lla sairaista henkilöistä on molemmat mutaatiot. Merkitään: P(A) = 0,05 P(B) = 0,80 P(A ja B) = 0,01 Lasketaan seuraavat todennäköisyydet sairaille henkilöille: P(B A) = P(B A)/P(A) = 0,01 / 0,05 = 0,20 P(A B) = P(A B)/P(A) = 0,01 / 0,80 = 0,0125 *P(AB C ) = P(A)-P(AB)=0,05-0,01 = 0,04 *P(A B C ) = P(ABC)/P(BC)=0,04/0,2 = 0,2 P(AB) = P(A) + P(B) - P(AB) = 0,05 + 0,80-0,01 = 0,84 *ymmärtämisen helpottamiseksi, piirrä Venn-diagrammina! Permutaatiot ja kombinaatiot Permutaatiolla tarkoitetaan jonoa, jossa alkiot on järjestetty määrättyyn järjestykseen. Kun halutaan selvittää n alkiota sisältävän joukon erilaiset permutaatiot, näiden lukumäärä saadaan jonon kunkin paikan vaihtoehtojen lukumäärien tulona. Esimerkki 10: Kuinka moneen erilaiseen järjestykseen voidaan asettaa neljä eri nukleotidia A T, C ja G? Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

10 Ratkaisu: Ensimmäisenä voidaan valita mikä tahansa neljästä. Jos valittiin vaikkapa C ensimmäiseksi, sen jälkeen voi tulla enää vain T, A tai G, eli kolme eri vaihtoehtoa, jne. Vastaus on siis 4 * 3 * 2 * 1 = 24 = 4!. Erilaisia järjestysvaihtoehtoja on siis yhteensä 24. Esimerkki 11: Päivähoidossa on kolme lasta: Onni, Amanda sekä Alexander. Kuinka monella tavalla lapset voidaan asettaa jonoon? Ratkaisu: Ensimmäinen lapsista voidaan valita kolmella tavalla, toinen lapsista kahdella tavalla, ja jäljelle jääneestä lapsesta tulee jonon viimeinen. Erilaisia permutaatioita on tässä tapauksessa 3! = 3*2*1 = 6 kappaletta. Permutaatioiden lukumäärä n *( n 1)* ( n 2) *...*1 n! Tätä kutsutaan n:n kertomaksi. Määritelmän mukaan 1! =1 ja samoin 0! = 1 Kombinaatiolla tarkoitetaan kokoelmaa alkioita, jossa alkioiden järjestyksellä ei ole väliä. Jatkoa esimerkkiin 11: Monellako tavalla voit laittaa edellisen esimerkin lapset järjestykseen sukupuolen mukaan? Ratkaisu: Nyt samaa sukupuolta olevien lasten välillä ei tehdä eroa. Tällöin mahdollisia järjestyksiä on kolme: PTP, PPT, TPP Kahden vaihtoehtoisen tulostapahtuman vallitessa (esim. tyttö ja poika) sellaisten kombinaatioiden määrä, jossa on r kappaletta toista tulostapahtumaa ja n-r kappaletta toista, saadaan kaavasta Kombinaatioiden lukumäärä n n! r r!( n r)! (vasen puoli luetaan n yli r:n ) Esimerkki 12: Seitsenlapsisessa perheessä on kaksi poikaa. Monessako eri järjestyksessä juuri 2 poikaa ja 5 tyttöä olisivat voineet syntyä? Ratkaisu: Valitaan ensin poikien paikat jonossa. Kahdelle pojalle voidaan valita paikat 7 7! !(7 2)! tavalla. Tytöt täyttävät jäljelle jääneet viisi paikkaa. Erilaisia järjestysmahdollisuuksia on siis 21. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

11 Binomitodennäköisyys Kombinaatioiden käsite liittyy läheisesti binomijakaumaan. Kun toistokoe tehdään n kertaa, ja suotuisan lopputuloksen todennäköisyys on p, on todennäköisyys, että saadaan täsmälleen r kappaletta suotuisia lopputuloksia n:stä toistokerrasta seuraavanlainen: Binomitodennäköisyys n r nr P( r) p (1 p) r Esimerkki 13: Laske todennäköisyys, että seitsemästä syntyvästä lapsesta viisi on tyttöjä. Ratkaisu: Lasten hankkimista ajatellaan nyt seitsenkertaisena toistokokeena, jossa suotuisan tapahtuman (tyttö) todennäköisyys on puoli. Tämän lisäksi on huomioitava kaikki mahdolliset syntymäjärjestykset (PPTTTTT, PTPTTTT, PTTPTTT jne.). Sijoittamalla luvut binomitodennäköisyyden kaavaan saadaan: 7 1 P (5tyttöä,2 poikaa) * * 2 2 0,164 Esimerkki 14: Vanhemmat ovat heterotsygootteja resessiivisen sairauden aiheuttavan alleelin suhteen. Laske todennäköisyys, että pariskunnalle syntyvistä kolmesta lapsesta: (a) kaikki ovat terveitä (b) kaksi on sairaita (c) vähintään kaksi on sairaita Ratkaisu: 3 a) P (kolme tervettä) 0, b) P (2 sairasta, yksi terve) * * 0, c) P(vähintään kaksi kolmesta sairaita ) P(2 sairasta,1 terve) P(3 sairasta) 3 1 * * ,156 1 Jos perheen kaikki 3 lasta olisivat sairaita, mikä on todennäköisyys, että seuraava, neljäskin lapsi olisi sairas? Jos P(lapsi on sairas) = 0,25. Tällöin P(neljäs lapsi on sairas kaikki edelliset kolme lasta ovat sairaita) = 0,25, koska lasten genotyyppien muodostumiset ovat toisistaan riippumattomia tapahtumia. Uusi sairastapaus ei siis riipu edellisten tapausten määrästä. Onkin tärkeää tarkistaa onko järjestyksellä väliä. Esim. todennäköisyys, että pariskunnan 1. ja 2. lapsi on sairas ja 3. terve on eri todennäköisyys kuin se, että kolmesta lapsesta kaksi on sairasta - ensimmäisessä tapauksessa järjestyksellä on väliä ja toisessa ei (erilaisia järjestyksiä ovat SST, STS ja TSS). Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

12 Yhteistodennäköisyys Edellä esitetyn ehdollisen todennäköisyyden kaavan avulla voidaan kirjoittaa tapahtumien A ja B yhteistodennäköisyys (yhdistetyn tapahtuman todennäköisyys). Tapahtumien A ja B yhteistodennäköisyyttä käsiteltiin aikaisemmin tilanteelle, jossa tapahtumat olivat toisistaan riippumattomia. Yleisesti kaikille tapahtumille A ja B pätee seuraava kaava: Yhteistodennäköisyys P( A B) P( A) P( B A) Jos tapahtumia on enemmän kuin kaksi, yleistyy kaava muotoon P ( A1... An ) P( A1 ) P( A2 A1 )... P( An A1... An 1) Huomaa, että jos A ja B ovat toisistaan riippumattomia tapahtumia, supistuu ehdollinen todennäköisyys muotoon P(B A) = P(B) ja yhteistodennäköisyys muotoon P(AB) = P(A) * P(B). Esimerkki 15: Väestöstä 2,2 % kantaa erästä alleelia A. Alleelin A kantajista 15 prosenttia sairastaa erästä perinnöllistä sairautta. Laske todennäköisyys, että henkilö kantaa allelia A ja sairastaa kyseistä perinnöllistä sairautta. Ratkaisu: Sovellamme yhteistodennäköisyyden kaavaa: P(AS) = P(A)P(S A) = 0,022 * 0,15 = 0,0033. Kokonaistodennäköisyys Esimerkki 16: Erään sairauden penetranssi tietyn lokuksen suhteen esitetään taulukkona: Genotyyppi Sairastumisen todennäköisyys AA 0,01 Aa 0,05 aa 0,50 Tiedämme, että väestötason alleelifrekvenssit ovat P(a) = 0,05 ja P(A) = 0,95. Laske taudin prevalenssi koko väestössä, kun oletamme, että populaatio on Hardy-Weinberg tasapainossa. Ratkaisu: Aloitetaan laskemalla genotyyppifrekvenssit Hardy-Weinberg -tasapainossa: P(AA) = [P(A)] 2 = 0,95 2 = P(Aa) = 2 * P(A) * P(a) = 2 * 0,05 * 0,95 = 0,095 P(aa) = [P(a)] 2 = 0,05 2 = 0,0025 Tehtävässä kysytään kokonaistodennäköisyyttä sille, että henkilö on sairas. Kunkin henkilön genotyyppi on jokin kolmesta toisensa poissulkevasta vaihtoehdosta, ja kuhunkin vaihtoehtoon Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

13 liittyy oma todennäköisyys sairastua. Tilanne voidaan kuvata puurakenteena, jonka haaroihin kiinnitämme todennäköisyydet. Genotyyppi Fenotyyppi Henkilö AA 0,9025 Aa 0,095 aa 0,0025 Terve 0,99 Sairas 0,01 Terve 0,95 Sairas 0,05 Terve 0,50 Sairas 0,50 Soveltamalla yhteenlaskusääntöä ja yhteistodennäköisyyden kaavaa voimme laskea kokonaistodennäköisyyden: P(sairas) = P(aa) * P(sairas aa) + P(Aa) * P(sairas Aa) + P(AA) * P(sairas AA) = 0,0025 * 0,50 + 0,095 * 0,05 + 0,9025 * 0,01 = 0, Tämän kaltaisissa tilanteissa voimme siis soveltaa kokonaistodennäköisyyden kaavaa: Kokonaistodennäköisyys P( A) k i1 P( B ) P( A i B i ) Esimerkki 17: Erään monitekijäisen sairauden penetranssit kahden toisiinsa kytkeytymättömän lokuksen suhteen voidaan esittää taulukkona: BB Bb bb AA 0,10 0,30 0,40 Aa 0,15 0,45 0,60 aa 0,20 0,60 1,00 Taulukosta näemme, että esimerkiksi Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

14 P(sairas aabb) = 0,60 ja P(sairas AABB) = 0,10 Tiedetään, että P(a) = 0,1, P(b) = 0,05, ja populaatio on Hardy-Weinberg tasapainossa. Laske todennäköisyys, että henkilö, jonka genotyyppi ensimmäisen lokuksen suhteen on AA, on sairas. Ratkaisu: Yksilön genotyyppiä lokuksen B suhteen ei tiedetä, joten on huomioitava kaikki mahdolliset genotyyppivaihtoehdot sekä näiden todennäköisyydet. Lasketaan yksilön genotyyppien todennäköisyydet lokuksen B suhteen. P(BB) = [P(B)] 2 = 0,95 2 = 0,9025 P(Bb) = 2 * P(B) * P(b) = 2 * 0,05 * 0,95 = 0,095 P(bb) = [P(b)] 2 = 0,05 2 = 0,0025 P(Sairas AA) = P(Sairas AABB)+ P(Sairas AABb)+ P(Sairas AAbb) = P(Sairas AA) * P(BB) + P(Sairas AA) * P(Bb) + P(Sairas AA) * P(bb) = 0,10 * 0, ,30 * 0, ,40 * 0,0025 0,120 Bayesin teoreema Bayesin teoreemaa voidaan käyttää ehdollisen todennäköisyyden P(A B) määrittämiseen tilanteissa, joissa edellä mainittua ehdollisen todennäköisyyden kaavaa ei voida sellaisenaan soveltaa. Bayesin teoreeman avulla haetaan syyn todennäköisyyttä, kun seuraus tiedetään. Tämä on luonteva lähestymistapa joihinkin reaalimaailman tilanteisiin, joissa havaintoja voidaan tehdä seurauksesta, vaikkapa henkilön terveydentilasta. Lopullisena tavoitteena on kuitenkin laatia todennäköisyysarvioita mahdollisista sairauden syistä, olivatpa nämä luonteeltaan geneettisiä tai eivät. Tutustutaan teoreemaan esimerkin kautta. P( B r Bayesin teoreema P( Br ) P( A Br ) A) k P( B ) P( A B ) i1 i i Esimerkki 18: Tarkastellaan polymorfismia, joka on vahvasti assosioitunut vanhalla iällä ilmenevään perinnölliseen sairauteen. Tiedämme, että tautiin sairastuvia yksilöitä on 2 % väestöstä. Sairaista ihmisistä 90 % kantaa mainitussa lokuksessa alleelia A, mutta terveistä vanhuksista ainoastaan 5 % kantaa tuota alleelia. Periaatteessa olisi mahdollista testata nuoret ihmiset alleelin A kantajuuden suhteen ja aloittaa tarvittaessa ennaltaehkäisevä lääkehoito. Mikä on todennäköisyys, että positiivisen testituloksen antanut henkilö todella sairastuu tarkasteltavaan tautiin olettaen että alleelin kantajuuden testaus voidaan suorittaa ilman virheitä? Ratkaisu: Bayesin teoreemaa on helppo lähestyä puukaavion kautta. Tehtävänannossa kysytään todennäköisyyttä, että positiivisen testituloksen saanut henkilö tulee sairastumaan. Oheisesta puukaaviosta kuitenkin huomataan, että myös terveet ei-kantajat voivat saada positiivisen testituloksen. Tehtävä on siis selvittää mikä osuus positiivisen testituloksen saaneista tulee sairastumaan. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

15 Vanhus Fenotyyppi Sairas 0,02 Terve 0,98 Testitulos Pos 0,90 Neg 0,10 Pos 0,05 Neg 0,95 Positiivisten tapausten todennäköisyydet ovat P(Pos Sairas) = 0,90 * 0,02 ja P(Pos Terve) = 0,05 * 0,98 Sairaiden osuus kaikista positiivisista on siis P( pos Sairas) 0,90*0,02 P ( Sairas pos) 0,269 P( pos Sairas) P( pos terve) 0,90*0,02 0,05* 0,98 Toisin sanoen vain alle 30 % alleelin A kantajista sairastuu kyseiseen sairauteen eli alleelin A kantajuuden ennustearvo ennaltäehkäisevästä lääkityksestä päätettäessä saattaa olla liian heikko. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

16 2. Tilastotieteen perusteet Biologi hankkii tutkittavasta ilmiöstä aineistoa esim. poimimalla näytteitä Tvärminnen kalliolammikoiden vesikirppupopulaatioista tai tuottamalla muuntogeenisen hiirilinjan, joka toimii ihmisen tautimallina. Kun jotakin tällaista aineistoa on käsillä, tulee usein tehtäväksi päättää miten aineistoa tulisi kuvata ja millä menetelmillä aineistosta voisi vetää johtopäätöksiä. Tilastotieteen tarkoitus on tutkia vesikirppupopulaation tai hiirilinjan jakaumaa otoksen avulla: selvittää, ovatko eri otokset peräisin samanlaisista populaatioista (esim. ovatko eri lammikoiden vesikirppupopulaatiot geneettisesti erilaisia vai samanlaisia keskenään?) tai verrata havaittua jakaumaa teoreettisesti ennustettuun (esim. Hardy-Weinberg-tasapainolain ennustamaan jakaumaan). Deskriptiivinen tilastotiede Hyvin oleellinen osa tilastollista analyysiä on tiivistää ja kuvata aineistoa selkeällä ja ymmärrettävällä tavalla. Esimerkiksi, jos tutkija pyydystää 1000 vesikirppua kalliolammikoista, miten aineistoa tulisi kuvailla tieteellisessä julkaisussa? Käytännössä tähän on kaksi vaihtoehtoa: numeerinen tai graafinen esitystapa. Edellisessä tutkija laskee suureita kuten vaikkapa vesikirppujen koon keskiarvon ja keskihajonnan eri lammikoissa. Jälkimmäisessä hän voisi piirtää vaikkapa hajontakuvion (scatter plot), jossa x-akselilla on vesikirpun koko ja y-akselilla asuinlammikon lämpötila.graafiset menetelmät soveltuvat numeerisia paremmin erilaisten systemaattisuuksien havaitsemiseen aineistossa, kun taas numeeriset ovat taas tarkempia ja objektiivisempia. Koskapa graafiset ja numeeriset lähestymistavat täydentävät toisiaan, on lähes aina suositeltavaa käyttää molempia. Tilastollinen aineiston alkioita kutsutaan muuttujiksi; muuttuja voi olla mitä tahansa mitä voidaan havainnoida tai mitata. Tilastollinen aineisto voidaan muuttujan tyypin perusteella jakaa kahteen ryhmään: luokkamuuttujiin tai määrämuuttujiin. Luokkamuuttujia ovat esimerkiksi väri, sukupuoli tai genotyyppi. Luokkamuuttujille on ominaista, että luokkia ei voida asettaa keskinäiseen suuruustai paremmuusjärjestykseen. Määrämuuttujat puolestaan voidaan aina asettaa suuruusjärjestykseen. Määrämuuttujat jaetaan edelleen kahteen alaryhmään: diskreetteihin muuttujiin (esim. raajojen määrä, jälkeläisten määrä) sekä jatkuviin muuttujiin (esim. pituus, paino, ikä). Diskreetit määrämuuttujat voivat saada vain tiettyjä arvoja (esim. raajoja on oltava aina positiivinen tasaluku), kun taas jatkuvien muuttujien arvo riippuu mittaustarkkuudesta (esim. pituus voidaan mitata metrin, sentti- tai millimetrin tarkkuudella). Määrämuuttujista koostuvan tilastollisen aineiston oleellisin tieto voidaan tiivistää muutamaan tunnuslukuun, joita käsitellään seuraavaksi. Jos aineisto järjestetään luokkiin, sitä luokkaa, jonka frekvenssi on suurin, kutsutaan tyyppiluokaksi tai -arvoksi eli moodiksi. Sitä arvoa, joka jakaa aineiston kahteen yhtä suureen osaan, sanotaan mediaaniksi. Jos järjestetyssä aineistossa on parillinen määrä muuttujia, mediaani on kahden keskimmäisen arvon puolivälissä. Kvartiilit ovat ne arvot, jotka jakavat aineiston neljään yhtä suureen osaan; keskimmäinen kvartiili on sama kuin mediaani, yläkvartiilin arvon alle jää kolme neljäsosaa aineistosta, vastaavasti alakvartiilin arvon yläpuolelle jää kolme neljäsosaa aineistosta. Kvartiilien arvot määräytyvät samalla tavalla kuin mediaaninkin. Vaihteluväli on aineiston suurimman ja pienimmän luvun erotus Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

17 Esimerkki 19. Alla on esitetty 50 opiskelijan sykkeet Aineiston vaihteluväli (suurimman ja pienimmän arvon erotus) on 34 ja mediaaniarvo on 79 ja 80 puolivälissä, eli on Vastaavasti 12. ja 13. arvot ovat 74 ja 74, joten alakvartiili on myös 74. Yläkvartiiliksi saadaan 84, sillä se on 37. (83) ja 38. (85) välissä. Tässä aineistossa vaikuttaisi olevan kaksi moodiarvoa, 80 ja 81. Moodi on helpompi selvittää, jos arvoja yhdistetään luokiksi seuraavan taulukon mukaisesti; tällöin moodiluokaksi saadaan Syke Lukumäärä Yhteensä 50 Määrämuuttujista koostuvaa aineistoa kuvataan yleisimmin aritmeettisella keskiarvolla, joka lasketaan summaamalla kaikki arvot ja jakamalla aineiston alkioiden määrällä Aritmeettinen keskiarvo x n i 1 n x i On tärkeää huomata, että keskiarvo ja mediaani eivät välttämättä ole samansuuruisia; esim. edellisestä aineistosta saadaan keskiarvoksi 79.1 lyöntiä minuutissa (huomaa ero mediaaniin). Aineiston havaintojen hajontaa keskiarvon ympärillä voidaan kuvata keskihajonnalla, joka ilmaisee havaintojen keskimääräisen etäisyyden keskiarvosta. s Keskihajonta n i1 n x x i 2 Keskihajontaa laskettaessa on otettava huomioon havainnon ja keskiarvon erotuksen neliö, sillä muuten positiiviset ja negatiiviset arvot kumoavat toisensa. Keskihajonnan neliötä (s 2 ) kutsutaan varianssiksi. Käsiteltäessä otosvarianssia ja -keskihajontaa, nimittäjäksi yleensä otetaan n-1 pelkän aineistokoon sijaan. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

18 Kun halutaan arvioida, kuinka paljon samasta perusjoukosta peräisin olevien otosten keskiarvot vaihtelevat, käytetään keskiarvon keskivirhettä (Standard error of the mean, SE) keskiarvon keskivirhe saadaan jakamalla otoksen keskihajonta otoskoon neliöjuurella. Keskiarvon keskivirhe s S x n SE ilmaisee otoksen keskiarvon tarkkuuden, ts. eri toistoissa tehtyjen otosten keskiarvojen hajonnan Esimerkki 20. Alla on kahdessa eri kokeessa saadut aineistot. Mitkä ovat niiden keskiarvot ja keskihajonnat? a) b) Ratkaisu: aineistolle a keskiarvo on x 36 5 varianssi s keskihajonta on varianssin neliöjuuri s s Vastaavasti aineistolle b arvot ovat x = 116, s 2 = 10 ja s = Inferentiaalinen tilastotiede Inferentiaalista tilastotiedettä käytetään johtopäätösten tekemiseen koko populaatiosta tutkitun otoksen perusteella. Esimerkiksi, eräässä kokeessa 10 koehenkilöä pyydettiin suorittamaan tehtävä 24 tunnin valvomisen jälkeen; heidän keskimääräinen tulostasonsa oli 12 pistettä alempi kuin 10 koehenkilöllä jotka suorittivat kokeen normaalien yöunien jälkeen. Onko ero todellinen, vai voisiko se johtua sattumasta? Kuinka paljon suurempi todellinen ero voisi olla kuin tuo 12 pistettä joka otoksessa havaittiin? Nämä ovat kysymyksiä joihin pyritään vastaamaan inferentiaalisen tilastotieteen avulla. Inferentiaalisessa tilastotieteessä on kaksi päälähestymistapaa: estimointi ja hypoteesin testaus. Estimoinnissa otosta käytetään jonkin parametrin ja sen luottamusvälien estimointiin. Hypoteesin testauksessa asetetaan nollahypoteesi ja päätellään testin avulla, onko aineisto riittävän poikkeava nollahypoteesin ennustamasta aineistosta, jotta nollahypoteesi voidaan hylätä. Valvomiskokeessa nollahypoteesi olisi valvomisella ei ole vaikutusta kokeessa suoriutumiseen. Käsittelemme inferentiaalista tilastotiedettä tarkemmin luvussa 4, jossa tutustumme tilastolliseen testaamiseen. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

19 3. Todennäköisyysjakaumat Mikä tahansa järjestetty aineisto muodostaa jakauman. Jakaumat voivat olla diskreettejä eli epäjatkuvia tai jatkuvia. Binomi- ja Poisson-jakaumat ovat diskreettejä jakaumia, eli ne voivat saada vain tiettyjä arvoja. Normaalijakauma on taas tyypillinen esimerkki jatkuvasta jakaumasta; normaalisti jakautunut muuttuja voi saada minkä tahansa arvon negatiivisesta äärettömästä positiiviseen äärettömään. Binomijakauma Binomijakauma on ehkä tärkein teoreettinen diskreetti todennäköisyysjakauma. Jos satunnaiskoetta toistetaan riippumattomasti n kertaa ja tarkastellaan tapahtumaa A, jonka todennäköisyys yksittäisessä kokeessa on P( A) p sanotaan A:n esiintymisten lukumäärän n:ssä kokeessa olevan binomiaalisesti jakautunut. Todennäköisyys sille, että A tapahtuu n-kertaisessa toistokokeessa täsmälleen x kertaa, on f ( A x n p x p x nx ) (1 ) Esimerkiksi, tyttöjen lukumäärä vaikkapa nelilapsisessa perheessä on binomijakautunut, samoin resessiivisesti periytyvään sairauteen sairastuneiden lasten lukumäärä sisarussarjassa, joiden vanhemmat ovat heterotsygootteja. Teoreettisesti voidaan osoittaa, että binomijakauman odotusarvo on n*p, ja varianssi n*p*(1-p). Esimerkki 21. Kuvassa on esitetty toistokokeen binomijakauma, jossa toistojen lukumäärä n on 10 ja tapahtuman A todennäköisyys, p = 0.3. Binomijakaumasta nähdään, että P(A tapahtuu kolme kertaa kymmenessä toistossa) 0.27 ja P(A tapahtuu viisi kertaa kymmenessä toistossa) Binomijakaumaa voidaan soveltaa jos toistettava tapahtuma täyttyy seuraavat ehdot: 1) tapahtumalla on kaksi tulosvaihtoehtoa (tai kategoriaa), 2) tapahtumat ovat toisensa poissulkevat (vain jompikumpi voi tapahtua) ja 3) toistojen tulokset ovat toisistaan riippumattomat Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

20 Alla on esimerkki kahdesta binomijakauman todennäköisyystaulukosta. Ensimmäisessä toistojen määrä on 3 ja toisessa 8. n = 3 x \ p= n = 8 x \ p= Esimerkiksi todennäköisyys, että kahdeksasta lapsesta (n = 8) seitsemän olisi tyttöä (p = 0.5 ja x = 7), saadaan yllä olevasta taulukosta P(x = 7) = Samaten todennäköisyys, että kolmesta lapsesta kaksi olisi sairaita (n = 3 ja x = 2), jos sairaus on resessiivisesti periytyvä ja toinen vanhemmista on kantaja ja toinen sairas (p = 0.5), on P(x = 2) = Poisson-jakauma Kun n on hyvin suuri, binomitodennäköisyyksien laskemisesta tulee hankalaa. Jos esimerkiksi haluttaisiin laskea todennäköisyys että 3000 yksilön populaatiossa on täsmälleen 18 harvinaista fenotyyppiä ilmentävää yksilöä, mikäli tämän fenotyypin esiintymisfrekvenssi on 0.005, jouduttaisiin laskemaan sekä * Onkin hyödyllistä tietää, että binomijakauma lähestyy Poisson-jakaumaa, kun n ja p on pieni. Tällöin n*p pysyy käytännössä vakiona. Jos käytetään merkintää n*p= lähestyy binomijakauma funktiota n x p (1 p) x n x e x x! missä e on Neperin luku, jonka likiarvo on Edellinen lauseke on Binomijakauman ja jälkimmäinen Poisson-jakauman tiheysfunktio. Poisson-jakauma approksimoi hyvin binomijakaumaa, kun n 20 ja p 0,05. Huomionarvoista on myös se, että Poisson-jakauman odotusarvo ja varianssi ovat keskenään yhtä suuria (). Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

21 Poisson-jakauma on käyttökelpoinen, sillä monet ilmiöt ovat jakautuneet sen mukaisesti. Esim. harvinaisen sairauden ilmaantuvuus väestössä noudattaa Poisson-jakaumaa. Kunkin yksittäisen henkilön sairastumistodennäköisyys on hyvin pieni, mutta toistoja eli yksilöitä on väestössä hyvin paljon. Samoin tietyn ajan kuluessa petrimaljalle ilmestyvien bakteerien lukumäärä noudattaa suhteellisen tarkasti Poisson-jakaumaa. Tällöin maljan pohja ajatellaan jaetuksi hyvin pieniin alueisiin, joissa kussakin bakteerin esiintymistodennäköisyys on pieni, mutta alueita eli toistoja on paljon. Poisson-jakaumaa on käytetty myös ns. karttafunktioiden kehittelyssä. Karttafunktioilla muunnetaan kahden lokuksen välinen rekombinaatiofrekvenssi karttayksiköiksi. Crossing-overia kuvataan tavallisesti Poisson-prosessilla, jossa niiden lukumäärä kromosomissa on Poissonjakautunut ja sijainnit jakautuvat tasaisesti yli kromosomin. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

22 4. Tilastollinen testaaminen Tilastollisen testaamisen tarkoitus Tilastollisten testien tarkoitus on verrata kahta tai useampaa tilastollista aineistoa ja arvioida ovatko ne peräisin samasta perusjoukosta. Tämä arvio on aina jokin todennäköisyys, eli ns. pitävää todistetta ei tilastollisella testaamisella voida ikinä saavuttaa kyseessä on aina tilastollinen todiste. Tilastollisten testien avulla voidaan tutkia otantapopulaatiota (perusjoukkoa) koskevien väittämien tai käsitysten eli hypoteesien, paikkansapitävyyttä. Tutkija haluaa tietää esim. ovatko jonkin muuttujan keskiarvot kahdessa joukossa yhtä suuret, tai vaikkapa vastaavatko genotyyppien lukusuhteet risteytysasetelman teoreettisia lukusuhteita. Tätä varten hankitaan otos; ensimmäisessä poimitaan kahdesta populaatiosta yksilöitä satunnaisesti ja mitataan tutkittavan muuttujan arvot kullakin yksilöllä; jälkimmäisessä esimerkissä suoritetaan risteytyskoe ja tutkitaan tietty määrä jälkeläisiä. Tilastollisella testillä pyritään selvittämään, vastaako otos perusjoukon suhteen tehtyä hypoteesia. Toisaalta on myös mahdollista verrata kahta otosta toisiinsa. Testin tulos kertoo todennäköisyyden, jolla hypoteesi pitää paikkansa. Tätä hypoteesia kutsutaan nollahypoteesiksi. Nollahypoteesi (merkitään H 0 ) kuvaa vakiintunutta käsitystä tai väittämää, josta ollaan valmiita luopumaan vasta, kun sitä vastaan saadaan kyllin vahvoja todisteita. Esim. halutaan verrata, onko jollakin lääkeaineella vaikutusta. Tällöin verrataan keskenään koe- ja verrokkiryhmiä, ja nollahypoteesina on se, että eroa ei ole (eli todellinen ero näiden perusjoukkojen välillä on nolla). Nollahypoteesin vastakohta on vaihtoehtoinen hypoteesi (tai vastahypoteesi), H 1. Edellisessä esimerkissä H 1 olisi: ryhmien välillä on eroa. Testaaminen on sen selvittämistä, kuinka hyvin otos on sopusoinnussa nollahypoteesin kanssa. Tätä sopusointua mitataan testisuureen eli sopivan otoksesta lasketun tunnusluvun avulla. Testisuureen arvoa verrataan testisuureen teoreettiseen jakaumaan (nollahypoteesin vallitessa). Tämä jakauma kertoo siis testisuureen eri arvojen todennäköisyyden, mikäli nollahypoteesi on totta. Varovaisuusperiaatteen mukaisesti vasta, jos testisuureen arvo poikkeaa teoreettisesta niin paljon, että sellaisia esiintyy vain harvoin pelkän satunnaisvaihtelun vaikutuksesta, uskalletaan nollahypoteesi hylätä. Tällöin siis otoksessamme havaitut poikkeamat nollahypoteesista ovat niin suuria, että ne eivät ole todennäköisiä vain sattuman vaikutuksesta. Tilastollinen merkitsevyys Testisuureiden nollahypoteesin mukaisten jakaumien perusteella voidaan määrittää niin kutsuttu p- arvo. p-arvo kertoo sen osuuden jakaumakäyrän rajaamasta pinta-alasta, joka jää testisuureen antaman tuloksen epätodennäköisemmälle puolelle. Jos edellisessä esimerkissä testisuure noudattaisi normitettua normaalijakaumaa ja sen arvoksi saataisiin 2.22, olisi p-arvo tuolloin = (kts. normaalijakauman kertymäfunktiotaulukko). p-arvo ilmaisee tuloksen tilastollisen merkitsevyyden tason, eli sen todennäköisyyden, että yhtä poikkeava tai vielä poikkeavampi tulos saataisiin, vaikka otos olisikin itse asiassa peräisin nollahypoteesin mukaisesta perusjoukosta. Edellä mainitun esimerkin tapauksessa tuo todennäköisyys olisi siis hieman reilun prosentin tasoa. On muistettava, että tilastollisella testillä ei voida koskaan aukottomasti osoittaa jonkin hypoteesin paikkaansa pitävyyttä, ainoastaan millä varmuudella se pitää paikkansa. Yleensä tilastollisesti merkitsevänä pidetään p-arvoa 0.05 eli tämän suuruiset tai sitä pienemmät p-arvot johtavat nollahypoteesin hylkäämiseen; kyseessä on kuitenkin jossain määrin mielivaltainen arvo, joissakin tapauksissa voi olla syytä pitää vasta vielä pienempiä p-arvoja tilastollisesti merkitsevinä Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

23 Tilastollisessa testaamisessa voidaan tehdä kahden tyyppisiä virheitä: 1) I-tyypin virhe eli hylkäämisvirhe, jossa hylätään H 0 vaikka H 0 on tosi tai 2) II-tyypin virhe eli hyväksymisvirhe, jossa hyväksytään H 0 vaikka H 1 on tosi. Nollahypoteesi Hyväksytty Hylätty Tosi % I-tyypin virhe Epätosi II-tyypin virhe % Käytetty merkitsevyystaso on siis riski sille, että nollahypoteesin mukaisesta perusjoukosta saadaan otos, joka näyttää olevan peräisin vaihtoehtohypoteesin mukaisesta perusjoukosta. Jos nollahypoteesin mukaisesta perusjoukosta poimittaisiin toistuvasti riippumattomia otoksia ja niistä laskettaisiin testisuureen arvot, hylättäisiin nollahypoteesi keskimäärin merkitsevyystason antamassa osuudessa otoksista. Tilastollisia testejä Tilastollisia testejä on suuri joukko, joista kullakin on tietty käyttötarkoitus; toisin sanoen mikään tilastollinen testi ei ole ylivertainen muihin verrattuna. Sopivan tilastollisen testin valinta riippuu vain havaintoaineiston ominaisuuksista kuten esim. 1) käytetystä mitta-asteikosta (jatkuva vai diskreetti muuttuja), 2) muuttujan jakaumasta (esim. normaalisti jakautunut) sekä 3) otoksien ja 4) otosten havaintojen keskinäisestä riippuvuussuhteesta. Tällä kurssilla käsitellään diskreettien jakaumien testaamiseen soveltuvia 2 -testejä. 2 -yhteensopivuustesti Yhteensopivuustestillä tutkitaan, noudattaako tarkasteltava satunnaismuuttuja jotakin tunnettua jakaumaa. Perusajatuksena on verrata luokittain havaittuja frekvenssejä (hav) nollahypoteesin mukaisiin odotettuihin frekvensseihin (od). Esimerkki 23: Populaatiosta on kerätty otos josta määritetään yksilöiden genotyypit. Halutaan selvittää, onko genotyyppijakauma nk. Hardy-Weinbergin tasapainossa. A 1 A 1 A 1 A 2 A 2 A 2 summa Havaittu Nollahypoteesiksi otetaan jakauma on H-W-tasapainossa, sillä tälle nollahypoteesille voimme laskea odotetut arvot. Tällöin H 1 on: jakauma ei ole H-W-tasapainossa. Miltä jakauman tulisi näyttää, mikäli aineisto on H-W-tasapainossa? Tiedämme, että H-W-tasapainossa genotyyppifrekvenssien jakauma on p 2, 2pq, q 2, jossa p ja q ovat alleelien (A 1, A 2 ) frekvenssit. Voimme laskea nämä alleelifrekvenssit aineiston avulla (eli estimoimme alleelifrekvenssit samaisesta aineistosta). Alleelin A 1 frekvenssi saadaan laskemalla allelin A 1 lukumäärä havaintoaineistossa ja jakamalla se populaation kaikkien alleelien lukumäärällä. On muistettava, Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

24 että A 1 A 1 -homotsyooteilla on kaksi kappaletta A 1 -alleelia ja A 1 A 2 -heterotsygooteilla on yksi kappale A 1 -alleelia, joten alleelin A 1 frekvenssi otoksessa on: p 2* * 242 Alleelin A 2 frekvenssi q = 1 p = = HW-tasapainossa aineistossa tulisi olla A 1 A 1 -homotsygootteja: p 2 *N = * 242 = A 1 A 2 -heterotsygootteja: 2pq*N = 2 * * * 242 = A 2 A 2 -homotsygootteja: q 2 *N = * 242 = A 1 A 1 A 1 A 2 A 2 A 2 summa Havaittu Odotettu Kuinka hyvin otoksemme siis on sopusoinnussa nollahypoteesin kanssa? Sopusointua mitataan testisuureen eli otoksesta lasketun tunnusluvun avulla. 2 -yhteensopivuustestissä testisuure lasketaan seuraavalla tavalla: 2 k i1 hav i od od i i 2 missä k on luokkien (tässä genotyyppien) lukumäärä. 2 -testisuureen arvo on siis 2 k i hav od od Voidaan osoittaa, että että 2 -testisuure noudattaa asymptoottisesti 2 -jakaumaa määrätyillä vapausasteilla (degrees of freedom, df), mikäli otos on saatu nollahypoteesin mukaisesta perusjoukosta. Vapausasteet kuvaavat sitä kuinka monta vapaata havaintoa aineistossa on. Periaatteessa yhteensopivuustestissä vapausasteita on yksi vähemmän kuin luokkien määrä, mutta mikäli joitakin parametreja joudutaan estimoimaan, ne vähennetään vapausasteiden määrästä. Siis vapausasteet ovat luokkien lkm odotettujen frekvenssien määräämiseksi estimoitujen parametrien lkm. Esimerkissämme df = 3-1-1=1, eli luokkia on yhtä monta kuin genotyyppejä. Alleelifrekvenssi jouduttiin estimoimaan testattavana olevasta aineistosta jotta odotettu genotyyppijakauma saataisiin tietää, joten sen vuoksi vähennetään vielä 1. (Vain yksi parametri estimoitiin, sillä toinen alleelifrekvenssi seuraa suoraan ensimmäisestä: q = 1 - p) Jos kaikki testaamiseen tarvittava tieto saadaan suoraan hypoteesista (kuten yleensä mendelistissä tapauksissa), mitään parametreja ei tarvitse estimoida ja vapausasteiden määrä on sama kuin luokkien määrä 1. Taulukko (kappaleen lopussa) antaa 2 -jakauman alapuolisen alueen pinta-aloja eli todennäköisyyksiä pisteestä 2 p (kriittinen arvo) oikealle, merkitsevyystason p eri arvoilla 0,1... 0,001 ja vapausasteilla 1, 2,...,100. Esim. jos df = 1 niin pisteestä oikealle jää todennäköisyys Esimerkissä testisuureen arvoksi tuli 4.97: todennäköisyys nollahypoteesin ollessa totta saada näin suuri tai vielä suurempi testisuureen arvo on siis pienempi kuin viisi prosenttia. Mikäli saatu Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

25 testisuureen arvo ylittää valitun merkitsevyystason kriittisen arvon 2 p, on poikkeama nollahypoteesista tilastollisesti merkitsevä. Tällöin nollahypoteesi hylätään merkitsevyystasolla p. Esimerkin tapauksessa nollahypoteesi voidaan siis hylätä merkitsevyystasolla 0,05 eli genotyypit eivät ole H-W-tasapainossa. 2 -riippumattomuustesti 2 -riippumattomuustestillä selvitetään, riippuvatko tarkasteltavat muuttujat toisistaan. Testisuure on sama kuin edellä, mutta käyttötarkoitus ja tarkasteltavat hypoteesit erilaisia. Geneettisen aineiston tapauksessa kyseeseen tulee vaikkapa populaatioiden alleelifrekvenssien vertailu. Esimerkki 24. Laskettiin alleelifrekvenssit kolmesta eri populaatiosta: Populaatio 1 Populaatio 2 Populaatio 3 alleeli A alleeli A H 0 : Muuttujat eivät riipu toisistaan (eli alleelin esiintymistodennäköisyys ei riipu populaatiosta vaan on sama kaikissa populaatioissa). Odotetut frekvenssit lasketaan nollahypoteesin mukaisesti: Kolmen populaation keskimääräinen alleelifrekvenssi alleelille A 1 on 531/940, jolloin odotettu lukumäärä esim. populaatiossa 1 on alleelifrekvenssi * populaation alleelien lkm = 531/940 * ,0. Näin saadaan nyrkkisääntö kunkin solun odotetulle arvolle: i : s. rivisumma * j : s. sarakesumma od ij kokonaissumma Odotetut frekvenssit: Populaatio 1 Populaatio 2 Populaatio 3 alleeli A alleeli A Havaittuja solufrekvenssejä hav ij (rivi i, sarake j) verrataan vastaaviin odotettuihin solufrekvensseihin od ij kuten 2 -yhteensopivuustestissä. Luokkina ovat nyt taulukon solut 2 ( hav ) ij odij (7678,0) (295288,1) (160164,9) (6260,0) (215221,9) (132127,1) i, j od 78,0 288,1 164,9 60,0 221,9 127,1 ij Mikäli havaituissa ja odotetuissa frekvensseissä on suuria poikkeamia, nämä eivät johdu sattumasta vaan muuttujien välisen riippumattomuushypoteesin virheellisyydestä. 0,834 Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

26 Vapausasteiden laskemisessa voidaan käyttää yleistä periaatetta: vaihtoehtoisen hypoteesin vaatimien parametrien määrä nollahypoteesin vaatimien parametrien määrä. Tässä tapauksessa vaihtoehtoinen hypoteesi olettaa tekijöiden olevan toisistaan riippuvia, jolloin joudutaan estimoimaan kaikkien solujen lukumäärät erikseen eli tarvitaan s * r 1 (viimeisen solun lukumäärä saadaan 1 muut) parametria. Vastaavasti nollahypoteesissä oletetaan, että tekijät ovat toisistaan riippumattomia eli estimoidaan erikseen alleeli- ja populaatiofrekvenssit, jolloin parametrien lukumäärä on (s-1) + (r-1). Näiden erotus on sr 1 (s 1 + r 1) = sr s r + 1 = (r-1)(s-1). Eli vapausasteet voi laskea suoraan kaavasta df = (r-1) * (s-1), missä r on rivien lkm ja s sarakkeiden lkm. Esimerkissä df = (2-1) * (3-1) = 2 ja vastaava p > 0,10, joten H 0 jää voimaan. Alleelin esiintymistodennäköisyys ei riipu populaatiosta vaan on sama kaikissa populaatioissa. 2 -testejä käytettäessä on erittäin tärkeää olla tietoinen sen ominaisuuksista ja käyttörajoista, joita käsitellään tässä. 2 -testi antaa luotettavia tuloksia vain jos a) korkeintaan 20 % odotetuista frekvensseistä <5 ja b) jokainen odotettu frekvenssi >1. Mikäli nämä vaatimukset eivät ole voimassa, poikkeaa testisuureen jakauma esitetystä asymptoottisesta 2 -jakaumasta. Tällöin testi aliarvioi havaittua merkitsevyystasoa eli johtaa liian herkkään toden nollahypoteesin hylkäämiseen (I-tyypin virhe). Tämä haitta voidaan usein kiertää yhdistelemällä luokkia sopivasti. Yhdistely luonnollisesti vaikuttaa vapausasteiden määrään. On huomattava että 2 -testit tehdään aina absoluuttisilla lukumäärillä, ei suhteellisilla osuuksilla. Esimerkiksi testattessa alleelifrekvenssien yhtäsuuruutta eri populaatioiden välillä on käytettävä alleelien lukumääriä, ei suhteellisia osuuksia. Jos kummallakin tekijällä on vain kaksi luokkaa ja luokkien koot ovat pieniä, 2 -testi ei ole optimaalinen tilastollinen testi. Tällöin on suositeltavaa käyttää Fisherin tarkkaa nelikenttätestiä. Tällä testillä voidaan selvittää, kuinka todennäköistä on saada vähintään yhtä poikkeavasti jakautunut nelikenttä, kuin se, joka havaittiin. Nelikenttätestiä voidaan käyttää esim. selvitettäessä onko tietyn alleelin ja sairauden välillä yhteyttä. Fisherin tarkka nelikenttätesti on laskennallisesti raskas, eikä sitä käsitellä tällä kurssilla. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

27 df 0,995 0,9500 0,100 0,050 0,025 0,010 0, ,000 0,004 2,706 3,842 5,024 6,635 7, ,010 0,103 4,605 5,992 7,378 9,210 10, ,072 0,352 6,251 7,815 9,348 11,345 12, ,207 0,711 7,779 9,488 11,143 13,277 14, ,412 1,146 9,236 11,071 12,833 15,086 16, ,676 1,635 10,645 12,592 14,449 16,812 18, ,989 2,167 12,017 14,067 16,013 18,475 20, ,344 2,733 13,362 15,507 17,535 20,090 21, ,735 3,325 14,684 16,919 19,023 21,666 23, ,156 3,940 15,987 18,307 20,483 23,209 25, ,603 4,575 17,275 19,675 21,920 24,725 26, ,074 5,226 18,549 21,026 23,337 26,217 28, ,565 5,892 19,812 22,362 24,736 27,688 29, ,075 6,571 21,064 23,685 26,119 29,141 31, ,601 7,261 22,307 24,996 27,488 30,578 32, ,142 7,962 23,542 26,296 28,845 32,000 34, ,697 8,672 24,769 27,587 30,191 33,409 35, ,265 9,390 25,989 28,869 31,526 34,805 37, ,844 10,117 27,204 30,144 32,852 36,191 38, ,434 10,851 28,412 31,410 34,170 37,566 39, ,034 11,591 29,615 32,671 35,479 38,932 41, ,643 12,338 30,813 33,924 36,781 40,289 42, ,260 13,091 32,007 35,172 38,076 41,638 44, ,886 13,848 33,196 36,415 39,364 42,980 45, ,520 14,611 34,382 37,652 40,646 44,314 46, ,160 15,379 35,563 38,885 41,923 45,642 48, ,808 16,151 36,741 40,113 43,195 46,963 49, ,461 16,928 37,916 41,337 44,461 48,278 50, ,121 17,708 39,087 42,557 45,722 49,588 52, ,787 18,493 40,256 43,773 46,979 50,892 53, ,707 26,509 51,805 55,758 59,342 63,691 66, ,991 34,764 63,167 67,505 71,420 76,154 79, ,534 43,188 74,397 79,082 83,298 88,379 91, ,28 51,74 85,53 90,53 95,02 100,43 104, ,17 60,39 96,58 101,88 106,63 112,33 116, ,20 69,13 107,57 113,15 118,14 124,12 128, ,33 77,93 118,50 124,34 129,56 135,81 140,17 2 -jakauma: Yksisuuntaiseen testiin liittyviä kriittisiä arvoja joillakin merkitsevyystasojen p ja vapausasteiden df arvoilla. Esim. jos df = 3 ja merkitsevyystaso = 0.05, on kriittinen raja 7,815; P( 2 >7.815) = Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

28 5. Geneettisen analyysin sovelluksia Monet nykyaikaiset geneettiset sovellukset ja tutkimusmenetelmät nojaavat vahvasti klassiseen genetiikkaan; tällaisia ovat esimerkiksi sukulaisuustutkimukset sekä geenikartoituksessa käytettävät menetelmät. Nämä sovellukset hyödyntävät ihmisen perimässä sijaitsevia merkkigeenejä, joita tunnetaan useita eri tyyppejä. Merkkigeenit Merkkigeenit ovat lokuksia, joiden sijainti perimässä tunnetaan ja niissä havaitaan vaihtelua eli polymorfiaa yksilöiden välillä. Useimmat merkkigeenit ovat neutraaleja eli ne eivät vaikuta mihinkään fenotyyppiseen ominaisuuteen. Merkkigeenit voidaan jakaa kahteen pääluokkaan: sekvenssipolymorfioihin, joissa yhdessä tai muutamassa emäsparissa havaitaan vaihtelua yksilöiden välillä sekä toistopolymorfioihin, joissa tietyn toistojakson kopioiden lukumäärässä havaitaan vaihtelua yksilöiden välillä. Yksinkertaisin ja samalla yleisin sekvenssipolymorfian tyyppi on yhden nukleotidin polymorfia (single nucleotide polymorphism, SNP), jossa tietyssä emäsparissa havaitaan vaihtelua yksilöiden välillä. SNP:t ovat hyvin yleisiä perimässä, niitä esiintyy noin 1000 emäsparin välein. Yleisimpiä toistojaksopolymorfioita puolestaan ovat ns. mini- ja mikrosatelliittisekvenssit; molemmissa tietty toistojakso esiintyy useana peräkkäisenä kopiona perimässä. Minisatelliittien (Variable Number Tandem Repeat, VNTR), toistojaksot ovat pituudeltaan yleensä noin emäsparia ja peräkkäisten kopioiden lukumäärä voi vaihdella muutamasta kappaleesta yli sataan kopioon. Minisatelliittisekvenssit sijaitsevat usein kromosomien päissä ja niitä on perinteisesti käytetty ns. geneettisten sormenjälkien määrittämiseen, tosin nykyään SNP:t ja mikrosatelliitit ovat syrjäyttäneet minisatelliitit tässä käyttötarkoituksessa. Mikrosatelliittien (Short Tandem Repeat, STR) toistojakson pituus vaihtelee 1-13 emäsparia, mutta 2-4 emäsparin toistoyksiköt ovat yleisimpiä. Mikrosatelliitit ovat verrattain yleisiä ja ne ovat yleensä erittäin polymorfisia, useimmista lokuksista tunnetaan jopa 10 alleelia. (Kuva 5.1) A --TGTAGCCTAGGTACATGCAGTGC-- Henkilö 1 --TGTAGCCTAGGCACATGCAGTGC-- Henkilö 2 B --TCGATCACACACA TCG-- Henkilö 1 --TCGATCACACACACACACATCG-- Henkilö 2 Kuva 5.1. Merkkigeenien pääluokat A. Yhden nukleotidin polymorfia (sekvenssipolymorfia). Henkilöt 1 ja 2 eroavat yhden emäksen suhteen, henkilöllä 1 on tymiini-emäs kun taas henkilöllä 2 on sytosiini-emäs kyseisen merkkigeenin kohdalla. B. Mikrosatelliitti (toistopolymorfia). Kyseisen mikrosatelliitin toistojakso on sytosiini-adeniini-dinukleotidi (CA). Henkilöllä 1 on perimässään neljä kopiota toistojaksoa, henkilöllä 2 puolestaan 7 kopiota. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

29 Geenikartoitus Vaikka ihmisen perimän emäsjärjestys on täysin selvitetty ja suuri osa geeneistä on tunnistettu, on monien yleisten ominaisuuksien ja sairauksien geneettinen tausta lähes täysin pimennossa. Toisin sanoen siis yhteys tunnettujen geenien ja ominaisuuksien välillä ei ole tiedossa. Geenikartoituksella viitataan tiettyyn ominaisuuteen vaikuttavien geenien etsintään tilastollisin menetelmin; näin löydettävät ominaisuuteen vaikuttavat geenit voivat siis olla tunnettuja geenejä joiden ei tiedetä liittyvän ominaisuuteen tai geenejä, joiden toiminta ei ole vielä tiedossa. Yleinen geenikartoituksen tavoite on tunnistaa ns. tautigeenejä. Nämä tautigeenit ovat normaaleja perimäämme kuuluvia geenejä, joiden tehtävä solussa on niin keskeinen, että niiden normaalin toiminnan häiriintyminen mutaation seurauksena aiheuttaa sairauden. Kaksi keskeisintä geenikartoituksen menetelmää ovat kytkentäanalyysi ja assosiaatioanalyysi. Kytkentäanalyysillä pyritään paikallistamaan kromosomaalisia alueita, jotka periytyvät yhdessä tarkasteltavan ominaisuuden kanssa odotettua useammin. Kytkentäanalyysi on ollut erittäin tehokas menetelmä satojen Mendelistisesti periytyvien sairauksien geenitaustan selvittämisessä: mm. nk. Suomalaiseen tautiperintöön kuuluvien sairauksien geenivirheet on paikallistettu kytkentäanalyysillä. Koska kytkentäanalyysissä seurataan ominaisuuden ja geenimerkkien periytymistä, tulee tutkimusaineiston koostua perheistä joiden väliset sukulaisuussuhteet ovat tiedossa. Assosiaatioanalyysillä puolestaan tarkastellaan geneettisten varianttien (alleelien) esiintymistä tapauksissa ja verrokeissa (esim. tietyn ominaisuuden ilmentäjät ja ei-ilmentäjät); jos tietty alleeli on huomattavasti yleisempi tapauksissa, saattaa alleelilla olla osuutta ominaisuuden määräytymisessä. Toisin kuin kytkentäanalyysissä, assosiaatioanalyysissä aineistona käytetään keskenään ei-sukua olevia populaation edustajia. Assosiaatioanalyysissä saatetaan tarkastella mm. yhden nukleotidin polymorfoita, joiden eri alleelit tuottavat eri aminohapon proteiinituotteeseen. Yleisempää on kuitenkin se, että assosiaatioanalyysissä käytetään neutraaleja geenimerkkejä, jolloin assosiaatio tarkasteltavaan ominaisuuteen aiheutuu markkerin ja ns. kausatiivisen variantin välisestä kytkentäepätasapainosta. Kytkentäepätasapainolla tarkoitetaan ilmiötä, jossa lähekkäisten lokusten alleelit esiintyvät yhdessä odotettua useammin. Useimpien Mendelistisesti periytyvien ominaisuuksien (lähinnä harvinaisten vakavien sairauksien) aiheuttava geeni tunnetaan ja nykyään geenikartoituksen parissa työskentelevät tutkimusryhmät keskittyvätkin nykyään ns. monitekijäisten ominaisuuksien geenitaustan selvittämiseen. Monitekijäisillä ominaisuuksilla tarkoitetaan ominaisuuksia, joiden määräytymiseen vaikuttavat useat geenit sekä ympäristötekijät. Tällaisia ominaisuuksia ovat monet kansanterveydellisesti tärkeät sairaudet kuten tyypin 2 diabetes (aikuisiän sokeritauti), skitsofrenia ja verenpainetauti. Vaikka nämä sairaudet ovat diagnosoitavissa diskreetillä mitta-asteikolla (sairas/terve), käyttävät monet näitä sairauksia tutkivat ryhmät kvantitatiivisia muuttujia (esim. veren paasto-sokeriarvo, veren ylä- ja alapaine jne.) näiden sairauksien geenitaustan selvittämiseen, sillä nämä kuvaavat sairauksien taustalla olevia biologisia prosesseja paremmin kuin diskreetit kliiniset diagnoosit. Näihin analyyseihin tarvitaan kuitenkin kvantitatiivisen genetiikan menetelmiä, joihin ei tällä kurssilla perehdytä. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

30 Sukulaisuustutkimukset Sukulaisuustutkimuksilla tarkoitetaan DNA-menetelmiä, joilla voidaan varmistaa tai vahvistaa väitettyjä sukulaisuussuhteita; yleisimmät käytännön sovellukset ovat isyystutkimukset ja pakolaisten perheenyhdistämistapauksiin liittyvät sukulaisuusselvitykset. Käytännössä tämä tarkoittaa sitä, että tutkittavat henkilöt genotyypitetään useiden merkkigeenien suhteen ja näitä genotyyppejä käytetään sukulaisuussuhteen arviointiin laskennallisin menetelmin. Sukulaisuustutkimuksissa voidaan joko poissulkea sukulaisuussuhde tai laskea sukulaisuussuhteen todennäköisyys. Poissuljenta suoritetaan Mendelin lakien mukaisesti: esimerkiksi jos lapsella on alleeli jota ei ole äidillä eikä isäehdokkaalla, voidaan kyseinen isäehdokas poissulkea. Jos kuitenkin isän, äidin ja lapsen genotyypit sopivat yhteen, on määritettävä se todennäköisyys, että lapsen isä on joku muu kuin isäehdokas (joka olisi voinut periyttää lapselle samat alleelit). Käytännössä tulee siis selvittää, mitkä alleelit lapsi on perinyt isältään ja mikä on todennäköisyys, että populaatiosta satunnaisesti poimittu mies omaa tämän alleeliyhdistelmän. (kuva 5.2) Mitä pienempi tämä todennäköisyys on, sitä suurempi on todennäköisyys, että isäehdokas on lapsen isä. Tämän todennäköisyyden selvittämiseen tarvitaan luonnollisesti käytettyjen merkkigeenien alleelifrekvenssit. Sukulaisuustutkimuksissa on muistettava, että merkkigeenien alleelifrekvenssit heijastavat populaatiohistoriaa jonka vuoksi on erittäin tärkeää käyttää samasta populaatiosta estimoituja alleelifrekvenssejä laskelmissa. Samanlaisella päättelyllä voidaan poissulkea tai päätellä minkä tahansa sukulaisuussuhteen todennäköisyys, mutta laskutoimitukset ovat monimutkaisempia. Lokus Isäehdokkaan genotyyppi Äidin genotyyppi Lapsen genotyyppi Lapsenisältä perimä alleeli Isältä perityn alleelin frekvenssi SNP 1 AA TT AT A 0.2 SNP 2 GC GC CC C 0.3 SNP 3 AA GG AG A 0.8 SNP 4 TC TC TC ei määritettävissä - SNP 5 GT TT GT G 0.1 Kuva 5.2. Isyystutkimus. Tässä isyystutkimuksessa on käytetty viittä yhden nukleotidin polymorfiaa isyyden selvittämiseen. Isän genotyypit olivat yhdenmukaisia lapsen genotyyppien kanssa, joten isäehdokasta ei voida poissulkea. Määritetään mikä on todennäköisyys, että populaatiosta sattumanvaraisesti poimittu mies omaa genotyypit, jotka ovat yhteensopivia lapsen genotyyppien kanssa. Kuvatut lokukset ovat toisistaan riippumattomia (eivät ole kytkeytyneitä toisiinsa), joten alleeliyhdistelmän todennäköisyys on 0.2*0.3*0.8*0.1 = eli noin 1/200. Tämä on siis todennäköisyys, että tällä isäehdokkaalla on täsmälleen sama genotyyppi kuin oikealla biologisella isällä. On kuitenkin huomattava, että tämä todennäköisyys ei päde isäehdokkaan lähisukulaisiin sillä heillä on huomattavasti suuremmalla todennäköisyydellä sama alleeliyhdistelmä kuin isäehdokkaalla. DNA-tutkimukset rikostutkinnassa DNA-tutkimusten merkitys nykyaikaisessa rikostutkinnassa on kasvanut huimasti, koska DNAnäyte voidaan saada mistä tahansa kudoksesta tai eritteestä joka sisältää tumallisia soluja. Lisäksi DNA-tutkimuksilla voidaan hyvin suurella todennäköisyydellä osoittaa esimerkiksi rikospaikalta löytyneen näytteen kuuluvan epäilylle. Toisaalta DNA-tutkimuksella voidaan myös osoittaa epäillyn syyttömyys. Periaate on sama kuin sukulaisuustutkimuksissa: jos epäillyn genotyyppiyhdistelmä on yhteensopiva rikospaikalta löytyneen näytteen kanssa, määritetään tämän genotyyppiyhdistelmän frekvenssi kyseisessä populaatiossa käytettyjen merkkigeenien suhteen. Tämä frekvenssi on myös se todennäköisyys, että näyte on peräisin jostain toisesta populaation yksilöstä. (kuva 5.2). On kuitenkin huomattava, että epäillyn sukulaiset omaavat tämän Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

31 genotyyppiyhdistelmän huomattavasti todennäköisemmin kuin ei-sukua olevat yksilöt, joten päätelmät pätevät vain ei-sukua oleviin yksilöihin. Rikospaikkatutkinnassa on muistettava mahdolliset virhelähteet kuten näytteen kontaminaatio (näyte sisältää useamman yksilön DNA:ta) ja kunto (DNA saattaa olla pilkkoutunut) jotka saattavat johtaa vääriin päätelmiin. Alleeli 1 Alleeli 2 Alleeli 3 Alleeli 4 Alleeli 5 Yhteensä STR STR STR Kuva 5.3. DNA-tutkimus rikostutkinnassa Rikospaikalta löydetyn verinäytteen genotyyppi kolmen toisiinsa kytkeytymättömän merkkigeenin suhteen on STR 1(1,3), STR 2(2,4) ja STR 3(3,3). Epäillyllä on myös tämä genotyyppi. Genotyypin yleisyys populaatiossa on (2*0.300*0.175)*(2*0.350*0.100)*(0.200*0.200) eli sama genotyyppiyhdistelmä löytyy tässä populaatiossa vain kolmella ihmisellä kymmenestätuhannesta. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

32 Laskuharjoitukset 1. Mendelistinen genetiikka Perinnöllisyystieteen peruslainalaisuudet perustuvat Augustiini-munkki Gregor Mendelin ( ) suorittamiin risteytyskokeisiin, joiden tunteminen on välttämätöntä jokaiselle perinnöllisyystieteilijälle. Mendelin lakien mukaan periytyviä ominaisuuksia kutsutaan yleensä Mendelistisesti periytyviksi. Perinnöllisyystieteen alalla on huomattava määrä termejä ja käsitteitä, joita valitettavan usein käytetään epätarkasti ja sekavasti. Tämän vuoksi tässä osiossa käsitellään keskeisimmät termit ja niiden merkitys. Lokus on tietty fysikaalinen paikka perimässä, esimerkiksi tiettyjen emäsparien rajaama alue tietyssä kromosomissa. Geeni puolestaan on jokin lokus, joka koodittaa geenituotetta, esimerkiksi proteiinia tai toiminnallista ribonukleiinihappoa (RNA) kuten ribosomaalista RNA:ta. On siis huomattava, että lokuksella voidaan tarkoittaa mitä tahansa perimän osaa, mutta vain osa lokuksista on geenejä. Jos tietyssä lokuksessa tunnetaan vaihtoehtoisia muotoja, esimerkiksi vaihtoehtoisia emäspareja, kutsutaan näitä muotoja alleeleiksi. Diploideilla eliöillä, kuten ihmisellä, on kutakin autosomaalista kromosomia kaksi kopiota, joista toinen on peritty äidiltä ja toinen isältä. Yksilön genotyypillä tarkoitetaan tämän geneettistä rakennetta eli alleeliyhdistelmää tietyssä lokuksessa. On huomattava, että genotyypissä alleelien järjestyksellä ei ole merkitystä, joten heterotsygoottien Aa ja aa genotyypissä ei ole eroa. Tämä johtuu siitä, että tumassa eri alleeleja kantavilla kromosomeilla ei ole järjestystä. Jos yksilö on perinyt isältään ja äidiltään identtiset alleelit tiettyyn lokukseen, esimerkiksi AA tai aa, kutsutaan yksilön genotyyppiä tämän lokuksen suhteen homotsygoottiseksi. Puolestaan yksilöä, jolla on tietyssä lokuksessa kaksi erilaista alleelia, esimerkiksi Aa, kutsutaan lokuksen suhteen heterotsygoottiseksi (kuva 1.1). Fenotyypillä tarkoitetaan yksilön ilmiasua jonkin ominaisuuden suhteen. Ominaisuus voi olla mikä tahansa havaittavissa tai mitattavissa oleva ominaisuus, kuten silmien väri, sukupuoli, pituus tai paino. Mendelistisesti periytyvän ominaisuuden fenotyyppi on suoraan pääteltävissä genotyypistä. Alleelit eivät välttämättä ole fenotyypin tasolla tasarvoisia, jokin alleeli saattaa peittää toisen alleelin vaikutuksen. Tällöin peittävää alleelia kutsutaan dominoivaksi ja peittyvää alleelia resessiiviseksi. Tällöin, jos yksilöllä on yksikin kappale dominoivaa alleelia, ilmentää tämä dominoivaa fenotyyppiä mutta resessiivinen fenotyyppi ilmenee vain jos yksilön molemmat alleelit ovat resessiivisiä. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

33 A a Kuva 1.1 Lokus, alleelit, genotyyppi ja fenotyyppi. Kuvassa on jokin lokus, esimerkiksi 1200:s emäspari kromosomi 1 pitkän käsivarren alusta. Yksilö on perinyt vanhemmiltaan eri alleelit A ja a eli on tämän lokuksen suhteen heterotsygootti Aa. Jos A dominoi alleelia a ilmentää yksilö tällöin dominoivaa fenotyyppiä. Mendelin työn tärkeimmät tulokset ovat segregaation laki sekä itsenäisen yhdistymisen laki. Segregaation laki määrittelee, että diploidin eliön sukusolujen kehityksessä lokuksen kaksi alleelia eroavat toisistaan ja kukin sukusolu saa vain yhden eliön kahdesta alleelista. Mendel siis päätteli risteytyskokeidensa perusteella kuinka vastinkromosomit eroavat toisistaan meioosissa vaikka hän ei todennäköisesti tiennyt mitään solun ja kromosomien rakenteesta. Itsenäisen yhdistymisen laki toteaa, että hedelmöityksessä sukusolut yhdistyvät riippumatta siitä mitä alleeleja ne sisältävät tietyssä lokuksessa. Itsenäinen yhdistyminen mahdollista Mendelistisen rekombinaation, jonka seurauksena jälkeläisissä voi muodostua vanhemmista poikkeavia fenotyyppiyhdistelmiä. Monohybridiristeytys Monohybridiristeyksessä tarkastellaan yhden Mendelistisesti periytyvän ominaisuuden periytymistä. Mendel suoritti tällaisen risteytyskokeen mm. kahdella hernelinjalla, joista toinen tuotti sileitä (S) ja toinen kurttuisia (s) siemeniä. Hän käytti kokeissaan niin kutsuttuja puhtaita linjoja, joissa kaikki yksilöt ilmentävät vanhempiensa fenotyyppiä. Tämä selittyy sillä, että puhtaassa linjassa pitkän sisä- tai itsesiitoksen ja valinnan seurauksena kaikki yksilöt ovat ominaisuuden tuottavan lokuksen suhteen homotsygoottisia ja tuottavat vain yhdenlaisia sukusoluja. Mendelin käyttämät parentaali (P) sukupolven hernekasvit olivat siis genotyypiltään SS (sileät siemenet) ja ss (kurttuiset siemenet). Risteytyksen seurauksena ensimmäisessä filiaali (F 1 ) sukupolvessa kaikki yksilöt tuottivat sileitä siemeniä. Tämä johtuu siitä, että F 1 -polven yksilöt ovat heterotsygootteja Ss ja sileän siemen tuottava alleeli on domivoiva kurttuisen siemenen tuottavaan alleeliin nähden (kuva 1.2). Risteyttäessään F 1 -polven yksilöt keskenään Mendel havaitsi, että toisessa filiaali (F 2 ) sukupolvessa dominoivaa ja resessiivistä fenotyyppiä esiintyi suhteessa 3:1. Tämä on seurausta siitä, että F 2 -polven heterotsyygoottiset yksilöt tuottavat sekä dominoivaa että resessiivistä alleelia kantavia sukusoluja (segregaation laki) jotka yhdistyivät toisistaan riippumattomasti hedelmöityksessä (itsenäisen yhdistymisen laki). Monohybridiristeytyksessä ei havaita Mendelististä rekombinaatiota vaan F 2 -polven edustavat jompaakumpaa P-polven fenotyyppiä. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

34 P-polvi SS x ss Gameetit S s F 1 -polvi Ss Gameetit S s F 2 -polvi SS Ss ss ss Kuva 1.2 Monohybridiristeytys F 1 -sukupolvessa kaikki yksilön ovat sileitä siemeniä tuottavia heterotsygootteja Ss. F2-sukupolvessa yksilöiden genotyyppijakauma on SS ¼, Ss ½ ss ¼ ja fenotyyppijakauma sileitä siemeniä tuottavia ¾ ja kurttuisia siemeniä tuottavia ¼. Dihybridiristeytys Dihybridiristeyksessä tarkastellaan kahden toisistaan riippumattoman Mendelistisesti periytyvän ominaisuuden periytymistä. Mendel teki myös risteytyskokeita, jossa hän tarkasteli kahden ominaisuuden, siemenen muodon (sileä S ja kurttuinen s) ja siemenen värin (vihreä G ja keltainen g), periytymistä yhtäaikaisesti. Risteyttäessään kahta, näiden ominaisuuksien suhteen puhdasta hernelinjaa sileitä ja vihreitä (SSGG) ja kurttuisia ja keltaisia siemeniä tuottavia yksilöitä (ssgg), Mendel huomasi että kaikki F 1 -polven jälkeläiset tuottivat vihreitä ja sileitä siemeniä eli ilmensivät dominoivaa fenotyyppiä molempien ominaisuuksien suhteen. Tämä johtui siitä, että kaikki F 1 - polven yksilöt olivat heterotsygootteja SsGg. F 2 -polvessa Mendel huomasi, että puolet jälkeläisistä ilmensi P-polvesta poikkeavia fenotyyppi-yhdistelmiä, sileitä keltaisia tai kurttuisia vihreitä siemeniä tuottavia yksilöitä. Toisin sanoen F 2 -polvessa tapahtui Mendelististä rekombinaatiota, joka johtuu siitä että F 1 -polven yksilöt SsGg tuottavat neljää erilaista sukusolutyyppiä (SG, Sg, sg ja sg) joiden itsenäinen yhdistyminen hedelmöityksessä tuottaa uusia fenotyyppiyhdistelmiä. Tämä havainnollistuu tarkastelemalla F 1 -polven yksilöiden risteytystä Punnett-taulukossa (kuva 3). SG Sg sg sg SG SSGG SSGg SsGG SsGg Sg SSGg SSgg SsGg Ssgg sg SsGG SsGg ssgg ssgg Sg SsGg Ssgg ssgg ssgg Kuva 1.3 F 1 -polven gameetit ja F 2 -polven jälkeläisluokat. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

35 F 2 -polvessa havaitaan neljää fenotyyppiluokkaa: Sileitä ja vihreitä (SSGG, SSGg, SsGG ja SsGg), sileitä ja keltaisia (SSgg ja Ssgg), kurttuisia ja vihreitä (ssgg ja ssgg) sekä kurttuisia ja keltaisia (ssgg) siemeniä tuottavia yksilöitä lukusuhteissa 9:3:3:1. Näistä suurin ja pienin luokka edustaa P- polven fenotyyppejä ja keskimmäiset luokat edustavat uudenlaisia fenotyyppiyhdistelmiä. Multihybridiristeytykset Samantyyppistä päättelyä kuin mono- ja dihybridiristeytyksissä voidaan laajentaa mielivaltaiseen määrään toisistaan riippumattomia ominaisuuksia, mutta käytännössä tämä on hankalaa erilaisten gameettien ja fenotyyppiluokkien lukumäärän kasvun vuoksi. Sekä F 1 -polven gameettien että F 2 - polven fenotyyppiluokkien lukumäärä on 2 n, missä n on tarkasteltavien ominaisuuksien lukumäärä (monohybidiristeytyksessä 2 ja dihybridiristeytyksessä 4). F 2 -polven genotyyppiluokkien lukumäärä puolestaan on 3 n (monohybridiristeytyksessä 3 ja dihybridiristeytyksessä 9). Takaisinristeytys Dominoivaa fenotyyppiä ilmentävän yksilön genotyyppiä ei voida suoraan päätellä fenotyypin perusteella, koska genotyypit AA ja Aa tuottavat saman fenotyypin. Resessiivistä fenotyyppiä ilmentävä yksilö puolestaan on välttämättä genotyypiltään aa. Dominoivaa fenotyyppiä ilmentävän yksilön genotyyppi voidaan päätellä suorittamalla niin kutsuttu takaisinristeytys (koeristeytys) resessiivistä fenotyyppiä ilmentävän yksilön kanssa (jonka genotyyppi on tiedossa fenotyypin perusteella). Jos kaikki F 1 -polven jälkeläiset ilmentävät dominoivaa fenotyyppiä, P-polven dominoivaa fenotyyppiä ilmentävän yksilön on oltava genotyypiltään AA. Jos puolestaan F 1 - polvessa jälkeläiset ilmentävät molempia fenotyyppejä 1:1 lukusuhteessa, on P-polven dominoivaa fenotyyppiä ilmentävän yksilön oltava heterotsygootti (kuva 1.4). A S B S s s Ss S Ss ss Kuva 1.4 Monohybriditakaisinristeytys A. Takaisinristeytys, jossa P-polven dominoivaa fenotyyppiä edustava yksilö on homotsygootti. Tällöin kaikki F 1 - polven jälkeläiset edustavat dominoivaa fenotyyppiä. B. Takaisinristeytys, jossa P-polven dominoivaa fenotyyppiä edustava yksilö on heterotsygootti. Tässä tapauksessa F 1 -polven jälkeläisten fenotyypit seuraavat 1:1 lukusuhdetta. Dihybridiristeytyksessä F 1 -polven jälkeläisten fenotyyppien lukusuhteet ovat 1:1:1:1, jos P-polven dominoivaa fenotyyppiä ilmentävä yksilön on heterotsygootti molempien lokusten suhteen. Jos puolestaan P-polven dominoivia fenotyyppejä ilmentävä yksilö on toisen lokuksen suhteen heterotsygootti ja toisen suhteen homotsygootti on F 1 -polvessa jälkeläisten fenotyyppien lukusuhde 1:1 (kuva 1.5). Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

36 A SG B SG Sg sg sg sg SsGg sg SsGg Ssgg ssgg ssgg C SG Sg D SG sg sg SsGg Ssgg sg SsGg ssgg Kuva 1.5. Dihybriditakaisinristeytys. A. Risteytys SSGG x ssgg. Kaikki F 1 -polven jälkeläiset edustavat dominoivaa fenotyyppiä. B. Risteytys SsGg x ssgg. F 1 -polvessa jälkeläisten fenotyypit 1:1:1:1. C. Risteytys SSGg x ssgg. D. Risteytys SsGG x ssgg. Risteytyksissä C ja D F 1 -polven jälkeläisten fenotyyppien lukusuhde on 1:1. Kytkentä sukupuoleen Useilla diploideilla eliöillä sukupuolen määrittävät erityiset sukupuolikromosomit, jotka sisältävät myös useita sukupuoliseen erilaistumiseen liittymättömiä geenejä. Kaikkia lokuksia, jotka sijaitsevat sukupuolikromosomeissa kutsutaan sukupuoleen kytkeytyneiksi. Sukupuolikromosomeja on kahdenlaisia, joista toisella sukupuolella on yksi kappale molempia ja toisella kaksi samanlaista kromosomia. Se kromosomi, jota on vain toisella sukupuolella määrittää sukupuolen. Se sukupuoli, jolla on kaksi erilaista kromosomia (niin kutsuttu heterogameettinen sukupuoli) ei käytännössä ole diploidi sukupuolikromosomien suhteen, sillä erilaiset sukupuolikromosomit ovat yhteneviä vain pieneltä alueelta (ns. pseudoautosomaalinen alue). Heterogameettisen sukupuolen edustajia kutsutaan hemitsygooteiksi. Koska hemitsygooteilla on vain yksi kappale kutakin alleelia sukupuolikromosomeissaan, ilmenevät resessiivisetkin ominaisuudet fenotyypissä sillä näille ei ole vastinalleelia lainkaan (kuva 1.6). a Kuva 1.6. Hemitsygootin sukupuolikromosomit. Hemitsygoottisela yksilöllä ylemmässä sukupuolikromosomissa kuvattu resessiivinen alleeli ilmenee fenotyypissä sillä vastinkromosomissa ei ole vastinalleelia lainkaan. Esimerkiksi ihmisellä X-kromosomissa on lukuisia lokuksia joille ei ole vastinlokusta huomattavasti pienikokoisemmassa Y-kromosomissa. Ihmisellä sukupuolen määrää Y-kromosomi, joka käynnistää miehisen sukupuolikehityksen. Miehet ovat sukupuolikromosomeiltaan XY (hemitsygootteja), kun taas naiset ovat sukupuolikromosomeiltaan XX. Linnuilla puolestaan sukupuolen määrää Z-kromosomi ja naaraat ovat heterogameettinen sukupuoli (WZ). Multippelit alleelit Useissa lokuksissa esiintyy kolmea tai useampaa erilaista alleelia; tällöin sanotaan että lokuksessa esiintyy multippeleita alleeleja. Esimerkiksi ihmisen ABO-veriryhmän määrää lokus, jossa esiintyy Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

37 kolmea vaihtoehtoista alleelia (kuva 1.7). Ääriesimerkki multippeleista alleeleista tavataan mikroja minisatelliittilokuksissa, jossa saattaa olla jopa kymmeniä alleeleja. Mikrosatelliittilokuksia hyödynnetään mm. rikostutkinnassa, sukulaisuustutkimuksissa sekä geenikartoituksessa. Fenotyyppi Genotyyppi A I A I A tai I A i B I B I B tai I B i AB I A I B O ii Kuva 1.7. ABO-veriryhmien määrittyminen. Tehtävät 1.1 Oletetaan, että ihmisellä nipukattomat korvat on resessiivinen ominaisuus nipukallisiin nähden. Naisella ja tämän miehellä on molemmilla nipukalliset korvat, vaikka molempien isällä oli nipukattomat korvat. Onko mahdollista, että tämä pariskunta voisi saada lapsen, jolla on nipukattomat korvat? Perustele selityksesi esittämällä sekä lapsen että vanhempien genotyypit. 1.2 Eräässä autosomaalisessa lokuksessa esiintyy viittä eri alleelia. Kuinka monta mahdollista eri genotyyppiä näistä voi syntyä? Entä jos lokuksessa onkin kahdeksan alleelia? 1.3 Tiedetään, että kaksi marsua on heterotsygootteja dominoivan mutaation suhteen, joka aiheuttaa pystyhännän. Marsukasvattaja tahtoisi luoda pystyhännän suhteen puhtaan linjan. Aluksi hän antaa pois kaikki normaalihäntäiset pennut, jotka tämä marsupari saa. Mikä osuus jäljelle jäävistä ovat homotsygoottisia pystyhäntä-mutaation suhteen? 1.4 Risteytettäessä AaBbCcDD ja AabbCcDd, mikä osuus jälkeläisistä ilmentää kaikkia neljää dominoivaa ominaisuutta, kun lokukset yhdistyvät itsenäisesti? 1.5 Oletetaan, että hamstereilla suorat karvat (S), kullanruskea turkki (G) ja karvaiset korvat (H) ovat dominoivia ominaisuuksia kiharaan karvaan, tummanruskeaan turkkiin ja karvattomiin korviin nähden. Kaikki kolme lokusta ovat toisistaan riippumattomia. Risteytettäessä Ss Gg HH ja SS Gg Hh, kuinka montaa erilaista fenotyyppiä jälkeläisten keskuudessa esiintyy? Entä kuinka montaa erilaista genotyyppiä? 1.6 Kesykanalla resessiivinen alleeli sukupuoleen kytkeytyneessä lokuksessa aiheuttaa synnynnäistä kaljuutta. Risteytetään kalju kukko ja fenotyypiltään normaali kana. Esitä kaikkien yksilöiden genotyypit, fenotyypit sekä F 1 - ja F 2 -polvien jälkeläisten lukusuhteet. Huomioi, että linnuilla naaraan sukupuolikromosomit ovat WZ ja koiraan WW. 1.7 Punavihervärisokeus on X-kromosomiin kytkeytynyt resessiivinen ominaisuus. Eräs polydaktylian (monisormisuuden - tai varpaisuuden) muoto puolestaan periytyy autosomaalisesti dominoivana. Maisa ei ilmennä kumpaakaan näistä ominaisuuksista, mutta sekä hänen isänsä että hänen aviomiehensä Julius ovat molemmat punavihervärisokeita ja ilmentävät polydaktyliaa. Juliuksen äiti ei ilmennä kumpaakaan ominaisuutta. Mikä on todennäköisyys, että Maisan ja Juliuksen lapsi ilmentää toista tai molempia ominaisuuksia? Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

38 2. Geneettiset interaktiot Vaikka alleelit periytyvät Mendelin lakien mukaisesti, ei niiden vaikutus ilmiasuun aina seuraa edellisessä osiossa edellisessä luvussa esiteltyjä Mendelistisiä lukusuhteita. Tässä luvussa käsitellään tällaisia ilmiöitä. Epätäydellinen dominanssi Epätäydellisessä dominanssissa heterotsygoottien (Aa) fenotyyppi poikkeaa molempien homotsygoottien (AA ja aa) fenotyypistä. Heterotsygootit ovat fenotyyppisesti jonkinlaisia välimuotoja vanhempiensa fenotyypeistä. Tästä johtuen risteytettäessä kahta puhtaan linjan yksilöä jotka ilmentävät erilaisia fenotyyppejä, ovat kaikki näiden jälkeläiset fenotyypiltään erilaisia kuin kumpikaan vanhemmista. F 2 - sukupolvessa jälkeläisten fenotyyppiset lukusuhteet ovat 1:2:1. Esimerkki: Leijonankidan (Antirrhinum majus) kukanvärin määräytyminen (kuva 2.1). P-polvi VV Punainen vv Valkoinen Gameetit V v F 1 -polvi Vv Vaaleanpun. Violetti Vv Vaaleanpun. Violetti Gameetit V v V v F 2 -polvi VV Vv Vv vv Punainen Violetti Vaaleanpun Violetti Valkoinen Kuva 2.1 Leijonankidan kukanvärin määräytyminen. Alleelin V suhteen homotsygoottinen P-polven yksilö on punakukkainen ja alleelin v suhteen homotsygoottinen yksilö on valkokukkainen fenotyypiltään. F 1 -sukupolvessa kaikki yksilöt ovat vaaleanpunakukkaisia heterotsygootteja eivätkä ole fenotyyppisesti kummankaan vanhempansa kaltaisia. F 2 -sukupolvessa jälkeläisistä neljännes ilmentää P-polven fenotyyppejä eli ovat valko- tai punakukkaisia ja puolet ilmentää välimuotoista vaaleanpunakukkaista fenotyyppiä. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

39 Kodominanssi Toisin kuin epätäydellisessä dominanssissa, jossa F 1 -jälkeläisten fenotyyppi on jonkinlainen välimuoto vanhempien fenotyypeistä, kodominanssissa molempien alleelien vaikutus heterotsygootin fenotyyppiin on täydellinen. Esimerkiksi ihmisen MN-veriryhmä määrytyy yhden lokuksen perusteella, josta tunnetaan kaksi alleelia, L M ja L N. Molemmat alleelit koodittavat punasolun pinta-molekyylejä, L M M-antigeeniä ja L N N-antigeeniä. Molemmat alleelit ilmenevät täydellisesti heterotsygooteilla, joiden punasolujen pinnassa on sekä M- että N-antigeenit (kuva 2.2). Veriryhmä Genotyyppi M L M L M MN L M L N N L N L N Kuva 2.2 MN-veriryhmien määräytyminen. Epistasia Epistasialla tarkoitetaan tilannetta, jossa kaksi (tai useampi) lokusta vaikuttavat yhteen fenotyyppiseen ominaisuuteen yhteistyössä. Klassisen määritelmän mukaan epistasialla tarkoitetaan tilannetta, jossa yksi lokus (epistaattinen) kykenee peittämään toisen lokuksen (hypostaattisen) vaikutuksen fenotyypin tasolla. Mikäli heterotsygotia epistaattisessa lokuksessa riittää peittämään hypostaattisen lokuksen vaikutuksen puhutaan dominantista epistasiasta, jolle ominaiset F 2 - jälkeläisten lukusuhteet ovat 12:3:1 (kuva 2.3). IiBb x IiBb Valkoinen Valkoinen IB Ib ib ib IB Ib ib ib IIBB IIBb IiBB IiBb Valkoinen Valkoinen Valkoinen Valkoinen IIBb IIbb IiBb Iibb Valkoinen Valkoinen Valkoinen Valkoinen IiBB IiBb iibb iibb Valkoinen Valkoinen Musta Musta IiBb Iibb iibb iibb Valkoinen Valkoinen Musta Ruskea Kuva 2.3. Dominantti epistasia. Eräällä koirarodulla turkin väri määräytyy siten, että dominantisti epistaattinen väripigmentti-inhibiittori I estää pigmentin tuottavan lokuksen ilmentymisen. Tästä johtuen kaikki yksilöt, joilla on I-alleeli jäävät valkoisiksi. Hypostaattisessa lokuksessa mustan värin tuottava alleeli B puolestaan dominoi ruskean värin tuottavaa alleelia b. Ristetytettäessä heterotsygoottiset F 1 -jälkeläiset keskenään saadaan F 2 -sukupolvessa tyypillinen 12:3:1 lukusuhde. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

40 Resessiivisessä epistasiassa puolestaan yksilön tulee olla homotsygootti tietyn alleelin suhteen, jotta hypostaattisen lokuksen vaikutus fenotyyppiin peittyy. Tässä tapauksessa F 2 -polvessa havaitaan jälkeläisissä eri fenotyyppejä suhteessa 9:3:4 (kuva 2.4). BbCc x BbCc Musta Musta BC Bc bc bc BC Bc bc bc BBCC BBCc BbCC BbCc Musta Musta Musta Musta BBCc BBcc BbCc Bbcc Musta Albiino Musta Albiino BbCC BbCc bbcc bbcc Musta Musta Ruskea Ruskea BbCc Bbcc bbcc bbcc Musta Albiino Ruskea Albiino Kuva 2.4. Resessiivinen epistasia. Hiirillä mustaa väripigmenttia tuottava B-alleeli dominoi ruskeaa pigmenttia tuottavaa b-alleelia. Epistaattisessa lokuksessa dominoiva alleeli C mahdollistaa pigmentin kertymisen turkin karvoihin. Puolestaan tämän lokuksen suhteen F 2 -polven resessiiviset cc-homotsygootit jäävät värittömiksi, koska ne eivät kykene varastoimaan tuotettua pigmenttiä. Tästä seuraa resessiviselle epistasialle tyypilliset F 2 -polven lukusuhteet 9:3:4. Nykyään epistasialla tarkoitetaan mitä tahansa kahden (tai useamman) lokuksen interaktioita, jotka vaikuttavat samaan ominaisuuteen. Edellisten klassisten määritelmien lisäksi tällä voidaan tarkoittaa tilanteita, joissa dominoiva alleeli vaaditaan joko toiseen (kuva 2.5) tai molempiin lokuksiin tietyn fenotyypin aikaansaamiseksi (kuva 2.6). AaBb x AaBb Värillinen Värillinen AB Ab ab ab AB Ab ab ab AABB AABb AaBB AaBb Värillinen Värillinen Värillinen Värillinen AABb AAbb AaBb Aabb Värillinen Värillinen Värillinen Värillinen AaBB AaBb aabb aabb Värillinen Värillinen Värillinen Värillinen AaBb Aabb aabb aabb Värillinen Värillinen Värillinen Väritön Kuva 2.5. Epistasia, jossa dominoiva alleeli kummassa tahansa lokuksessa riittää ilmentymiseen. Vehnän siemenen väri määräytyy kahden vaihtoehtoisen entsyymin vaikutuksesta. Molempia entsyymejä koodaavista lokuksista tunnetaan resessiiviset mutaatiot a ja b, jotka estävät entsyymin oikean toiminnan. Tästä johtuen yksilöt, jotka ovat resessiivisiä homotsygootteja molempien lokusten suhteen (aabb), jäävät värittömiksi. Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

41 F1: WwPp x WwPp Violetti Violetti WP Wp wp wp WP WWPP WWPp WwPP WwPp Violetti Violetti Violetti Violetti Wp WWPp WWpp WwPp Wwpp Violetti Valk Violetti Valk wp WwPP WwPp wwpp wwpp Violetti Violetti Valk Valk wp WwPp Wwpp wwpp wwpp Violetti Valk Valk Valk Kuva 2.6. Epistasia, jossa ilmentymiseen vaaditaan dominoiva alleeli molemmissa lokuksessa. Risteytettäessä kaksi puhtaan linjan valkokukkaista tuoksuhernettä (Lathyrus odoratus), F1-polven kaikki jälkeläiset olivat violettikukkaisia. Risteytettäessä nämä F1-polven jälkeläiset keskenään, havaitaan F2-polvessa valko- ja violettikukkaisia yksilöitä suhteessa 9:7. Tämä johtuu siitä, että dominoiva alleeli kummassa tahansa lokuksessa aiheuttaa violetin värin kun taas resessiivinen homotsygotia kummassa tahansa lokuksessa aiheuttaa valkoisen kukan värin. Letaalit alleelit ja myöhäisellä iällä ilmentyminen Jotkin alleelit voivat aiheuttaa kuoleman jo varhaisessa yksilönkehitysvaiheessa, jonka vuoksi jälkeläisissä voidaan havaita poikkeuksia Mendelistisistä lukusuhteista. Tällaisilla alleeleilla on yleensä dominoiva vaikutus fenotyyppiin ja ne ovat letaalisia vain homotsygoottisina. Tunnettu esimerkki letaalista alleelista on hiirien turkin väriä määrävä lokus. Tässä lokuksessa on kaksi alleelia: homotsygootisena letaali, keltaisen turkin aiheuttava alleeli Y ja ruskeanharmaan (agouti) turkin aiheuttava alleeli y. Risteytettäessä keltaisia heterotsygoottisia hiiriä (Yy) syntyy keltaisia ja ruskeanharmaita jälkeläisiä suhteessa 2:1, sillä YY-homotsygootit kuolevat varhaisessa alkionkehityksen vaiheessa (kuva 2.8). Y y Yy x Yy Keltainen Keltainen Y Y YY Yy Letaali Yy Keltainen Keltainen yy Ruskeanharmaa Kuva 2.8 Letaali alleeli. Kahden heterotsygoottisen hiiren risteytyksessä saadaan normaalista monohyridiristeytyksestä (3:1) poikkeava lukusuhde 2:1, sillä Y-alleeli on homotsygoottisena letaali. Joidenkin alleelien vaikutus ilmenee vasta myöhemmällä iällä. Tästä johtuen yksilöiden fenotyyppi muuttuu iän myötä, eikä lokus seuraa Mendelistisiä lukusuhteita ennen kuin kaikki tarkasteltavat Geneettinen analyysi/onkamo, Sammalisto, Leo & Uimari,

52746 Geneettinen analyysi

52746 Geneettinen analyysi 52746 Geneettinen analyysi Kaikille yhteiset luennot (3 kpl) Maanantai 3.2. Klo 10.15-12 Biokeskus 2 auditorio 1041 Todennäköisyyslaskennan kertaus, merkitys perinnöllisyystieteessä! Keskiviikko 5.2. Tilastotiede

Lisätiedot

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi Tilastollinen testaaminen tai Tilastollinen päättely Geneettinen analyysi Tilastollisen testaamisen tarkoitus Tilastollisten testien avulla voidaan tutkia otantapopulaatiota (perusjoukkoa) koskevien väittämien

Lisätiedot

Geneettinen analyysi. Tilastotieteen kertausta

Geneettinen analyysi. Tilastotieteen kertausta Kertaus: Luento 1 Todennäköisyyksien perusperiaatteita Testille suotuisten tapauksien joukko Toisensa poissulkevat tapaukset Leikkaus Yhdiste Komplementti Riippumattomat tapahtumat, niiden kertolasku Ehdollinen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

S Laskennallinen systeemibiologia

S Laskennallinen systeemibiologia S-114.2510 Laskennallinen systeemibiologia 3. Harjoitus 1. Koska tilanne on Hardy-Weinbergin tasapainossa luonnonvalintaa lukuunottamatta, saadaan alleeleista muodostuvien eri tsygoottien genotyyppifrekvenssit

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Estimointi, Havaittu frekvenssi, Heterogeenisuus,

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Todennäköisyys (englanniksi probability)

Todennäköisyys (englanniksi probability) Todennäköisyys (englanniksi probability) Todennäköisyyslaskenta sai alkunsa 1600-luvulla uhkapeleistä Ranskassa (Pascal, Fermat). Nykyisin todennäköisyyslaskentaa käytetään hyväksi mm. vakuutustoiminnassa,

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I Tehtävä 1 on klassikko. 1. Tässä tehtävässä tapahtumat A ja B eivät välttämättä

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Juuri 0 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 9..08 Kertaus K. a) Alapaineiden pienin arvo on ja suurin arvo 74, joten vaihteluväli on [, 74]. b) Alapaineiden keskiarvo on 6676870774

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia. Tehtävien ratkaisuja 4. Palloja yhteensä 60 kpl. a) P(molemmat vihreitä) = P((1. pallo vihreä) ja (. pallo vihreä)) = P(1. pallo vihreä) P(. pallo vihreä 1. pallo vihreä) = 0.05 (yleinen kertolaskusääntö)

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo. Kertaus Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Luokiteltu aineisto. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo. Hajontaluvut luokittelemattomalle

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30. FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto Kynä-paperi -harjoitukset Taina Lehtinen 43 Loput ratkaisut harjoitustehtäviin 44 Stressitestin = 40 s = 8 Kalle = 34 pistettä Ville = 5 pistettä Z Kalle 34 8 40 0.75 Z Ville 5 8 40 1.5 Kalle sijoittuu

Lisätiedot

3.7 Todennäköisyysjakaumia

3.7 Todennäköisyysjakaumia MAB5: Todennäköisyyden lähtökohdat 4 Luvussa 3 Tunnusluvut perehdyimme jo jakauman käsitteeseen yleensä ja normaalijakaumaan vähän tarkemmin. Lähdetään nyt tutustumaan binomijakaumaan ja otetaan sen jälkeen

Lisätiedot

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Unioni, Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Alkeistapahtuma, Ehdollinen todennäköisyys,

Lisätiedot

10. laskuharjoituskierros, vko 14, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut 10. laskuharjoituskierros, vko 14, ratkaisut D1. Eräässä kokeessa verrattiin kahta sademäärän mittaukseen käytettävää laitetta. Kummallakin laitteella mitattiin sademäärät 10 sadepäivän aikana. Mittaustulokset

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=11585&i dx=2&uilang=fi&lang=fi&lvv=2015

https://www10.uta.fi/opas/opintojakso.htm?rid=11585&i dx=2&uilang=fi&lang=fi&lvv=2015 12.1.2016/1 MTTTP5, luento 12.1.2016 1 Kokonaisuudet, joihin opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=11585&i dx=2&uilang=fi&lang=fi&lvv=2015 2 Osaamistavoitteet Opiskelija osaa

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS Klassinen todennäköisyys P suotuisten alkeistapausten lkm kaikkien alkeistapausten lkm P( mahdoton tapahtuma ) = 0 P( varma tapahtuma ) = 1 0 P(A) 1 Todennäköisyys

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

2. TILASTOLLINEN TESTAAMINEN...

2. TILASTOLLINEN TESTAAMINEN... !" # 1. 1. JOHDANTO... 3 2. 2. TILASTOLLINEN TESTAAMINEN... 4 2.1. T-TESTI... 4 2.2. RANDOMISAATIOTESTI... 5 3. SIMULOINTI... 6 3.1. OTOSTEN POIMINTA... 6 3.2. TESTAUS... 7 3.3. TESTIEN TULOSTEN VERTAILU...

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Todennäköisyyslaskennan käsitteitä Satunnaisuus ja deterministisyys Deterministisessä ilmiössä alkutila määrää lopputilan yksikäsitteisesti. Satunnaisilmiö puolestaan arpoo - yhdestä alkutilasta voi päätyä

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi

Lisätiedot

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja. Luku 1 Johdanto 1.1 Todennäköisyys ja tilastotiede Kurssi käsittelee todennäköisyyslaskentaa ja tilastotiedettä. Laaditaan satunnaisilmiöille todennäköisyysmalleja. Miten hyvin mallit kuvaavat todellisuutta?

Lisätiedot

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen MAT-5 Todennäköisyyslaskenta Tentti.. / Kimmo Vattulainen Vastaa jokainen tehtävä eri paperille. Funktiolaskin sallittu.. a) P A). ja P A B).6. Mitä on P A B), kun A ja B ovat riippumattomia b) Satunnaismuuttujan

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

Mat Sovellettu todennäköisyyslasku A

Mat Sovellettu todennäköisyyslasku A TKK / Systeemianalyysin laboratorio Mat-.090 Sovellettu todennäköisyyslasku A Harjoitus 11 (vko 48/003) (Aihe: Tilastollisia testejä, Laininen luvut 4.9, 15.1-15.4, 15.7) Nordlund 1. Kemiallisen prosessin

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila Kalvoissa käytetään materiaalia P. Palon vuoden 2005 kurssista. 07.09.2007 Antti Rasila () SovTodB 07.09.2007 07.09.2007 1 / 24 1 Todennäköisyyslaskennan

Lisätiedot

4. laskuharjoituskierros, vko 7, ratkaisut

4. laskuharjoituskierros, vko 7, ratkaisut 4. laskuharjoituskierros, vko 7, ratkaisut D1. Kone valmistaa kuulalaakerin kuulia, joiden halkaisija vaihtelee satunnaisesti. Halkaisijan on oltava tiettyjen rajojen sisällä, jotta kuula olisi käyttökelpoinen.

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen Tilastollisen analyysin perusteet Luento 5: Sisältö Tilastotieteessä tehdään usein oletuksia havaintojen jakaumasta. Useat tilastolliset menetelmät toimivat tehottomasti tai jopa virheellisesti, jos jakaumaoletukset

Lisätiedot

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta 22.1.2019/1 MTTTA1 Tilastomenetelmien perusteet Luento 22.1.2019 Luku 3 2 -yhteensopivuus- ja riippumattomuustestit 3.1 2 -yhteensopivuustesti H0: otos peräisin tietystä jakaumasta H1: otos ei peräisin

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Kandidaatintutkielman aineistonhankinta ja analyysi

Kandidaatintutkielman aineistonhankinta ja analyysi Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi TOD.NÄK JA TILASTOT, MAA0 Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi Kuten tilastojakaumia voitiin esittää tunnuslukujen (keskiarvo, moodi, mediaani, jne.) avulla, niin vastaavasti

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen) 1 MTTTP3 Luento 29.1.2015 Luku 6 Hypoteesien testaus Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? H 0 : µ = µ 0 H 1 : µ < µ 0 Nollahypoteesi Vaihtoehtoinen hypoteesi

Lisätiedot

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: 8.1 Satunnaismuuttuja Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: Esim. Nopanheitossa (d6) satunnaismuuttuja X kertoo silmäluvun arvon. a) listaa kaikki satunnaismuuttujan arvot b)

Lisätiedot

&idx=2&uilang=fi&lang=fi&lvv=2015

&idx=2&uilang=fi&lang=fi&lvv=2015 20.10.2015/1 MTTTP5, luento 20.10.2015 1 Kokonaisuudet, joihin opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=11585 &idx=2&uilang=fi&lang=fi&lvv=2015 2 Osaamistavoitteet Opiskelija osaa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot