S Laskennallinen systeemibiologia

Samankaltaiset tiedostot
VASTAUS 2a: Ruusukaijasten väri

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Miten geenit elelevät populaatioissa, vieläpä pitkiä aikoja?

III Perinnöllisyystieteen perusteita

a. Mustan ja lyhytkarvaisen yksilön? b. Valkean ja pitkäkarvaisen yksilön? Perustele risteytyskaavion avulla.

Symbioosi 2 VASTAUKSET

alleelipareja dominoiva dominoiva resessiivinen

Perinnöllisyys harvinaisten lihastautien aiheuttajana. Helena Kääriäinen Terveyden ja hyvinvoinnin laitos Tampere

Perinnöllisyyden perusteita

Perinnöllisyys. Enni Kaltiainen

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

DNA sukututkimuksen tukena

Populaatiosimulaattori. Petteri Hintsanen HIIT perustutkimusyksikkö Helsingin yliopisto

52746 Geneettinen analyysi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

III Perinnöllisyystieteen perusteita

Symbioosi 2 VASTAUKSET. b. Millaisia sukusoluja vanhemmat tuottavat (4 erilaista)? Vastaus: VL, vl, Vl, vl

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Perinnöllisyyden perusteita

Perinnöllisyys 2. Enni Kaltiainen

6. laskuharjoitusten vastaukset (viikot 10 11)

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Evoluutio. BI Elämä ja evoluutio Leena Kangas-Järviluoma

DNA-testit. sukututkimuksessa Keravan kirjasto Paula Päivinen

T Luonnollisten kielten tilastollinen käsittely

11. laskuharjoituskierros, vko 15, ratkaisut

Genetiikan perusteet 2009

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Darwin nuorena. Darwinin syntymästä on 201 vuotta ja "Lajien synnystä" 151 vuotta.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Geenikartoituksen käsitteet ja lähestymistavat

Peittyvä periytyminen. Potilasopas. Kuvat: Rebecca J Kent rebecca@rebeccajkent.com

KEESHONDIEN MONIMUOTOISUUSKARTOITUS

Symbioosi 2 TEHTÄVÄT

Väliestimointi (jatkoa) Heliövaara 1

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen Medicum, Biokemia ja kehitysbiologia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Sovellettu todennäköisyyslaskenta B

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Geenitekniikan perusmenetelmät

Miten letaalialleeleita käsitellään Drosophilalla? Välttämätön taito esimerkiksi alkionkehityksen alkuvaiheiden selvittämisessä

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Jokaisesta sairausgeenistä saa lisätietoa klikkaamalla kyseisen sairauden kohtaa ohjelmassa.

a) dominoivaan: esiintyy joka sukupolvessa, sairaille vanhemmille voi syntyä terveitä lapsia

Periytyvyys ja sen matematiikka

805306A Johdatus monimuuttujamenetelmiin, 5 op

Genetiikan perusteet. Tafel V Baur E. (1911) Einführung in die experimentelle Vererbungslehre. Verlag von Gebrüder Borntraeger, Berlin.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

DNA testit sukututkimuksessa

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Sovellettu todennäköisyyslaskenta B

Järvitesti Ympäristöteknologia T571SA

52746 Geneettinen analyysi

Sovellettu todennäköisyyslaskenta B

Geneettinen analyysi. Tilastotieteen kertausta

Perinnöllisyystieteen perusteita III Perinnöllisyystieteen perusteita

Vallitseva periytyminen. Potilasopas. Kuvat: Rebecca J Kent rebecca@rebeccajkent.com

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

X-kromosominen periytyminen. Potilasopas. TYKS Perinnöllisyyspoliklinikka PL 52, Turku puh (02) faksi (02)

Mat Tilastollisen analyysin perusteet, kevät 2007

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Matemaatikot ja tilastotieteilijät

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tiedonjyväsiä cavalierien geenitestauksista imuroituna maailmalta

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

pitkittäisaineistoissa

Sukusiitoksesta sukulaistumiseen - jalostustietojärjestelmä työkaluna. Rovaniemi Susanna Back, Suomen Hippos ry

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Jatkuvat satunnaismuuttujat

f (28) L(28) = f (27) + f (27)(28 27) = = (28 27) 2 = 1 2 f (x) = x 2

Tilastollinen aineisto Luottamusväli

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Testit järjestysasteikollisille muuttujille

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

1 Kannat ja kannanvaihto

HAVAITUT JA ODOTETUT FREKVENSSIT

Demonstraatiot Luento 7 D7/1 D7/2 D7/3

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Geneettinen analyysi 2014, laskuharjoitukset

Monogeeniset sairaudet. Monogeeninen periytyminen. Perinnöllisten tautien prevalenssi. Monitekijäiset sairaudet. Dominantti vs.

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

TAPAUS-VERROKKITUTKIMUS

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

LIITE 1 VIRHEEN ARVIOINNISTA

mendelististä genetiikkaa joukoissa: Hardyn ja Weinbergin "laki" Selektio, sattuma

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

S-114.2510 Laskennallinen systeemibiologia 3. Harjoitus 1. Koska tilanne on Hardy-Weinbergin tasapainossa luonnonvalintaa lukuunottamatta, saadaan alleeleista muodostuvien eri tsygoottien genotyyppifrekvenssit helposti: Freq(AA) = p 2 Freq(Aa) = 2 pq Freq(aa) = q 2 Luonnonvalinta vaikuttaa siihen, kuinka moni yksilö selviää aikuiseksi asti lisääntymään. Tämä vaikutus tuodaan mukaan kelpoisuustermillä. Keskimääräinen kelpoisuus lasketaan painottamalla suhteellisia kelpoisuuksia genotyyppifrekvensseillä: = AA p 2 + Aa 2pq + aa q 2. Kun kelpoisuus otetaan huomioon, lisääntyvien eläinten genotyyppifrekvensseiksi saadaan Freq(AA) = AA p 2 Freq(Aa) = Aa2pq Freq(aa) = aaq 2 Tällä tapaa jakautuneet genotyypit omistavat eläimet tuottavat sukusoluja, joiden alleelifrekvenssit saadaan laskettua helposti: Freq(A) = p = Freq(AA) + 1 2 Freq(Aa) Freq(a) = q = Freq(aa) + 1 Freq(Aa) = 1 p 2 (Kaikki AA:n tuottamat gameetit ovat tyyppiä A ja vastaavasti aa:n tuottamat gameetit tyyppiä a. Puolet Aa:n tuottamista gameeteista on a-tyyppiä ja puolet A:ta) 1

Nyt ollaan uuden sukupolven alussa. Edellä esitetyllä tavalla voidaan edetä sukupolvi kerrallaan ottaen aina huomioon kelpoisuuden vaikutukset. Lasketaan seuraavaksi tilanne annetuilla arvoilla. 1. sukupolvi Alussa p = 0.2 ja q = 0.8. Lasketaan tsygoottien genotyyppifrekvenssit Freq(AA) = p 2 = 0.04 Freq(Aa) = 2 pq = 0.32 Freq(aa) = q 2 = 0.64 Lasketaan kelpoisuus ja sen perusteella kypsään ikään elävien eläinten genotyyppifrekvenssit. = AA p 2 + Aa 2pq + aa q 2 = 1 0.04 + 0.12 0.32 + 0.2 0.64 = 0.2064 2. sukupolvi Freq(AA) = AA p 2 = 0.1938 Freq(Aa) = Aa2pq = 0.1860 Freq(aa) = aaq 2 = 0.6202 Lasketaan nyt 1. sukupolven tuottamien sukusolujen alleelifrekvenssit p = Freq(AA) + Freq(Aa)/2 = 0.2868 q = Freq(aa) + Freq(Aa)/2 = 0.7132 Edetään samalla tavalla kuin 1. sukupolvella, ja lasketaan tsygoottien genotyyppifrekvenssit Freq(AA) = p 2 = 0.0823 Freq(Aa) = 2p q = 0.4091 Freq(aa) = q 2 = 0.5086 2

Lasketaan kelpoisuus ja sen perusteella kypsään ikään elävien eläinten genotyyppifrekvenssit. = AA p 2 + Aa 2p q + aa q 2 = 0.2331 Freq(AA) = AA p 2 = 0.3529 Freq(Aa) = Aa2p q = 0.2106 Freq(aa) = aaq 2 = 0.4364 3. sukupolvi Kysyttiin ainoastaan alleelifrekvenssejä: p = Freq(AA) + Freq(Aa)/2 = 0.4583 q = Freq(aa) + Freq(Aa)/2 = 0.5417 Nähdään että kahden sukupolven jälkeen alleelifrekvenssit ovat jo melkein tasoittuneet. 2. Jos tilannetta tarkasteltaisiin formaalisti, pitäisi sukupuulle laskea likelihood annetulla sairausmallilla, jotta erilaisia vaihtoehtoja voitaisiin vertailla. Nyt ei tehdä niin, vaan tarkastellaan tilannetta ainoastaan ylimalkaisesti. Tutkitaan eri vaihtoehdot: Autosomaali kromosomi, resessiivi Autosomaalissa kromosomissa sijaitseva resessiivinen alleeli on mahdollinen. Tätä tilannetta esittää kuva 1. Autosomaali kromosomi, dominantti Geeni ei voi olla dominantti ja sijaita autosomaalikromosomissa. Jos näin olisi, jokaisen sairastuneen yksilön vanhemman pitäisi myös olla sairastunut. Näin ei selvästikään ole tutkittavassa tapauksessa. (Lisäksi tällaisessa tapauksessa keskimäärin puolet sairastuneen yksilön lapsista pitäisi olla myös sairastuneita. Tässä tapauksessa puu on niin pieni, ettei päättelyä lasten määristä voida suorittaa. Ensimmäinen ehto on kuitenkin riittävä toteamaan, ettei tämä vaihtoehto voi selittää tilannetta.) 3

Kuva 1: Tehtävän 2. sukupuu, autosomaali resessiivinen Kuva 2: Tehtävän 2. sukupuu, X-kromosomi resessiivinen X-kromosomi, resessiivi X-kromosomissa sijaitseva resessiivinen alleeli on mahdollinen. Kuva 2 esittää tätä tilannetta. Jos sairausgeeni sijaitsee X-kromosomissa, voi tehtävänannossa kuvattu sukupuu syntyä siten, että tarvitaan ainoastaan yksi naispuolinen kantaja (ensimmäiseen sukupolveen). Sen sijaan aiemmassa vaihtoehdossa (autosomaalinen kromosomi, resessiivinen) tarvitaan samanlaisen sukupuun aikaansaamiseksi kolme toisistaan riippumatonta taudinkantajaa. Näistä kahdesta vaihtoehdosta X-kromosomi on siis todennäköisempi. Tarkkoja todennäköisyyksiä ei tässä tehtävässä nyt tarvitse laskea. Y-kromosomi Vaikka kaikki sairaat yksilöt ovatkin miehiä, ei Y-kromosomi ole mahdollinen selitys. Esimerkiksi toisen sukupolven miehillä on sama isältä peritty Y-kromosomi, mutta ainoastaan toinen on sairas. Kaiken lisäksi isä on terve. Y-kromosomi voidaan sulkea pois selitysvaihtoehtona. Mitokondrio Geeni ei voi sijaita mitokondriossa. Mitokondrioiden DNA periytyy äidiltä lapsille, joten jos sairauden aiheuttava geeni sijaitsisi mitokondriossa, periytyisi sairaus äidiltä kaikille lapsille. Tutkittavassa tapauksessa on kuitenkin tilanteita, joissa osa lapsista on sairaita ja osa terveitä. 4

Lisäksi molemmissa tapauksissa lasten äidit ovat terveitä. Mitokondrio-vaihtoehto voidaan siis sulkea pois. Näillä vaihtoehdoilla ja tällä datalla voidaan siis arvioida, että todennäköisimmin geeni on resessiivinen ja se sijaitsee X-kromosomissa. Huom! Tilanne on usein todellisuudessa huomattavasti monimutkaisempi. Tässä tehtävässä käsiteltiin ainoastaan osa vaihtoehdoista, esimerkiksi geenien penetransseista ei puhuttu mitään. 3. Markkerin informatiivisuus on melko epämääräinen käsite, jota voidaan kuvata matemaattisesti esimerkiksi juuri PIC-kaavan avulla. Otetaan esimerkkitilanne, jossa tietyllä markkerilla on kolme alleelia. Eräs alleeli esiintyy paljon useammin kuin toiset kaksi, sen todennäköisyys populaatiossa on 99%. Muiden alleelien todennäköisyydet ovat 0.5% ja 0.5%. Tällaisessa tilanteessa lähes jokaisella tutkittavalla kohteella kyseisessä populaatiossa on alleeli 1 tästä markkerista. Tällöin tämä markkeri ei sisällä juurikaan informaatiota; tieto tästä markkerista ei esimerkiksi pysty erottamaan yksilöitä toisistaan, jos lähes kaikilla on sama alleeli. Tilanne, jossa alleelifrekvenssit ovat tasajakautuneet, on puolestaan samalla päättelyllä intuitiivisesti informatiivisin. Tällöin tutkittava populaatio jakautuu mahdollisimman useaan yhtä suureen ryhmään. Saman intuitiivisen päättelyn mukaan mitä enemmän näitä ryhmiä on, sitä suuremman informaation kyseinen markkeri sisältää. Jos alleelifrekvenssit ovat tasajakautuneet, on yhden alleelin todennäköisyys tietenkin p i = 1/n, kun alleeleita on n kappaletta. Sijoitetaan tämä annettuun kaavaan, jolloin voidaan kirjoittaa PIC-kriteeri muodossa: P I C = 1 = 1 = 1 pi 2 ( 1 n )2 j=i+1 j=i+1 ( 1 n ) 2 2 j=i+1 2p 2 i p2 j (1) 2( 1 n )2 ( 1 n )2 (2) ( 1 n ) (3) 4 = 1 1 n 2 (n i) 1 (4) n 4 = 1 1 n 2 n i n 4 (5) Tutkitaan seuraavaksi miten PIC-kriteerin arvo riippuu tasajakautuneiden alleelien lukumäärästä n. Tulokset on esitetty seuraavassa: 5

n PIC 1 0 2 0.3750 3 0.5926 4 0.7031 5 0.7680 6 0.8102 7 0.8397 8 0.8613 9 0.8779 10 0.8910 11 0.9016 12 0.9103 Esitetään sama tulos vielä graafisesti (laajemmalla alleelimäärällä): 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 30 35 40 45 50 Kuva 3: PIC-kriteeri n:n funktiona Kuvasta nähdään, että noin kymmenen alleelin jälkeen kriteerin kasvu on melko hidasta. Selvästi nähdään myös, että pienillä alleelimäärillä yhdenkin alleelin lisäys vaikuttaa hyvin voimakkaasti markkerin informatiivisuuteen. Näiden tulosten perusteella PIC-kriteeri onnistuu siis tavoittamaan markkerin informatiivisuuden kannalta tärkeitä seikkoja. 4. TDT-testin idea on seuraava. Otokseen valitaan sairaita lapsia, joilla tiedetään olevan riskialleeli. Riskialleeli on periytynyt luonnollisesti lasten vanhemmilta. Jos riskialleeliin on assosioitunut jokin markkerialleeli, myös tämä on periytynyt vanhemmilta. Testissä etsitään siis markkerialleeleita, joita sairailla lapsilla on useammin kuin mendelistisesti pitäisi olla. 6

Testissä tarkastellaan ainoastaan vanhempia, joista vähintään toinen on heterotsygootti. Merkitään taulukkoon kuin moni vanhemmista on heterotsygootti, ja merkitään millä tavalla eri alleelit heterotsygoottivanhemmilta siirtyvät. Homotsygoottivanhemmista ei tehdä merkintöjä, hehän siirtävät joka kerta saman alleelityypin. 7

Perhe Isä Äiti Lapsi Vanhemmat alleeli 1 alleeli 2 heterotsygootteja siirtynyt siirtynyt 1 1,2 1,1 1,1 1 1 2 1,2 1,2 1,1 2 2 3 1,2 1,2 1,1 2 2 4 1,2 1,1 1,1 1 1 5 1,2 1,2 1,1 2 2 6 1,1 1,2 1,1 1 1 7 2,2 1,2 2,2 1 1 8 1,1 1,2 1,1 1 1 9 1,2 1,1 1,2 1 1 10 2,2 1,1 1,2 0 - - 11 1,1 1,2 1,1 1 1 12 1,2 1,1 1,1 1 1 13 1,1 1,2 1,1 1 1 14 1,1 1,1 1,1 0 - - 15 1,2 1,2 1,1 2 2 16 1,2 1,2 1,2 2 1 1 17 1,1 1,2 1,2 1 1 18 1,2 1,2 1,2 2 1 1 19 1,1 1,1 1,1 0 - - 20 1,2 1,1 1,2 1 1 Yhteensä heterotsygoottivanhempia on siis 23 kpl. Näiltä vanhemmilta alleeli 1 siirtyi 17 kertaa ja alleeli 2 siirtyi 6 kertaa. Mendelistisesti pitäisi kummankin alleelin siirtyä keskimäärin yhtä usein. Tehdään 1 vapausasteen χ 2 -testi käyttäen testisuuretta S = (6 17)2 17 + 6 = 5.2609, joka kuvaa perimän epätasapainoa. Testin p-arvoksi saadaan p = 0.02, joten voidaan sanoa, ettei nollahypoteesi, eli mendelistinen perimä, pidä paikkaansa. Toisin sanoen markkerialleeli ja riskialleeli ovat assosioituneet toisiinsa. Edellä on esitetty alkuperäinen versio TDT-testissä, jossa siis käytetään χ 2 -approksimaatiota. Tarkka tarkastelu tehdään käyttämällä binomijakaumaa; tässä tapauksessa tarkasteltaisiin siis tapauksia p 0 = P(X 17) ja p 1 = P(Y 4), jolloin p-arvo olisi p = p 0 + p 1. Binomijakauman symmetrisyydestä kuitenkin seuraa, että p-arvo voidaan laskea helpomminkin; p = 2p 0. Tällä kertaa tulos on käytännössä yhteneväinen χ 2 -approksimaation kanssa, joten se on riittävä tapa laskea tulos. 8