S Laskennallinen systeemibiologia

S-114.2510 Laskennallinen systeemibiologia 3. Harjoitus 1. Koska tilanne on Hardy-Weinbergin tasapainossa luonnonvalintaa lukuunottamatta, saadaan alleeleista muodostuvien eri tsygoottien genotyyppifrekvenssit helposti: Freq(AA) = p 2 Freq(Aa) = 2 pq Freq(aa) = q 2 Luonnonvalinta vaikuttaa siihen, kuinka moni yksilö selviää aikuiseksi asti lisääntymään. Tämä vaikutus tuodaan mukaan kelpoisuustermillä. Keskimääräinen kelpoisuus lasketaan painottamalla suhteellisia kelpoisuuksia genotyyppifrekvensseillä: = AA p 2 + Aa 2pq + aa q 2. Kun kelpoisuus otetaan huomioon, lisääntyvien eläinten genotyyppifrekvensseiksi saadaan Freq(AA) = AA p 2 Freq(Aa) = Aa2pq Freq(aa) = aaq 2 Tällä tapaa jakautuneet genotyypit omistavat eläimet tuottavat sukusoluja, joiden alleelifrekvenssit saadaan laskettua helposti: Freq(A) = p = Freq(AA) + 1 2 Freq(Aa) Freq(a) = q = Freq(aa) + 1 Freq(Aa) = 1 p 2 (Kaikki AA:n tuottamat gameetit ovat tyyppiä A ja vastaavasti aa:n tuottamat gameetit tyyppiä a. Puolet Aa:n tuottamista gameeteista on a-tyyppiä ja puolet A:ta) 1

Nyt ollaan uuden sukupolven alussa. Edellä esitetyllä tavalla voidaan edetä sukupolvi kerrallaan ottaen aina huomioon kelpoisuuden vaikutukset. Lasketaan seuraavaksi tilanne annetuilla arvoilla. 1. sukupolvi Alussa p = 0.2 ja q = 0.8. Lasketaan tsygoottien genotyyppifrekvenssit Freq(AA) = p 2 = 0.04 Freq(Aa) = 2 pq = 0.32 Freq(aa) = q 2 = 0.64 Lasketaan kelpoisuus ja sen perusteella kypsään ikään elävien eläinten genotyyppifrekvenssit. = AA p 2 + Aa 2pq + aa q 2 = 1 0.04 + 0.12 0.32 + 0.2 0.64 = 0.2064 2. sukupolvi Freq(AA) = AA p 2 = 0.1938 Freq(Aa) = Aa2pq = 0.1860 Freq(aa) = aaq 2 = 0.6202 Lasketaan nyt 1. sukupolven tuottamien sukusolujen alleelifrekvenssit p = Freq(AA) + Freq(Aa)/2 = 0.2868 q = Freq(aa) + Freq(Aa)/2 = 0.7132 Edetään samalla tavalla kuin 1. sukupolvella, ja lasketaan tsygoottien genotyyppifrekvenssit Freq(AA) = p 2 = 0.0823 Freq(Aa) = 2p q = 0.4091 Freq(aa) = q 2 = 0.5086 2

Lasketaan kelpoisuus ja sen perusteella kypsään ikään elävien eläinten genotyyppifrekvenssit. = AA p 2 + Aa 2p q + aa q 2 = 0.2331 Freq(AA) = AA p 2 = 0.3529 Freq(Aa) = Aa2p q = 0.2106 Freq(aa) = aaq 2 = 0.4364 3. sukupolvi Kysyttiin ainoastaan alleelifrekvenssejä: p = Freq(AA) + Freq(Aa)/2 = 0.4583 q = Freq(aa) + Freq(Aa)/2 = 0.5417 Nähdään että kahden sukupolven jälkeen alleelifrekvenssit ovat jo melkein tasoittuneet. 2. Jos tilannetta tarkasteltaisiin formaalisti, pitäisi sukupuulle laskea likelihood annetulla sairausmallilla, jotta erilaisia vaihtoehtoja voitaisiin vertailla. Nyt ei tehdä niin, vaan tarkastellaan tilannetta ainoastaan ylimalkaisesti. Tutkitaan eri vaihtoehdot: Autosomaali kromosomi, resessiivi Autosomaalissa kromosomissa sijaitseva resessiivinen alleeli on mahdollinen. Tätä tilannetta esittää kuva 1. Autosomaali kromosomi, dominantti Geeni ei voi olla dominantti ja sijaita autosomaalikromosomissa. Jos näin olisi, jokaisen sairastuneen yksilön vanhemman pitäisi myös olla sairastunut. Näin ei selvästikään ole tutkittavassa tapauksessa. (Lisäksi tällaisessa tapauksessa keskimäärin puolet sairastuneen yksilön lapsista pitäisi olla myös sairastuneita. Tässä tapauksessa puu on niin pieni, ettei päättelyä lasten määristä voida suorittaa. Ensimmäinen ehto on kuitenkin riittävä toteamaan, ettei tämä vaihtoehto voi selittää tilannetta.) 3

Kuva 1: Tehtävän 2. sukupuu, autosomaali resessiivinen Kuva 2: Tehtävän 2. sukupuu, X-kromosomi resessiivinen X-kromosomi, resessiivi X-kromosomissa sijaitseva resessiivinen alleeli on mahdollinen. Kuva 2 esittää tätä tilannetta. Jos sairausgeeni sijaitsee X-kromosomissa, voi tehtävänannossa kuvattu sukupuu syntyä siten, että tarvitaan ainoastaan yksi naispuolinen kantaja (ensimmäiseen sukupolveen). Sen sijaan aiemmassa vaihtoehdossa (autosomaalinen kromosomi, resessiivinen) tarvitaan samanlaisen sukupuun aikaansaamiseksi kolme toisistaan riippumatonta taudinkantajaa. Näistä kahdesta vaihtoehdosta X-kromosomi on siis todennäköisempi. Tarkkoja todennäköisyyksiä ei tässä tehtävässä nyt tarvitse laskea. Y-kromosomi Vaikka kaikki sairaat yksilöt ovatkin miehiä, ei Y-kromosomi ole mahdollinen selitys. Esimerkiksi toisen sukupolven miehillä on sama isältä peritty Y-kromosomi, mutta ainoastaan toinen on sairas. Kaiken lisäksi isä on terve. Y-kromosomi voidaan sulkea pois selitysvaihtoehtona. Mitokondrio Geeni ei voi sijaita mitokondriossa. Mitokondrioiden DNA periytyy äidiltä lapsille, joten jos sairauden aiheuttava geeni sijaitsisi mitokondriossa, periytyisi sairaus äidiltä kaikille lapsille. Tutkittavassa tapauksessa on kuitenkin tilanteita, joissa osa lapsista on sairaita ja osa terveitä. 4

Lisäksi molemmissa tapauksissa lasten äidit ovat terveitä. Mitokondrio-vaihtoehto voidaan siis sulkea pois. Näillä vaihtoehdoilla ja tällä datalla voidaan siis arvioida, että todennäköisimmin geeni on resessiivinen ja se sijaitsee X-kromosomissa. Huom! Tilanne on usein todellisuudessa huomattavasti monimutkaisempi. Tässä tehtävässä käsiteltiin ainoastaan osa vaihtoehdoista, esimerkiksi geenien penetransseista ei puhuttu mitään. 3. Markkerin informatiivisuus on melko epämääräinen käsite, jota voidaan kuvata matemaattisesti esimerkiksi juuri PIC-kaavan avulla. Otetaan esimerkkitilanne, jossa tietyllä markkerilla on kolme alleelia. Eräs alleeli esiintyy paljon useammin kuin toiset kaksi, sen todennäköisyys populaatiossa on 99%. Muiden alleelien todennäköisyydet ovat 0.5% ja 0.5%. Tällaisessa tilanteessa lähes jokaisella tutkittavalla kohteella kyseisessä populaatiossa on alleeli 1 tästä markkerista. Tällöin tämä markkeri ei sisällä juurikaan informaatiota; tieto tästä markkerista ei esimerkiksi pysty erottamaan yksilöitä toisistaan, jos lähes kaikilla on sama alleeli. Tilanne, jossa alleelifrekvenssit ovat tasajakautuneet, on puolestaan samalla päättelyllä intuitiivisesti informatiivisin. Tällöin tutkittava populaatio jakautuu mahdollisimman useaan yhtä suureen ryhmään. Saman intuitiivisen päättelyn mukaan mitä enemmän näitä ryhmiä on, sitä suuremman informaation kyseinen markkeri sisältää. Jos alleelifrekvenssit ovat tasajakautuneet, on yhden alleelin todennäköisyys tietenkin p i = 1/n, kun alleeleita on n kappaletta. Sijoitetaan tämä annettuun kaavaan, jolloin voidaan kirjoittaa PIC-kriteeri muodossa: P I C = 1 = 1 = 1 pi 2 ( 1 n )2 j=i+1 j=i+1 ( 1 n ) 2 2 j=i+1 2p 2 i p2 j (1) 2( 1 n )2 ( 1 n )2 (2) ( 1 n ) (3) 4 = 1 1 n 2 (n i) 1 (4) n 4 = 1 1 n 2 n i n 4 (5) Tutkitaan seuraavaksi miten PIC-kriteerin arvo riippuu tasajakautuneiden alleelien lukumäärästä n. Tulokset on esitetty seuraavassa: 5

n PIC 1 0 2 0.3750 3 0.5926 4 0.7031 5 0.7680 6 0.8102 7 0.8397 8 0.8613 9 0.8779 10 0.8910 11 0.9016 12 0.9103 Esitetään sama tulos vielä graafisesti (laajemmalla alleelimäärällä): 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 30 35 40 45 50 Kuva 3: PIC-kriteeri n:n funktiona Kuvasta nähdään, että noin kymmenen alleelin jälkeen kriteerin kasvu on melko hidasta. Selvästi nähdään myös, että pienillä alleelimäärillä yhdenkin alleelin lisäys vaikuttaa hyvin voimakkaasti markkerin informatiivisuuteen. Näiden tulosten perusteella PIC-kriteeri onnistuu siis tavoittamaan markkerin informatiivisuuden kannalta tärkeitä seikkoja. 4. TDT-testin idea on seuraava. Otokseen valitaan sairaita lapsia, joilla tiedetään olevan riskialleeli. Riskialleeli on periytynyt luonnollisesti lasten vanhemmilta. Jos riskialleeliin on assosioitunut jokin markkerialleeli, myös tämä on periytynyt vanhemmilta. Testissä etsitään siis markkerialleeleita, joita sairailla lapsilla on useammin kuin mendelistisesti pitäisi olla. 6

Testissä tarkastellaan ainoastaan vanhempia, joista vähintään toinen on heterotsygootti. Merkitään taulukkoon kuin moni vanhemmista on heterotsygootti, ja merkitään millä tavalla eri alleelit heterotsygoottivanhemmilta siirtyvät. Homotsygoottivanhemmista ei tehdä merkintöjä, hehän siirtävät joka kerta saman alleelityypin. 7

Perhe Isä Äiti Lapsi Vanhemmat alleeli 1 alleeli 2 heterotsygootteja siirtynyt siirtynyt 1 1,2 1,1 1,1 1 1 2 1,2 1,2 1,1 2 2 3 1,2 1,2 1,1 2 2 4 1,2 1,1 1,1 1 1 5 1,2 1,2 1,1 2 2 6 1,1 1,2 1,1 1 1 7 2,2 1,2 2,2 1 1 8 1,1 1,2 1,1 1 1 9 1,2 1,1 1,2 1 1 10 2,2 1,1 1,2 0 - - 11 1,1 1,2 1,1 1 1 12 1,2 1,1 1,1 1 1 13 1,1 1,2 1,1 1 1 14 1,1 1,1 1,1 0 - - 15 1,2 1,2 1,1 2 2 16 1,2 1,2 1,2 2 1 1 17 1,1 1,2 1,2 1 1 18 1,2 1,2 1,2 2 1 1 19 1,1 1,1 1,1 0 - - 20 1,2 1,1 1,2 1 1 Yhteensä heterotsygoottivanhempia on siis 23 kpl. Näiltä vanhemmilta alleeli 1 siirtyi 17 kertaa ja alleeli 2 siirtyi 6 kertaa. Mendelistisesti pitäisi kummankin alleelin siirtyä keskimäärin yhtä usein. Tehdään 1 vapausasteen χ 2 -testi käyttäen testisuuretta S = (6 17)2 17 + 6 = 5.2609, joka kuvaa perimän epätasapainoa. Testin p-arvoksi saadaan p = 0.02, joten voidaan sanoa, ettei nollahypoteesi, eli mendelistinen perimä, pidä paikkaansa. Toisin sanoen markkerialleeli ja riskialleeli ovat assosioituneet toisiinsa. Edellä on esitetty alkuperäinen versio TDT-testissä, jossa siis käytetään χ 2 -approksimaatiota. Tarkka tarkastelu tehdään käyttämällä binomijakaumaa; tässä tapauksessa tarkasteltaisiin siis tapauksia p 0 = P(X 17) ja p 1 = P(Y 4), jolloin p-arvo olisi p = p 0 + p 1. Binomijakauman symmetrisyydestä kuitenkin seuraa, että p-arvo voidaan laskea helpomminkin; p = 2p 0. Tällä kertaa tulos on käytännössä yhteneväinen χ 2 -approksimaation kanssa, joten se on riittävä tapa laskea tulos. 8