Fylogeneettiset puut. Fylogeneettiset puut. UPGMA: esimerkki 2/2 UPGMA

ylogeneettiset puut ylogeneettisen puun rakentaminen koostuu seuraavista vaiheista ) atan valinta (sekvenssi,piirredata) ) Sekvenssien linjaus 3) Puun rakentamismenetelmän/menetelmien valinta: - etäisyysmenetelmät - parsimoniamenetelmät - suurimman uskottavuuden menetelmät ) Optimiratkaisun etsintä ) Konsensuspuun määrittäminen ) Tulosten hyvyyden arviointi (esim. ootstrap) UPM ylogeneettiset puut ylogeneettisten puiden rakentamiseen esitetty useita menetelmiä: täisyysmenetelmät UPM, WPM Neighbor-Joining (NJ) jne Parsimoniamenetelmät - Optimaaliset menetelmät - lioptimaaliset menetelmät Suurimman uskottavuuden menetelmät ayesian menetelmät (ei käsitellä kurssissa) UPM: esimerkki / UPM - Unweighted pair group method using arithmetic averages täisyyksiin (esim. sekvenssien) perustuva ryhmittelymenetelmä (Sokal & Michener 9) Menetelmässä puun rakentaminen aloitetaan puun lehdistä vaiheittain liittämällä kaksi senhetkistä lähintä toisiinsa. Puun rakentamisessa lasketaan ryhmien i ja j välinen keskimääräinen etäisyys dij: dij= ( i j )- dpq, missä p i ja q j ja. tarkoittaa ryhmään kuuluvien sekvenssien lukumäärää. Jos k on kahden ryhmien i ja j unioni k = i j, ja l joku muu ryhmä, niin tällöin dkl = (dil i + djl j )/( i + j ) UPM: esimerkki / UPM UPM menetelmä toimii kohtalaisesti kun sukupuun haarojen todelliset etäisyydet vastaavat ryhmittelyä keskiarvoetäisyyksillä. Ohessa esimerkki jossa UPM ei toimi (vasemmalla oikea puu todellisine etäisyyksineen, oikealle UPM:llä saatu virheellinen puu)

Parsimoniamenetelmät Lienee suosituin puun rakentamismenetelmäluokka Pyrkii löytämään oikean puun topologian (muodon) minimoimalla sekvenssimuutosten (kustannuksen) lukumäärän puussa. Verrattuna etäisyysmenetelmiin, parsimoniamenetelmissä puulle T liitetään kustannus jonka arvoa tutkaillaan erilaisilla puutopologioilla -> Minimikustannuspuu on paras puu eli pyritään minimoimaan puussa tapahtuneiden muutosten lukumäärä TORISS pitäisi tutkia kaikki mahdolliset puutopologiat KÄYTÄNNÖSSÄ vaihtoehtoisia puutopologioita rajataan heurestiikalla SIM: Linjatuista sekvensseistä,, ja saadaan puut Kustannuksen laskenta Määritellään ensin kustannus S(a,b) sekvenssien a ja b välillä (kustannusmatriisi voi vastata esim. sekvenssilinjauksen pisteytysmatriisia) Puun kustannus lasketaan rekursiivisesti lähtien lehtisolmuista ylöspäin seuraavasti (missä S k (a) tarkoittaa kustannusta a:n (esim. sekvenssi a=x,,x n ) sijoittamista solmuun k): LORITMI: Puun kustannuksen laskenta lusta: S k (a)= kaikilla puun T lehtisolmuilla k Lehti(T) Rekursio: Laske kaikille sisäsolmuille k lähtien alimmista sisäsolmuista jatkaen juurisolmuun asti (i ja j ovat solmun k alisolmuja). S k (a)=s i (b)+s(a,b) + S j (c)+s(a,c) a k i b c j Parsimoniapuiden etsintä Parsimoniamenetelmissä lähtökohtana löytää minimikustannuspuu -> Kokeiltava erilaisia puutopologioita. ONLM: Jos esimerkiksi lajia -> rilaisia puutopologioita * Yleisesti: s lajia -> puutopologioita *3**(s-3)=(s-3)!/ s- (s-). Kaikkia puutopologioita voidaan hakea vain rajoitetuissa tapauksissa (vähemmän kuin lajia). a Täydellinen topologiahaku b lkupuu, 3 lajia Lisätään kolmeen mahdolliseen paikkaan -> kolme puuta c Viidettä lajia sijoitetaan edelleen kaikkiin mahdollisiin kohtiin näissä kolmessa puussa -> puuta, jne... Topologiahausta ranch and bound menetelmällä puiden rakentamisvaiheessa hylätään ne puut jatkossa jotka eivät voi olla kustannukseltaan pienempiä kuin pienikustannuksesin puu siihen mennessä. &b menetelmä takaa optimaalisen puun löytämisen. Voidaan määrittää myös yläraja puun kustannukselle, jonka ylittävät puut kaikki hylätään. ranch and bound menetelmä soveltuu tyypillisesti alle lajin puihin. Lajeja >, on suositeltavaa käyttää heurestisia menetelmiä puiden rakentamisessa. Heurestisissa menetelmissä lähtökohtana on ensin rakentaa ns. alkupuu, josta etsitään parempaa puuta solmujen ja haarojen paikkoja vaihtelemalla. Heurestiset menetelmät eivät välttämättä johda optimaaliseen puuhun. Heurestiset menetelmät: alkupuu Heurestisissa parsimoniamenetelmissä alkupuu voidaan määrittää askelettain: sis: : atamatriisin järjestyksen mukaan losest: : loitetaan 3:sta lähimmästä lajista ja lisätään se. laji puuhun, joka tuottaa pienimmän lisäyksen kustannukseen (greedy eli ahne heurestiikka) Simple: : atamatriisin ensimmäinen laji otetaan referenssilajiksi ja lajeja lisätään samanlaisuusjärjestyksessä verrattuna ensimmäiseen lajiin (eli samanlaisin ensin,. samanlaisin sitten jne. Random: : Lajit lisätään puuhun satunnaisessa järjestyksessä.

Heurestiikkaa topologioissa Lähimmän naapurin vaihto Heurestisissa puutopologiamenetelmissä lähdetään liikkeelle alkupuusta jonka muotoa (solmujen paikkoja) aletaan muunnella parempaa kustannusta kohti. Muuntelumenetelmiä esitetty useita erilaisia: Lähimmän naapurin vaihto (Nearest( neighbor interchange,nni) lipuun katkonta ja uudelleen liittäminen (Subtree( pruning and regrafting, SPR) Puun katkaisu ja uudelleen yhdistäminen (Tree( bisection and reconnection, TR) Heurestisia menetelmiä käytettäessä ei voi tietää etukäteen mikä menetelmistä tarjoaa parhaan puun topologian (minimikustannuspuun). lipuun katkonta ja uudelleen liittäminen Puun katkaisu ja uudelleen liittäminen Parsimoniamenetelmät TUJ: Helppo menetelmä ymmärtää -> helpottaa saatujen tulosten tulkintaa i ole riippuvainen tietynlaisen evoluutiomallin valinnasta ntaa puutopologian ja siihen liittyvän hypoteesin evoluutiosta Yleisesti parsimoniamenetelmiä pidetään luotettavina jos homoplasiaa on vähän datassa tai se on laajasti levittäytyneenä puuhun. HITTOJ: Jos homoplasia yleistä datassa tai se keskittyy tiettyihin kohtiin puissa -> tulokset voivat olla harhaanjohtavia. Suosii solmujen välillä pitkiä haaroja. Pitää implisiittisesti sisällään evoluutiomallin, jota ei kunnolla ymmärretä Parsimonia: epäkonsistenttisuus elsenstein esitti (97) oheisen yksinkertaisen esimerkin ( lajia, lyhyet ja pitkät sukuhaarat), jossa parsimoniamenelmät eivät tuota oikeaa puuta. p Model tree q q q p Rates or ranch lengths p >> q Parsimony tree Wrong On osoitettu että parsimoniamenetelmät ovat epäkonsistentteja: datamäärän kasvaessa todennäköisyys vääränlaiseen puutopologiaan kasvaan. Parsimoniamenetelmien suosiollisuus pitkille puuhaaroille on tämän menetelmäluokan suurin ongelma. TU tai HITT: Lähtökohdat filosofiset: suositaan yksinkertaisinta hypoteesia. 3

Suurimman uskottavuuden menetelmä Suurimman uskottavuuden menetelmässä valitaan se puu parhaaksi joka maksimoi datan todennäköisyyden suhteessa puuhun. Suurimman uskottavuuden menetelmässä voidaan määrittää puun haarojen väliset evolutionaariset etäisyydet todennäköisyyksien avulla. Suurimman uskottavuuden menetelmässä kuten parsimoniamenetelmissä ongelmana erilaiset puutopologioiden generointi (mallit) joiden suhteen todennäköisyydet lasketaan.97..7.7 ( ) π..93.. P =.3..979.7..3..979 [ ] = a,c,g,t simerkki: sekvenssien tn laskenta Olkoon P =.97..7.7..93...3..979.7..3..979 ja olkoon ns. alkutilatodennäköisyydet: =[.,.,.,.3] (a,c,g,t). Laske todennäköisyys sekvenssimuutokselle: ccat -> ccgt ccat ccgt P c > c P c >c π a P a > g π t P t > t Mahdolliset piilomuutokset Piilomuutokset eivät näy sekvenssidatassa: Olkoon puu T simerkki: puun tn laskenta t juuri t x x t t 3 x x x 3 3 T Tällöin saadaan (t haaran pituus puussa) P(x, x T,t, t )= P(x x,t ) P(x x,t ) P(x 3 x,t 3 ) P(x x,t ) P(x ) Puun haaran pituuden vaikutus dellä esitelty sekvenssien välisten tn laskenta ei huomioi puun haaran pituuden vaikutusta todennäköisyyteen. Mitä pidempi puun haara -> sitä todennäköisempää että nukleotidi vaihtuu. Siirtymätodennäköisyysmatriisin P sellaisenaan sanotaan esittävän (ertain volutionary istance) yksikön haaraa puussa -> Sekvenssidatojen välinen todennäköisyys kuvaa cedin todennäköisyyttä n cedin todennäköisyys saadaan P:n potenssina. simerkiksi 3 cedin.93.9.9..7.99..9 P 3 =..9.939..7.3..9 jolloin sekvenssimuutoksen ccat -> ccgt todennäköisyys on.7 Puun haaran pituuden vaikutus Sekvenssimuutoksen ccat -> ccgt osalta todennäköisyys.3.9 3.7..77.7 3. 3

Puun haaran pituus Tarkastellaan tilannetta jossa ollaan kiinnostuttu muistakin kuin vain kokonaisluvullista :stä. Tällöin voidaan puun haarapituudet ilmoittaa muutoksina nukleotidia kohden (substitutions per site). Yleisesti, potenssi voidaan laskea muodossa exp( log()). Hyödynnettään nyt tätä tulosta samalla P matriisilla kuin aiemmin: log P =...7.7..7...3...7..3.. Rivien summa = (alkuperäisessä P:ssä ). Halutaan laskea muutos nukleotidia -> skaalataan logp kertomalla se sopivalla arvolla niin että logp:n ei diagonaaliset alkiot summautuvat :ksi. Skaalattu logp matriisia kutsutaan Q matriisiksi. Nyt exp(q) antaa todennäköisyysmatriisin joka vastaa muutosta nukleotidia kohti. Muutosta sekvenssiä kohden Qv P ( v) = e Yleisemmin, missä v on tietty haaran pituus SIM: muutos per sekvenssi:! " Q =...33.37........37..7......3.3...3 π.q =..33...3...7.3..7.3 Puun haaran pituuden vaikutus Yleisemmin, missä v on tietty haaran pituus: P ( v) = e Sekvenssimuutoksen ccat -> ccgt osalta.............3... Maksimiarvo # $ % & ' Qv Kahden haaran puun todennäköisyys Tarkastellaan oheista tilannetta. Nähdään kohta että puun juuren paikalla ei ole merkitystä todennäköisyyden laskennassa ( + Missä O on puun juuri ja. ja. puun haarojen pituudet. ja lajeja (sekvenssit = ccat ja = ccgt ). Todennäköisyys voidaan laskea 3:lla tapaa:, -:sta :hen suoraan (eli kuten edellä) + - :sta O:n kautta :hen - Kahdessa osassa alkaen O:sta (O-> ja O->). ) * P(.) Tapa : :sta :hen suoraan...9. =..7.9..7..3..3.77.9.7...7. P(.) =.3.9.9..9....7.3..9..3.7.3 P(.3) =...7.3.9.9.9.77 li ccat -> ccgt saadaan todennäköisyydeksi: P c > c P c >c π a P a > g π t P t > t.*.7*.*.7*.*.*.3*.77=.77.7..7.9 Tapa : :sta O:n kautta :hen Todennäköisyydessä :sta O:hon käytetään P(.) ja π matriiseja. Sekvensseinä = ccat ja = ccgt, O:sta ei tietoa. Nyt esim.. nukleotidin suhteen laskettaessa todennäköisyyksiä huomioidaan kaikki O:n vaihtoehdot (c->a, c->c, c->g ja c->t): = P(.) c->a + P(.) c->c + P(.) c->g + P(.) c->t =.*.+.*.9+.*.=.= Kun lasketaan. nukleotidin suhteen todennäköisyys :sta->o->:hen: = P(.) c->a P(.) a->c + P(.) c->c P(.) c->c + P(.) c->g P(.) g->c + P(.) c->t P(.) t->c =.3 = P(.3) c->c =.*.7 Vastaavasti muutkin nukleotidit, jolloin kokonaistodennäköisyydeksi saadaan.77

Tapa 3: Kahdessa osassa, alkaen O:sta Kun O:ta ei tunneta, pitää huomioida kaikki mahdollisuutta. Todennäköisyys. nukleotidille (c->c) saadaan π a P(.) a->c P(.) a->c + P(.) c->c P(.) c->c + π g P(.) g->c P(.) g->c + π t P(.) t->c P(.) t->c =.3 Vastaavasti muutkin nukleotidit, jolloin kokonaistodennäköisyydeksi saadaan sama kuin edellä eli.77 Kahden haaran puulle tämä kahden osan laskenta turhan monimutkainen. Useampihaaraiselle puulle tämä tapa ainoa vaihtoehto. Puun juuren paikalla ei ole merkitystä siis tn laskennassa. Juuri voi olla :ssa tai :ssä tai :n ja :n puolivälissä ja silti saadaan samat todennäköisyydet. Tämä tunnetaan elsensteinin Pulley Principle periaatteena. Tarkastellaan oheista tilannetta, jossa puun juuri asetettu: = ccat,= ccgt,= cact Kolmen haaran puu * Tn laskennassa käytetään edellä esiteltyä tapaa 3, jolloin. nukleotidin todennäköisyydeksi saadaan: π a P(.) a->c P(.) a->c c P(.3) a->c + P(.) c->c P(.) c->c P(.3) c->c + π g P(.) g->c P(.) g->c P(.3) g->c + π t P(.) t->c P(.) t->c P(.3) t->c =. ) Vastaavasti.,3. ja. nukleotidien tn:det:.,.3 ja., jolloin kertolaskulla saadaan puun kokonaistodennäköisyydeksi 3. * - Tämä kolmen haaran puun tapaus on yleistettävissä n haaran puulle. +. Suurimman uskottavuuden menetelmä Mallin ylisovittaminen Huomioi tarkat haarojen pituudet Tarkastelee puuta todennäköisyyksien avulla ri puita voidaan verrata todennäköisyyksien avulla Suurimman uskottavuuden menetelmä kertoo sekvenssien fylogeniasta, mutta antaa myös todennäköisyystietoa sekvenssien evoluutiosta nykyisiin muotoihinsa. Vaikeutena löytää relevantit puutopologiat joiden suhteen todennäköisyyksiä lasketaan Menetelmänä laskennallisesti erittäin raskas: kaikki topologia ja P matriisivaihtoehtoja usein miten mahdoton käydä lävitse. Älä ylisovita malliasi esim. valitsemalla liian kuvauskykyinen P matriisi (mitä enemmän parametreja -> sitä kuvauskykyisempi). Konsensuspuu (consensus tree) Puiden rakennusmenetelmissä usein törmätään ongelmaan, että erilaiset puut tuottavat yhtä hyvän kvantitatiivisen ratkaisun. Paras puu voitaisiin tietty valita lisäkriteereillä, mutta tuloksista voidaan myös laatia ns. konsensuspuu, joka kuvaa kaikki näitä samanarvoisia ratkaisuja parhaalla mahdollisella tavalla. Konsensuspuita voidaan rakentaa useasta eri lähtökohdasta ja useilla eri kriteereillä: Puhdas konsensuspuu sittää vain ja ainoastaan ne suhteet, jotka ovat yksikäsitteisesti esillä saaduissa puissa. Puhdas konsensuspuu sisältää vain ne haarautumat jotka esiintyvät kaikissa niissä perusratkaisupuissa, joiden avulla konsensuspuu rakennetaan. Jos peruspuissa esiintyy epäristiriitaa, puhtaassa konsensuspuussa epäristiriitaisuudet esitetään ratkaisematon kategoriassa. Puhdas konsensus (Strict concensus): Haarautuminen (split) tulee esiintyä kaikissa puissa nemmistösääntökonsensus (Majority rule consensus): Haarautuminen tulee esiintyä n%:ssa puista Konsensusmenetelmiä voidaan käyttää tuottamaan yhteenvetotulos yhden analyysin tuloksesta tai monien analyysien tuloksista.

nemmistösääntökonsensuspuu sittää ne suhteet, jotka ovat enimmistönä (>%) esillä saaduissa peruspuissa. 7 7 Numerot ilmoittavat prosentteina haarojen esiintymiset peruspuissa 7 7 Three fundamental trees Konsensusmenetelmistä Spirostomumum uplotes ruberia Spirostomumum uplotes ruberia uplotes Spirostomumum ruberia strict (component) majority-rule Spirostomum uplotes ruberia Spirostomum uplotes ruberia ootstrapmenetelmästä ootstrap on perustilastomenetelmä arvioimaan parametrimallien hyvyyttä ylogeneettisten puiden yhteydessä lähes aina käytetään arvioimaan saatujen tulosten hyvyys ootstrap perustuu datanäytteiden satunnaispoimintaan: alkuperäisestä näytematriisista poimitaan (takaisinpanolla) useita bootstrapotoksia (satoja, ellei tuhansia), joita kutakin otosta vuorollaan käytetään mallintamaan ilmiö-> yhtä monta ratkaisua kuin bootstrapotosta. ylogeniapuiden yhteydessä kaikkia eri bootstrapotoksista saatuja puita (etäisyys-, parsimonia- tai suurimman uskottavuuden menetelmällä) käytetään rakentamaan konsensuspuu (enemmistösääntökonsensus) kuvaamaan alkuperäisen datan tilannetta. ootstrapmenetelmällä voidaan estimoida mallin ja datan välinen luotettavuus: korkea esiintymistodennäköisyys konsensuspuussa haarautumalle tukee evoluutionäkemystä. Tilastotieteen puolella ootstrap ei enään kovin suuressa suosiossa: menetelmän heikkoudet huomattu (epäkonsistenttisuus). ootstrapmenetelmä: esimerkki lkuperäinen data haracters Taxa 3 7 R R Y Y Y Y Y Y R R Y Y Y Y Y Y Y Y Y Y Y R R R Y Y R R R R R R Outgp R R R R R R R R 7 3 Outgroup. bootstrapotos haracters Taxa R R R Y Y Y Y Y R R R Y Y Y Y Y Y Y Y Y Y R R R Y Y Y R R R R R Outgp R R R R R R R R Jokainen bootstrapotos analysoidaan, saadaan siis yhtä monta bootstrappuuta kuin bootstrapotoksia (yleensä >): Outgroup. bootstrapotos... haracters Taxa Y Y R Y Y Y Y Y Y Y R Y Y Y Y Y Y Y Y Y R R Y R R R Y R R R R R Outgp R R R R R R R R ootstrappuut esitetään yhteenvetona konsensuspuun avulla (enemmistösääntö): 9% % Outgroup ylogeneettiset puut i yhtä oikeaa lähestymistapaa -> tuloksia tarkasteltava kriittisesti. Käytetty alkudata samoin kuin linjaus/rinnastus luo jo pohjan tuloksille. Tarkastele sekvenssidatojen yhteydessä miten erilaiset linjausvaihtoehdot muuttavat tuloksia! Tarkempien evoluutiomallien käyttö teoriassa tuo tuloksiin lisää luotettavuutta, mutta toisaalta lisää mallin ylisovittumisen riskiä. Käytä erilaisia menetelmiä (etäisyys, parsimonia, suurin uskottavuus) ja tarkastele eri menetelmiä saatuja tuloksia keskenään. Konsensuspuu samoin kuin bootstrap menetelmä on käyttökelpoinen analyysin apuväline. 7