Fylogeneettiset puut. Fylogeneettiset puut. UPGMA: esimerkki 2/2 UPGMA



Samankaltaiset tiedostot
Tulosten arviointi. tulosten arviointi. voimmeko luottaa saamiimme tuloksiin?

Algoritmit 1. Luento 8 Ke Timo Männikkö

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy päätöspuiden avulla tarkastellaan vasta seuraavissa harjoituksissa.

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)

Ratkaisu. Tulkitaan de Bruijnin jonon etsimiseksi aakkostossa S := {0, 1} sanapituudelle n = 4. Neljän pituisia sanoja on N = 2 n = 16 kpl.

OULUN YLIOPISTO, BIOLOGIAN LAITOS Puututkimus

Tietorakenteet, laskuharjoitus 7, ratkaisuja

A TIETORAKENTEET JA ALGORITMIT

v 1 v 2 v 3 v 4 d lapsisolmua d 1 avainta lapsen v i alipuun avaimet k i 1 ja k i k 0 =, k d = Sisäsolmuissa vähint. yksi avain vähint.

3. Hakupuut. B-puu on hakupuun laji, joka sopii mm. tietokantasovelluksiin, joissa rakenne on talletettu kiintolevylle eikä keskusmuistiin.

Pinot, jonot, yleisemmin sekvenssit: kokoelma peräkkäisiä alkioita (lineaarinen järjestys) Yleisempi tilanne: alkioiden hierarkia

Algoritmit 1. Luento 13 Ti Timo Männikkö

Tehtävän V.1 ratkaisuehdotus Tietorakenteet, syksy 2003

Algoritmi on periaatteellisella tasolla seuraava:

Algoritmit 2. Luento 12 Ke Timo Männikkö

Molekyylisystematiikka, 2. osa

811312A Tietorakenteet ja algoritmit, VI Algoritmien suunnitteluparadigmoja

Paikkatiedon käsittely 6. Kyselyn käsittely

Luku 7. Verkkoalgoritmit. 7.1 Määritelmiä

Algoritmit 2. Luento 9 Ti Timo Männikkö

811312A Tietorakenteet ja algoritmit, , Harjoitus 7, ratkaisu

Miten käydä läpi puun alkiot (traversal)?

Malliratkaisut Demot

Algoritmit 1. Luento 12 Ti Timo Männikkö

Harjoitus 6 ( )

Harjoitus 1 -- Ratkaisut

Hakupuut. tässä luvussa tarkastelemme puita tiedon tallennusrakenteina

811312A Tietorakenteet ja algoritmit V Verkkojen algoritmeja Osa 2 : Kruskalin ja Dijkstran algoritmit

Graafit ja verkot. Joukko solmuja ja joukko järjestämättömiä solmupareja. eli haaroja. Joukko solmuja ja joukko järjestettyjä solmupareja eli kaaria

Algoritmit 2. Luento 5 Ti Timo Männikkö

V. V. Vazirani: Approximation Algorithms, luvut 3-4 Matti Kääriäinen

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Johdatus verkkoteoriaan 4. luento

58131 Tietorakenteet ja algoritmit (syksy 2015) Toinen välikoe, malliratkaisut

Kytkentäkentät, luento 2 - Kolmiportaiset kentät

10. Painotetut graafit

Algoritmit 2. Luento 5 Ti Timo Männikkö

Algoritmit 1. Luento 12 Ke Timo Männikkö

, on säännöllinen 2-ulotteinen pinta. Määrää T x0 pisteessä x 0 = (0, 1, 1).

AVL-puut. eräs tapa tasapainottaa binäärihakupuu siten, että korkeus on O(log n) kun puussa on n avainta

Luku 8. Aluekyselyt. 8.1 Summataulukko

Matriisilaskenta. Harjoitusten 3 ratkaisut (Kevät 2019) 1. Olkoot AB = ja 2. Osoitetaan, että matriisi B on matriisin A käänteismatriisi.

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

B + -puut. Kerttu Pollari-Malmi

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

7. Tasapainoitetut hakupuut

Algoritmit 2. Luento 4 To Timo Männikkö

1. TILASTOLLINEN HAHMONTUNNISTUS

private TreeMap<String, Opiskelija> nimella; private TreeMap<String, Opiskelija> numerolla;

Johdatus graafiteoriaan

1. Esitä rekursiivinen määritelmä lukujonolle

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Algoritmit 2. Luento 6 To Timo Männikkö

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 3. joulukuuta 2015

Algoritmit 2. Luento 6 Ke Timo Männikkö

Diskreetit rakenteet

Algoritmit 2. Luento 2 To Timo Männikkö

Algoritmit 1. Luento 7 Ti Timo Männikkö

Poistettavien puiden valinta laatuperustein harvennushakkuulla

Kurssikoe on maanantaina Muista ilmoittautua kokeeseen viimeistään 10 päivää ennen koetta! Ilmoittautumisohjeet löytyvät kurssin kotisivuilla.

Kierros 4: Binäärihakupuut

Evoluutiopuu. Aluksi. Avainsanat: biomatematiikka, päättely, kombinatoriikka, verkot. Luokkataso: luokka, lukio

Laskennan vaativuus ja NP-täydelliset ongelmat

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

4. Joukkojen käsittely

How to Support Decision Analysis with Software Case Förbifart Stockholm

5.1 Semanttisten puiden muodostaminen

Harjoitus 6 ( )

Testejä suhdeasteikollisille muuttujille

58131 Tietorakenteet ja algoritmit (kevät 2013) Kurssikoe 2, , vastauksia

3.3 KIELIOPPIEN JÄSENNYSONGELMA Ratkaistava tehtävä: Annettu yhteydetön kielioppi G ja merkkijono x. Onko

2. Seuraavassa kuvassa on verkon solmujen topologinen järjestys: x t v q z u s y w r. Kuva 1: Tehtävän 2 solmut järjestettynä topologisesti.

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

CS-A1140 Tietorakenteet ja algoritmit

805306A Johdatus monimuuttujamenetelmiin, 5 op

Matriisit. Määritelmä 1 Reaaliluvuista a ij, missä i = 1,..., k ja j = 1,..., n, muodostettua kaaviota a 11 a 12 a 1n a 21 a 22 a 2n A =

Kysymyksiä koko kurssista?

Algoritmit 1. Luento 13 Ma Timo Männikkö

ALGORITMIT 1 DEMOVASTAUKSET KEVÄT 2012

Algoritmit 2. Luento 4 Ke Timo Männikkö

T Luonnollisten kielten tilastollinen käsittely

Tentissä on viisi tehtävää, jotka arvosteellaan asteikolla 0-6. Tehtävien alakohdat ovat keskenään samanarvoisia ellei toisin mainita.

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Algoritmit 2. Luento 12 To Timo Männikkö

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

TIE448 Kääntäjätekniikka, syksy Antti-Juhani Kaijanaho. 9. marraskuuta 2009

SSL syysseminaari Juha Hyssälä

Bayesilainen päätöksenteko / Bayesian decision theory

Ei-yhteydettömät kielet [Sipser luku 2.3]

Algoritmit 2. Luento 7 Ti Timo Männikkö

j(j 1) = n(n2 1) 3 + (k + 1)k = (k + 1)(k2 k + 3k) 3 = (k + 1)(k2 + 2k + 1 1)

Metsäenergian mahdollisuuudet Hake, pelletti, pilke

Preliminäärikoe Pitkä Matematiikka

Harjoitus 1 -- Ratkaisut

Numeeriset menetelmät

Algoritmit 2. Luento 13 Ti Timo Männikkö

Luku 4. Tietorakenteet funktio-ohjelmoinnissa. 4.1 Äärelliset kuvaukset

Nopea kertolasku, Karatsuban algoritmi

Mat Lineaarinen ohjelmointi

Stabiloivat synkronoijat ja nimeäminen

Transkriptio:

ylogeneettiset puut ylogeneettisen puun rakentaminen koostuu seuraavista vaiheista ) atan valinta (sekvenssi,piirredata) ) Sekvenssien linjaus 3) Puun rakentamismenetelmän/menetelmien valinta: - etäisyysmenetelmät - parsimoniamenetelmät - suurimman uskottavuuden menetelmät ) Optimiratkaisun etsintä ) Konsensuspuun määrittäminen ) Tulosten hyvyyden arviointi (esim. ootstrap) UPM ylogeneettiset puut ylogeneettisten puiden rakentamiseen esitetty useita menetelmiä: täisyysmenetelmät UPM, WPM Neighbor-Joining (NJ) jne Parsimoniamenetelmät - Optimaaliset menetelmät - lioptimaaliset menetelmät Suurimman uskottavuuden menetelmät ayesian menetelmät (ei käsitellä kurssissa) UPM: esimerkki / UPM - Unweighted pair group method using arithmetic averages täisyyksiin (esim. sekvenssien) perustuva ryhmittelymenetelmä (Sokal & Michener 9) Menetelmässä puun rakentaminen aloitetaan puun lehdistä vaiheittain liittämällä kaksi senhetkistä lähintä toisiinsa. Puun rakentamisessa lasketaan ryhmien i ja j välinen keskimääräinen etäisyys dij: dij= ( i j )- dpq, missä p i ja q j ja. tarkoittaa ryhmään kuuluvien sekvenssien lukumäärää. Jos k on kahden ryhmien i ja j unioni k = i j, ja l joku muu ryhmä, niin tällöin dkl = (dil i + djl j )/( i + j ) UPM: esimerkki / UPM UPM menetelmä toimii kohtalaisesti kun sukupuun haarojen todelliset etäisyydet vastaavat ryhmittelyä keskiarvoetäisyyksillä. Ohessa esimerkki jossa UPM ei toimi (vasemmalla oikea puu todellisine etäisyyksineen, oikealle UPM:llä saatu virheellinen puu)

Parsimoniamenetelmät Lienee suosituin puun rakentamismenetelmäluokka Pyrkii löytämään oikean puun topologian (muodon) minimoimalla sekvenssimuutosten (kustannuksen) lukumäärän puussa. Verrattuna etäisyysmenetelmiin, parsimoniamenetelmissä puulle T liitetään kustannus jonka arvoa tutkaillaan erilaisilla puutopologioilla -> Minimikustannuspuu on paras puu eli pyritään minimoimaan puussa tapahtuneiden muutosten lukumäärä TORISS pitäisi tutkia kaikki mahdolliset puutopologiat KÄYTÄNNÖSSÄ vaihtoehtoisia puutopologioita rajataan heurestiikalla SIM: Linjatuista sekvensseistä,, ja saadaan puut Kustannuksen laskenta Määritellään ensin kustannus S(a,b) sekvenssien a ja b välillä (kustannusmatriisi voi vastata esim. sekvenssilinjauksen pisteytysmatriisia) Puun kustannus lasketaan rekursiivisesti lähtien lehtisolmuista ylöspäin seuraavasti (missä S k (a) tarkoittaa kustannusta a:n (esim. sekvenssi a=x,,x n ) sijoittamista solmuun k): LORITMI: Puun kustannuksen laskenta lusta: S k (a)= kaikilla puun T lehtisolmuilla k Lehti(T) Rekursio: Laske kaikille sisäsolmuille k lähtien alimmista sisäsolmuista jatkaen juurisolmuun asti (i ja j ovat solmun k alisolmuja). S k (a)=s i (b)+s(a,b) + S j (c)+s(a,c) a k i b c j Parsimoniapuiden etsintä Parsimoniamenetelmissä lähtökohtana löytää minimikustannuspuu -> Kokeiltava erilaisia puutopologioita. ONLM: Jos esimerkiksi lajia -> rilaisia puutopologioita * Yleisesti: s lajia -> puutopologioita *3**(s-3)=(s-3)!/ s- (s-). Kaikkia puutopologioita voidaan hakea vain rajoitetuissa tapauksissa (vähemmän kuin lajia). a Täydellinen topologiahaku b lkupuu, 3 lajia Lisätään kolmeen mahdolliseen paikkaan -> kolme puuta c Viidettä lajia sijoitetaan edelleen kaikkiin mahdollisiin kohtiin näissä kolmessa puussa -> puuta, jne... Topologiahausta ranch and bound menetelmällä puiden rakentamisvaiheessa hylätään ne puut jatkossa jotka eivät voi olla kustannukseltaan pienempiä kuin pienikustannuksesin puu siihen mennessä. &b menetelmä takaa optimaalisen puun löytämisen. Voidaan määrittää myös yläraja puun kustannukselle, jonka ylittävät puut kaikki hylätään. ranch and bound menetelmä soveltuu tyypillisesti alle lajin puihin. Lajeja >, on suositeltavaa käyttää heurestisia menetelmiä puiden rakentamisessa. Heurestisissa menetelmissä lähtökohtana on ensin rakentaa ns. alkupuu, josta etsitään parempaa puuta solmujen ja haarojen paikkoja vaihtelemalla. Heurestiset menetelmät eivät välttämättä johda optimaaliseen puuhun. Heurestiset menetelmät: alkupuu Heurestisissa parsimoniamenetelmissä alkupuu voidaan määrittää askelettain: sis: : atamatriisin järjestyksen mukaan losest: : loitetaan 3:sta lähimmästä lajista ja lisätään se. laji puuhun, joka tuottaa pienimmän lisäyksen kustannukseen (greedy eli ahne heurestiikka) Simple: : atamatriisin ensimmäinen laji otetaan referenssilajiksi ja lajeja lisätään samanlaisuusjärjestyksessä verrattuna ensimmäiseen lajiin (eli samanlaisin ensin,. samanlaisin sitten jne. Random: : Lajit lisätään puuhun satunnaisessa järjestyksessä.

Heurestiikkaa topologioissa Lähimmän naapurin vaihto Heurestisissa puutopologiamenetelmissä lähdetään liikkeelle alkupuusta jonka muotoa (solmujen paikkoja) aletaan muunnella parempaa kustannusta kohti. Muuntelumenetelmiä esitetty useita erilaisia: Lähimmän naapurin vaihto (Nearest( neighbor interchange,nni) lipuun katkonta ja uudelleen liittäminen (Subtree( pruning and regrafting, SPR) Puun katkaisu ja uudelleen yhdistäminen (Tree( bisection and reconnection, TR) Heurestisia menetelmiä käytettäessä ei voi tietää etukäteen mikä menetelmistä tarjoaa parhaan puun topologian (minimikustannuspuun). lipuun katkonta ja uudelleen liittäminen Puun katkaisu ja uudelleen liittäminen Parsimoniamenetelmät TUJ: Helppo menetelmä ymmärtää -> helpottaa saatujen tulosten tulkintaa i ole riippuvainen tietynlaisen evoluutiomallin valinnasta ntaa puutopologian ja siihen liittyvän hypoteesin evoluutiosta Yleisesti parsimoniamenetelmiä pidetään luotettavina jos homoplasiaa on vähän datassa tai se on laajasti levittäytyneenä puuhun. HITTOJ: Jos homoplasia yleistä datassa tai se keskittyy tiettyihin kohtiin puissa -> tulokset voivat olla harhaanjohtavia. Suosii solmujen välillä pitkiä haaroja. Pitää implisiittisesti sisällään evoluutiomallin, jota ei kunnolla ymmärretä Parsimonia: epäkonsistenttisuus elsenstein esitti (97) oheisen yksinkertaisen esimerkin ( lajia, lyhyet ja pitkät sukuhaarat), jossa parsimoniamenelmät eivät tuota oikeaa puuta. p Model tree q q q p Rates or ranch lengths p >> q Parsimony tree Wrong On osoitettu että parsimoniamenetelmät ovat epäkonsistentteja: datamäärän kasvaessa todennäköisyys vääränlaiseen puutopologiaan kasvaan. Parsimoniamenetelmien suosiollisuus pitkille puuhaaroille on tämän menetelmäluokan suurin ongelma. TU tai HITT: Lähtökohdat filosofiset: suositaan yksinkertaisinta hypoteesia. 3

Suurimman uskottavuuden menetelmä Suurimman uskottavuuden menetelmässä valitaan se puu parhaaksi joka maksimoi datan todennäköisyyden suhteessa puuhun. Suurimman uskottavuuden menetelmässä voidaan määrittää puun haarojen väliset evolutionaariset etäisyydet todennäköisyyksien avulla. Suurimman uskottavuuden menetelmässä kuten parsimoniamenetelmissä ongelmana erilaiset puutopologioiden generointi (mallit) joiden suhteen todennäköisyydet lasketaan.97..7.7 ( ) π..93.. P =.3..979.7..3..979 [ ] = a,c,g,t simerkki: sekvenssien tn laskenta Olkoon P =.97..7.7..93...3..979.7..3..979 ja olkoon ns. alkutilatodennäköisyydet: =[.,.,.,.3] (a,c,g,t). Laske todennäköisyys sekvenssimuutokselle: ccat -> ccgt ccat ccgt P c > c P c >c π a P a > g π t P t > t Mahdolliset piilomuutokset Piilomuutokset eivät näy sekvenssidatassa: Olkoon puu T simerkki: puun tn laskenta t juuri t x x t t 3 x x x 3 3 T Tällöin saadaan (t haaran pituus puussa) P(x, x T,t, t )= P(x x,t ) P(x x,t ) P(x 3 x,t 3 ) P(x x,t ) P(x ) Puun haaran pituuden vaikutus dellä esitelty sekvenssien välisten tn laskenta ei huomioi puun haaran pituuden vaikutusta todennäköisyyteen. Mitä pidempi puun haara -> sitä todennäköisempää että nukleotidi vaihtuu. Siirtymätodennäköisyysmatriisin P sellaisenaan sanotaan esittävän (ertain volutionary istance) yksikön haaraa puussa -> Sekvenssidatojen välinen todennäköisyys kuvaa cedin todennäköisyyttä n cedin todennäköisyys saadaan P:n potenssina. simerkiksi 3 cedin.93.9.9..7.99..9 P 3 =..9.939..7.3..9 jolloin sekvenssimuutoksen ccat -> ccgt todennäköisyys on.7 Puun haaran pituuden vaikutus Sekvenssimuutoksen ccat -> ccgt osalta todennäköisyys.3.9 3.7..77.7 3. 3

Puun haaran pituus Tarkastellaan tilannetta jossa ollaan kiinnostuttu muistakin kuin vain kokonaisluvullista :stä. Tällöin voidaan puun haarapituudet ilmoittaa muutoksina nukleotidia kohden (substitutions per site). Yleisesti, potenssi voidaan laskea muodossa exp( log()). Hyödynnettään nyt tätä tulosta samalla P matriisilla kuin aiemmin: log P =...7.7..7...3...7..3.. Rivien summa = (alkuperäisessä P:ssä ). Halutaan laskea muutos nukleotidia -> skaalataan logp kertomalla se sopivalla arvolla niin että logp:n ei diagonaaliset alkiot summautuvat :ksi. Skaalattu logp matriisia kutsutaan Q matriisiksi. Nyt exp(q) antaa todennäköisyysmatriisin joka vastaa muutosta nukleotidia kohti. Muutosta sekvenssiä kohden Qv P ( v) = e Yleisemmin, missä v on tietty haaran pituus SIM: muutos per sekvenssi:! " Q =...33.37........37..7......3.3...3 π.q =..33...3...7.3..7.3 Puun haaran pituuden vaikutus Yleisemmin, missä v on tietty haaran pituus: P ( v) = e Sekvenssimuutoksen ccat -> ccgt osalta.............3... Maksimiarvo # $ % & ' Qv Kahden haaran puun todennäköisyys Tarkastellaan oheista tilannetta. Nähdään kohta että puun juuren paikalla ei ole merkitystä todennäköisyyden laskennassa ( + Missä O on puun juuri ja. ja. puun haarojen pituudet. ja lajeja (sekvenssit = ccat ja = ccgt ). Todennäköisyys voidaan laskea 3:lla tapaa:, -:sta :hen suoraan (eli kuten edellä) + - :sta O:n kautta :hen - Kahdessa osassa alkaen O:sta (O-> ja O->). ) * P(.) Tapa : :sta :hen suoraan...9. =..7.9..7..3..3.77.9.7...7. P(.) =.3.9.9..9....7.3..9..3.7.3 P(.3) =...7.3.9.9.9.77 li ccat -> ccgt saadaan todennäköisyydeksi: P c > c P c >c π a P a > g π t P t > t.*.7*.*.7*.*.*.3*.77=.77.7..7.9 Tapa : :sta O:n kautta :hen Todennäköisyydessä :sta O:hon käytetään P(.) ja π matriiseja. Sekvensseinä = ccat ja = ccgt, O:sta ei tietoa. Nyt esim.. nukleotidin suhteen laskettaessa todennäköisyyksiä huomioidaan kaikki O:n vaihtoehdot (c->a, c->c, c->g ja c->t): = P(.) c->a + P(.) c->c + P(.) c->g + P(.) c->t =.*.+.*.9+.*.=.= Kun lasketaan. nukleotidin suhteen todennäköisyys :sta->o->:hen: = P(.) c->a P(.) a->c + P(.) c->c P(.) c->c + P(.) c->g P(.) g->c + P(.) c->t P(.) t->c =.3 = P(.3) c->c =.*.7 Vastaavasti muutkin nukleotidit, jolloin kokonaistodennäköisyydeksi saadaan.77

Tapa 3: Kahdessa osassa, alkaen O:sta Kun O:ta ei tunneta, pitää huomioida kaikki mahdollisuutta. Todennäköisyys. nukleotidille (c->c) saadaan π a P(.) a->c P(.) a->c + P(.) c->c P(.) c->c + π g P(.) g->c P(.) g->c + π t P(.) t->c P(.) t->c =.3 Vastaavasti muutkin nukleotidit, jolloin kokonaistodennäköisyydeksi saadaan sama kuin edellä eli.77 Kahden haaran puulle tämä kahden osan laskenta turhan monimutkainen. Useampihaaraiselle puulle tämä tapa ainoa vaihtoehto. Puun juuren paikalla ei ole merkitystä siis tn laskennassa. Juuri voi olla :ssa tai :ssä tai :n ja :n puolivälissä ja silti saadaan samat todennäköisyydet. Tämä tunnetaan elsensteinin Pulley Principle periaatteena. Tarkastellaan oheista tilannetta, jossa puun juuri asetettu: = ccat,= ccgt,= cact Kolmen haaran puu * Tn laskennassa käytetään edellä esiteltyä tapaa 3, jolloin. nukleotidin todennäköisyydeksi saadaan: π a P(.) a->c P(.) a->c c P(.3) a->c + P(.) c->c P(.) c->c P(.3) c->c + π g P(.) g->c P(.) g->c P(.3) g->c + π t P(.) t->c P(.) t->c P(.3) t->c =. ) Vastaavasti.,3. ja. nukleotidien tn:det:.,.3 ja., jolloin kertolaskulla saadaan puun kokonaistodennäköisyydeksi 3. * - Tämä kolmen haaran puun tapaus on yleistettävissä n haaran puulle. +. Suurimman uskottavuuden menetelmä Mallin ylisovittaminen Huomioi tarkat haarojen pituudet Tarkastelee puuta todennäköisyyksien avulla ri puita voidaan verrata todennäköisyyksien avulla Suurimman uskottavuuden menetelmä kertoo sekvenssien fylogeniasta, mutta antaa myös todennäköisyystietoa sekvenssien evoluutiosta nykyisiin muotoihinsa. Vaikeutena löytää relevantit puutopologiat joiden suhteen todennäköisyyksiä lasketaan Menetelmänä laskennallisesti erittäin raskas: kaikki topologia ja P matriisivaihtoehtoja usein miten mahdoton käydä lävitse. Älä ylisovita malliasi esim. valitsemalla liian kuvauskykyinen P matriisi (mitä enemmän parametreja -> sitä kuvauskykyisempi). Konsensuspuu (consensus tree) Puiden rakennusmenetelmissä usein törmätään ongelmaan, että erilaiset puut tuottavat yhtä hyvän kvantitatiivisen ratkaisun. Paras puu voitaisiin tietty valita lisäkriteereillä, mutta tuloksista voidaan myös laatia ns. konsensuspuu, joka kuvaa kaikki näitä samanarvoisia ratkaisuja parhaalla mahdollisella tavalla. Konsensuspuita voidaan rakentaa useasta eri lähtökohdasta ja useilla eri kriteereillä: Puhdas konsensuspuu sittää vain ja ainoastaan ne suhteet, jotka ovat yksikäsitteisesti esillä saaduissa puissa. Puhdas konsensuspuu sisältää vain ne haarautumat jotka esiintyvät kaikissa niissä perusratkaisupuissa, joiden avulla konsensuspuu rakennetaan. Jos peruspuissa esiintyy epäristiriitaa, puhtaassa konsensuspuussa epäristiriitaisuudet esitetään ratkaisematon kategoriassa. Puhdas konsensus (Strict concensus): Haarautuminen (split) tulee esiintyä kaikissa puissa nemmistösääntökonsensus (Majority rule consensus): Haarautuminen tulee esiintyä n%:ssa puista Konsensusmenetelmiä voidaan käyttää tuottamaan yhteenvetotulos yhden analyysin tuloksesta tai monien analyysien tuloksista.

nemmistösääntökonsensuspuu sittää ne suhteet, jotka ovat enimmistönä (>%) esillä saaduissa peruspuissa. 7 7 Numerot ilmoittavat prosentteina haarojen esiintymiset peruspuissa 7 7 Three fundamental trees Konsensusmenetelmistä Spirostomumum uplotes ruberia Spirostomumum uplotes ruberia uplotes Spirostomumum ruberia strict (component) majority-rule Spirostomum uplotes ruberia Spirostomum uplotes ruberia ootstrapmenetelmästä ootstrap on perustilastomenetelmä arvioimaan parametrimallien hyvyyttä ylogeneettisten puiden yhteydessä lähes aina käytetään arvioimaan saatujen tulosten hyvyys ootstrap perustuu datanäytteiden satunnaispoimintaan: alkuperäisestä näytematriisista poimitaan (takaisinpanolla) useita bootstrapotoksia (satoja, ellei tuhansia), joita kutakin otosta vuorollaan käytetään mallintamaan ilmiö-> yhtä monta ratkaisua kuin bootstrapotosta. ylogeniapuiden yhteydessä kaikkia eri bootstrapotoksista saatuja puita (etäisyys-, parsimonia- tai suurimman uskottavuuden menetelmällä) käytetään rakentamaan konsensuspuu (enemmistösääntökonsensus) kuvaamaan alkuperäisen datan tilannetta. ootstrapmenetelmällä voidaan estimoida mallin ja datan välinen luotettavuus: korkea esiintymistodennäköisyys konsensuspuussa haarautumalle tukee evoluutionäkemystä. Tilastotieteen puolella ootstrap ei enään kovin suuressa suosiossa: menetelmän heikkoudet huomattu (epäkonsistenttisuus). ootstrapmenetelmä: esimerkki lkuperäinen data haracters Taxa 3 7 R R Y Y Y Y Y Y R R Y Y Y Y Y Y Y Y Y Y Y R R R Y Y R R R R R R Outgp R R R R R R R R 7 3 Outgroup. bootstrapotos haracters Taxa R R R Y Y Y Y Y R R R Y Y Y Y Y Y Y Y Y Y R R R Y Y Y R R R R R Outgp R R R R R R R R Jokainen bootstrapotos analysoidaan, saadaan siis yhtä monta bootstrappuuta kuin bootstrapotoksia (yleensä >): Outgroup. bootstrapotos... haracters Taxa Y Y R Y Y Y Y Y Y Y R Y Y Y Y Y Y Y Y Y R R Y R R R Y R R R R R Outgp R R R R R R R R ootstrappuut esitetään yhteenvetona konsensuspuun avulla (enemmistösääntö): 9% % Outgroup ylogeneettiset puut i yhtä oikeaa lähestymistapaa -> tuloksia tarkasteltava kriittisesti. Käytetty alkudata samoin kuin linjaus/rinnastus luo jo pohjan tuloksille. Tarkastele sekvenssidatojen yhteydessä miten erilaiset linjausvaihtoehdot muuttavat tuloksia! Tarkempien evoluutiomallien käyttö teoriassa tuo tuloksiin lisää luotettavuutta, mutta toisaalta lisää mallin ylisovittumisen riskiä. Käytä erilaisia menetelmiä (etäisyys, parsimonia, suurin uskottavuus) ja tarkastele eri menetelmiä saatuja tuloksia keskenään. Konsensuspuu samoin kuin bootstrap menetelmä on käyttökelpoinen analyysin apuväline. 7