Miten fylogenioita voidaan käyttää hyväksi eliökunnan historian tutkimisessa? -fylogeneettisen puun käsite -fylogenioiden tavalliset rakennusmenetelmät (parsimonia, UPGMA, neighbor joining, maximum likelihood) -puun luotettavuuden arviointi bootstrap-menetelmällä -mitä sekvenssejä ja mitä rakennusmenetelmää käytetään?
4. Molekyylifylogeniat 4.1. Mihin molekyylifylogenioita käytetään? 4.2. Molekyylidatan edut 4.3. Terminologiaa 4.4. Fylogeniamenetelmät 4.4.1 Parsimoniamenetelmä 4.4.2 Etäisyysmatriisimenetelmät -UPGMA -Neighbor-joining 4.4.3 Maximum likelihood 4.4.3 Juuri 4.5. Fylogenian luotettavuuden arviointi 4.6. Geenipuu ja lajipuu 4.7. Kladistit ja fenetistit 4.8. Yhteenveto menetelmistä
4.1. Mihin molekyylifylogenioita käytetään? Fylogeneettisen analyysin tavoitteena on 1) selvittää lajien (tai muiden taksonien) historialliset suhteet 2) yksilöiden tai yleensä yksittäisten DNA-sekvenssien historiallisten suhteiden selvittäminen 3) selvittää duplikoituneiden sekvenssien ja geeniperheen jäsenten väliset historialliset suhteet
Tree of life http://www.tolweb.org/life_on_earth/ Elämän puu
Päälinjojen suhteista on vaihtoehtoisia hypoteeseja joista keskustellaan: The "archaea tree": The "eocyte tree":
HIV-isolaattien fylogenia (nukleotidisekvenssidata)
Nature. 2004 Apr 22;428(6985):820. Origin of AIDS: contaminated polio vaccine theory refuted. Worobey M, Santiago ML, Keele BF, Ndjango JB, Joy JB, Labama BL, Dhed'A BD, Rambaut A, Sharp PM, Shaw GM, Hahn BH.
87 taskurottayksilön mitokondriosekvenssin fylogenia Avise ym. 1979
Ihmisen globiinigeeniperheen fylogenia GLs280
MADS-box-geenien fylogenia Pun.=eläimet ja sienet Musta=Arabidopsis Haarojen pituudet suhteessa a-a muutoksiin Suurin osa kasveilla tyyppiä II K-domaini vain kasvilinjassa Medard Ng and Yanofsky 2001
Kotitehtävä 1 (harj. 3) a) Etsi kirjastosta jostain tieteellisestä artikkelista (Molecular Phylogeny and Evolution, Molecular Biology and Evolution, Heredity, Genetics) fylogeneettinen puu. Katso 1)miksi se on tehty (mihin tieteelliseen kysymykseen se on vastaus) 2)millä menetelmällä se on tehty Geeni/geeniperhe DNA/RNA/aa tuma/mt/? Laji/lajiryhmä substituutiomalli puunrakennusmenete lmä
Kotitehtävä 2 (harj. 3) c) Käy tutkimassa seuraavat puiden käyttöesimerkit: Using trees to make predictions about fossils: The whale's ankle Using trees to learn about the evolution of complex features: The striped cichlid Using trees to make predictions about poorly-studied species: A new drug Using trees to learn about the order of evolution: The spider's web Using trees to learn about the evolution of diversity: The beetles' diet http://evolution.berkeley.edu/evolibrary/article/phylogenetics_09 -parsimoniaan perustuvaa päättely
4.2. Molekyylidatan edut Molekyylidata: -aminohapposekvenssit (1960-70-luvut) -allotsyymit -DNA-DNA-hybridisaatio -immunologiset menetelmät -DNA-sekvenssit 1970-l. lopulta lähtien -genomisekvenssit
John Ray, 1962 (Bromham 2008)
Molekyylidata: -100% periytyvää - on-off muuntelu (ei-jatkuva) - homologian määrittäminen (=sekv. linjaus) helppoa -laskennalliset menetelmät edistyneitä -sopii kaukaisillekin sukulaisille -paljon ominaisuuksia Morfologiset ja fysiologiset ominaisuudet: -vain osin periytyvää -jatkuva muuntelu -homologisten ominaisuuksien määrittäminen on vaikeaa -laskennalliset menetelmät eivät edistyneitä -eisovikaukaisillesukulaisille -vähän ominaisuuksia -kun DNA näytettä ei saa (historialliset taksonit)
4.3. Terminologiaa -vain haarautumisjärjestys (topologia): haarojen pituudet eivät kuvaa mitään A B C D -haarojen pituudet suhteessa A B A B C D C D kuluneeseen aikaan tapahtuneisiin muutoksiin
Bromham 2008
-a, b, c, d operationaalisia taksonomisia yksiköitä (OTU) -f, g, h hypoteettisia taksonomisia yksiköitä; Sisäinen haara (internal branch) g h Solmu (node) f h g f a b c d a b c d Ulkoinen haara (external branch)
Solmusta voi lähteä kaksi haaraa (dikotomia) (bifurcating) tai monta haaraa (polytomia) (multifurcating); -monta lajiutumista tapahtui samaan aikaan/ menetelmä ei erota haarautumisjärjestystä (esim. liian vähän dataa).
Puu voi olla juureton tai juurrettu Juurellinen: evoluutiolla suunta a a b c d Juureton: evoluutiolla ei suuntaa a b c d a b c d c d a b a b d c c d b a
Mahdollisten puiden määrä: Sekvenssejä: Juurettomia puita: Juurellisia puita: 3 1 3 4 3 15 5 15 105 7 954 10395 10 2027025 34459425 Usein riittää pelkkä juureton puu, esim. kun selvitetään monofyleettisiä ryhmiä.
Mono- ja parafyleettiset ryhmät Monofyleettinen ryhmä: kaikki taksonit jotka polveutuvat samasta esiisästä (+ esi-isä). Ryhmällä on yhteinen esi-isä, joka ei ole esi-isä ryhmän ulkopuolisille jäsenille. Esim. krokotiilit ja linnut Parafyleettinen ryhmä: yhteinen esi-isä on myös jonkun toisen taksonomisen ryhmän esi-isä. Esim. matelijat L i n n u t LINNUT KROKOTIILIT KÄÄRMEET JA SISILISKOT MATELIJAT KILPIKONNAT NISÄKKÄÄT
Newickin formaatti: tapa puun rakenteen kuvaamiseen. Kukin sulkumerkkipari sisältää monofyleettisen ryhmän A F B C ((((A,B)C)D)E) A E D E F B D 2,1 C A ((A,B),(C,D),(E,F)) 2,5 1,2 E 1,1 1,0 1,0 ((A:2.5,B:1.1):1.0,(C:0.8,D:2.0):1.1,(E:1.2,F:2.1):1.0) B 1,1 2,0 D C 0,8
4.4. Fylogeniamenetelmät 1) Parsimoniamenetelmä Yhteiset mutaatiot kertovat yhteisestä alkuperästä > perustuu ominaisuuksien tiloihin (character state) (linjatun DNA:n nukleotipaikka (tilat: A, T, C, G), prot. aminohappopaikka (tilat: 20 aminohappoa), transposoni (tilat: on - ei ole), insertio/deleetio (indel) DNA tai aminohapposekvenssissä (tilat: on ei ole) 2) Etäisyysmatriisimenetelmät Samankaltaisuus kertoo yhteisestä alkuperästä > menetelmät perustuvat parittaisiin etäisyysmittoihin (esim. DNAsekvensseissä korvautumisten määrä K parittaisten sekvenssien välillä) 3) Maximum likelihood (ML) - tyyppiset menetelmät; voivat käyttää sekä ominaisuuksien tiloja että parittaisia etäisyyksiä; maksimoivat datan todennäköisyyden evolutiivista mallia käyttäen.
4.4.1 Parsimoniamenetelmä Parsimoniaperiaate: -minimoidaan tapahtuneiden muutosten määrä ->parsimonisin puu: selittyy pienimmällä määrällä mutaatioita Tilojen muutoksessa voi olla suunta; esim. DNA:n nukleotidivaihdoksissa ei ole suuntaa Tilojen välillä voi olla tietty määrä muutoksia; esim. tietyn aminohapon muutos toiseksi voi vaatia useita muutoksia.
Parsimoniamenetelmässä yhteiset mutaatiot kertovat yhteisestä alkuperästä. Se perustuu fylogeneettisesti informatiivisiin muutoksiin = muutoksiin jotka jakavat aineiston kahteen ryhmään. Oranki atgcaagtgcagccatcgacgacttacgacgaccgccagt Ihminen.t.t.agc...a.g.cc...c.cgca.t.gt...g.. Gorilla.c.t.ggc...a.g.tt...a.tgcg.t.at...a.. Simpans.t.c.act...a.g.cc...a.cgta.t.at...g.. Fylogeneettisesti informatiiviset muutokset Yksittäismutaatiot (singletons)
Oranki atgcaagtgcagccatcgacgacttacgacgaccgccagt Ihminen.t.t.agc...a.g.cc...c.cgca.t.gt...g.. Gorilla.c.t.ggc...a.g.tt...a.tgcg.t.at...a.. Simpans.t.c.act...a.g.cc...a.cgta.t.at...g.. 4. 8. 16. 23. 24. 25. 26. Mahdolliset juurettomat topologiat: I G I S I S S O G O O G 4 2 1 Paikkojen lkm jotka tukevat kutakin ryhmittelyä
4. (8.) I S G O I S G O I S G O C T T C t t C T T C t c C T C T c c I S G O I S G O I S G O T C T C c t T C T C c c T C C T c c I S G O I S G O I S G O C C A A c c C C A A c c C C A A c a 16.(24.,25.,26.) 23.
Summataan muutokset yli kaikkien informatiivisten paikkojen kullekin mahdolliselle puulle erikseen: I G I S I S S O G O O G 2 paikkaa x 2 muutosta + 4 paikkaa x 1 muutos +1 paikka x 2 muutosta = 10 2 paikkaa x 1 muutosta + 4 paikkaa x 2 muutos +1 paikka x 2 muutosta = 12 2 paikkaa x 2 muutosta + 4 paikkaa x 2 muutos +1 paikka x 1 muutosta = 13 Paras puu = parsimonisin puu: selittyy pienimmällä määrällä mutaatioita Kun OTUja on yli neljä, parsimonisin puu ei ole välttämättä se jota tukee suurin määrä informatiivisia paikkoja, koska kukin informatiivinen paikka ei välttämättä enää tue vain yhtä topologiaa.
Parsimoniamenetelmä tuottaa pelkän topologian ilman juurta ja haarojen pituuksia. L i n n u t Parsimoniapuun ongelmana on homoplasia kun muutoksia on paljon. Eri nukleotidipaikkoja tai muutoksia on mahdollista painottaa eri tavoin; esim. jos on odotettavissa paljon homoplasioita, näitä painotetaan vähemmän. -esim. 1., 2. vs. 3. paikka kodonissa -esim. transversiot vs. transitiot
> homoplasia
ATG GCT ACC ATG GCC GCC ATG GCT ACT ATA GCC GCC ATG GCC GCC ATA GCT ACT ATG GCC ACT Symplesiomorfia: identtisyys perustuu siihen, että kumpikaan ei ole muuttunut. Synapomorfia: identtisyys joka seurausta yhdestä mutaatiosta. Homoplasia: identtisyys johtuu saman nukleotidin moninkertaisesta muuttumisesta (kaksi erillistä mutaatiota jotka tuottavat saman lopputuloksen)
Subst kpl Subst. osuus Hav. kpl Hav. osuus Od. osuus 1. paikka transitiot 2. paikka transver siot 3. paikka
Parsimoniamenetelmällä ei aina löydä parsimonisinta puuta Parsimoniamenetelmässä verrataan kaikkia mahdollisia juurettomia puita (exhaustive search): laskennallisesti raskas. Kun kaikkia mahdollisia puita ei voi verrata, käytetään oikopolkuja: Kun OTUja on > 12 branch and bound-menetelmä: lisätään puuhun taksoneita yksi kerrallaan (puun kokonaispituus kasvaa): verrataan kullakin askelella esim. Neighbor-joining menetelmällä saadun puun kokonaispituuteen (mutaatioiden kokon. määrään). Hylätään tämä polku jos pituus suurempi. Kun OTUja > 20 heuristic search: otetaan käsittelyyn vain sellaisia puita jotka muistuttavat topologialtaan neighbor-joining puuta. Muita: branch swapping: tutkitaan muunnelmia peruspuusta vaihtamalla läheisten haarojen päissä olevia taksoneita.
Branch and bound GL196
4.4.2 Etäisyysmatriisimenetelmät Jotkut menetelmät kuten DNA-DNA-hybridisaatio tai immunologiset menetelmät tuottavat suoraan etäisyysdataa. Monet menetelmät tuottavat dataa jossa kyseessä on ominaisuuden tilat (kuten DNA-sekvensointi) mutta datan voi muuttaa etäisyysdataksi. Etäisyysdataa ei voi muuttaa ominaisuusdataksi. DNA-sekvensseistä tehdään parittaisten etäisyyksien (K) matriisi käyttäen esim. Jukes-Cantorin, Kimuran 2 parametrin tai muuta moninkertaisten substituutioiden korjausta. Puunrakennusalgoritmeja on mm. UPGMA, Neigbor-joining
Oranki Ihminen Gorilla Simpanssi Paviaani atgcaagtgcagccatcgacgacttacgacgaccgccagt.t.t.agc...a.g.cc...c.cgca.t.gt...g...c.t.ggc...a.g.tt...a.tgcg.t.at...a...t.c.act...a.g.cc...a.cgta.t.at...g...tac.ggc.t.t.c.tg.g..ga.tgcg.caat..t.a.. Nukleotidierot p Jukes-Cantor etäisyys K I S G O P S G O P I - 6 9 12 17 0,167 0,268 0,383 0,627 S - 10 12 18 0,304 0,383 0,687 G - 11 12 0,343 0,383 O - 13 0,426 P -
UPGMA Unweighted pair-group method with arithmetic means Ryhmitetään sekvenssit joilla on pienin etäisyys Lasketaan kaikkien muiden keskietäisyys muodostuneeseen ryhmään ja jatketaan siitä Oletuksena on tasainen evoluutionopeus linjoissa ->Tuottaa puun jossa haarojen pituus on suhteessa aikaan ->Tuottaa juuren
S G O P I 0,167 0,268 0,383 0,627 S 0,304 0,383 0,687 G 0,343 0,383 O 0,426 G O P I+S 0,286 0,383 0,657 G 0,343 0,383 O 0,426 O P I+S+G 0,370 0,566 O 0,426 P I+S+G+O 0,531
Ihminen Simpanssi Gorilla Oranki Paviaani 0,25 0,20 0,15 0,10 0,05 0
Neighbor joining Etsitään vaiheittain naapurit siten että puun kokonaispituus (=kaikkien haarojen summa) minimoituu y x 3 x 1 2 4 5 6 7 8 y x 1 2 3 4 5 6 7 8 1 3 2 4 5 6 7 8 -lasketaan puun kok. pituus kaikille vaihtoehtoisille puille jossa solmussa X on yhdistyneinä kaikki mahdolliset OTUt
Kun on löydetty lyhin puu, muodostetaan X:n yhdistämistä kahdesta OTUsta yhdistelmä-otu ja lasketaan muiden OTUjen ja yhdistelmä-otun väliset etäisyydet keskiarvona (kuten UPGMAssa). Etsitään taas lyhin puu mahdollisten topologioiden joukosta.
Neigbor joining puu edellisestä aineistosta Ihminen Simpanssi Gorilla Oranki Paviaani Menetelmä ei oleta että evoluutionopeus on sama kaikissa linjoissa -> Haarojen pituus on suhteessa tapahtuneisiin muutoksiin. -> ei saada juurta.
4.4.3 Suurimman todennäköisyyden (maksimum likelihood) menetelmät Likelihood = todennäköisyys havaita data (sekvenssit) olettaen tietty haarautumisjärjestys ja nukleotidisubstituutiomalli (esim. kahden parametrin malli) L=P(data puu) Lasketaan datan todennäköisyys kaikille mahdollisille puille, ja valitaan puu jonka todennäköisyys on suurin. Samalla arvioidaan puun haarojen pituudet. Vaatii tietokoneelta paljon. Bayesiläiset puunrakennusmenetelmät ovat samantapaisia, mutta likelihood:n asemesta todennäköisyys saadaan jakaumana.
GL199
4.4.3 Juuri -Useimmat menetelmät eivät tuota juurta -UPGMA tuottaa juuren, koska menetelmässä oletetaan tasainen evoluutionopeus) -Juuren saamiseksi fylogeniaan otetaan mukaan sopivan kaukainen taksoni, jonka tiedetään eronneen muista selvästi aiemmin esim. paleontologisten tietojen perusteella. Juuri laitetaan haaraan joka yhdistää ulkoryhmän (outgroup) muihin taksoneihin. Ulkoryhmän on hyvä olla riittävän erilainen mutta ei liian erilainen (ettei homoplasioiden takia saada esim. epäluotettavia etäisyyksiä tai väärää topologiaa). ulkoryhmä
Toinen menetelmä on asettaa juuri sen haaran puoliväliin joka erottaa kahden toisistaan kaukaisimman taksonin puoliväliin. Päätelty juuri
4.5. Fylogenian luotettavuuden arviointi Bootstrap-menetelmä: Tavoitteena on selvittää fylogeneettisellä menetelmällä päätellyn puun herkkyys pienille muutoksille havaintoaineistossa Otetaan sekvensseistä uusintaotos poimimalla satunnaisesti nukleotidipaikkoja takaisinpanolla Satunnaisotannan tuloksena saaduista sekvensseistä laaditaan uusi fylogenia samalla menetelmällä Uusintaotoksia ja fylogenioita tehdään esim. 1000 kpl
Näyte Bootstrap-näytteet 3 1 1 GAGGG AGGAC CCGAT CAAAA 2 GCGTG GGGAA CCGGA GAAAA 3 CAGAG AGAAA CAGAG TAAAC 4 CAAAG AGCAA CGAGT TAAAC 5 GCGGA CAGAA AAGAT TAAAT 1 GGGGAAAAGGCGGGGTCAAA 2 GGGGCGGGGGAGGGGAGAAA 3 CCCCAAAAAAAGGGGGTAAA 4 CCCCAAAAAAAGGGGGTAAA 5 GGGGCCCCGGAGGGGTTAAA 4 5 2 3 1 4 5 Päätelty puu 2 1 AAAAGGGGACCCCAAAAAAA 2 CCCCGGGGAACCCGGAAAAA 3 AAAAGGAAAACAAAAAAACC 4 AAAAGGAACAACCAAAAACC 5 CCCCAAGGAAAAAAAAAATT... 1 GGGGGAGGAACCCCCCCAAA 2 GGGGGGGGAACCCCCCCAAA 3 GGGGGAGGAACCCCCAAAAA 4 AAAGGAGGCCAAAAACCAAA 5 GGGAACAAAAAAAAAAAAAA 3 4 5 4 5 1 3 2 2 1
Bootstrap-arvo: 3 1 Alkuperäisen päätellyssä sukupuussa esiintyvän ryhmän luotettavuutta kuvastaa se kuinka usein sama ryhmä esiintyy satunnaistetuissa uusissa puissa 95 70 4 2 5
100 60 30 96 40 Physarum Zea mays Euglena gracilis Trypanosoma brucei Naegleria gruberi Chlamydomonas reinhardtii Human Konsensus -puu (50%) Physarum Zea mays Euglena gracilis Trypanosoma brucei Naegleria gruberi Chlamydomonas reinhardtii Human
100 60 30 96 40 Physarum Zea mays Euglena gracilis Trypanosoma brucei Naegleria gruberi Chlamydomonas reinhardtii Human Konsensus -puu (90%) Physarum Zea mays Euglena gracilis Trypanosoma brucei Naegleria gruberi Chlamydomonas reinhardtii Human
4.6. Geenipuu ja lajipuu Lajin sisällä on polymorfiaa Geenin sekvenssien eroamisajankohta on sama tai kaukaisempi kuin lajien GL174
GL 175 -Geenipuun topologia voi olla erilainen kuin lajipuun -Kun kaksi perättäistä lajiutumista tapahtuu lyhyen ajan sisällä, väärän topologian saamiseen on suuri mahdollisuus. -Kun halutaan lajin fylogenia, luotettavimman tuloksen saa tutkimalla monta geeniä
4.7. Kladistit ja fenetistit Kladistit: kiinnostuneet evoluution kulusta; taksonien polveutumisjärjestyksestä eli kladogrammista (= fylogeneettisen juurellisen puun topologiasta). Parsimonia on tyypillinen kladistinen menetelmä. Fenetistit: kiinnostuneet olemassaolevien taksonien samankaltaisuuksista. Samankaltaisuudet ilmaistaan fenogrammilla. UPGMA tyypillinen feneettinen menetelmä.
4.8. Yhteenveto menetelmistä: Valitse geeni jonka evoluutionopeus on sopiva sille ryhmälle josta fylogeneettinen puu tehdään >homoplasioiden välttäminen >riittävät erot taksonien välillä Hitaasti kehittyvä alue kun on kyseessä kaukaiset taksonit: esim. Paljassiemeniset ja koppisiemenisten eroaminen, eubakteerien, eukaryoottien ja arkkien eroaminen. Nopeasti kehittyvä alue kun on kyseessä läheiset taksonit: esim. Brassicaceae-heimon lajien fylogenia, kädellisten fylogenia.
rrna mt Pieni suuri Käytettävän geenin, geenialueen tai muutoksen evoluutionopeus Avise 1994
Valitse paikat tai muutokset joissa on sopiva korvautumisnopeus: transitiot vs. transversiot kodonin 1. 2. ja 3. paikka Otetaanko aminohappoa muuttavat muutokset mukaan? synonyymiset vs. ei- synonyymiset muutokset ei-degeneroituneet vs. 4-kertaisesti degeneroituneet paikat -Huomioi myös emäskoostumuksen erot taksonien välillä.
Esim. tuman ja organellien geenien evoluutionopeuksien eroja eläimillä ja kasveilla Eläinten mitokondrio -n. 15 000-17 000 bp -DNA-sekvenssin syn. evoluutionopeus (5.7 x 10-8/v.) on 10- kertainen verrattuna tuman DNA:han. -> läheisille taksoneille -geenijärjestys ja lkm on vakaa -geenit ovat intronittomia -ihmismitokondrion kontrollialueessa paljon transitioita Transitiot : transversiot 15,7 : 1
Kasvien mitokondrioiden -koko vaihtelee paljon (26 000 2 500 000 bp) lajista toiseen -geenisisältö vakaa -uudelleenjärjestelyjä on paljon -sekvenssievoluutio on erittäin hidasta verrattuna tumaan. kloroplastit -suuria (70 000-220 000 bp) -geenisisältö vaihtelee paljon lajista toiseen -sekvenssievoluutio on hidasta verrattuna tumaan Synonyymisiä substituutioita (Ks) maissin ja vehnä/ohran välillä: Tuma 0,71 + 0.04 Kloroplasti 0,17 + 0,01 Mitokondrio 0,03 + 0,01
Esim. Havaitset seuraavat erilaistumisasteet puulajien välillä (Jukes-Cantor etäisyyksiä) P. sylvestris ja P. taeda 0.03, P. sylvestris ja Picea abies 0.14, P. taeda ja P. abies 0.16. Pseudotsuga menziesii ja Picea abies 0.20 P. menziesii ja P. sylvestris 0.25 P. taeda ja P. menziesii 0.25. Piirrä fylogeneettinen puu (UPGMA) näistä lajeista. P. menziesii tiedetään ulkoryhmäksi. Onko evoluutionopeus kuusen Picea ja männyn Pinus linjoissa erilainen? Jos oletat tätä tehtävän osaa varten, että evoluutionopeus on ollut sama kummassakin (kuusen ja männyn) linjassa, milloin arvioit kahden mäntylajin eronneen toisistaan? Oleta että männyn (Pinus) ja kuusen (Picea) suvut ovat eronneet noin 140 miljoonaa vuotta sitten.