Molekyylisystematiikka, 2. osa

Samankaltaiset tiedostot
Tulosten arviointi. tulosten arviointi. voimmeko luottaa saamiimme tuloksiin?

Molekyylisystematiikka 1.osa

Capacity Utilization

Fylogeneettiset puut. Fylogeneettiset puut. UPGMA: esimerkki 2/2 UPGMA

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Results on the new polydrug use questions in the Finnish TDI data

The CCR Model and Production Correspondence

Other approaches to restrict multipliers

7.4 Variability management

Efficiency change over time

anna minun kertoa let me tell you

make and make and make ThinkMath 2017

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

812336A C++ -kielen perusteet,

HARJOITUS- PAKETTI A

C++11 seminaari, kevät Johannes Koskinen

Vertaispalaute. Vertaispalaute, /9

Kvanttilaskenta - 1. tehtävät

Metsälamminkankaan tuulivoimapuiston osayleiskaava

Bounds on non-surjective cellular automata

The Viking Battle - Part Version: Finnish

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Alternative DEA Models

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

16. Allocation Models

Capacity utilization

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

FETAL FIBROBLASTS, PASSAGE 10

Gap-filling methods for CH 4 data

TM ETRS-TM35FIN-ETRS89 WTG

MALE ADULT FIBROBLAST LINE (82-6hTERT)

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

Operatioanalyysi 2011, Harjoitus 4, viikko 40

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Uusia kokeellisia töitä opiskelijoiden tutkimustaitojen kehittämiseen

LYTH-CONS CONSISTENCY TRANSMITTER

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

Choose Finland-Helsinki Valitse Finland-Helsinki

TM ETRS-TM35FIN-ETRS89 WTG

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

1. Liikkuvat määreet

TM ETRS-TM35FIN-ETRS89 WTG

Counting quantities 1-3

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Perusnäkymä yksisuuntaiseen ANOVAaan

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

( ,5 1 1,5 2 km

Tietorakenteet ja algoritmit

Mat Seminar on Optimization. Data Envelopment Analysis. Economies of Scope S ysteemianalyysin. Laboratorio. Teknillinen korkeakoulu

TM ETRS-TM35FIN-ETRS89 WTG

SIMULINK S-funktiot. SIMULINK S-funktiot

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

,0 Yes ,0 120, ,8

TM ETRS-TM35FIN-ETRS89 WTG

Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

Curriculum. Gym card

Evoluutiovoimat. Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa?

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Alueellinen yhteistoiminta

TM ETRS-TM35FIN-ETRS89 WTG

Chapter 7. Motif finding (week 11) Chapter 8. Sequence binning (week 11)

Väite Argument "Yhteiskunnan velvollisuus on tarjota virkistysalueita ja -palveluita." "Recreation sites and service

Travel Getting Around

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

Salasanan vaihto uuteen / How to change password

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

TM ETRS-TM35FIN-ETRS89 WTG

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Vastuuvelan markkina-arvon määrittämisestä *

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

Akateemiset fraasit Tekstiosa

Hankkeen toiminnot työsuunnitelman laatiminen

Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille?

Eukaryotic Comparative Genomics

2017/S Contract notice. Supplies

4x4cup Rastikuvien tulkinta

Avainsanojen poimiminen Eeva Ahonen

03 PYÖRIEN SIIRTÄMINEN

Returns to Scale Chapters

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

PAINEILMALETKUKELA-AUTOMAATTI AUTOMATIC AIR HOSE REEL

AYYE 9/ HOUSING POLICY

FIS IMATRAN KYLPYLÄHIIHDOT Team captains meeting

Miten fylogenioita voidaan käyttää hyväksi eliökunnan historian tutkimisessa?

ATLAS-kartan esittely - Peli palveluiden yhteiskehittämisen menetelmistä Päivi Pöyry-Lassila, Aalto-yliopisto

Basic Flute Technique

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

Transkriptio:

Molekyylisystematiikka, 2. osa

Parsimoniamenetelmä, hyvät ja huonot puolet Plussat: Helppo ymmärtää, ei oleta mitään tiettyä evolutiivista mallia Voidaan osoittaa että löytää varmaasti parhaan puun Hypotetisoi ominaisuuden kehittymisen Miinukset: Voi antaa vääriä tuloksia, jos homoplasiaa paljon Käytetään usein vain filosofisista syistä, menetelmän toimintaa ei ymmärretä hyvin Laskennallisesti raskas; mahdollisten puiden määrä kasvaa eksponentiaalisesti sekvenssien lukumäärän funktiona. Siksi yleisimmin käytetään heuristisia algoritmeja, jotka tuottavat lähes-optimaalisen puun Soveltuu parhaiten tilanteisiin, joissa kaikkien analysoitavien sekvenssiparien väliset eroavaisuudet ovat keskimäärin kohtuullisen pieniä ja samaa luokkaa keskenään (ei yhtäkään muista kovin paljon poikkeavaa sekvenssiä)

II Etäisyysmenetelmät Sekvenssien väliset erot muutetaan evolutiivisiksi etäisyyksiksi Etäisyys on esim. substituutioiden määrä sekvenssien välillä Rakentaa puun joka sopii niin hyvin kuin mahdollista näihin estimoituihin evolutiivisiin etäisyyksiin Etäisyysmenetelmiä: UPGMA Neighbor-Joining (Suosittu) Fitch-Margoliash (minimum evolution)

UPGMA-esimerkki

Neighbor joining http://en.wikipedia.org/wiki/neighbor_joining

Etäisyysmenetelmät, edut ja haitat Edut: Nopeita Sekvenssejä saa olla paljonkin Monia evolutiivisia malleja saatavilla Haitat: Informaatiota häviää koska ominaisuudet (sekvenssimuutoksia) konvertoidaan keskimääräisiksi etäisyyksiksi! Usein ML-menetelmiä huonompia Soveltuu parhaiten: tilanteeseen jossa sekvenssien välillä on kohtuullisesti vaihtelua; jotkin sekvenssiparit eroavat toisistaan enemmän kuin toiset

Etäisyysmenetelmät, edut ja haitat (2012) neighbour joining is useful for analysing large data sets that have low levels of sequence divergence Edut: Fast computational speed Can be applied to any type of data as long as a genetic distance can be defined Models for distance calculation can be chosen to fit data Haitat: Most distance methods, such as neighbour joining, do not consider variances of distance estimates Distance calculation is problematic when sequences are divergent and involve many alignment gaps Negative branch lengths are not meaningful

III Maximum Likelihood Yleisnimitys menetelmille jotka käyttävät evoluutioon tilastollisia malleja Mallit määritellään seuraavien asioiden avulla Mutaatiotodennäköisyydet emäksestä toiseksi tai aminohaposta toiseen (esim. pisteytysmatriisilla) Sekvenssin havaitut emäs/aminohappo-frekvenssit (DNA:ssakaan eivät välttämättä ole 1:1:1:1)! Muutostodennäköisyyksien vaihtelu lokaatiosta toiseen (mm. kodonispesifisyys) ML minimoi sekä muutosten määrän että oksien pituudet ML etsii kaikista mahdollisista puista sen puun jolla on suurin todennäköisyys tuottaa havaittu data

Maximum likelihood Suurimman uskottavuuden menetelmät muistuttavat parsimoniamenetelmiä siinä mielessä, että MLmenetelmilläkin pyritään löytämään kaikkein lyhin puu. Paras tulos saataisiin testaamalla kaikki puut. Valitettavasti puiden lukumäärä kasvaa voimakkaasti eliöiden määrän kasvaessa Tähän tarvitaan taas heuristiikkaa

Maximum likelihood Esimerkki ohjelmasta RaxML Ensin tuotetaan puu nopeasti maximum parsimoniamenetelmällä Tämän jälkeen puu organisoidaan uudelleen Tavoitteena on parantaa puun kykyä selittää data Puun oksia/haaroja siirrellään http://bioinformatics.oxfordjournals.org/content/21/4/456.full.pdf

ML, hyvät ja huonot puolet Plussat Matemaattisesti eksakteja Voi valita evolutiivisen mallin jonka mukaan sekvenssit erilaistuneet Mallin ja datan yhteensopivuutta voidaan arvioida laskennallisesti Puita voidaan verrata keskenään niiden todennäköisyyksien perusteella Miinukset ML on hyvä vain, jos malli kuvaa dataa hyvin! Laskenta-aika kasvaa nopeasti sekvenssien määrän kasvaessa Soveltuu parhaiten: erityisen hyödyllisiä kun sekvenssit ovat keskenään vaihtelevampia

ML, hyvät ja huonot (2012) Plussat Can use complex substitution models to approach biological reality Powerful framework for estimating parameters and testing hypotheses Miinukset Maximum likelihood iteration involves heavy computation The topology is not a parameter so that it is difficult to apply maximum likelihood theory for its estimation. Modern inferences of deep phylogenies using conserved proteins almost exclusively rely on likelihood and Bayesian methods. For such inference, it is important for the model to accommodate variable amino acid substitution rates among sites

EXTRAA ML-puun rakentaminen, esimerkki: Tutkitaan neljää lajia I-IV. Kustakin lajista sekvensoidut lyhyet DNA-pätkät on linjattu seuraavasti: I AACG II ACCG III AACA IV AATG Tämän jälkeen lasketaan eri nukleotidien frekvenssit aineistosta (todennäköisyydet, että satunnaisesti ylläolevasta joukosta arvottu nukleotidi sattuu olemaan A, C, G tai T), jolloin saadaan tulokset f(a) = P(A) = 1/2 = 0,50 P(C) =1/4 = 0,25 P(G) = 3/16 = 0,19 P(T) = 1/16 = 0,06 Käyttäen yllä laskettuja havaittuja nukleotidifrekvenssejä voidaan laskea esimerkiksi lajin I koko sekvenssin todennäköisyys P(AACG) = 0,50*0,50*0,25*0,19 = 0,011875. Esimerkissämme on neljä sekvenssiä, jotka voidaan sijoittaa puuhun kolmella eri tavalla (kuten aina 4:n sekvenssin ollessa kyseessä):

EXTRAA Puu 1 Puu 2 Puu 3 I II I III I IV III IV II IV III II Kahden sekvenssin yhteistodennäköisyyden laskemiseen ei enää riitä itse sekvenssien todennäköisyyksien laskeminen, vaan pitää ottaa huomioon myös se mahdollisuus, että tietyssä rinnastuksen kohdassa nukleotidi on vaihtunut. Nyt mallissamme on kaksi osaa, sekä puu että evoluutiomalli, johon kuuluu sekä muutosprosessin kuvaaminen että itse nukleotidifrekvenssit.

EXTRAA Evoluutiomalli täytyy spesifioida tarkemmin. Esim. Kimuran kahden parametrin malli, jolloin transversioiden oletetaan olevan transitioita kaksi kertaa yleisempiä Muutoksille voidaan laskea seuraavat todennäköisyydet A C G T A 0,9775 0,0075 0,0114 0,0036 C 0,0075 0,9850 0,0057 0,0018 G 0,0114 0,0057 0,9822 0,0007 T 0,0036 0,0018 0,0007 0,9777 Nyt voidaan laskea todennäköisyys havaita esimerkiksi seuraava sekvenssirinnastus: I AACG II ACCG P(rinnastus) = 0,50*0,9775*0,50*0,0075*0,25*0,9850*0,19*0,9822 = 0,000084226

EXTRAA Kaikille yllä mainituille puille lasketaan todennäköisyydet samalla tavalla. Laskutoimitusten jälkeen todetaan, että aineisto tukee puuta (I,II),(III,IV). Puun logaritminen todennäköisyys Ln(likelihood) = -13.64756. I III II IV

EXTRAA Suurimman uskottavuuden malleissa on se miellyttävä piirre, että eri puiden antamia ln(likelihood) -arvoja voidaan kätevästi vertailla tilastollisin testein, ja näin päätellä, mikä puista on todennäköisin (lyhin tai toisin sanoen paras) Ln(likelihood) -arvojen erotus (x2) noudattaa approksimatiivisesti 2 -jakaumaa. Lisätietoa likelihoodeista (uskottavuusfunktiosta) kiinnostuneille The Idiot s Guide to the Zen of Likelihood in a Nutshell in Seven Days for Dummies, Unleashed http://www.uni-kl.de/wcms/uploads/media/foster_ml-introduction.pdf

Mistä tiedän että tosiaan löydän lyhimmän puun? Parsimonia ja ML-menetelmät etsivät lyhimmän puun exhaustive search (suom. kattava haku, löytää varmasti lyhimmän) branch-and-bound (voidaan näyttää että löytää varmasti lyhimmän) heuristics (ei välttämättä löydä lyhintä puuta)

Mahdollisten evolutiivisten puiden lukumäärä rinnastettavien sekvenssien funktiona Sekvenssien lkm (T) Juurrettuja puita Juurtamattomia puita B(T) 3 3 1 4 15 3 5 105 15 7 10395 945 10 34,459,425 2,027,025

Exhaustive Tree Search: This is any method that systematically examines all possible relationships between a group of taxa/sequences. It can be quite timeconsuming for even moderately large datasets (say, 10) and virtually impossible for more than that number. An alternative is to use a heuristic or Branch-andbound method.

Branch-and-bound: This is a method of searching through tree space in order to find optimal trees. Unlike exhaustive methods, this is a heuristic and will ignore families of trees that cannot possibly give a better answer than a tree that already been found. It is much faster than exhaustive searches, but remains impractical for large numbers of taxa (say, more than 18).

Tree space may be populated by local minima and islands of optimal trees FAILURE FAILURE SUCCESS FAILURE Local minima Branch swapping Branch swapping Local minimum GLOBAL MINIMUM

Puun luotettavuuden arviointi

*Autapomorfia - Mutaatio, joka löytyy vain yhdessä ainoassa taksonissa. *

Bootstrap tulkinta Korkeat arvot (esim. > 85%) indikoivat vahvaa signaalia (kunhan aineistossamme ei ole vahvaa systemaattista tekijää, joka vääristäisi tulosta (esim. epätasainen emäsjakauma, tai suuria eroja puun haarojen pituuksissa)) Matala BP-arvo ei tarkoita etteikö haarautumiskohta voisi olla tosi, vaan ainoastaan sitä ettei aineistomme tue tätä kohtaa kovin hyvin Bootstrapping voidaan tulkita tavaksi tutkia tehdyn fylogeneettisen päättelyn herkkyyttä tiettyjen ominaisuuksien puuttumiselle tai mukanaololle; jos yhden ominaisuuden poisjääminen / mukaanottaminen vaikuttaa paljon, päättely on aika vähäisen evidenssin varassa!

Jackknifing Jackknifing on hyvin samanlainen tekniikka kuin bootstrapping; ainoastaan otantatapa eroaa Tietty osa ominaisuuksista (esim. 50 tai 67%) poimitaan satunnaisesti, toistetaan tämä esim. 1000 kertaa Kukin replikaattidata analysoidaan erikseen ja tulokset koostetaan majority-rule konsensus - puuksi Jackknifing ja bootstrapping tuottavat yleensä hyvin samanlaiset tulokset (ja tulkintakin on sama)

Fylogeneettisen menetelmien luotettavuus Fylogeneettisten menetelmien hyvyyttä voidaan arvioida myös Consistency (suom. johdonmukaisuus, konsistenssi) eli kuinka hyvin tulokset lähestyvät totuutta kun aineiston määrä kasvaa Efficiency kuinka nopeasti (paljonko aineistoa) Robustness kuinka herkkiä ovat menetelmissä tehtyjen oletusten paikkansapitämättömyydelle Näitä voidaan tutkia niin analyyttisesti (matemaattisten ominaisuuksien perusteella) kuin simuloimallakin

Suosituksia 1/2 Käytä suurta määrää taksoneja (lajeja) Käytä suurtaa määrää ominaisuuksia tai sekvenssimuutoksia Vältä ominaisuuksia, joilla konvergenttista (=samansuuntaista) evoluutiota: GC-rikkaat alueet, kodonien käyttö Käytä vain homologisia ominaisuuksia ortologit ja paralogit erotettava linjauksen laadun on oltava hyvä!!

Suosituksia 2/2 Poista analyysistä: huonosti linjautuneet alueet hypervarioivat valueet aukot (paitsi jos vastaavat biologista hypoteesia) Käytä menetelmiä, jotka eivät oleta molekyylikelloa Siis etäisyysmenetelmissä miel. Neighbor-Joining, ei UPGMA

Extra-slidet Vanha kaavio menetelmän valinnasta (ML:n suosio on kasvanut) Esitellään heuristiikkoja Vanha ohjelmapakettien listaus

Menetelmän valinnasta: Choose a set of related sequences Obtain multiple sequence alignment * Is there strong sequence similarity? YES Maximum parsimony methods NO * A phylogenetic analysis should only be performed on the parts of sequences that can be reasonably aligned! Methods analyze conserved regions that are represented in ALL the sequences. Is there clearly recognizable sequence similarity? NO Maximum likelihood methods YES Distance methods Analyze how well data support prediction Adapted from Mount, DW: Bioinformatics, 2000

Subtree Pruning And Regrafting is a tree topology search strategy which attempts to improve the likelihood of a given tree by selecting a subtree, detaching the selected subtree and attempts to regraft it onto another branch of the remaining tree in such a way that a new tree is formed. The procedure is usually repeated for each possible subtree and receiving branch, until no further likelihood improvements can be obtained.

Tree-Bisection-Reconnection (TBR) is a heuristic algorithm for searching through treespace. It proceeds by breaking a phylogenetic tree into two parts and then reconnecting the two subtrees at all possible branches. If a better tree is found, it is retained and another round of TBR is initiated. This is quite a rigorous method of searching treespace. It is not guaranteed to find the optimal tree, but it is more robust than SPR or NNI.

Heuristiset algoritmit: Branch swapping Nearest Neighbor Interchange is a tree topology search strategy which attempts to improve the likelihood of a given tree by performing exchanges of subtrees to obtain a new tree. The procedure is usually repeated for each internal branch, until no further likelihood improvements can be obtained. A binary unrooted tree with N>2 leaves will have N-3 internal branches, thus a pass of the NNI algorithm, which tries two trees per internal branch will examine 2(N-3) new trees.

Ohjelmapaketteja: Phylip Descriptions of Phylip programs and documentation: http://evolution.genetics.washington.edu/phylip/phylip.html Vapaasti on-line saatavilla oleva versio: http://bioweb.pasteur.fr/intro-uk.html CSC:llä: http://www.csc.fi/english/research/sciences/bioscience/prog rams/phylip/index_html Perusteellinen Phylip-opas: http://koti.mbnet.fi/tuimala/oppaat/phylip2.pdf

Muita ohjelmia POY PAUP Hy-Phy http://www.hyphy.org/docs/hpdocs/index.html MacClade http://phylogeny.arizona.edu/macclade/macclade.html. MrBayes http://mrbayes.csit.fsu.edu/ TREE-PUZZLE http://www.tree-puzzle.de/ LISTAA ohjelmista: http://www.csc.fi/english/research/sciences/bioscience/p rograms/index_html otsikon Phylogenetics alla