Evoluutiovoimat. Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa?

Evoluutiovoimat Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa? -sattuman sysäily: populaatiokoon vaikutus -valinta: positiivinen, tasapainottava ja negatiivinen -mutaatiot: neutraalien, positiivisten ja haitallisten mutaatioiden osuus kaikista uusista mutaatioista ja niiden kohtalo -evoluutioteoriat -neutraalihypoteesin testaus

Sekvenssievoluutio ja fylogeniat Miksi ja miten nukleotidikorvautumiset lasketaan havaittujen sekvenssierojen perusteella? -sekvenssien linjaus -mitä eroa on eroilla ja korvautumisilla - nukleotidikorvautumisten arviointi nukleotidieroista (Jukes-Cantor, Kimura-2-P-menetelmät) -nukleotidikorvautumisten arviointi synonyymisissä ja ei synonyymisissä paikoissa -mitä menetelmää käytetään?

3. DNA-sekvenssin evoluutio: nukleotidien korvautumiset Ihmisen ja hiiren yht. esi-isä alkuperäinen sekvenssi emäsmuutos emäsmuutos Aika Miljoonia vuosia TACGGTGAACGTGAAT TAGGGTGTACGTGACT -verrataan kahta samaa alkuperää olevaa (homologista) sekvenssiä toisiinsa. -käytetään evoluutionopeuden arviointiin eliöiden polveutumisen päättelyyn evoluutiovoimien merkityksen arvioimiseen

Mitä eroa on nukleotidieroilla ja nukleotidikorvautumisilla? Yhteinen esi-isä Laji 1 Laji 2 Päällekkäisiä korvautumisia -Käännä mutaatiotyypit suomeksi ja päättele miten ne voisi määritellä. -Kuinka monta nukleotidikorvautumista jää havaitsematta kun katsotaan sekvenssieroja?

Mihin substituutiomallia käytetään? Sekvenssierot Substituutiomalli Substituutiot Evoluutionopeus Eroamisaika Sukulaisuussuhteet

Kun aikaa sekvenssien eroamisesta on kulunut vähän, ei ole todennäköistä että samaan nukleotidipaikkaan olisi sattunut useita korvautumisia. Kun aikaa on kulunut paljon, päällekkäisten korvautumisten osuus kasvaa Jukesin ja Cantorin substituutiomalli p = ¾(1 e -8 α t ) 1 ¾ K= subst./nukleotidipaikka kahden sekvenssin eroamisesta lähtien p= nukleotidierot/nukleotidipaikka Toinen substituutiomalli t, aika

Sekvenssierot vs. eroamisaika (mitokondrio) Nei 1987, s 87

Jotta korvautumiset voitaisiin arvioida erojen perusteella, pitää käyttää mallia joka määrittää miten nukleotidit muuttuvat toisiksi. Esim. Jukes & Cantor, Kimuran 2 parametrin malli Koodaavalla alueella erotellaan synonyymiset ja ei-synonyymiset korvautumiset. Syn. ja ei-syn erojen luokitteluun ja syn. ja ei-syn nukleotidipaikkojen luokitteluun on erilaisia menetelmiä. Ei-koodaava alue Proteiinia koodaava alue Erot p Nukleotidierot/ nukleotidipaikka Synon. nukleotidierot/ synon. nukleotidipaikka Ei-syn. nukleotidierot / ei-syn. nukleotidipaikka Korvautumiset K nukleotidikorvautumiset/ nukleotidipaikka synon. nukleotidikorvautumiset /synon. nukleotidipaikka ei-synon. nukleotidikorvautumiset /ei-synon. nukleotidipaikka

3.1. Kahden sekvenssin väliset korvautumiset 3.1.1. Jukes ja Cantorin 1 parametrin malli 3.1.2. Kimuran 2 parametrin malli 3.1.3. Mitä mallia pitäisi käyttää? 3.1.4. Poikkeamia oletuksista 3.2. Korvautumiset proteiinia koodaavalla alueella: syn. korvautumiset/syn. nukleotidipaikka ja ei-syn. korvautumiset/eisyn. nukleotidipaikka 3.2.1. Nukleotidipaikkojen luokittelu synonyymisiksi/eisynonyymisiksi 3.2.2. Nukleotidierojen luokittelu synonyymisiksi/eisynonyymisiksi 3.2.3. Syn. ja ei-syn. korvautumisten laskeminen käyttäen Jukesin ja Cantorin korjausta 3.2.4. Syn. ja ei-syn. korvautumisten laskeminen luokittelemalla nukleotidipaikat degeneraation mukaan ja nukleotidierot transitioiksi ja transversioiksi 3.3. Aminohappokorvautumiset kahden proteiinin välillä 3.4. Sekvenssien linjaus

3.1. Kahden sekvenssin väliset korvautumiset 3.1.1. Jukes ja Cantorin 1 parametrin malli Todennäköisyys jolla nukleotidi muuttuu toiseksi: -substituutiot mistä tahansa emäksestä toiseen tapahtuvat samalla nopeudella α (= muutoksen todennäköisyys) Nukleotidi hetkellä t Nukleotidi hetkellä t+1 A T G C A 1-3α α α α T α 1-3α α α G α α 1-3α α C α α α 1-3α

Todennäköisyys että kaksi sekvenssiä eroavat toisistaan nukleotidipaikassa (nukleotidierot/nt) ajan hetkenä t on p p = = ¾(1 - e -8 α t ) 8αt = -ln(1 (4/3) p) K= substituutioiden määrä nukleotidipaikkaa kohti eroamisesta lähtien =2(3αt), jossa 3αt on yhdessä linjassa tapahtuneet substituutiot. 0 K = - ¾ ln(1 (4/3) p) 3α 3α t

Tasapainotilanteessa (kun t lähestyy ääretöntä) kaikkien nukleotidien todennäköisyys (frekvenssi) on yhtä suuri, 0,25 Todennäköisyys että paikassa on tietty nukleotidi, ajan funktiona Alunperin sama nt Alunperin eri nt

Esimerkki Laske substituutiotodennäköisyys K kahden sekvenssin välillä käyttäen Jukesin ja Cantorin 1 parametrin mallia. aagctgcatgtagctaaatataaatatatagcca * * ** ** * * * * atgccgggtgtagtgaaacataagtacatagtca Nukleotidierot p= 10/34 = 0,294 Substituutiot K = - ¾ ln(1 (4/3) p) = - ¾ ln(1 (4/3) x 0,294) = 0,373

Tee kuvaaja substituutioden ja erojen välisestä suhteesta p 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 K p K

3.1.2. Kimuran 2 parametrin malli Transitioitten (puriinista puriiniin, pyrimidiinistä pyrimidiiniin) ja transversioitten (puriinista pyrimidiiniin ja pyrimidiinistä puriiniin) todennäköisyydet ovat erisuuruiset. A G C T A 1-α-2β α β β G α 1-α-2β β β C β β 1-α-2β α A, G puriinit C, T pyrimidiinit T β β α 1-α- 2β

Korvautumisten lkm/nukleotidipaikka eroamisesta lähtien K = ½ln[ 1/(1-2P-Q) + ¼ln[ 1/(1-2Q)] P = niiden nukleotidien osuus kaikista nukleotideista joissa on transitioero kahden sekvenssin välillä Q= niiden nukleotidien osuus kaikista nukleotideista joissa on transversioero kahden sekvenssin välillä p = P+Q

Esimerkki Laske substituutiotodennäköisyys kahden sekvenssin välillä käyttäen Kimuran 2 parametrin mallia. aagctgcatgtagctaaatataaatatatagcca # * #* *# * * * * atgccgggtgtagtgaaacataagtacatagtca Transitionaaliset nukleotidierot P = 7/34 = 0,206 Transversionaaliset nukleotidierot Q = 3/34 = 0,088 Substituutiot K = ½ ln [ 1/(1-2P-Q) + ¼ ln [ 1/(1-2Q)] = ½ ln [ 1/(1-2x 0,206-0,088) + ¼ ln [ 1/(1-2 x 0,088)] = 0,394

Yleinen substituutiomatriisi A G C T A 1-α 12 -α 13 - α 14 α 12 α 13 α 14 G α 21 1-α 21 -α 23 - α 24 α 23 α 24 C α 31 α 32 1-α 31 -α 32 - α 34 α 34 T α 41 α 42 α 43 1-α 41 -α 42 - α 43

2.1.3. Mitä mallia pitäisi käyttää korvautumisten määrän laskemiseen? Kun sekvenssierot ovat pienet, päällekkäisiä korvautumisia on vähän ja 1 ja 2 parametrin mallit antavat saman tuloksen. Mallien antamat tulokset eroavat sitä enemmän mitä enemmän sekvenssieroja on. Jos tiedetään että transitio- ja transversionopeuksien välillä on suuri ero, käytetään 2 parametrin mallia. Monimutkainen malli >> # paljon oletuksia pitävätkö paikkansa? # estimoitujen parametrien määrä suuri - tarvitaan paljon dataa

3.1.4. Poikkeamia mallien oletuksista -nukleotidipaikkojen välillä on vaihtelua substituutionopeudessa. -riippuvuus mutaatiotapahtumasta viereisissä nukleotidikohdissa tai kyseisen nukleotidipaikan mutaatiohistoriasta -substituutiomatriisi voi muuttua ajan myötä; esim. kodonin käytön vääristymä/ nukleotidikoostumuksen muutos joissain linjoissa

Evoluutionopeuden vaihtelu nukleotidipaikoissa: jotkut paikat ovat alttiimpia muuttumaan kuin toiset; mallinnetaan gammajakauman avulla. (α on gammajakauman muodon määrittävä parametri) -esim. kodonin kolmas nukleotidi Yang 1996 TREE, 11, 367-372

-substituutiot eivät ole riippumattomia viereisistä nukleotideista, mutaatiotapahtumasta viereisissä nukleotidikohdissa, tai kyseisen nukleotidipaikan mutaatiohistoriasta -esim. hiuspinnirakenteessa tapahtuva mutaatio voi vaatia kompensoivan mutaation toisaalla

Kodonin käytön vääristymä (codon bias) Samaa aminohappoa koodaavia (synonyymisiä) kodoneita ei aina käytetä tasaisesti. Vääristymän suuruutta kuvataan eri mitoilla: 1) Relative synonymous codon usage n RSCU i =X i / ( 1/n Σ X i ) i=1 n = synonyymisten kodonien lkm (1-6) X i = montako kertaa kodoni i esiintyy sekvenssissä i = kodoni 2) ENC = effective number of codons : 1-60

Esim. Val Val Asp Val Asp Asp Asp GTT GTC GAT GTA GAC GAC GAC n RSCU i =X i / ( 1/n Σ X i ) i=1 Val GTT RSCU GTT =1/ (¼ x 3) =1,33 GTC RSCU GTC =1/ (¼ x 3) =1,33 GTA RSCU GTA =1/ (¼ x 3) =1,33 GTG RSCU GTG =0/ (¼ x 3) =0 Asp GAT RSCU GAT =1/ (½ x 4) =0,5 GAC RSCU GAC =3/ (½ x 4) =1,5

- Jos kodonin käytön vääristymää on, yleensä saman lajin sisällä eri geeneillä on samanlainen kodonipreferenssi. - Lajien välillä on eroa kodonipreferensseissä. - Yleisesti on havaittu että kodonit joissa on CG-dinukleotidi ovat epäsuosittuja; metyloitu C on altis mutaatiolle T:ksi. - Bakteereissa ja hiivoissa ja D. melanogasterilla valinta suosii tehokasta translaatiota ja se ylläpitää kodonin käytön vääristymää - Ihmisellä kodonin käytön vääristymään syynä voi olla eri nukleotidipitoisuudet eri genomin osissa. Se mikä nukleotidi on suosittu kodonin 3. paikassa riippuu siitä missä isokoorissa geeni sijaitsee: GC-rikkailla alueilla se on G tai C. Esim. α-globiini: korkea GC pitoisuus, sijaitsee GC -rikkaalla alueella β-globiini: alhainen GC pitoisuus, sijaitsee GC -köyhällä alueella.

E. Coli S. cerevisae vastaavan siirtäjä- RNA:n pitoisuus Leusiinikodonien käyttö (paljon ekspressoidut geenit) Leusiinikodonien käyttö (vähän ekspressoidut geenit)