Sekvenssievoluutio ja fylogeniat

Samankaltaiset tiedostot
Evoluutiovoimat. Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa?

lpar1 IPB004065, IPB002277, and IPB Restriction Enyzme Differences from REBASE Gained in Variant Lost from Reference

II IIII II II

Peptidi ---- F K V R H A ---- A. Siirtäjä-RNA:n (trna:n) (3 ) AAG UUC CAC GCA GUG CGU (5 ) antikodonit

Sekvenssievoluutio ja fylogeniat

! (

Bioteknologian tutkinto-ohjelma Valintakoe Tehtävä 3 Pisteet / 30

Miten fylogenioita voidaan käyttää hyväksi eliökunnan historian tutkimisessa?

Molekyylievoluutio. (753327A, S), 4 op syksy Photo Marie-Hélène Müller

Evoluutiovoimat. Ydinkysymykset. Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa?

5a) TTATTTGAGGTGAGCGAGGGAGAGAGAGA GAGAGTGAGAGCGAATCAAGA----

Päähaku, molekyylibiotieteiden kandiohjelma Valintakoe klo

6 GEENIT OHJAAVAT SOLUN TOIMINTAA nukleiinihapot DNA ja RNA Geenin rakenne Geneettinen informaatio Proteiinisynteesi

Eukaryotic Comparative Genomics

Sukunimi Etunimet Tehtävä 3 Pisteet / 20

Methods S1. Sequences relevant to the constructed strains, Related to Figures 1-6.

II F I B

DNA RNA proteiinit transkriptio prosessointi translaatio regulaatio

a) dominoivaan: esiintyy joka sukupolvessa, sairaille vanhemmille voi syntyä terveitä lapsia

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Proteiinin rakenteen selvittämisestä ja visualisoinnista

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sekvenssien rinnastus. Rinnastus: helppoa tai vaikeaa

VASTAUS 1: Yhdistä oikein

805306A Johdatus monimuuttujamenetelmiin, 5 op

Algoritmit 1. Demot Timo Männikkö

HMM ja geenien etsintä

Algoritmit 1. Demot Timo Männikkö

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

GLP-1 analogit lihavuuden hoidossa. Aila Rissanen Lihavuustutkimusyksikkö ja Syömishäiriöklinikka HYKS

Bayesilainen päätöksenteko / Bayesian decision theory

Sovellettu todennäköisyyslaskenta B

Darwin: Tutkimusprojektin esittely

Ohjelmoinnin peruskurssi Y1

Lampiran 1 Komposisi media pertumbuhan yang digunakan A. Media nutrien agar (NA) - Agar 1.5% - Nutrient broth 0.8%

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

Avainsanat: perimä dna rna 5`-ja 3`-päät replikaatio polymeraasientsyymi eksoni introni promoottori tehostajajakso silmukointi mutaatio

Kaksi pisteytystapaa DNA-sekvenssien luokitteluun

Bioteknologian tutkinto-ohjelma. 1. a) Rastita, mitkä seuraavista väittämistä ovat oikein ja mitkä väärin. (10 p.)

Kuluttajan teoriaa tähän asti. Luento 6. Hyötyfunktion ja indifferenssikäyrien yhteys. Kuluttajan hyöty. Laajennuksia. Kuluttajan ylijäämä

Monitavoiteoptimointi

g - s Eä;t;i;s!itää# EiäErE ii:ääg Eä E *läeäfiäeräsil* E sis $ä äce:;!ääfät ;1*iEs ;tää:gi g;ää*f ;ij !äef ä:e'geä;:ä Elä tä Efiäilii: ; g E

Sisällys. 3. Muuttujat ja operaatiot. Muuttujat ja operaatiot. Muuttujat. Operaatiot. Imperatiivinen laskenta. Muuttujat. Esimerkkejä: Operaattorit.

Logistinen regressio, separoivat hypertasot

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Tampereen yliopisto Tietokonegrafiikka 2013 Tietojenkäsittelytiede Harjoitus

Mat Lineaarinen ohjelmointi

Algoritmit 2. Luento 13 Ti Timo Männikkö

Algoritmit 1. Luento 13 Ti Timo Männikkö

Algoritmit 1. Luento 8 Ke Timo Männikkö

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Haitallinen valikoituminen: Kahden tyypin malli

Katkonnanohjaus evoluutiolaskennan keinoin

UTLAGGNINGSSKRIFT A 61K 39/104, 35/74 //(A 61K 39/104, C 12R 1:385) (32) (33) (31) Etuoikeus - Prioritet

Nollasummapelit ja bayesilaiset pelit

II

DNA (deoksiribonukleiinihappo)

Sovellettu todennäköisyyslaskenta B

3. Muuttujat ja operaatiot 3.1

Harjoitus 2: Matlab - Statistical Toolbox

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Supplementary Information

Algoritmit 2. Luento 11 Ti Timo Männikkö

Nimi sosiaaliturvatunnus

Avainsanojen poimiminen Eeva Ahonen

Kuva maailmasta Pakettiverkot (Luento 1)

Mallipohjainen klusterointi

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Esimerkki 1 Ratkaise differentiaaliyhtälö

Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

DNA:n informaation kulku, koostumus

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Demonstraatiot Luento 7 D7/1 D7/2 D7/3

Vuoden 2005 eläkeuudistuksen

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Demonstraatiot Luento

Ohjelmoinnin perusteet Y Python

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

d Todista: dx xn = nx n 1 kaikilla x R, n N Derivaatta Derivaatta ja differentiaali

Algoritmit 2. Luento 4 Ke Timo Männikkö

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

a. Piirrä aspartaamin hydrolyysituotteiden rakenteet ionisoitumattomassa muodossa (4 p)

Osakesalkun optimointi

Aukkoja sekvensseissä. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

Numeeriset menetelmät

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. Arvon ja hyödyn mittaaminen

TRADITIONAL Aito ja alkuperäinen.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Transkriptio:

Sekvenssievoluutio ja fylogeniat Miksi ja miten nukleotidikorvautumiset lasketaan havaittujen sekvenssierojen perusteella? -sekvenssien linjaus -mitä eroa on eroilla ja korvautumisilla - nukleotidikorvautumisten arviointi nukleotidieroista (Jukes-Cantor, Kimura-2-P-menetelmät) -nukleotidikorvautumisten arviointi synonyymisissä ja ei synonyymisissä paikoissa -mitä menetelmää käytetään?

3.2. Korvautumiset proteiinia koodaavalla alueella 3.2.1. Nukleotidipaikkojen luokittelu synonyymisiksi/eisynonyymisiksi Koodaavalla alueella erotetaan: -synonyymiset erot M S / synonyyminen nukleotidipaikka N S -ei-synonyymiset erot M A / ei-synonyyminen nukleotidipaikka N A Ser Thr Glu Met Cys Leu TCA ACT GAG ATG TGT TTA TCG ACA GAG ATA TGT CTA Ser Thr Glu Ile Cys Leu

Nukleotidipaikkojen luokittelu synonyymisiksi/ei-synonyymisiksi ei ole suoraviivaista, koska 1) tilanne muuttuu ajan myötä esim. CGG(Arg) >TGG(Trp) 3. paikka on ensin synonyyminen, sitten ei-synonyyminen 2) paikat eivät aina ole täydellisesti synonyymisiä tai eisynonyymisiä esim. 3. paikka 1/3 syn. 2/3 ei-syn. GAT(Asp) > GAC(Asp) GAG(Glu) GAA(Glu)

i = mahdollisten synonyymisten muutosten määrä nukleotidipaikassa Paikka on i/3 synonyyminen ja (3-i)/3 ei-synonyyminen Esim. TTT Esim. ACT Kun verrataan kahta sekvenssiä, lasketaan synonyymisten ja eisynonyymisten paikkojen määrä erikseen kahdessa sekvenssissä ja otetaan niistä keskiarvo

3.2.2. Nukleotidierojen luokittelu synonyymisiksi vs. ei-synonyymisiksi Helppoa kun vain yksi nukleotidiero kodonia kohti Esim. GTC(Val) > GTT(Val) Esim. GTC(Val) > GCC(Ala) Jos useampi kuin yksi ero/kodoni, täytyy määritellä järjestys jossa substituutiot ovat tapahtuneet Esim. CCC(Pro) > CAA(Gln) I vaihtoehto: CCC(Pro) <> CCA(Pro) <> CAA(Gln) 1 syn ja 1 ei-syn subst. II vaihtoehto: CCC(Pro) <> CAC(His) <> CAA(Gln) 2 ei-syn. subst.

Ratkaisumahdollisuudet: 1) Nei ja Gojobori (1986) Kumpikin tie on yhtä todennäköinen (painottamaton menetelmä) CCC(Pro) > CAA(Gln): 0,5(1 syn.+1 ei-syn.)+0,5(2 ei-syn.) > 1,5 ei-syn. ja 0,5 syn. ero 1) Painotetaan sitä tietä joka on etukäteen päätetyllä kriteerillä todennäköisempi (painotettu menetelmä) Eri kodonivaihtumisten todennäköisyyksistä on empiiristä tietoa, voidaan käyttää hyväksi.

Esim. Kun kaikki 3 nukleotidia kodonissa ovat vaihtuneet CTT > AGG 1) CTT(Leu) <> ATT(Ile) <> AGT(Ser) <> AGG(Arg) 2) CTT(Leu) <> ATT(Ile) <> ATG(Met) <> AGG(Arg) 3) CTT(Leu) <> CGT(Arg) <> AGT(Ser) <> AGG(Arg) 4) CTT(Leu) <> ATT(Leu) <> AGT(Met) <> AGG(Arg) 5) CTT(Leu) <> ATT(Arg) <> AGT(Arg) <> AGG(Arg) 6) CTT(Leu) <> ATT(Leu) <> AGT(Arg) <> AGG(Arg)

3.2.3. K A :n ja K S :n laskeminen käyttäen Jukesin ja Cantorin korjausta Lasketaan -synonyymiset erot M S -synonyymiset nukleotidipaikat N S -ei-synonyymiset erot M A -ei-synonyymiset nukleotidipaikat N A -syn. erot/syn. nukleotidipaikka: p S = M S / N S -ei-syn. erot/ei-syn. nukleotidipaikka p A = M A / N A substituutiot: -K S = - ¾ ln(1 (4/3) p S ) -K A = - ¾ ln(1 (4/3) p A )

3.2.4. K A :n ja K S :n laskeminen luokittelemalla nukleotidipaikat degeneraation mukaan, ja nukleotidierot transitioiksi ja transversioiksi. (Li et al. 1985) -hyöty: voidaan käyttää Kimuran 2 parametrin mallia 0-degener. 2-degener. 4-degener. ts tv ts tv ts tv EROT > SUBSTITUUTIOT ei-syn. transitiot syn. syn. transversiot ei-syn

Degeneraatio UUU Phe 3/3 ei-syn. 0-kert. degeneroitunut UCU Ser (0-fold degenerate) UAU Tyr UGU Cys UUU Phe 1/3 syn. 2/3 ei-syn. 2-kert. degeneroitunut UUC UUA Leu UUG UCU Ser 3/3 syn. 4-kert. degeneroitunut UCC UCA UCG

1) Luokitellaan nukleotidipaikat: Ei-degeneroitunut nukleotidipaikka: kaikki muutokset ovat eisynonyymisiä Kaksinkertaisesti degeneroitunut nukleotidipaikka: yksi muutoksista on synonyyminen. (Erikoistapaus: Ileu 3. paikka luetaan tähän kategoriaan, vaikka on oikeasti kolminkertaisesti degeneroitunut) Nelinkertaisesti degeneroitunut nukleotidipaikka: Kaikki kolme muutosta ovat synonyymisiä. Esim. TTT (Phe) 1. ja 2. paikka ei-degener. 3. paikka kaksinkert. degener. GTT (Val) 3. paikka nelinkert. degener. >>>Lasketaan montako 0-, 2 ja 4-kertaisesti degeneroitunutta nukleotidipaikkaa kahdessa sekvenssissä on keskimäärin: Lasketaan erikseen kahdessa sekvenssissä montako 0, 2 tai 4- kertaisesti degeneroitunutta nukleotidipaikkaa niissä on ja otetaan sekvenssien keskiarvo > L 0, L 2 ja L 4.

2) Lasketaan transitiot (S i ) ja transversiot (V i ) i kertaisesti degeneroituneissa nukleotidipaikoissa (i=0, 2 ja 4) kahden sekvenssin välillä koska -ei-degeneroituneissa paikoissa: kaikki substituutiot ovat ei-synonyymisiä -4-kertaisesti degeneroituneissa paikoissa: kaikki substituutiot ovat synonyymisiä -2-kertaisesti degeneroituneissa paikoissa: -selkärankaisten mitokondrioissa transitiot (C<>T,A<>G) ovat synonyymisiä ja transversiot (C<>A, C<>G, T<>A, T<>G) eisynonyymisiä.

-Universaalissa koodissa on kaksi poikkeusta: 1) Arg (CGA, CGG, AGA, AGG) 1. paikka: transversio C<>A on synonyyminen; toinen transversio C>G (A>T) on eisynonyyminen) 2) Ileu (ATT, ATC, ATA) : 3. paikka: C<>A transversio luetaan S 2 :een (transitioksi), C<>T ja C<>G V 2 :een (transversioksi). T>C, T>A, C>A luetaan S 2 :een (transitioksi) T>G, C>G, A>G luetaan V 2 :een (transversioksi)

3) Lasketaan transitioerot/ i-kertaisesti degeneroitunut nukleotidipaikka kahden sekvenssin välillä: P i =S i /L i Lasketaan transversioerot i-kertaisesti degeneroitunut nukleotidipaikka kahden sekvenssin välillä: Q i =V i /L i 4) Kimuran 2 parametrin mallia käyttäen arvioidaan transitionaaliset A i ja transversionaaliset substituutiot B i kahden sekvenssin välillä A i = ½ ln(a i )+ ¼ ln(b i ) B i = ½ ln(b i ) a i = 1/(1-2P i -Q i ) b i = 1/(1-2Q i )

5) Lasketaan K A ja K S : Kaikki korvautumiset/ i:nnen tyyppisesti degeneroitunut paikka: K i = A i + B i K 4 = A 4 + B 4 = synon. korvautumisten määrä/ 4-kertaisesti degeneroitunut nukleotidipaikka K 0 = A 0 + B 0 = ei-synonyymiset korvautumiset/ ei-degeneroitunut nukleotidipaikka. Kaksinkertaisesti degeneroiduista nukleotidipaikoista voi laskea 1/3 synonyymisiksi ja 2/3 ei-synonyymisiksi K S = (L 2 A 2 + L 4 K 4 ) / (L 2 /3 + L 4 ) = 3(L 2 A 2 + L 4 K 4 ) / (L 2 + 3L 4 ) K A = (L 2 B 2 + L 0 K 0 ) / (2L 2 /3 + L 0 ) = 3 (L 2 B 2 + L 0 K 0 ) / (2L 2 + 3L 0 )

Li (1993) ja Pamilo ja Bianchi (1993) menetelmä: Perustuu siihen että transitionaaliset synonyymiset nukleotidierot estimoidaan ottamalla painotettu keskiarvo (L 2 A 2 +L 4 A 4 ) / (L 2 + L 4 ) 2- ja 4-kertaisesti degeneroiduista paikoista: K S = (L 2 A 2 + L 4 A 4 ) / (L 2 + L 4 ) + B 4 -ja vastaavasti transversionaaliset ei-synonyymiset nukleotidierot estimoidaan ottamalla painotettu keskiarvo (L 0 B 0 + L 2 B 2 ) / (L 0 + L 2 ) 0- ja 2-kertaisesti degeneroiduista paikoista: K A = A 0 + (L 0 B 0 + L 2 B 2 ) / (L 0 + L 2 )

3.3. Aminohappokorvautumiset kahden proteiinin välillä -Millaista informaatiota aminohapposekvensseissä on verrattuna DNA-sekvensseihin? Glu-Gly Gly-Ser-Ser-Trp-Leu-Leu-Leu-Gly-Ser Glu-Gly Gly-Ser-Ser-Tyr-Leu-Leu-Ile-Gly-Ser Asp-Gly Gly-Ser-Ala-Trp-Leu-Leu-Leu-Gly-Ser Asp-Gly Gly-Ser-Ala-Tyr-Leu-Leu-Ala-Gly-Ser GAA-GGA-AGC-TCC-TGG-TTA-CTC-CTG-GGA-TCC GAG-GGT-TCC-AGC-TAT-CTA-TTA-ATT-GGT-AGC GAC-GGC-AGT-GCA-TGG-TTG-CTT-TTG-GGC-AGT GAT-GGG-TCA-GCT-TAC-CTC-CTG-GCC-GGG-TCA

aminohappoerojen osuus p=n/l N = aminohappoerojen määrä L=proteiinin pituus aminohappoina Aminohappokorvautumisten määrä/aminohappo (olettaen että muutosnopeus on sama kaikille aminohapoille, jolloin niiden määrä/paikka noudattaa Poisson-jakaumaa): D = -ln(1-p)

Useimmiten aminohapoilla on erilaiset toiminnalliset rajoitteet ja siksi evoluutionopeus on erilainen. Kun evoluutionopeus eri aminohappopaikoissa vaihtelee gammajakauman mukaan, etäisyys on dg = α[(1-p) -1/α -1] Yang 1996 TREE, 11, 367-372

clade L serpins in Caenorhabditis species [Frontiers in Bioscience 11, 581-594, January 1, 2006] Cliff J. Luke 1, Stephen C. Pak 1, David J. Askew 1, Yuko S. Askew 1, Justin E. Smith 2 and Gary A.Silverman

3.4. Sekvenssien linjaus - etsitään nukleotidi/aminohapposarjoja jotka ovat samassa järjestyksessä eri sekvensseissä -tavoitteena on samaa alkuperää olevien (homologisten) sekvenssien tunnistus ja vertailu Ovatko kaksi sekvenssiä homologisia? Mitkä ovat sellaisia homologisia osia joista voidaan arvioida nukleotidikorvautumisten tapahtuminen?

Linjauksen hyvyyden arviointi: Kumpi linjaus on parempi? AT--GCGTCGTT ATGCGTCGTT ** ***** ** ** *** ATCCGCGTC--- ATCCG-CGTC Linjauskriteerit:

Maksimoidaan sekvenssien samankaltaisuus k max S = x - Σ w k z k k=1 x = Identtisten nukleotidien/aminohappojen osuus z k = k pituisten linjausaukkojen lkm w k = k pituisen linjausaukon antama rangaistus w k =g+r k Uuden aukon tekemisestä, g Aukon pituudesta r (rangaistus r pituuden k funktiona) Kokeillaan eri linjauksia ja valitaan paras linjaus = se jossa samankaltaisuus S on suurin. - transitiot (C<>T tai A<>G) ovat yleisempiä kuin transversiot (C<>A, C<>G, T<>A, T<>G,): transitioista voidaan antaa pienempi rangaistus kuin transversioista -myös aminohapoille on samankaltaisuusmatriiseja (BLOSUM, PAM); jos aminohappo muuttuu samankaltaiseksi, rangaistus on vähäisempi kuin jos se muuttuu erilaiseksi.

Globaali ja lokaali linjaus Algoritmi määrittelee ne laskennalliset vaiheet joiden avulla linjaus suoritetaan. Needleman-Wunsch algoritmi -optimoi linjauksen hyvyyden sekvenssin päästä päähän (globaali linjaus) -linjaus on pitkä ja sisältää paljon aukkoja Smith-Waterman algoritmi -optimoi sen että paikallisesti linjaus on mahdollisimman hyvä (lokaali linjaus) -linjaus on lyhyt, vähän aukkoja -sopii kun kahdessa sekvenssissä on homologiaa vain osassa niiden pituudesta. -esim. BLAST