Sekvenssievoluutio ja fylogeniat

Sekvenssievoluutio ja fylogeniat Miksi ja miten nukleotidikorvautumiset lasketaan havaittujen sekvenssierojen perusteella? -sekvenssien linjaus -mitä eroa on eroilla ja korvautumisilla - nukleotidikorvautumisten arviointi nukleotidieroista (Jukes-Cantor, Kimura-2-P-menetelmät) -nukleotidikorvautumisten arviointi synonyymisissä ja ei synonyymisissä paikoissa -mitä menetelmää käytetään?

3.2. Korvautumiset proteiinia koodaavalla alueella 3.2.1. Nukleotidipaikkojen luokittelu synonyymisiksi/eisynonyymisiksi Koodaavalla alueella erotetaan: -synonyymiset erot M S / synonyyminen nukleotidipaikka N S -ei-synonyymiset erot M A / ei-synonyyminen nukleotidipaikka N A Ser Thr Glu Met Cys Leu TCA ACT GAG ATG TGT TTA TCG ACA GAG ATA TGT CTA Ser Thr Glu Ile Cys Leu

Nukleotidipaikkojen luokittelu synonyymisiksi/ei-synonyymisiksi ei ole suoraviivaista, koska 1) tilanne muuttuu ajan myötä esim. CGG(Arg) >TGG(Trp) 3. paikka on ensin synonyyminen, sitten ei-synonyyminen 2) paikat eivät aina ole täydellisesti synonyymisiä tai eisynonyymisiä esim. 3. paikka 1/3 syn. 2/3 ei-syn. GAT(Asp) > GAC(Asp) GAG(Glu) GAA(Glu)

i = mahdollisten synonyymisten muutosten määrä nukleotidipaikassa Paikka on i/3 synonyyminen ja (3-i)/3 ei-synonyyminen Esim. TTT Esim. ACT Kun verrataan kahta sekvenssiä, lasketaan synonyymisten ja eisynonyymisten paikkojen määrä erikseen kahdessa sekvenssissä ja otetaan niistä keskiarvo

3.2.2. Nukleotidierojen luokittelu synonyymisiksi vs. ei-synonyymisiksi Helppoa kun vain yksi nukleotidiero kodonia kohti Esim. GTC(Val) > GTT(Val) Esim. GTC(Val) > GCC(Ala) Jos useampi kuin yksi ero/kodoni, täytyy määritellä järjestys jossa substituutiot ovat tapahtuneet Esim. CCC(Pro) > CAA(Gln) I vaihtoehto: CCC(Pro) <> CCA(Pro) <> CAA(Gln) 1 syn ja 1 ei-syn subst. II vaihtoehto: CCC(Pro) <> CAC(His) <> CAA(Gln) 2 ei-syn. subst.

Ratkaisumahdollisuudet: 1) Nei ja Gojobori (1986) Kumpikin tie on yhtä todennäköinen (painottamaton menetelmä) CCC(Pro) > CAA(Gln): 0,5(1 syn.+1 ei-syn.)+0,5(2 ei-syn.) > 1,5 ei-syn. ja 0,5 syn. ero 1) Painotetaan sitä tietä joka on etukäteen päätetyllä kriteerillä todennäköisempi (painotettu menetelmä) Eri kodonivaihtumisten todennäköisyyksistä on empiiristä tietoa, voidaan käyttää hyväksi.

Esim. Kun kaikki 3 nukleotidia kodonissa ovat vaihtuneet CTT > AGG 1) CTT(Leu) <> ATT(Ile) <> AGT(Ser) <> AGG(Arg) 2) CTT(Leu) <> ATT(Ile) <> ATG(Met) <> AGG(Arg) 3) CTT(Leu) <> CGT(Arg) <> AGT(Ser) <> AGG(Arg) 4) CTT(Leu) <> ATT(Leu) <> AGT(Met) <> AGG(Arg) 5) CTT(Leu) <> ATT(Arg) <> AGT(Arg) <> AGG(Arg) 6) CTT(Leu) <> ATT(Leu) <> AGT(Arg) <> AGG(Arg)

3.2.3. K A :n ja K S :n laskeminen käyttäen Jukesin ja Cantorin korjausta Lasketaan -synonyymiset erot M S -synonyymiset nukleotidipaikat N S -ei-synonyymiset erot M A -ei-synonyymiset nukleotidipaikat N A -syn. erot/syn. nukleotidipaikka: p S = M S / N S -ei-syn. erot/ei-syn. nukleotidipaikka p A = M A / N A substituutiot: -K S = - ¾ ln(1 (4/3) p S ) -K A = - ¾ ln(1 (4/3) p A )

3.2.4. K A :n ja K S :n laskeminen luokittelemalla nukleotidipaikat degeneraation mukaan, ja nukleotidierot transitioiksi ja transversioiksi. (Li et al. 1985) -hyöty: voidaan käyttää Kimuran 2 parametrin mallia 0-degener. 2-degener. 4-degener. ts tv ts tv ts tv EROT > SUBSTITUUTIOT ei-syn. transitiot syn. syn. transversiot ei-syn

Degeneraatio UUU Phe 3/3 ei-syn. 0-kert. degeneroitunut UCU Ser (0-fold degenerate) UAU Tyr UGU Cys UUU Phe 1/3 syn. 2/3 ei-syn. 2-kert. degeneroitunut UUC UUA Leu UUG UCU Ser 3/3 syn. 4-kert. degeneroitunut UCC UCA UCG

1) Luokitellaan nukleotidipaikat: Ei-degeneroitunut nukleotidipaikka: kaikki muutokset ovat eisynonyymisiä Kaksinkertaisesti degeneroitunut nukleotidipaikka: yksi muutoksista on synonyyminen. (Erikoistapaus: Ileu 3. paikka luetaan tähän kategoriaan, vaikka on oikeasti kolminkertaisesti degeneroitunut) Nelinkertaisesti degeneroitunut nukleotidipaikka: Kaikki kolme muutosta ovat synonyymisiä. Esim. TTT (Phe) 1. ja 2. paikka ei-degener. 3. paikka kaksinkert. degener. GTT (Val) 3. paikka nelinkert. degener. >>>Lasketaan montako 0-, 2 ja 4-kertaisesti degeneroitunutta nukleotidipaikkaa kahdessa sekvenssissä on keskimäärin: Lasketaan erikseen kahdessa sekvenssissä montako 0, 2 tai 4- kertaisesti degeneroitunutta nukleotidipaikkaa niissä on ja otetaan sekvenssien keskiarvo > L 0, L 2 ja L 4.

2) Lasketaan transitiot (S i ) ja transversiot (V i ) i kertaisesti degeneroituneissa nukleotidipaikoissa (i=0, 2 ja 4) kahden sekvenssin välillä koska -ei-degeneroituneissa paikoissa: kaikki substituutiot ovat ei-synonyymisiä -4-kertaisesti degeneroituneissa paikoissa: kaikki substituutiot ovat synonyymisiä -2-kertaisesti degeneroituneissa paikoissa: -selkärankaisten mitokondrioissa transitiot (C<>T,A<>G) ovat synonyymisiä ja transversiot (C<>A, C<>G, T<>A, T<>G) eisynonyymisiä.

-Universaalissa koodissa on kaksi poikkeusta: 1) Arg (CGA, CGG, AGA, AGG) 1. paikka: transversio C<>A on synonyyminen; toinen transversio C>G (A>T) on eisynonyyminen) 2) Ileu (ATT, ATC, ATA) : 3. paikka: C<>A transversio luetaan S 2 :een (transitioksi), C<>T ja C<>G V 2 :een (transversioksi). T>C, T>A, C>A luetaan S 2 :een (transitioksi) T>G, C>G, A>G luetaan V 2 :een (transversioksi)

3) Lasketaan transitioerot/ i-kertaisesti degeneroitunut nukleotidipaikka kahden sekvenssin välillä: P i =S i /L i Lasketaan transversioerot i-kertaisesti degeneroitunut nukleotidipaikka kahden sekvenssin välillä: Q i =V i /L i 4) Kimuran 2 parametrin mallia käyttäen arvioidaan transitionaaliset A i ja transversionaaliset substituutiot B i kahden sekvenssin välillä A i = ½ ln(a i )+ ¼ ln(b i ) B i = ½ ln(b i ) a i = 1/(1-2P i -Q i ) b i = 1/(1-2Q i )

5) Lasketaan K A ja K S : Kaikki korvautumiset/ i:nnen tyyppisesti degeneroitunut paikka: K i = A i + B i K 4 = A 4 + B 4 = synon. korvautumisten määrä/ 4-kertaisesti degeneroitunut nukleotidipaikka K 0 = A 0 + B 0 = ei-synonyymiset korvautumiset/ ei-degeneroitunut nukleotidipaikka. Kaksinkertaisesti degeneroiduista nukleotidipaikoista voi laskea 1/3 synonyymisiksi ja 2/3 ei-synonyymisiksi K S = (L 2 A 2 + L 4 K 4 ) / (L 2 /3 + L 4 ) = 3(L 2 A 2 + L 4 K 4 ) / (L 2 + 3L 4 ) K A = (L 2 B 2 + L 0 K 0 ) / (2L 2 /3 + L 0 ) = 3 (L 2 B 2 + L 0 K 0 ) / (2L 2 + 3L 0 )

Li (1993) ja Pamilo ja Bianchi (1993) menetelmä: Perustuu siihen että transitionaaliset synonyymiset nukleotidierot estimoidaan ottamalla painotettu keskiarvo (L 2 A 2 +L 4 A 4 ) / (L 2 + L 4 ) 2- ja 4-kertaisesti degeneroiduista paikoista: K S = (L 2 A 2 + L 4 A 4 ) / (L 2 + L 4 ) + B 4 -ja vastaavasti transversionaaliset ei-synonyymiset nukleotidierot estimoidaan ottamalla painotettu keskiarvo (L 0 B 0 + L 2 B 2 ) / (L 0 + L 2 ) 0- ja 2-kertaisesti degeneroiduista paikoista: K A = A 0 + (L 0 B 0 + L 2 B 2 ) / (L 0 + L 2 )

3.3. Aminohappokorvautumiset kahden proteiinin välillä -Millaista informaatiota aminohapposekvensseissä on verrattuna DNA-sekvensseihin? Glu-Gly Gly-Ser-Ser-Trp-Leu-Leu-Leu-Gly-Ser Glu-Gly Gly-Ser-Ser-Tyr-Leu-Leu-Ile-Gly-Ser Asp-Gly Gly-Ser-Ala-Trp-Leu-Leu-Leu-Gly-Ser Asp-Gly Gly-Ser-Ala-Tyr-Leu-Leu-Ala-Gly-Ser GAA-GGA-AGC-TCC-TGG-TTA-CTC-CTG-GGA-TCC GAG-GGT-TCC-AGC-TAT-CTA-TTA-ATT-GGT-AGC GAC-GGC-AGT-GCA-TGG-TTG-CTT-TTG-GGC-AGT GAT-GGG-TCA-GCT-TAC-CTC-CTG-GCC-GGG-TCA

aminohappoerojen osuus p=n/l N = aminohappoerojen määrä L=proteiinin pituus aminohappoina Aminohappokorvautumisten määrä/aminohappo (olettaen että muutosnopeus on sama kaikille aminohapoille, jolloin niiden määrä/paikka noudattaa Poisson-jakaumaa): D = -ln(1-p)

Useimmiten aminohapoilla on erilaiset toiminnalliset rajoitteet ja siksi evoluutionopeus on erilainen. Kun evoluutionopeus eri aminohappopaikoissa vaihtelee gammajakauman mukaan, etäisyys on dg = α[(1-p) -1/α -1] Yang 1996 TREE, 11, 367-372

clade L serpins in Caenorhabditis species [Frontiers in Bioscience 11, 581-594, January 1, 2006] Cliff J. Luke 1, Stephen C. Pak 1, David J. Askew 1, Yuko S. Askew 1, Justin E. Smith 2 and Gary A.Silverman

3.4. Sekvenssien linjaus - etsitään nukleotidi/aminohapposarjoja jotka ovat samassa järjestyksessä eri sekvensseissä -tavoitteena on samaa alkuperää olevien (homologisten) sekvenssien tunnistus ja vertailu Ovatko kaksi sekvenssiä homologisia? Mitkä ovat sellaisia homologisia osia joista voidaan arvioida nukleotidikorvautumisten tapahtuminen?

Linjauksen hyvyyden arviointi: Kumpi linjaus on parempi? AT--GCGTCGTT ATGCGTCGTT ** ***** ** ** *** ATCCGCGTC--- ATCCG-CGTC Linjauskriteerit:

Maksimoidaan sekvenssien samankaltaisuus k max S = x - Σ w k z k k=1 x = Identtisten nukleotidien/aminohappojen osuus z k = k pituisten linjausaukkojen lkm w k = k pituisen linjausaukon antama rangaistus w k =g+r k Uuden aukon tekemisestä, g Aukon pituudesta r (rangaistus r pituuden k funktiona) Kokeillaan eri linjauksia ja valitaan paras linjaus = se jossa samankaltaisuus S on suurin. - transitiot (C<>T tai A<>G) ovat yleisempiä kuin transversiot (C<>A, C<>G, T<>A, T<>G,): transitioista voidaan antaa pienempi rangaistus kuin transversioista -myös aminohapoille on samankaltaisuusmatriiseja (BLOSUM, PAM); jos aminohappo muuttuu samankaltaiseksi, rangaistus on vähäisempi kuin jos se muuttuu erilaiseksi.

Globaali ja lokaali linjaus Algoritmi määrittelee ne laskennalliset vaiheet joiden avulla linjaus suoritetaan. Needleman-Wunsch algoritmi -optimoi linjauksen hyvyyden sekvenssin päästä päähän (globaali linjaus) -linjaus on pitkä ja sisältää paljon aukkoja Smith-Waterman algoritmi -optimoi sen että paikallisesti linjaus on mahdollisimman hyvä (lokaali linjaus) -linjaus on lyhyt, vähän aukkoja -sopii kun kahdessa sekvenssissä on homologiaa vain osassa niiden pituudesta. -esim. BLAST