Sekvenssien rinnastus. Rinnastus: helppoa tai vaikeaa



Samankaltaiset tiedostot
2. luento Kahden sekvenssin rinnastus

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Harjoitus 6 ( )

Harjoitus 6 ( )

Malliratkaisut Demot

Algoritmit 1. Luento 8 Ke Timo Männikkö

Harjoitus 4: Matlab - Optimization Toolbox

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Algoritmit 2. Luento 5 Ti Timo Männikkö

1 Rajoittamaton optimointi

Mat Lineaarinen ohjelmointi

Algoritmit 2. Luento 12 To Timo Männikkö

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Algoritmit 1. Luento 13 Ti Timo Männikkö

Algoritmit 1. Luento 12 Ke Timo Männikkö

Ohjelmoinnin perusteet Y Python

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

Algoritmit 2. Luento 13 Ti Timo Männikkö

n! k!(n k)! n = Binomikerroin voidaan laskea pelkästään yhteenlaskun avulla käyttäen allaolevia ns. palautuskaavoja.

Algoritmit 1. Luento 12 Ti Timo Männikkö

Ohjelmoinnin peruskurssi Y1

Algoritmit 1. Luento 7 Ti Timo Männikkö

Ohjelmoinnin peruskurssi Y1

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

1 2 x2 + 1 dx. (2p) x + 2dx. Kummankin integraalin laskeminen oikein (vastaukset 12 ja 20 ) antaa erikseen (2p) (integraalifunktiot

58131 Tietorakenteet ja algoritmit (kevät 2016) Ensimmäinen välikoe, malliratkaisut

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

1 Kannat ja kannanvaihto

massa vesi sokeri muu aine tuore luumu b 0,73 b 0,08 b = 0,28 a y kuivattu luumu a x 0,28 a y 0,08 = 0,28 0,08 = 3,5

52739 Bioinformatiikan perusteet Kevät 2013

Pinot, jonot, yleisemmin sekvenssit: kokoelma peräkkäisiä alkioita (lineaarinen järjestys) Yleisempi tilanne: alkioiden hierarkia

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Kombinatorinen optimointi

Algoritmit 2. Luento 5 Ti Timo Männikkö

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Datatähti 2019 loppu

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

Algoritmit 1. Luento 9 Ti Timo Männikkö

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Ratkaisuehdotukset LH 3 / alkuvko 45

Ohjelmoinnin perusteet Y Python

Reaalilukuvälit, leikkaus ja unioni (1/2)

f (28) L(28) = f (27) + f (27)(28 27) = = (28 27) 2 = 1 2 f (x) = x 2

4.5 Kaksivaiheinen menetelmä simplex algoritmin alustukseen

Lineaarinen optimointi. Harjoitus 6-7, Olkoon A R m n, x, c R ja b R m. Osoita, että LP-tehtävän. c T x = min!

Matematiikan tukikurssi

Algoritmit 2. Luento 2 To Timo Männikkö

Numeeriset menetelmät

Paikkatiedon käsittely 6. Kyselyn käsittely

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 1, Kevät 2018

Geneettiset algoritmit

58131 Tietorakenteet ja algoritmit (kevät 2013) Kurssikoe 2, , vastauksia

Demo 1: Simplex-menetelmä

Kokonaislukuoptimointi

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Malliratkaisut Demot

Johdatus verkkoteoriaan 4. luento

811312A Tietorakenteet ja algoritmit, , Harjoitus 7, ratkaisu

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)

Lineaarisen kokonaislukuoptimointitehtävän ratkaiseminen

TKHJ:ssä on yleensä komento create index, jolla taululle voidaan luoda hakemisto

(p j b (i, j) + p i b (j, i)) (p j b (i, j) + p i (1 b (i, j)) p i. tähän. Palaamme sanakirjaongelmaan vielä tasoitetun analyysin yhteydessä.

12. Hessen matriisi. Ääriarvoteoriaa

MS-A0205/MS-A0206 Differentiaali- ja integraalilaskenta 2 Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Tentissä on viisi tehtävää, jotka arvosteellaan asteikolla 0-6. Tehtävien alakohdat ovat keskenään samanarvoisia ellei toisin mainita.

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA

MAB3 - Harjoitustehtävien ratkaisut:

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

Matematiikan tukikurssi, kurssikerta 3

10. Painotetut graafit

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

Tietorakenteet, laskuharjoitus 7, ratkaisuja

Johdatus tekoälyn taustalla olevaan matematiikkaan

Algoritmit 1. Luento 10 Ke Timo Männikkö

Harjoitus 7: vastausvihjeet

Algoritmit 2. Luento 4 To Timo Männikkö

isomeerejä yhteensä yhdeksän kappaletta.

Algoritmit 2. Luento 6 To Timo Männikkö

Matematiikan tukikurssi

1 Rajoitettu optimointi I

A TIETORAKENTEET JA ALGORITMIT

Numeeriset menetelmät

Kimppu-suodatus-menetelmä

Muita rekisteriallokaatiomenetelmiä

Ovatko seuraavat väittämät oikein vai väärin? Perustele vastauksesi.

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Graafin 3-värittyvyyden tutkinta T Graafiteoria, projektityö (eksakti algoritmi), kevät 2005

Jäsennysaiheesta lisää Täydentäviä muistiinpanoja TIEA241 Automaatit ja kieliopit, syksy 2016

T Syksy 2004 Logiikka tietotekniikassa: perusteet Laskuharjoitus 7 (opetusmoniste, kappaleet )

LIITE 1 VIRHEEN ARVIOINNISTA

= 2±i2 7. x 2 = 0, 1 x 2 = 0, 1+x 2 = 0.

Ohjelmoinnin perusteet Y Python

Algoritmit 2. Luento 2 Ke Timo Männikkö

Tietorakenteet ja algoritmit - syksy

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Algoritmit 2. Luento 4 Ke Timo Männikkö

6.4. Järjestyssuhteet

811120P Diskreetit rakenteet

Transkriptio:

Sekvenssien rinnastus Rinnastus: helppoa tai vaikeaa Kaksi tai useampia (DNA tai proteiini) sekvenssejä: miten samankaltaisia sekvenssit ovat missä sekvenssikohdissa samankaltaisuutta esiintyy Kattava (globaali): Sekvenssit rinnastetaan koko pituudeltaan optimaalisesti Paikallinen (lokaali): Sekvenssien välille etsitään paras osittaisrinnastus Sekvenssi 1 Paik.rinnastus Sekvenssi 2 Rinnastus perustuu malliin tulos yhtä onnistunut kuin mitä malli Hyvä linjaus on luotu biologisen tietämyksen pohjalta: algoritmien tuloksia voi muokata käsin Rinnastuksen laatua vaikea arvioida matemaattisin perustein Voidaan tehdä myös kokonaan käsin GCGGCCCA TCAGGTAGTT GGTGG GCGGCCCA TCAGGTAGTT GGTGG GCGTTCCA TCAGCTGGTT GGTGG GCGTCCCA TCAGCTAGTT GGTGG GCGGCGCA TTAGCTAGTT GGTGA ******** ********** ***** TTGACATG CCGGGG---A AACCG TTGACATG CCGGTG--GT AAGCC TTGACATG -CTAGG---A ACGCG TTGACATG -CTAGGGAAC ACGCG TTGACATC -CTCTG---A ACGCG ********?????????? ***** Rinnastuksesta Rinnastuksella pyritään löytämään emästen/aminohappojen homologia Homologia: samankaltaisuus joka johtuu yhteisestä kantamuodosta ja perimästä. Proteiini 1: sitoo happea Sekvenssien samanlaisuus Proteiini 2: sitoo happea? Proteiini 3: rakenne tunnetaan Sekvenssien samanlaisuus Proteiini 4: rakenne proteiini 3:n kaltainen? Samanlaisuus eri otusten välisten evoluutiosuhteiden päättelyssä Samanlaisuus ominaisuuksien ennustamisessa Samanlaisuus rakenteen ennustamisessa Rinnastuksen pisteytys Pisteytysmatriisit kertovat mikä on rinnastuksen/linjauksen kustannus nukleotidien ja aminohappojen suhteen. Perustuvat empiiriseen aineistoon (geneettinen koodi, fysikaaliset ja kemialliset ominaisuudet, molekyylin rakenne ja evoluutio) Yleisimpiä: BLOSUM ja PAM matriisit A C G T A 5-4 -4-4 C -4 5-4 -4 G -4-4 5-4 T -4-4 -4 5 A C G G C A : : : : A G G G T A 5-4+5+5-4+5 = 12 Standardi DNA pisteytysmatriisi Pisteytysesimerkki Rinnastuksen pisteytys Aukkoparametrit kertovat miten (keinotekoiset) aukot sijoitetaan linjaukseen: Aukon pituus l tällöin yleensä 1) lineaarinen -ld (d aukon aloituskustannus) 2) affiini pisteytys -d - (l-1)g (g aukon pitkittymissakko). Affiini pisteytys: C A T A G G G T A T T G C A T A - - - - A T T G -10 + 3 x (-0.1)=-10.3 Moninkertaiset lisäykset/poistot voivat olla seurausta yhdestä evoluutiotapahtumasta => Erilliset sakot aukon aloitukselle ja jatkolle Samankaltaisten perusosien korkeampi pisteytys Erilaiset kustannukset muutokselle ja pistemutaatiolle A C G T A 5-4 -1-4 C -4 5-4 -1 G -1-4 5-4 T -4-1 -4 5 A C G G C A : : : : A G G G T A 5-4+5+5-1+5 = 15 1

Proteiinien pisteytysmatriisi A 5 R -2 7 N -1-1 7 D -2-2 2 8 C -1-4 -2-4 13 Q -1 1 0 0-3 7 E -1 0 0 2-3 2 6 G 0-3 0-1 -3-2 -3 8 H -2 0 1-1 -3 1 0-2 10 I -1-4 -3-4 -2-3 -4-4 -4 5 L -2-3 -4-4 -2-2 -3-4 -3 2 5 K -1 3 0-1 -3 2 1-2 0-3 -3 6 Henikoff and Henikoff: BLOSUM50 matriisi: Positiiviset pisteet diagonaalilla Samankaltaiset perusosat pisteytetään korkeammalle Erilaiset perusosat pisteytetään matalammalle (negatiivinen). M -1-2 -2-4 -2 0-2 -3-1 2 3-2 7 F -3-3 -4-5 -2-4 -3-4 -1 0 1-4 0 8 P -1-3 -2-1 -4-1 -1-2 -2-3 -4-1 -3-4 10 S 1-1 1 0-1 0-1 0-1 -3-3 0-2 -3-1 5 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 2 5 W -3-3 -4-5 -5-1 -3-3 -3-3 -2-3 -1 1-4 -4-3 15 Y -2-1 -2-3 -3-1 -2-3 2-1 -1-2 0 4-3 -2-2 2 8 V 0-3 -3-4 -1-3 -3-4 -4 4 1-3 1-1 -3-2 0-3 -1 5 A R N D C Q E G H I L K M F P S T W Y V BLOSUM pisteytysmatriisi BLOCKS tietokannan sekvenssit ryhmitellään samanlaisiin lohkoihin (ryhmiin) niin että kussakin ryhmässä on vähintään 50% samankaltaisia perusosia (BLOSUM 50) Sekvenssit verrataan parittain toisiinsa ja havaitut perusosaparit (aminohapot) lasketaan (eli., A on A:n parina 40% kaikista tapauksista, A R:n parina in 1.2%, jne.) Tilastollisesti odotetut suhteelliset esiintymislukumäärät perusosapareille lasketaan yksittäisten aminohappojen esiintymislukumäärien mukaan Jokaisen parin pisteytys lasketaan seuraavasti pyöristettynä kokonaislukuun: Pari-frekvenssi(havaittu) log Pari-frekvenssi(odotettu) ID FIBRONECTIN_2; BLOCK COG9_CANFA GNSAGEPCVFPFIFLGKQYSTCTREGRGDGHLWCATT COG9_RABIT GNADGAPCHFPFTFEGRSYTACTTDGRSDGMAWCSTT FA12_HUMAN LTVTGEPCHFPFQYHRQLYHKCTHKGRPGPQPWCATT HGFA_HUMAN LTEDGRPCRFPFRYGGRMLHACTSEGSAHRKWCATTH MANR_HUMAN GNANGATCAFPFKFENKWYADCTSAGRSDGWLWCGTT MPRI_MOUSE ETDDGEPCVFPFIYKGKSYDECVLEGRAKLWCSKTAN PB1_PIG AITSDDKCVFPFIYKGNLYFDCTLHDSTYYWCSVTTY SFP1_BOVIN ELPEDEECVFPFVYRNRKHFDCTVHGSLFPWCSLDAD SFP3_BOVIN AETKDNKCVFPFIYGNKKYFDCTLHGSLFLWCSLDAD SFP4_BOVIN AVFEGPACAFPFTYKGKKYYMCTRKNSVLLWCSLDTE SP1_HORSE AATDYAKCAFPFVYRGQTYDRCTTDGSLFRISWCSVT COG2_CHICK GNSEGAPCVFPFIFLGNKYDSCTSAGRNDGKLWCAST COG2_HUMAN GNSEGAPCVFPFTFLGNKYESCTSAGRSDGKMWCATT COG2_MOUSE GNSEGAPCVFPFTFLGNKYESCTSAGRNDGKVWCATT COG2_RABIT GNSEGAPCVFPFTFLGNKYESCTSAGRSDGKMWCATS COG2_RAT GNSEGAPCVFPFTFLGNKYESCTSAGRNDGKVWCATT COG9_BOVIN GNADGKPCVFPFTFQGRTYSACTSDGRSDGYRWCATT COG9_HUMAN GNADGKPCQFPFIFQGQSYSACTTDGRSDGYRWCATT COG9_MOUSE GNGEGKPCVFPFIFEGRSYSACTTKGRSDGYRWCATT COG9_RAT GNGDGKPCVFPFIFEGHSYSACTTKGRSDGYRWCATT FINC_BOVIN GNSNGALCHFPFLYNNHNYTDCTSEGRRDNMKWCGTT FINC_HUMAN GNSNGALCHFPFLYNNHNYTDCTSEGRRDNMKWCGTT FINC_RAT GNSNGALCHFPFLYSNRNYSDCTSEGRRDNMKWCGTT MPRI_BOVIN ETEDGEPCVFPFVFNGKSYEECVVESRARLWCATTAN MPRI_HUMAN ETDDGVPCVFPFIFNGKSYEECIIESRAKLWCSTTAD PA2R_BOVIN GNAHGTPCMFPFQYNQQWHHECTREGREDNLLWCATT PA2R_RABIT GNAHGTPCMFPFQYNHQWHHECTREGRQDDSLWCATT PAM pisteytysmatriisi Suosittu proteiinien pisteytysmatriisi Perustuu arvioon siitä miten evoluutiossa aminohapot syrjäyttävät toisensa Dayhoffin PAM-250: - Perustuu tietokantaan joka koostuu 71:stä ryhmästä samankaltaisia proteiineja - Tietokannassa yhteensä 1572 aminohappomuutosta - Näiden havaittujen muutoksien avulla arvioitu mutaatioiden esiintymistodennäköisyyksiä - Esiintymistodennäköisyydet johtavat 1. kertaluvun Markovin malliin (PAM-1 matriisi vastaa siirtymätodennäköisyysmatriisia) - PAM-N matriisit saadaan PAM-1:stä: PAM-N = (PAM-1) N - N tarkoittaa että sekvenssiin kohdistunut N mutaatiota ja PAM-N antaa mutaatiotodennäköisyyden N:lle mutaatiolle. - Pisteytysmatriisinä käytetään yleensä log 10 PAM-N PAM pisteytysmatriisi Parittainen rinnastus: ongelma Parittainen rinnastus: ratkaisu Kaikkien mahdollisten rinnastusten lukumäärä kahden sekvenssin välillä kasvaa räjähdysmäisesti sekvenssin pituuden funktiona Kaksi 100:n aminohapon pituista proteiinisekvenssiä voidaan rinnastaa suunnilleen 10 60 erilaisella tavalla. Kaikkien mahdollisuuksien testaaminen nykytietokoneilla veisi osapuilleen saman verran aikaa kuin mitä koko maailmankaikkeus on ollut olemassa. Dynaaminen ohjelmointi ratkaisu ongelmaan Dynaamisessa ohjelmoinnissa kokonaisratkaisuoptimi etsitään osaoptimiratkaisujen avulla. Tärkeimpiä menetelmiä: Paikallinen rinnastus (local alignment) -Smith-Waterman algoritmi Kattava rinnastus (global alignment) - Needleman-Wunch algoritmi 2

Parittainen rinnastus: kattava Needleman-Wunch (NW) algoritmi johtaa optimaaliseen kattavaan rinnastukseen. ESIM: Tarkastellaan kahta aminohapposekvenssiä: HEAGAWGHEE ja PAWHEAE. Lasketaan BLOSUM50:llä parittaiset pisteet: P A -2-1 5 0 5-3 0-2 -1-1 W -3-3 -3-3 -3 15-3 -3-3 -3 H E A E H E A G A W G H E E -2-1 -1-2 -1-4 -2-2 -1-1 10 0-2 0 0 6-1 6-2 -2-2 -3-2 10 0 0-1 -3-1 -3-3 0 6 6 5 0 5-3 0-2 -1-1 -1-3 -1-3 -3 0 6 6 Needleman-Wunsch algoritmi Olkoon rinnastettavat sekvenssit x=x 1,,x i, x n ja y=y 1,,y j, y m Rakennetaan matriisi F, missä matriisin alkio F(i,j) antaa parhaan rinnastuksen pisteytyksen sekvenssien x 1,,x i ja y=y 1,,y j välillä. F(i,j) rakennetaan rekursiivisesti aloittaen F(0,0)=0 alkiosta ja siirtyen matriisin vasemmasta yläkulmasta oikeaan alalaitaan. F(i,j) saadaan F(i-1,j-1), F(i-1,j) ja F(i,j-1) avulla (lineaarinen aukko): F(i,j) = max{f(i-1,j-1) + s(x i,y j ), F(i-1,j) d, F(i,j-1) d}, missä F(i-1,j-1) + s(x i,y j ) tarkoittaa että x i linjataan y j :n kanssa F(i-1,j)-d tarkoittaa että x i linjataan aukon kanssa F(i,j-1)-d tarkoittaa että y j linjataan aukon kanssa F(i-1,j-1) F(i-1,j) s(x i,y j ) -d F(i,j-1) F(i,j) -d Needleman-Wunsch algoritmi Samalla kun täytetään F(i,j) arvoja, niin pidetään kirjaa siitä mitä pitkin alkioon F(i,j) on päädytty (linkkitietoa). Matriisin F alkio F(n,m) antaa parhaan pisteyksen rinnastukseen Lähtemällä liikkeelle F(n,m) alkiosta ja menemällä takaperin kohti F(0,0) alkiota linkkitietoja pitkin aina kutakin F(i,j) alkiota edeltävän kautta (joku kolmesta F(i-1,j-1), F(i-1,j) tai F(i,j-1)) saadaan rinnastus seuraavasti: Jos F(i,j):n edeltävä F(i-1,j-1): linjaa x i ja y j toisiinsa F(i-1,j): linjaa x i aukon ( - merkin) kanssa F(i,j-1): linjaa y j aukon ( - merkin) kanssa Needleman-Wunsch algoritmi ESIM: HEAGAWGHEE ja PAWHEAE ja BLOSUM50 rinnastus. Huomaa F matriisien F(i,0) ja F(0,j) alustus aukkosakon d=8 mukaan: -id ja jd. Smith-Waterman algoritmi Smith-Waterman algoritmi sopii paikalliseen rinnastamiseen. Lähtökohtaisesti samankaltainen kuin Needleman-Wunsch, eli muodostetaan F matriisi. Sääntö vaihtuu seuraavaksi: F(i,j) = max{0, F(i-1,j-1) + s(x i,y j ), F(i-1,j) d, F(i,j-1) d}, missä F(i-1,j-1) + s(x i,y j ) tarkoittaa että x i linjataan y j :n kanssa F(i-1,j)-d tarkoittaa että x i linjataan aukon kanssa F(i,j-1)-d tarkoittaa että y j linjataan aukon kanssa Jos F(i,j):n arvoksi valitaan 0, niin se tarkoittaa että aloitetaan uusi rinnastus tästä kohdasta. F(i,j):n alkiot F(0,i) ja F(j,0) alustetaan 0:ksi (eli aloitetaan uusi rinnastus). Paikallinen rinnastus aloitetaan takaperin kaikista F(i,j):n paikallisista maksimeista. Smith-Waterman algoritmi ESIM: HEAGAWGHEE ja PAWHEAE ja BLOSUM50 rinnastus. Huomaa F matriisien F(i,0) ja F(0,j) alustus 0:ksi 3

Parittainen rinnastus: muistettavaa Optimaalinen rinnastus tarkoittaa että löydetään paras mahdollinen pisteytys annettuna pisteytysmatriisi ja aukkosakot. Tulos EI ole välttämättä biologisesti tarkoituksenmukaisesti paras rinnastus. Rinnastusten alla olevat olettamukset eivät välttämättä ole oikeita: sijoitukset eivät ole todellisuudessa yhtä todennäköisiä kaikissa kohdissa sekvenssiä, aukkosakot eivät ehkä mallita lisäyksiä/poistoja hyvin, jne. Parittainen rinnastusalgoritmi tuottaa aina linjauksen onko se biologiselta kannalta hyvä vai ei, sitä tietoa linjaustulos ei kerro. Rinnastus ja tietokantahaut Parittaista rinnastusta käytetään useimmiten etsimään tietokannoista kiinnostavaa sekvenssiä lähellä olevia sekvenssejä. Esim: Päättele uuden havaitun proteiinin toiminnallisuus etsimällä tätä lähimpänä olevat tunnetut proteiinit joiden toiminnallisuus tiedetään. Paikallisia rinnastuksia käytetään useimmiten tietokantahaussa: Ollaan kiinnostuneita tietämään onko joku osa sekvenssiä (esim. Proteiinista) samankaltainen kuin jonkun tunnetun sekvenssin (proteiinin) osa. Smith-Waterman algoritmi on usein liian raskas laajoihin tietokantahakuihin, niinpä heurestisia menetelmiä on kehitetty (esim: fasta, BLAST) ja niitä käytetään yleisesti. BLAST ja FASTA Monen sekvenssin linjaus FASTA (Pearson 1995) Käyttää heurestisia sääntöjä välttämään kokonaisen F matriisin laskennan. Nopeuttaa tietokantahakuja useita kertoja verrattuna täydelliseen Smith-Waterman algoritmiin Tilastolliselta pohjaltaan FASTA BLAST:aa vahvempi. BLAST (Altschul 1990, 1997) Käyttää indeksoituja sanatauluja, joilla tietokantasekvenssien osia hylätään haussa mahdottomina Hakuajat paljon pienempiä kuin mitä FASTA algoritmilla, ja erittäin paljon nopeampi verrattuna Smith-Waterman algoritmiin Tarkkuudeltaan lähes FASTA:n luokkaa Muutetaan rinnastusongelma kahden sekvenssin tai sekvenssiryhmän välisiksi rinnastukseksi. ClustalW (ohjelma) suosituin: 1. Tehdään parittaiset vertailut kaikkien sekvenssien kesken ja määritellään sekvenssien samankaltaisuus. 2. Tehdään samankaltaisuudesta johdettua etäisyyksiä käyttäen NJ-puuta (Neighbor Joining) 3. Yhdistellään sekvenssit NJ-puun mukaisesti, rinnastamalla ensi lähimmät sekvenssiparit ja yhdistelemällä sitten näin saadut sekvenssiryhmät, kunnes kaikki sekvenssit on rinnastettu. ClustalW pystyy linjaamaan suuria sekvenssimääriä, mutta ei takaa parhaan linjauksen löytämistä. Sekvenssien rinnastusjärjestys vaikuttaa lopputulokseen ja alkuvaiheessa tapahtuneet virheet heijastuvat koko lopputulokseen S1 1 - S2 2.17 - S3 3.59.60 - S4 4.59.59.13 - S5 5.77.77.75.75 - ClustalW 5768:9<;<=:6!>! " # #$% Etäisyysmatriisi ja ohjauspuu Rinnasta jokaiset sekvenssit parittain toisiinsa: - yhteensä (n-1)+(n-2)...(n-n+1) rinnastusta. S1 S2 S3 S4 S5 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ 2 1 2 1 3 4 3 4 & '(*),+ -. + '0/ 1 + (. $% 2 &43 / + (. / " / Laske jokaisen sekvenssiparin etäisyys (pisteytys) ja generoi etäisyysmatriisi (ylä tai alakolmiomatriisi). Määritä naapurien yhdistämis- (Neighbor-Joining, NJ) ohjauspuu etäisyysmatriisin avulla. Ohjauspuu määrittää missä järjestyksessä rinnastusta jatketaan parittaisen rinnastuksen jälkeen. 4

Naapurien yhdistäminen (NJ)! " # $ %'& ( & ) * + ) + #, $ -) *)#** (+ ( +& #). / &! ' 0 1 ( + *$. ( - * +23 (, )#*) ( ( -,4 + ' 5 ) #. 6/& 7*8 % & () +#! * * 95 :!;,8 * # < What is required for the Neighbour joining method? Distance matrix Etäisyysmatriisi PAM 0.0 84.9 105.6 90.8 86.3 84.9 0.0 117.8 122.4 122.6 105.6 117.8 0.0 84.7 80.8 90.8 122.4 84.7 0.0 3.3 86.3 122.6 80.8 3.3 0.0 Solmu S1 A B Ensimmäinen yhdistäminen =, 9>0 >?5 @A $BDCE )#8 $ #, 9 '# * @A &# C/ ) FC/ @A 4* )*'&# ) -?# 0 Uusien etäisyyksien laskenta Kun kaksi lehtisolmua on yhdistetty täytyy laskea yhdistyksen tuloksena saadun solmun etäisyys muihin lehtiin. Laskennassa käytetään keskimääräisiä etäisyyksiä: Etäisyys[, MonHum] = (Etäisyys[, ] + Etäisyys[, ])/2 = (90.8 + 86.3)/2 = 88.55 Seuraava askel uusilla etäisyyksillä PAM MonHum 0.0 84.9 105.6 88.6 84.9 0.0 117.8 122.5 105.6 117.8 0.0 82.8 MonHum 88.6 122.5 82.8 0.0 Viimeistä edellinen askel PAM MosMonHum 0.0 84.9 97.1 84.9 0.0 120.2 MosMonHum 97.1 120.2 0.0 Mos-() Spin- Mos-() 5

Viimeinen yhdistäminen PAM Spin MosMonHum 0.0 108.7 MosMonHum 108.7 0.0 Etäisyyksien mukaan piirretty NJ puu (Spin-)-(Mos-()) Spin- Mos-() Monen sekvenssin linjaus ensimmäinen pari Rinnasta kaksi lähinnä olevaa sekvenssiä ensin toisiinsa. Tämä kohdistus jäädytetään eikä sitä enään muuteta. Jos aukko lisätään myöhemmissä rinnastuksissa, niin se lisätään samaan kohtaan näihin molempiin (jolloin näiden suhteellinen rinnastus pysyy muuttumattomana). Ohjauspuu päätöksen apuna Katso ohjauspuusta mitkä sekvenssit rinnastetaan toisiinsa seuraavaksi. Kaksi vaihtoehtoa: Rinnasta kolmas sekvenssi jo kahteen rinnastettuun, TAI Rinnasta kaksi erillistä sekvenssiä toisiinsa. Rinnastusta jatketaan ohjauspuun mukaan niin että joka askeleella tehdään parittainen rinnastus kunnes kaikki sekvenssit on rinnastettu ClustalW-Risut ja ruusut Ruusut: Nopea. Yksinkertainen -> helppo ymmärtää Risut: Ei kohdefunktiota jota optimoidaan. Ei mahdollista määritellä rinnastukselle hyvyyttä Ei anna tietoa rinnastuksen oikeellisuudesta. Paikallisen minimin ongelma: jos rinnastuksessa tehdään alkuvaiheessa virhe, ei algoritmi pysty korjaamaan virhettä rinnastuksen jatkuessa Risuista huolimatta havaittu käyttökelpoiseksi 6