Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi 19.05.2014

DNA:n sekvensointi DNA:n pilkotaan lyhyiksi mallipalasiksi, templaateiksi, joiden emäsjärjestys selvitetään. Templaattien pituus yleensä 26-100 emästä. Analysointivaiheessa pyritään rinnastamaan lyhyet sekvenssit referenssigenomia vasten. Referenssigenomi Lyhyet sekvenssit Konsensussekvenssi GCTGATGTGCCGCCTCACTCCGGTGG CACTCCTGTGG CTCACTCCTGTGG GCTGATGTGCCACCTCA GATGTGCCGCCTCACTC GTGCCGCCTCACTCCTG CTCCTGTGG GCTGATGTGCCGCCTCACTCCTGTGG

Variaation tyypit ACGGCT ACGCCT TTGATCA TTTCA GCCTAT GCTCAACTAT Yhden nukleotidin polymorfismi (Single Nucleotide polymorfism, SNP): yhden emäksen korvautuminen toisella. Poisto (Deletion): yhden tai useamman peräkkäisen emäksen poistuminen. Lisäys (Insertion): yhden tai useamman peräkkäisen emäksen lisääminen.

Sekvenssien rinnastaminen

Perinteiset rinnastusalgoritmit Needleman-Wunsch-algoritmi löytää parhaan kokonaisrinnastuksen kahden sekvenssin välillä. Kaksiulotteisessa taulukossa esitetään kaikki mahdolliset rinnastukset, jotka sekvenssien välillä voidaan tehdä. Taulukko täytetään seuraavalla rekursioyhtälöllä:

Perinteiset rinnastusalgoritmit Smith-Waterman-algoritmi löytää parhaan paikallisrinnastuksen kahden sekvenssin välillä. Muistuttaa Needleman-Wunsch-algoritmia, mutta merkittävin ero on se, että pistetaulukkoon ei merkitä negatiivisia arvoja, vaan ne muutetaan nolliksi:

Heuristiset rinnastusalgoritmit. Perinteiset rinnastualgoritmit löytävät varmasti optimaalisen ratkaisun käytettävälle pisteytysmallille. Aika- ja tilavaativuus niillä on kuitenkin luokkaa O(nm), missä n ja m ovat rinnastettavien sekvenssien pituudet. Heuristiset menetelmät eivät aina löydä optimaalista ratkaisua, mutta yleensä pääsevät nopeasti riittävän lähelle.

Lyhyiden sekvenssien rinnastaminen Heuristisia menetelmiä käyttäen paikallistetaan ensin referenssigenomista muutamia alueita, joihin kukin hakusekvenssi todennäköisesti sijoittuu. Tämän jälkeen hyödynnetään tätä löydettyä pientä osajoukkoa ja tarkempia rinnastusalgoritmeja, esimerkiksi Smith-Watermania tai Needleman- Wunschia lopullisen rinnastuksen muodostamiseen. Rinnastusalgoritmit muodostavat yleensä joko referenssisekvenssistä tai hakusekvensseistä indeksin, joka perustuu hajautustauluun tai loppuosarakenteeseen.

Hajautustauluihin perustuvat rinnastusalgoritmit indeksi joko hakusekvensseistä tai referenssigenomista. Hajautustaulu on hakurakenne, johon tallennetaan avain-arvo-pareja. Avain muutetaan kokonaisluvuksi väliltä 1,...,m jollain hajautusfunktiolla. Tämä kokonaisluku määrää m-paikkaisessa taulukossa indeksin, johon avainta vastaava arvo sijoitetaan.

Hajautustauluihin perustuvat rinnastusalgoritmit Perustuvat havaintoon, että jos kaksi sekvenssiä R ja H eroavat toisistaan enintään k:n merkin verran, niin jakamalla H k+1:een yhtä pitkään osaan saadaan ainakin yksi osa, joka rinnastuu täydellisesti ainakin yhteen R:n osaan. Spaced seed -siemenet koostuvat k:sta merkistä, joiden ei tarvitse sijaita merkkijonossa peräkkäin. Esimerkiksi kuuden painoinen ja seitsemän mittainen malli 1110111 sallii yhden hudin, ja esimerkiksi pätkät ACTGACT ja ACTTACT mallin mukaan vastaavat toisiaan.

Loppuosarakenteisiin perustuvat rinnastusalgoritmit Loppuosarakenteet ovat hakurakenteita, jotka sisältävät merkkijonon kaikki loppuosat. Ihmisen genomin loppuosapuuta tai -taulukkoa ei ole kuitenkaan käytännössä mahdollista pitää muistissa sellaisenaan, joten rinnastusalgoritmeissa indeksissä hyödynnetään usein tiivistettyä loppuosataulukkoa kutenfm-indeksiä. FM-indeksi käyttää hyödykseen Burrows-Wheelermuunnoksen ja loppuosataulukon välistä suhdetta. FM-indeksi on loppuosarakenteista käytetyin sen pienen muistinkäytön vuoksi.

Burrows-Wheeler-muunnos Muunnos, jonka avulla merkkijonoista saadaan paremmin pakkautuvia, sillä näin ne todennäköisesti sisältävät enemmän paikallista toistoa.

FM-indeksi FM-indeksissä muunnettu merkkijono pakataan vielä kolmessa osassa käyttäen siirrä eteen -tekniikkaa (Move-To-Front encoding, MTF), RLE:tä (run-length encoding) ja vaihtelevan mittaista koodausta (variable-length coding). FM-indeksistä on mahdollista etsiä merkkijonon eli hahmon esiintymät purkamatta rakennetta käyttäen takaperinhakua.

Sopivan rinnastusohjelman valitseminen Eri rinnastusohjelmien vertaaminen tai asettaminen paremmuusjärjestykseen ei ole helppoa. Eri ohjelmien välillä eroavaisuuksia siinä, minkälaista dataa ne on optimoitu käsittelemään. Eroja myös siinä, miten paljon ja minkä kokoisia aukkoja ne sallivat rinnastuksissa Valitse ohjelma, joka saavuttaa tavoitteeseen sopivan tasapainon nopeuden, muistinkäytön ja tarkkuuden suhteen

Yhteenveto Sekvensointoteknologioiden nopean kehittymisen myötä sekvenssien rinnastaminen oli jonkin aikaa sekvenssianalyysin pullonkaula. Uusia algoritmeja kehitettiin kuitenkin nopeasti. Burrows-Wheeler-muunnokseen perustuvat algoritmit ovat hallinneet rinnastusohjelmien kehitystä viime vuosien aikana, sillä ne vaativat tyypillisesti vähemmän muistia kuin hajautustauluihin perustuvat algoritmit. Tulevaisuudessa sekvensointiteknologiat tulevat tuottamaan yhä pidempiä skevenssejä, joten algoritmien on sallittava enemmän aukkoja. Hajautustauluihin perustuvat menetelmät saattavat olla parempia tähän tarkoitukseen.