2. luento Kahden sekvenssin rinnastus



Samankaltaiset tiedostot
Sekvenssien rinnastus. Rinnastus: helppoa tai vaikeaa

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

Capacity Utilization

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

The Viking Battle - Part Version: Finnish

Efficiency change over time

Alternative DEA Models

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

The CCR Model and Production Correspondence

Bounds on non-surjective cellular automata

Algoritmit 2. Luento 13 Ti Timo Männikkö

I. AES Rijndael. Rijndael - Internal Structure

HARJOITUS- PAKETTI A

Counting quantities 1-3

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Methods S1. Sequences relevant to the constructed strains, Related to Figures 1-6.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Operatioanalyysi 2011, Harjoitus 4, viikko 40

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

CSC:n käyttäjätunnukset - myös opiskelijoille

MALE ADULT FIBROBLAST LINE (82-6hTERT)

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

Ajettavat luokat: SM: S1 (25 aika-ajon nopeinta)

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Choose Finland-Helsinki Valitse Finland-Helsinki

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Results on the new polydrug use questions in the Finnish TDI data

Algoritmit 1. Luento 13 Ti Timo Männikkö

16. Allocation Models

Metsälamminkankaan tuulivoimapuiston osayleiskaava

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

TM ETRS-TM35FIN-ETRS89 WTG

Counting quantities 1-3

anna minun kertoa let me tell you

Harjoitus 6 ( )

1. Liikkuvat määreet

11. laskuharjoituskierros, vko 15, ratkaisut

SIMULINK S-funktiot. SIMULINK S-funktiot

Harjoitus 6 ( )

TM ETRS-TM35FIN-ETRS89 WTG

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon

A/B Lohkojärjestelmä

Mat Lineaarinen ohjelmointi

Salasanan vaihto uuteen / How to change password

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

TM ETRS-TM35FIN-ETRS89 WTG

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

TM ETRS-TM35FIN-ETRS89 WTG

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

OSUMIEN TULKKAAMINEN IPSC ACTION AIR

Kirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta.

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Operatioanalyysi 2011, Harjoitus 3, viikko 39

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Inversio-ongelmien laskennallinen peruskurssi Luento 2

C++11 seminaari, kevät Johannes Koskinen

FETAL FIBROBLASTS, PASSAGE 10

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2

Testit järjestysasteikollisille muuttujille

Perusnäkymä yksisuuntaiseen ANOVAaan

Makrojen mystinen maailma lyhyt oppimäärä

Lisensointikuulumisia - Kustannustehokkuus Oracle lisensoinnissa

,0 Yes ,0 120, ,8

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Algoritmit 2. Luento 11 Ti Timo Männikkö

Operatioanalyysi 2011, Harjoitus 2, viikko 38

Käytettävyys ja käyttäjätutkimus. Yhteisöt ja kommunikaatiosuunnittelu 2012 / Tero Köpsi

TEKSTINKÄSITTELYTEHTÄVIÄ, OSA 1

Toppila/Kivistö Vastaa kaikkin neljään tehtävään, jotka kukin arvostellaan asteikolla 0-6 pistettä.

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Huom. tämä kulma on yhtä suuri kuin ohjauskulman muutos. lasketaan ajoneuvon keskipisteen ympyräkaaren jänteen pituus

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Akateemiset fraasit Tekstiosa

TM ETRS-TM35FIN-ETRS89 WTG

LYTH-CONS CONSISTENCY TRANSMITTER

Exercise 1. (session: )

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

JAVA-OHJELMOINTI 3 op A274615

Johdatus verkkoteoriaan 4. luento

21~--~--~r--1~~--~--~~r--1~

TM ETRS-TM35FIN-ETRS89 WTG

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

Transkriptio:

2. luento Kahden sekvenssin rinnastus

Miksi rinnastusta opetetaan Keskeisintä bioinformatiikkaa Voidaan päätellä: konservoituneita alueita pistemutaatioita lajien tai geenien evolutiivisia suhteita Osa eniten käytettyjä bioinformatiikan tehtäviä käyttää rinnastusta: Tietokantahaut sekvensseillä Kahden eliön genomien vertailu Monen sekvenssin linjaus Oikein tehty rinnastus on vaatimus onnistuneille muille tehtäville Perustuu J.Tuimalan originaaleihin

Miten rinnastus tehdään? Ruutupaperilla / Tietokoneella Rinnastaminen ei ole objektiivista Tietokoneen tulokset pitää tarkistaa Perustuu J.Tuimalan originaaleihin

Kahden sekvenssin rinnastus Kahden sekvenssin rinnastukseen on olemassa useita menetelmiä. Pistematriisi-menetelmä (dot-plot) Dynaaminen optimointi Sana- tai k-tuple-menetelmät Tietokantahaut (Fasta) BLAST Perustuu J.Tuimalan originaaleihin

Rinnastustyypit Paikallinen rinnastus (local), jossa vain osa sekvenssien kokonaispituudesta pyritään rinnastamaan: Kokonaisrinnastus (global), jossa rinnastettavat sekvenssit pyritään asettamaan toisiaan vasten koko pituudeltaan. Perustuu J.Tuimalan originaaleihin

Dot-plot I Käytetään kahden sekvenssin rinnastukseen. Tarkoittaa kuvaa, jossa rinnastettavat sekvenssit asetetaan koordinaatistoon, toinen x-akselille ja toinen y-akselille. Sellaisiin kohtiin, joissa molemmissa sekvensseissä on sama aminohappo tai nukleotidi merkitään piste tai rasti. Kuvioon muodostuvia diagonaalisia suoria käyttäen voidaan rinnastaa tutkittavat kaksi sekvenssiä. Perustuu J.Tuimalan originaaleihin

Miksi dot plot:ia opetetaan Yksinkertainen toimintaperiaate Selittää monimutkikkaampien ohjelmien toimintaa Hyödyllinen visualisointi Pystyy esittämään toistoalueita, kääntyneitä alueita Dot plot menetelmät suomeksi pistematriisimenetelmät (?) Perustuu J.Tuimalan originaaleihin

Dotplot ja WWW Google: dotplot sequence tutorial OR guide http://en.wikipedia.org/wiki/dot_plot_%28bioin formatics%29 http://www.code10.info/index.php?option=com_ content&view=article&id=64:inroduction-todot-plots&catid=52:cat_coding_algorithms_dotplots&itemid=76

Dot-plot II Kaksi lyhyttä, identtistä sekvenssiä dot-plotissa. Tässä kuvassa alaoikealle suuntautuva diagonaalinen suora määrittää kokonaisrinnastuksen. Kuvasta voidaan löytää myös useampia paikallisia rinnastuksia. T K E V I V T K E D M R T * * K * * E * * V * * sekv 1. TKEVIVTKEDMR I * sekv 2. TKEVIVTKEDMR V * * T * * K * * E * * D * M * R * Perustuu J.Tuimalan originaaleihin

Harjoitellaan! Muodosta seuraavista sekvensseistä dot-plot ruutupaperia käyttäen. sekvenssi 1: ACG ACG GTC GAC TG sekvenssi 2: ACG ACG GTA GAC TG

Kirjoita ensin sekvenssit näkyviin taulukon ekalle riville ja ekaan sarakkeeseen Merkkaa sitten rasti joka kohdalle, jossa identtinen emäs A C G A C G G T C G A C T G A C G A C G G T A G A C T G

sitten A C G A C G G T C G A C T G A X X X C X X X X G X X X X X A X X X C X X X X G X X X X X G X X X X X T X X A X X X G X X X X X A X X X C X X X X T X X G X X X X X

A C G A C G G T C G A C T G A X X X C X X X X G X X X X X A X X X C X X X X G X X X X X G X X X X X T X X A X X X G X X X X X A X X X C X X X X T X X G X X X X X Paras rinnastus: ACG ACG GTC GAC TG ACG ACG GTA GAC TG

Tee sama sanakoolla 2: A C G A C G G T A G A C T G A C G A C G G T C G A C T G

A C G A C G G T A G A C T G A C G A C G G T C G A C T G

Dot-plot netissä http://emboss.bioinformatics.nl/cgibin/emboss/dotmatcher - sekä proteiini- että nukleotidisekvensseille http://www.vivo.colostate.edu/molkit/dnadot/ vain nukleotidisekvensseille http://www.changbioscience.com/res/resd.html mille tahansa merkkijonolle

Dot-plottien tekoon käytettäviä EMBOSS*- ohjelmia http://emboss.bioinformatics.nl/ => Valitse valikosta Alignment Dot Plots https://extras.csc.fi/emboss/doc/programs/html/alignment_dot_plots_group.html dotmatcher dotpath dottup polydot Laskee pistekartan käyttäen samankaltaisuusvertailussa sanapituutta ja kynnysarvoa (sensitiivisempi) Laskee pistekartan, jossa ei ole päällekkäin meneviä diagonaalin suuntaisia viivoja. ( paras polku ) Piirtää pistekartan käyttäen samankaltaisuusvertailussa annetun mittaisten sanojen (esim. 2, 5 tai 10 emäsparia) 100% identtisyyttä (hyvin simppeli!) Lukee sisään joukon sekvenssejä ja tekee kaikille sekvenssipareille pistekartan *EMBOSS on vapaasti saatavilla oleva ohjelmistopaketti joka on rakennettu erityisesti molekyylibiologian tarpeisiin

Dottup Dottup etsii kohdat, joissa molemmilla sekvensseillä on käyttäjän antaman sanakoon mittainen täydellinen vastaavuus, ja piirtää vastaavuuden kohdalle diagonaalin suuntaisen viivan Nopea, muttei kovin herkkä (sensitiivinen) tapa luoda pistekarttoja Sopii visualisoimaan keskenään hyvin samankaltaisia alueita Wordsize 2 Wordsize 4 Esim.sekvenssi, jota vertaillaan itseensä: AGGGGTCCAAGGGAAATTGCCTGCAA Wordsize 10 http://emboss.bioinformatics.nl/cgi-bin/emboss/dottup TAI https://hotpage.csc.fi/appl/molbio/index.phtml.en

Testataan eri dot-plot-ohjelmia! Dottup. Esimerkkisekvenssit sekv. 1: agcgtcccgtttgtcaaggccctgaaacgaac sekv. 2: agggtcccgtttgatcagggcctgaaacgtc Dottup wordsize 3 Dottup wordsize 4

Dotmatcher Siirtää annetun sanakoon mittaista ikkunaa kaikkien diagonaalin suuntaisten suorien mukaisesti ja piirtää viivan niille kohdille, joissa rinnastuksen pistesumma ylittää annetun kynnysarvon (vertailuun käytetään oletusarvoisesti EDNAFULL-nimistä pisteytysmatriisia) Hitaampi kuin Dottup mutta huomattavasti sensitiivisempi Dotmatcher wordsize 4, threshold 10 Dotmatcher wordsize 4, threshold 15

Dotpath Etsii kaikki sanakoon tai pidemmän mittaiset vastaavuudet kahden sekvenssin välillä. Sitten Dotpath redusoi löydetyt vastavuudet pienimpään mahdolliseen määrään ei-limittäisiä pitkiä vastaavuuksia Löytää (lähes) optimaalisen linjauksen kahden sekvenssin välillä. Keskenään hyvin samanlaisille sekvensseille tuottaa saman tuloksen kuin water tai needle (jotka ovat oikeasti optimaalisia, kts. rinnastusalgoritmit). Toimii hyvin pitkien sekvenssien kanssa) Dotpath wordsize 4

Dotmatcher kynnysarvo (threshold) samankaltaisuudelle: Yksinkertainen esimerkki: tietystä sanakoosta jonkin tietyn määrän täytyy olla täydellisiä osumia: Esimerkiksi, jos sanakoko on viisi, ja määritetään, että vähintään neljä osumaa täytyy löytyä (treshold=15, koska yksi osuma on 5 pistettä ja huti -4 pistettä EDNAFULL-taulukossa) : ACGTA -> viisi osumaa ACGTA -> merkitään pisteet dot-plotiin ACGTA -> kolme osumaa ACCTT -> ei pisteitä dot-plotiin Perustuu J.Tuimalan originaaleihin

Dotmatcher Tietyllä sanakoolla jonkin osumien riittävän samankaltaisuuden osoittavan kynnysarvon täytyy ylittyä: Pisteytysmatriisi osumien pisteytykseen Määritellään kynnysarvo pisteytysmatriisin perusteella lasketulle pistemäärälle Tämä kynnysarvo toimii samalla tavoin kuin edellä esitelty osumien kynnysarvo. Jos jonkin alueen saama pistemäärä ei ylitä määriteltyä kynnysarvoa, ei kuvioon merkitä pisteitä kyseisille kohdille Perustuu J.Tuimalan originaaleihin

Dot-plot, sanakoko ja raja-arvo: eräs DNA-sekvenssi verrattuna itseensä 3,5 3,15 11,35 11,55 Perustuu J.Tuimalan originaaleihin

Esim. vertaillaan seuraavia proteiineja toisiinsa eri dot-plot-menetelmin: Sekv. 1. swissprot:csk_mouse Sekv. 2. swissprot:grb2_mouse Csk = c-src tyrosine kinase Grb2 = growth factor receptor bound protein 2

Ajetaan dottup: Dottup: sanakoko 3 Dottup: sanakoko 5

Ajetaan dotmatcher: Windowsize=3, threshold =7.00 Windowsize=4, threshold =10.00 Windowsize=8, threshold =17.00 Windowsize=11, threshold =35.00

...tulosten tulkinta Löydämme paikallisia, toisiaan muistuttavia alueita Nyt kannattaa katsoa tarkemmin, ovatko jaetut alueet vaikkapa toiminnallisesti tärkeitä funktionaalisia domeeneja.... Itse asiassa hiiren Csk-proteiinista tiedetään, että se sisältää yhden SH3-domainin (9-70) ja yhden SH2- domainin (82-171) Ja hiiren Grb2-proteiini sisältää yhden SH2-domainin (60-152) ja 2 SH3-domainia muistuttavaa aluetta (1-58 ja 156-215)

Siis Dotmatcher herkempi ja monipuolisempi kuin esim. dottup (pisteytysmatriisi mukana) Herkempi, koska ei tarkastele pelkkiä täydellisiä identtisyyksiä, vaan pystyy samankaltaisuuden kynnysarvoa käyttämällä havaitsemaan myös heikommin samankaltaisia alueita

...Mutta miksi tehdä pistekarttoja? vertaavat toisiinsa sekvenssien kaikkia kohtia eivätkä poimi esille vain yksittäisiä samankaltaisia alueita esim toistuvat tai kaukana toisistaan olevat samankaltaiset alueet helpompi havaita pistekartoissa voidaan käyttää myös sekvenssin sisäisten samankaltaisuuksien analyysiin löytää toistojaksot ja samantyyppiset toistuvat domeenit, sekä palindromisekvenssit!

Lisää rinnastusta: Aukkosakkoparametrit (Gap penalties) Sekvenssievoluutiossa tapahtuu insertioita ja deleetioita rinnastuksessa tarve aukkoihin Aukkojen lisäämisen ja jatkamisen vaikutukset rinnastuksen laatuun? Aukkoja pyritään välttämään, joten aukkosakkoparametrit asetetaan niin, että aukkojen lisääminen pienentää rinnastuksen saamaa samankaltaisuuspistemäärää Perustuu J.Tuimalan originaaleihin

Paras rinnastus Sellainen rinnastus, joka saa suurimman pistemäärän (tai pienimmän sakkomäärän) on paras rinnastus. Pistemäärä riippuu käytetyistä parametreista! Käytettävät parametrit tarkoittaa: Valittu pisteytysmatriisi ja aukkosakkoparametrit Perustuu J.Tuimalan originaaleihin

Aukkosakkoparametrit I Aukot ovat evolutiivisesti ajateltuna kalliita. Yleensä aukkojen muodostumista sekvensseihin kuvataan siten, että aukon syntymisellä (tai avaamisella) ja jo avatun aukon jatkamisella on omat sakkonsa (affine gap penalty -pisteytys). Aukon avaamiseen liittyvä sakko on yleensä suurempi kuin aukon jatkamiseen liittyvä sakko. Perustuu J.Tuimalan originaaleihin

Aukkosakkoparametrit II Matemaattisesti merkittynä siis P = c + gd jossa c on aukon avaamiseen liittyvä sakko, d aukon jatkamiseen liittyvä sakko ja g jatkon pituus. Jos rinnastukseen haluaa paljon aukkoja, pitää aukon avaamisesta johtuvaa sakkoa alentaa. Jos pitkät aukot ovat toivottavampia, alennetaan aukon jatkamisesta johtuvaa sakkoa. Perustuu J.Tuimalan originaaleihin

Rinnastuksen pistemäärä Rinnastus: KARI LARI PAM-250-matriisi: K-L -3 A-A +2 R-R +6 I-I +5 (-3) + 2 + 6 + 5 = 10 Perustuu J.Tuimalan originaaleihin

Rinnastus: KATARRI vs. LARI 1. 2. KATARRI KATARRI LA---RI LA--R-I Aukkosakot (avaus=-10, jatko=-1): -10 + 2*(-1) = -10-2 = -12-10+1*(-1) - 10 = -21 PAM-250-matriisi: K-L -3 A-A +2 R-R +6 I-I +5 (-3) + 2 + 6 + 5 = 10 Rinnastus 1: Yht. 10-12 = -2 ja Rinnastus 2: 10-21 = -11 Perustuu J.Tuimalan originaaleihin

Sakkoparametrien valinta? Ei selkeää käytäntöä (samassa mielessä kuin pisteytysmatriiseille), suositellaan että: aukon avaamissakko (itseisarvoltaan) hieman suurempi kuin suurin käytetyssä pisteytysmatriisissa identtisyydestä annettava pistemäärä Laajennussakko n. 10% aukonavaamissakosta Rinnastusohjelmien oletusarvot on asetettu kokemuksen perusteella niin, että tuottavat keskimäärin hyviä tuloksia 2-vaiheisen aukkosakon lisäksi joissakin algoritmeissa myös muita aukkomalleja Perustuu J.Tuimalan originaaleihin

Rinnastusalgoritmit Mikä tahansa rinnastus voidaan pisteyttää kun aukkosakkoparametrit ja pisteytysmatriisi on päätetty Vähänkään pidemmillä sekvensseillä mahdollisia rinnastuksia valtava määrä ei voi vertailla käsin entäpä tietokoneella? Miten löytää rinnastus, joka saa suurimman pistemäärän ja siis on annettuja parametreja käyttäen paras mahdollinen rinnastus?

Esim. lyhyet DNA-sekvenssit, 95 bp ja 100 bp rinnastetaan mahdollisia rinnastuksia ~ 55 milj. kpl pelkästään 5 nukleotidin aukon huomioonottamisella! Mitä pidemmät sekvenssit, sitä enemmän mahdollisuuksia Laskennallinen ongelma! Yleisimmin paras rinnastus etsitään ohjelmilla jotka käyttävät dynaamista optimointia: Jaetaan ongelma pienempiin aliongelmiin ja kootaan lopullinen vastaus osavastausten avulla Ensimmäisenä tällaisen kehittivät Needleman ja Wunsch, joiden algoritmi on yksi bioinformatiikan kulmakiviä

Dynaaminen optimointi Dynaamiset optimointialgoritmit jaetaan kahteen luokkaan: Globaaliset (kokonaisrinnastus) Esim. Needleman-Wunch Lokaaliset (paikallinen rinnastus) Esim. Smith-Waterman Dynaamisia algoritmeja voidaan käyttää myös usean (max. noin 10) sekvenssin rinnastukseen ja tietokantahakuihin, mutta ne ovat raskaita ja vaativat paljon laskenta-aikaa ja -tehoa.

Needleman-Wunch -algoritmi Sekvenssit asetetaan taulukon pysty- ja vaakariveille samalla tapaan kuin pistematriisimenetelmässä (dot plot). Taulukon ensimmäinen rivi ja ensimmäinen sarake varataan aukolle. Tässä yhteydessä pitää myös valita, kuinka paljon sakotetaan aukon avaamisesta ja kuinka paljon aukon jatkamisesta. Perustuu J.Tuimalan originaaleihin

Needleman-Wunch netissä http://bioinfo.mbb.yale.edu/align/alt-align-tutorial.html Yksinkertainen esitys Ratkaisu haetaan alhaalta ylöspäin (päinvastoin kuin muissa) http://www.ee.cuhk.edu.hk/~qzhao/ele4120%20bioinformati cs%20_files/ele%204120%20tutorial%204.pdf Pieni esimerkki http://www.youtube.com/playlist?list=pl7d77d1765f219fc5 Youtube-videosarja aiheesta Perustuu J.Tuimalan originaaleihin

Needleman-Wunch II Taulukon jokainen solu kertoo ko. soluun mennessä tehdyn linjauksen saaman kokonaispistemäärän (tietyllä pisteytysmatriisilla ja aukkosakoilla) Jokaiseen soluun voidaan saapua kolmea eri reittiä: edellisestä diagonaalisolusta (match/mismatch), vertikaalisesti (aukko ylärivin sekvenssiin) tai horisontaalisesti (aukko vasemman puoleiseen sekvenssiin)

Needleman-Wunsch II +s i,j F i,j = Max [ F i-1, j-1 +s i,j (match/mismatch in the diagonal), F i,j-1 -d(gap in sequence #1), F i-1,j -d(gap in sequence #2) ] Perustuu J.Tuimalan originaaleihin

Needleman-Wunsch III Three steps in dynamic programming 1. Initialization 2. Matrix fill (scoring) 3. Traceback (alignment) Esimerkiksi, rinnastetaan kaksi DNA-sekvenssiä. Valitaan pistemääriksi (hyvin simppeli versio) Match 1 Mismatch 0 Gap 0 Muodostetaan sekvensseistä matriisi Perustuu J.Tuimalan originaaleihin

Initialization Step Source: http://www.sbc.su.se/~per/molbioinfo2001/dynprog/dynamic.html The first step in the global alignment dynamic programming approach is to create a matrix with M + 1 columns and N + 1 rows where M and N correspond to the size of the sequences to be aligned. Since this example assumes there is no gap opening or gap extension penalty, the first row and first column of the matrix can be initially filled with 0.

Matrix Fill Step For each position, F i,j is defined to be the maximum score at position i,j; i.e. F i,j = Max [ F i-1, j-1 + s i,j (match/mismatch in the diagonal), F i,j-1 -d(gap in sequence #1), F i-1,j -d(gap in sequence #2) ]

Using this information, the score at position 1,1 in the matrix can be calculated. Since the first residue in both sequences is a G, s 1,1 = 1, and by the assumptions stated at the beginning, d = 0. Thus, F 1,1 = Max [F 0,0 +1, F 1, 0 +0, F 0,1 +0] = Max [1, 0, 0] = 1. Eli hakasulkujen sisältä suurin arvo siirtyy solulle F 1,1. Jos solussa on osuma (match) niin hakasuluissa eka arvo on osuma (1 piste) plus diagonaalin arvo (tässä 0). Siksi hakasten sisällä eka numero on 1 eli solun F 1,1 arvo on osuma plus solu F 0,0. Yläpuolella tai vasemmalla oleville soluille ei ynnätä kohdesolun (tässä tapauksessa F 1,1 ) arvoa vaan aukkosakko (eli nolla)! A value of 1 is then placed in position 1,1 of the scoring matrix. Solun nimi: F 0,0 Solun nimi: F 1,1

Row 1. At column 2, the value is the max of 0 (for a mismatch), 0 (for a vertical gap) or 1 (horizontal gap). The rest of row 1 can be filled out similarly until we get to column 8. At this point, there is a G in both sequences (light blue). Thus, the value for the cell at row 1 column 8 is the maximum of 1 (for a match), 0 (for a vertical gap) or 1 (horizontal gap). The value will again be 1. The rest of row 1 and column 1 can be filled with 1 using the above reasoning.

At the position column 2 row 3, there is an A in both sequences. Thus, its value will be the maximum of [2(match), 1 (horizontal gap), 1 (vertical gap)] value is 2. Moving along to position column 2 row 4, its value will be the maximum of [1 (mismatch), 1 (horizontal gap), 2 (vertical gap)], so its value is 2. Note that for all of the remaining positions except the last one in column 2, the choices for the value will be the exact same as in row 4 since there are no matches. The final row will contain the value 2 since it is the maximum of 2 (match), 1 (horizontal gap) and 2(vertical gap).

After filling in all of the values the score matrix is as follows: 4 4 4 5 5 Note! Alkuperäisessä versiossa oli ollut muutama laskuvirhe, tässä ne on korjattu (punaisella taustalla olevat luvut). Traceback-stepissä ovat oikein.

Traceback Step After the matrix fill step, the maximum alignment score for the two test sequences is 6. The traceback step determines the actual alignment(s) that result in the maximum score. Note that with a simple scoring algorithm such as one that is used here, there are likely to be multiple maximal alignments. The traceback step begins in the position that leads to the maximal score. In this case, there is a 6 in that location.

Traceback takes the current cell and looks to the neighbor cells that could be direct predacessors: Look at the neighbor to the left (gap in sequence #2), the diagonal neighbor (match/mismatch), and the neighbor above it (gap in sequence #1). The algorithm for traceback chooses as the next cell in the sequence one of the possible predacessors. In this case, the neighbors are marked in red. They are all also equal to 5.

Since the current cell has a value of 6 and the scores are 1 for a match and 0 for anything else, the only possible predacessor is the diagonal match/mismatch neighbor. If more than one possible predecessors exists, any can be chosen. This gives us a current alignment of (Seq #1) (Seq #2) So now we look at the current cell and determine which cell is its direct predecessor. In this case, it is the cell with the red 5. A A

The alignment as described in the above step adds a gap to sequence #2, so the current alignment is (Seq #1) (Seq #2) T A A

Once again, the direct predacessor produces a gap in sequence #2. After this step, the current alignment is (Seq #1) (Seq #2) T T A A

Continuing on with the traceback step, we eventually get to a position in column 0 row 0 which tells us that traceback is completed. One possible maximum alignment is : Giving an alignment of : G A A T T C A G T T A G G A T C G A

Kokeillaan! http://bioweb.pasteur.fr/seqanal/interfaces/needle.html tai https://hotpage.csc.fi/appl/molbio/pise/5.a/needle.phtml (vaatii CSCn käyttäjätunnukset) Aiemman (dot-plot-) esimerkin sekvensseillä sekv. 1: agcgtcccgtttgtcaaggccctgaaacgaac sekv. 2: agggtcccgtttgatcagggcctgaaacgtc

######################################## # Program: needle # Rundate: Tue 11 Jan 2011 13:33:44.... # Align_format: srspair # Report_file: outfile.align ######################################## #======================================= # Aligned_sequences: 2 # 1:, # 2:, # Matrix: EDNAFULL # Gap_penalty: 4.0 # Extend_penalty: 1.0 # # Length: 33 # Identity: 27/33 (81.8%) # Similarity: 27/33 (81.8%) # Gaps: 3/33 ( 9.1%) # Score: 111.0 #=======================================, 1 agcgtcccgtttg-tcaaggccctgaaacgaac 32..., 1 agggtcccgtttgatc-agggcctgaaacg-tc 31 #--------------------------------------- #---------------------------------------

Paikallinen rinnastus I Globaali rinnastus on sopiva esim. sukulaisproteiineja koodaavien cdna-sekvenssien vertailuun (josta intronit ovat siis poissa, jolloin vertaillaan pelkkiä valintapaineen alla olleita eksoneita) Usein vertailtavat sekvenssit sisältävät samankaltaisia kohtia, mutta eivät ole globaalisti rinnastettavissa (esim. proteiinit, joissa domain- tai eksonijärjestys eroaa) Rinnastettava PAIKALLISESTI:

Paikallinen rinnastus II Etsi merkittävästi samankaltaiset alueet ja rinnasta vain nämä. Paikallisen rinnastuksen tunnuspiirteitä ovat lyhyys ja aukkojen vähäisyys. Valitusta pisteytysmatriisista ja aukkosakoista riippuen paikallinen algoritmikin voi tuottaa rinnastuksen, joka muistuttaa globaalia rinnastusta. Smith-Waterman on dynaaminen algoritmi, joka tuottaa paikallisen rinnastuksen.

Smith-Waterman I Smith-Waterman eroaa Needleman-Wunsch -algoritmista siten, että jos pistemäärä taulukossa saa negatiivisen arvon, se muutetaan nollaksi. Esim. TTVVDMWV ja VVDMYWY Esim. PAM-250-matriisi, aukkosakot -12/-2 Perustuu J.Tuimalan originaaleihin

Negatiiviseksi muuttuvan pistemääräsumman nollaksi merkitseminen kuvaa sitä, että halutaan olla välittämättä niistä sekvenssien alueista, jotka eivät ole kovin samankaltaiset, ja aloittaa paikallinen linjaus uudelleen puhtaalta pöydältä. (Siten myöskään parhaan lokaalin pistemäärän ei tarvitse ensin ylittää vähäisen samankaltaisuuden alueiden tuottamia negatiivisia summia) Tällä tavoin läpikäymällä kaikki mahdolliset linjaukset tulevat arvioiduiksi kunnes havaitaan huonommiksi kuin jokin kilpaileva linjaus. Paras linjaus saa siis parhaan pistemäärän, ja löytyy taas aloittamalla traceback tästä solusta

Smith-Waterman II Haetaan taulukosta korkein pistemäärä ja seurataan polkua, joka johtaa siihen. Paras paikallinen rinnastus on siis VVDM-W VVDMYW Perustuu J.Tuimalan originaaleihin

Smith-Waterman III Huom. Eri pisteytysmatriisit tuottavat nytkin erilaisen tuloksen, esimerkkinä BLOSUM62 ja PAM250-matriisit. Perustuu J.Tuimalan originaaleihin

Voidaan osoittaa, että Smith-Waterman takaa parhaan mahdollisen pistemäärän linjauksen löytämisen kahden sekvenssin välillä EMBOSS-paketti sisältää mm. water ja matcher - algoritmit

Mikäli et ole varma, millainen rinnastus sopii sekvensseillesi, kannattaa ensimmäiseksi tehdä paikallinen rinnastus Paikallisia rinnastuksia tarvitaan Proteiinien ja geenien modulaarisen rakenteen selvittämiseen Eksonit / intronit, domeenit Toistojaksojen löytämiseen Sellaisten geenien rakenteen selvittämiseen, jotka ovat niin toisistaan eriytyneet, että samankaltaisuus on säilynyt vain tietyissä sekvenssien osissa.

Rinnastaminen käytännössä Koska rinnastaminen ei ole objektiivista, tehdään useita erilaisia rinnastuksia vaihtelemalla aukkoparametrien arvoja ja/tai pisteytysmatriisia. Näistä rinnastuksista etsitään biologisesti kaikkein todennäköisin tarkastelemalla rinnastuksia silmämääräisesti. Samassa yhteydessä voidaan korjata tietokoneen tekemiä erehdyksiä editoimalla rinnastusta käsin. Perustuu J.Tuimalan originaaleihin

Rinnastamisen tilastollinen merkittävyys * Pelkästä tuloksesta ei voi aina päätellä onko saatu tulos oikeasti hyvä, tilastollisesti merkittävä Kuinka tarkistetaan rinnastuksen tulos? Ajetaan ohjelma uudestaan esim. 1000 kertaa Vaihdetaan toinen sekvensseistä jokaisella ajokerralla täysin satunnaiseen sekvenssiin Talletetaan löydetyn linjauksen pistetulos Lopuksi verrataan oikeasta analyysistä saatua tulosta satunnaisten tulosten joukkoon

Rinnastamisen tilastollinen merkittävyys * Kuinka saadaan satunnainen sekvenssi? (proteiinisekvensseille) BLAST:in idea Käytetään tietokannan frekvenssejä aminohappofrekvenssejä Arvotaan siis jokainen AH tietokannassa havaitulla frekvenssillä satunnaissekvenssiin PRSS:n idea Sotketaan aminohappojen järjestys toisesta sekvenssistä

Rinnastuksen yhteenveto Rinnastuksessa pyritään sijoittamaan toisiaan vastaavat alueet nukleotidi tai aminohapposekvensseistä päällekkäin Rinnastus voi lokaali tai globaali Rinnastukseen voi käyttää dot plot-menetelmiä Tulos saadaan visualisoinnin tulkinnasta Pystyy esittämään monta ratkaisua Dynaaminen algoritmi etsii parhaan linjauksen Esittää tavallisesti vain yhden ratkaisun Rinnastuksen tulos riippuu pistematriisista ja aukkosakkoparametreista

Extra-Slidet Seuraavat on taas lisäkalvoja Kamaa aikaisemmista vuosista

Rinnastuksen tilastollinen merkitsevyys I Kun paras rinnastus on tuotettu, pyritään yleensä arvioimaan sen luotettavuutta. Tällöin pyritään erottamaan biologisesti merkittävät rinnastukset sellaisista, joiden perusteella sekvenssit sattumalta näyttävät samankaltaisilta. Seuraavassa esitellään perinteiselle tilastolliselle teorialle perustuva menetelmä rinnastuksen tilastollisen merkitsevyyden testaamiseksi. Perustuu J.Tuimalan originaaleihin

Tilastollinen merkitsevyys II Testissä verrataan sekvenssirinnastuksen saamaa pistemäärää esimerkiksi tuhannen satunnaisen (saman mittaisen ja emäskoostumukseltaan samanlaisen) sekvenssirinnastuksen saamiin pistemääriin. Satunnaisten sekvenssien rinnastuksista voidaan määrittää niin sanottu extreme value jakauma, jota testissä käytetään. Kuvan tulkinta: havaitun arvon (esimerkissä = 2) oikealle puolelle jäävän jakauman hännän todennäköisyysmassa kertoo p-arvon.

Tilastollinen merkitsevyys III Jakaumaa voidaan approksimoida: todennäköisyys saada vain sattumalta rinnastus, jolle pistemäärä S on yhtä suuri tai suurempi kuin havaittu, voidaan (approksimatiivisesti) laskea kaavalla E = Kmn e S jossa K ja ovat skaalaustekijöitä, m ja n ovat rinnastettujen sekvenssien pituudet, e on neperin luku (2,72) ja S on rinnastuksen saama pistemäärä. Huom! E-arvo ei ole sama asia kuin p-arvo: P-arvo: todennäköisyys saada sattumalta sama tai parempi arvo kuin saatu linjauksen pistemäärä E-arvo: p-arvo korjattuna toistomittausten parittaisvertailun korjauskertoimella homepages.ulb.ac.be/~dgonze/.../stat_scores.pdf Perustuu J.Tuimalan originaaleihin

Tilastollinen merkitsevyys IV K:n ja :n saamat arvot riippuvät lähinnä käytetystä pisteytysmatriisista ja aukkosakoista. Jos kaksi 250 merkkiä pitkää aminohappoa rinnastetaan PAM250-matriisiä käyttäen suurilla aukkosakoilla (jolloin K=0.06, =0.229), ja rinnastus saa pisteikseen 75, on todennäköisyys, että vastaava rinnastus saataisiin sattumalta E=Kmn e S = 0.06*250*250*2,7-0.229*75 = 0,00013 Perustuu J.Tuimalan originaaleihin

Tilastollinen merkitsevyys V Edellä laskettu todennäköisyys oli hyvin pieni, mikä on siis hyvä. Jotta ylläolevaa kaavaa voisi käyttää, tulee varmistaa, että käytetyn pisteytysmatriisin keskimääräinen pistemäärä (expected score) on negatiivinen (PAM250:lla 0,844). Perustuu J.Tuimalan originaaleihin

K:n ja :n arvoja inf. = ääretön - = rinnastus on tällä alueella globaali, ei paikallinen Perustuu J.Tuimalan originaaleihin

Jotta paikallinen rinnastus dynaamisella optimoinnilla onnistuisi, tulee kahden satunnaisesti kohdakkain sattuvan nuleotidin tai aminohapon saaman pistemäärän olla keskimäärin negatiivinen. Jos näin ei ole, saattaa pitkä sekvenssialue saada korkean pistemäärän rinnastuksessa vain siitä systä että se on pitkä. Tämä vastaa käytännössä sitä että paikalliseen rinnastukseen käytettävän pisteytysmatriisin entropian tulee olla negatiivinen.