52739 Bioinformatiikan perusteet Kevät 2013



Samankaltaiset tiedostot
Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Sekvenssien rinnastus. Rinnastus: helppoa tai vaikeaa

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

Geeneistä genomiin, mikä muuttuu? Juha Kere Karolinska Institutet, Stockholm

2. luento Kahden sekvenssin rinnastus

S Laskennallinen systeemibiologia

Bioteknologian perustyökaluja

Evoluutio ja luominen. Mian tekemä esitys Jannen esittämänä

Biopankit miksi ja millä ehdoilla?

Molekyylisystematiikka 1.osa

DNA:n informaation kulku, koostumus

MAB3 - Harjoitustehtävien ratkaisut:

Evoluutiopuu. Aluksi. Avainsanat: biomatematiikka, päättely, kombinatoriikka, verkot. Luokkataso: luokka, lukio

Bioinformatiikan maisteriohjelman infotilaisuus Exactum D122

Yhtäläisyydet selkärankaisten aivoissa, osa II. Niko Lankinen

a. Mustan ja lyhytkarvaisen yksilön? b. Valkean ja pitkäkarvaisen yksilön? Perustele risteytyskaavion avulla.

DNA sukututkimuksen tukena

Akateemisen ajattelun alkeiskurssi

KOE 6 Biotekniikka. 1. Geenien kloonaus plasmidien avulla.

Biotieteiden perusteet farmasiassa, syksy 2017

Metsägenetiikan sovellukset: Metsägenetiikan haasteet: geenit, geenivarat ja metsänjalostus

Geenitekniikan perusmenetelmät

Kombinatorinen optimointi

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)

17/20: Keittokirja IV

1 Kannat ja kannanvaihto

VIIKKI BIOCENTER University of Helsinki

Matemaatikot ja tilastotieteilijät

Laskennallinen menetelmä puun biomassan ja oksien kokojakauman määrittämiseen laserkeilausdatasta

Naudan perinnöllisen monimuotoisuuden tutkimus

FM-opiskelijan opintopolku, perinnöllisyystiede, geneettisen bioinformatiikan erikoistumislinja (vastuuopettaja Päivi Onkamo)

Evoluutiovoimat. Mikä on mutaation, valinnan ja sattuman merkitys evoluutiossa?

VASTAUS 1: Yhdistä oikein

MAB3 - Harjoitustehtävien ratkaisut:

Trichoderma reesein geenisäätelyverkoston ennustaminen Oskari Vinko

DNA-testit. sukututkimuksessa Keravan kirjasto Paula Päivinen

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

Molekyyligenetiikka. Arto Orpana, FT dos. apulaisylikemisti

T DATASTA TIETOON

T Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa

Uusia mahdollisuuksia FoundationOne

Luku 20. Biotekniikka

Uusia mahdollisuuksia FoundationOne CDx. keystocancer.fi

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

BIOS 1 ja OPS 2016 OPS Biologian opetussuunnitelma Opetuksen tavoitteet

Perinnöllisyyden perusteita

Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Metsäpatologian laboratorio tuhotutkimuksen apuna. Metsätaimitarhapäivät Anne Uimari

Algoritmit 1. Luento 1 Ti Timo Männikkö

DNA RNA proteiinit transkriptio prosessointi translaatio regulaatio

Alkuraportti. LAPPEENRANNAN TEKNILLINEN YLIOPISTO TIETOJENKÄSITTELYN LAITOS CT10A Kandidaatintyö ja seminaari

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

Matematiikka ja teknologia, kevät 2011

Luku 21. Evoluution perusteet

Genomin ilmentyminen Liisa Kauppi, Genomibiologian tutkimusohjelma

Arkkitehtuurien tutkimus Outi Räihä. OHJ-3200 Ohjelmistoarkkitehtuurit. Darwin-projekti. Johdanto

Biologia. Pakolliset kurssit. 1. Eliömaailma (BI1)

SUBSTANTIIVIT 1/6. juttu. joukkue. vaali. kaupunki. syy. alku. kokous. asukas. tapaus. kysymys. lapsi. kauppa. pankki. miljoona. keskiviikko.

Elintarvikepetokset Annikki Welling Kemian ja toksikologian tutkimusyksikkö Evira

CSC:n käyttäjätunnukset - myös opiskelijoille

Arvokkaiden yhdisteiden tuottaminen kasveissa ja kasvisoluviljelmissä

verkkojen G ja H välinen isomorfismi. Nyt kuvaus f on bijektio, joka säilyttää kyseisissä verkoissa esiintyvät särmät, joten pari

LUOMINEN JA EVOLUUTIO

GEENITEKNIIKAN PERUSASIOITA

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )

v 8 v 9 v 5 C v 3 v 4

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Kanta ja Kannan-vaihto

MS-C2111 Stokastiset prosessit

Eliömaailma. BI1 Elämä ja evoluutio Leena Kangas-Järviluoma

Matematiikan tukikurssi

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

Darwin: Tutkimusprojektin esittely

Fysiikan opinnot Avoimen yliopiston opiskelijoille

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Algoritmit 2. Luento 1 Ti Timo Männikkö

Drosophila on kehitysgenetiikan mallilaji nro 1

4.1 Kaksi pistettä määrää suoran

Tarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Lajinmäärityksestä elintarvikkeiden aitoustutkimuksessa. Annikki Welling Kemian laboratoriopalvelut Evira

Peittyvä periytyminen. Potilasopas. Kuvat: Rebecca J Kent rebecca@rebeccajkent.com

Koiran periytyvä persoonallisuus

Opetusmateriaali. Fermat'n periaatteen esittely

Tuotantoeläinten jalostus ja geenitekniikka

Tähtitieteen käytännön menetelmiä Kevät 2009

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Bayesilainen päätöksenteko / Bayesian decision theory

Tietorakenteet, laskuharjoitus 7, ratkaisuja

GMO analytiikka Annikki Welling Kemian tutkimusyksikkö Evira

Tietokoneohjelmien käyttö laadullisen aineiston analyysin apuna

Johdatus diskreettiin matematiikkaan Harjoitus 5, Ratkaise rekursioyhtälö

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Yleistä tietoa kokeesta

Biologian tehtävien vastaukset ja selitykset

LASKE LAUDATUR CLASSWIZ- LASKIMELLA

PCR - tekniikka elintarvikeanalytiikassa

Transkriptio:

52739 Bioinformatiikan perusteet Kevät 2013 Petri Törönen Materiaalia kommentoineet: Pekka Kohonen, Petri Auvinen, Liisa Holm Kiitokset

Päivi Onkamo äitiyslomalla Petri Törönen tuuraamassa Email: petri DOT toronen AT helsinki DOT fi Biokeskus 2, D-porras, 7. krs Huone 7002

Bioinformatiikan perusteet, 3 op (52739) Luennot 14.1. - 20.2.2013, ti, to klo 10.15-12, BIOK2 AUD1041. Kurssin kotisivut: Flammassa työn alla, alla, alla. WWW: http://ekhidna.biocenter.helsinki.fi/users/petri/public/opetus_jutut/bioinf_per_lects/bioinfperusteet.html Kuulustelu: 25.2. klo 10.00-12.00, Infotalo, auditorio 2. Uusinnat: Ensimmäinen uusinta??? Kotitehtävät: tehtävänannot tulevat perjantaisin kurssin kotisivuille. Tarkastetaan yhteisesti seuraavan keskiviikon luennoilla. Omia vastauksia ei siis palauteta luennoijalle. Luennoitsijat: FT Petri Törönen, Dos. Rainer Lehtonen

Oheislukemistoa: CSC:n Sekvenssianalyysiopas (lataa pdf osoitteesta http://www.csc.fi/csc/julkaisut/oppaat tai tilaa painettuna CSC:ltä hintaan 15 kpl) Bioinformatiikan perusteet (kirj. Tuimala J), ladattavissa pdf:nä tai tilattavissa (kuten edellä) Xiong: Essential Bioinformatics, 2006 (osin, tämä teos on myös yksi perimän cum laude -tenttikirjoista) Zvelebil & Baum: Understanding Bioinformatics, 2008 Pevsner: Bioinformatics and Functional Genomics, 2009.

WWW Google: bioinformatics tutorial OR guide. http://nihlibrary.nih.gov/services/bioinformatics/pages/bi otutorials.aspx NIH:n kokoelma WWW-kursseista http://www.ploscompbiol.org/article/info:doi/10.1371/jour nal.pcbi.1002632 Kokoelma WWW-kurseista. Kurssien plussat ja miinukset kuvattu! http://www.mygoblet.org/training-portal GOBLET-organisaation kokoelma WWW-oppaita http://www.ebi.ac.uk/training/online/ EBI:in ohjelmien opetusta

Tiedoksi JOO-opiskelijoille Yliopiston verkkotunnuksista: JOO-opiskelijoille kuuluu HY:n mikroverkkotunnus. Sen saa Impact factorysta opintopalvelupisteestä. Ota mukaan JOO-hyväksymisilmoitus ja jos sieltä ei saa, tiedustele Heikki Tuuralalta: Heikki Tuurala suunnittelija Helsingin yliopisto Bio- ja ympäristötieteiden laitos Puh. 191 59256

Luentokurssin sisältö Johdanto bioinformatiikan tärkeimpiin menetelmiin Kurssilla käsitellään sekvenssianalyysiin liittyviä menetelmiä: kahden ja useamman sekvenssin rinnastuksen teoriaa (esim.dot-plot, progressiivinen rinnastus, ClustalX, Muscle), tietokantahakualgoritmeja (BLAST). Yleisimmin käytettyjä tietokantoja (NCBI, EMBL, Uniprot), fylogeneettistä analyysiä, geenikartoitusta, mikrosiru- ja promoottorianalyysejä, sekä hiukan farmakogenomiikkaa Kurssin suorittaminen: Hyväksytty tentti (vähintään 50% pisteistä ansaittu).

Tentti Aineistotenttinä: luentomateriaalin saa ottaa mukaan tenttiin. Tenttikysymykset laaditaan luennoilla läpikäytyjen asioiden pohjalta, ja ne ovat luonteeltaan soveltavia Tentti arvostellaan normaalisti asteikolla 1-5 (siis arvosanan 1/5 saavuttamiseksi vähintään 50% max-pisteistä täytyy olla ansaittuna).

Luentojen aiheet, aikataulu 14.1. Johdanto, pisteytysmatriisit 16.1. Kahden sekvenssin rinnastus 21.1. BLAST 23.1. Biotietokannat I 28.1. Biotietokannat II 30.1. Usean sekvenssin rinnastus 4.2. Molekyylisystematiikka I 6.2. Molekyylisystematiikka II 11.2. Geeniekspressio: Mikrosirut 13.2. Genomiikka 18.2. Geenikartoitus I. Tutkimusprojektin esittely 20.2. Geenikartoitus II. Farmakogenetiikka. 25.2. TENTTI

Mitä bioinformatiikka on?

Mitä bioinformatiikka on? Informaatiotieteen ja biologian välimaastoa Tieteenala, joka kehittää informaatio- ja tietoteknisiä välineitä biologisten ongelmien ratkaisemiseksi Informaatioteknologian ala, jota käytetään biologisen informaation tallentamiseen, ylläpitämiseen ja analysoimiseen Bioinformatiikka on osa laskennallista biologiaa Perustuu J.Tuimalan originaaleihin

Mitä bioinformatiikka on? Tieteellisiä kysymyksiä pyritään ratkaisemaan käymällä laajoja biologisia aineistoja läpi Aineisto voi olla tutkimusryhmän omaa tai se voi olla peräisin julkisista tietokannoista Aineistojen suuruuden takia tarvitaan tietojenkäsittelyn tarjoamia menetelmiä Analyysitehtävät voivat olla myös manuaalisesti vaikeita/mahdottomia ratkaista

Bioinformatiikan osuus kasvussa Tietokantojen koko on kasvanut räjähdysmäisesti High Throughput-menetelmät Käytettävissä oleva laskentateho (tietokoneiden tehokkuus) on kasvanut Uusien menetelmien kehittyminen bioinformatiikan, tilastotieteen ja tietojenkäsittelyn (koneoppimisen) saralla

Tietokantojen sisällön kasvu Tilastoja, European Nucleotide Archive (ENA) eli geenipankki : http://www.ebi.ac.uk/embl/documentation/ Eri lajien osuudet tietokannassa olevista nukleotideista 2010: Total nucleotides 2010: 301,119,983,275, of which Homo sapiens Mus musculus Rattus norvegicus Bos taurus marine metagenome Pan troglodytes Danio rerio Zea mays Canis lupus familiaris Sus scrofa Other

Tietokantojen sisällön kasvu Tietokannat kasvavat eksponentiaalisesti Moreover, the volume of data is increasing exponentially with a doubling time of approximately 10 months http://en.wikipedia.org/wiki/european_nucleotide_archive

Kokonaan sekvensoituja genomeja 12.12.2003 7.1.2011 9.1.2012* Prokaryootteja 826 1117 Arkkeja 17 76 100 Eukaryootteja 13 39 36 joista sieniä 16, kasveja 7, eläimiä 6, ja alkueliöitä (protists) 10. Valmiina mm: hiiva, sukkulamadot (2 lajia), banaanikärpänen (2 lajia), ihminen, simpanssi, sika, hiiri, pallokala, riisi, lituruohovehnä, maissi, hamppu. Nearly-there : Eläimistä: jättiläispanda, koira, marsu, siili, kissa, opossumi, elefantti, 9-vyövyötiäinen, nauta, hevonen, vesipuhveli, mehiläinen, kimalainen, kana, seeprakala, malariahyttynen, jne. Kasveista: koivu, omena, ohra, soija, jättipoppeli, tomaatti, vehnä, papaija, durra, kookospalmu, mung-papu, papaija, aitoviini jne. seeprakala opossumi *http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html

Kokonaan sekvensoituja genomeja PAH!!! EDELLINEN KALVO VANHA Tämäkin lukumäärä kasvaa eksponentiaalisesti 2013: Arhaea: 181, Bacteria: 3762, Eukaryotes: 183 (*) 2014: Arhaea: 277, Bacteria: 11777, Eukaryotes: 312 (**) * http://sandwalk.blogspot.fi/2013/01/how-many-genomes-have-been-sequenced.html ** http://www.genomesonline.org/cgi-bin/gold/index.cgi?page_requested=complete+genome+projects

Laboratoriomenetelmien mullistus Laboratorioanalyysi siirtynyt kokonaisten eliöiden kaikkien geenien samanaikaiseen tutkimiseen Mikrosiru-menetelmät High Throughput-menetelmät Uuden sukupolven sekvensointi Proteomics & metabolomics

Mikrosirumenetelmät Kehitetty tutkimaan ~5000 40 000 geenin aktiivisuutta biologisessa näytteessä Menetelmä kuvataan luennoilla myöhemmin Mahdollistaa kaikkien tunnettujen geenien samanaikaisen tutkimisen näytteestä Mikrosirut on suunniteltu eliökohtaisesti Eivät (tavallisesti) sovellu populaatioihin http://en.wikipedia.org/wiki/dna_microarray

Mikrosirumenetelmät Sovelluksia: Geenien aktiivisuus laboratoriotestin aikana Geenien aktiivisuuksien vertailu erilaisten genotyyppien välillä Geenien aktiivisuuksien vertailu terveen ja tautikudoksen välillä http://en.wikipedia.org/wiki/dna_microarray

High Throughput menetelmät Laboratoriotutkimusta rinnakkaistettuna Käytetään robotiikkaa ja testataan erilaisia olosuhteita / reagensseja Usein testataan esim. kaikkia tutkittavan eliön geenejä Koneellinen kuva-analyysi voi tallentaa esim. solujen morfologisia muutoksia käsittelyn jälkeen http://en.wikipedia.org/wiki/high-throughput_screening

High Throughput menetelmät Sovelluksia: Gene knockout / RNA-silencing studies High throughput drug screening Proteiinien sitoutuminen toisiinsa eliötasolla http://en.wikipedia.org/wiki/high-throughput_screening

Next Generation Sequencing Laitteita jotka sekvensoivat vahvasti rinnakkaisesti (10 6 10 9 sekvenssijaksoa/analyysi) Jokainen jakso 50 1000 nukleotidia pitkä Tulos saadaan kun jaksot yhdistetään Sovelluksia: Genomin de novo-sekvensointi Genomin re-sekvensointi RNA-sekvensointi http://en.wikipedia.org/wiki/massive_parallel_sequencing

Next Generation Sequencing Genomin de-novo-sekvensointi Luodaan tutkittavan eliön genomisekvenssi pelkästään sekvensointituloksien avulla Ei aikaisempaa genomisekvenssiä Genomin re-sekvensointi Tutkitaan esim. potilaita tai syöpäkudoksia Sekvensoidaan genomi ja haetaan (yhteisiä) eroja muuhun populaatioon http://en.wikipedia.org/wiki/massive_parallel_sequencing

Next Generation Sequencing RNA-sekvensointi Mikrosirutekniikat selvittävät karkeasti RNA:n määrän Analyysistä uupuu Splice Variants, SNP, alleelispesifinen ekspressio RNA sekvensoinnissa sekvensoidaan lähes kaikki löydetyt RNA-sekvenssit Metagenomiikka Tutkitaan esim. mikrobipopulaatioita sekvensoimalla kaikki genominen DNA näytteestä

Suurien aineistojen yhdistely In-house gene expression data vs. gene expression data in web Gene expression data vs. protein-protein interaction data Large scale data comparisons across different species

Bioinformatiikan sovelluksia Taudinaiheuttajien tunnistus, mikrobidiagnostiikka Geneettinen neuvonta + Personalized Medicine Lääkeaineiden pää- ja sivuvaikutuksien vertailu Lääkeaineiden valinta (screening)..

Mitä tällä informaatiolla voi tehdä? Mihin bioinformatiikkaa tarvitsee? ESIM: Meksikossa puhkeaa vaarallinen virusepidemia Eristetään virus potilasnäytteistä ja sekvensoidaan sen perimä näyttää influenssavirukselta Etsitään viruksen sukulaisia - sekvenssirinnastus, fylogenia -> H1N1 Antaa tietoa siitä, mitä epidemialta voidaan odottaa, mitä muita taudinaiheuttajia ja tauteja se voisi muistuttaa? Miten virus on syntynyt? Epidemian seuranta Selvitetään viruksen tuottamat proteiinit - sekvenssirinnastus Miten virus pääsee soluun? Voitaisiinko sitä estää? Proteiinien rakenne Homologiamallinnus - miten tämä virus eroaa muista ja miksi se voi olla tappava? Lääkeainesuunnittelu? Mahdollisten rokotteeksi sopivien rakenteiden tunnistaminen http://www.upmc-biosecurity.org/website/resources/publications/2011/2011-12-15-editorial-engineering-h5n1 Perustuu J.Tuimalan originaaleihin

Molekulaarinen fylogenetiikka Tutkija on hankkinut DNA-näytteitä joukosta hyljelajeja, ja sekvensoinut joitakin geenejä. Miten sekvenssijoukko on kehittynyt? Miten lajijoukko on kehittynyt? Millaisia yhteisiä piirteitä tiettyjen lajien genomeilla on? Perustuu J.Tuimalan originaaleihin

Hiivasoluille on annettu lämpöshokki käsittely. Mitkä geenit ekspressoituvat normaalitasoa voimakkaammin tai heikommin heti shokin jälkeen? Entä tunti, 2 tuntia sen jälkeen? Miten näiden geenien toiminta saattaisi liittyä toisiinsa (julkisissa tietokannoissa olevan tiedon perusteella - huomaa, että tämä on aivan liian laajaa käsin tutkittavaksi!) Geeniekspressioaineiston ryhmittelyanalyysi:

Lisää sovellusalueita Mitä samanlaisten geenisäätelytekijöiden sitoutumissekvenssejä keskenään samanaikaisesti ilmeneviltä geeneiltä löytyy? (Vaikkapa heat shockin jälkeen?)

Lisää sovellusalueita tai miten löytää DNA-sekvensseistä upouusia säätelytekijöitä, joista ei vielä edes tiedetä minkälaista sekvenssinpätkää ollaan etsimässä? Olet sekvensoinut DNA:ta tai jonkin proteiinin; sekvenssin tehtävä ei selviä itse sekvenssistä, se ei siis muistuta mitään ennestään tunnettua niin selvästi että erehtymisen vaaraa ei olisi. Mihin toisiin geeneihin/proteiineihin ja eliölajeihin sekvenssillä olisi vastaavuutta? Mitä nämä geenit/proteiinit tekevät? (Liikaa manuaalisesti tutkittavaksi!) Geenikartoituksen menetelmin on genomista löydetty tautigeenin todennäköisin sijaintialue, mutta tällä alueella on edelleen ainakin 30 eri geeniä, joista periaatteessa mikä tahansa voisi olla tautigeeni. Mitä nämä tunnetut geenit tekevät? Mikä tai mitkä niistä olisivat potentiaalisimpia tautiriskiin vaikuttavia geenejä?

Jokamiehen bioinformatiikkaa Sekvenssien rinnastus Sekvenssien haku tietokannasta sekvenssillä Sekvenssien haku avainsanojen avulla

Sekvenssien rinnastus Kahden sekvenssin rinnastus Kuinka samankaltaisia kaksi sekvenssiä ovat keskimäärin? Löytyykö sekvensseistä lyhyempiä samankaltaisia alueita, vaikka ne keskimäärin olisivat varsin erilaisia? Usean sekvenssin rinnastus Rinnastetaan monta sekvenssiä joilla sama funktio Löytyykö sekvensseistä yhteisiä, samankaltaisia alueita? Mahdollinen aktiivinen keskus Molekyylisystematiikka fylogenia

Sekvenssihaut Tietokantahaut Löytyykö sekvenssi tietokannasta asiasanahaulla? Esim. hemoglobin and human? Sekvenssihaut Mitä sekvenssejä tietokannasta löytyy, kun tiedossamme on ehkä vain pätkä sekvenssiä? ACGTACGTACGTCCCCAGTCTAGAG Perustuu J.Tuimalan originaaleihin

Muistakaa tämä Monet bioinformatiikan menetelmät tuottavat aina jotain tuloksia Tulokset täytyy varmistaa riippumattomalla menetelmällä Parhaassa tutkimuksessa laboratorio- ja bioinformatiikkamenetelmät tukevat toisiaan

Sekvenssirinnastus ja pisteytysmatriisit

Rinnastus (Alignment) Bioinformatiikan keskeisimpiä tehtäviä Keino selvittää kuinka samanlaisia kaksi sekvenssiä on Sekvenssit voivat olla proteiineja, DNA-alueita Rinnastus usein piilossa muiden tehtävien sisällä Eniten samanlaisten sekvenssien haku tietokannoista Monen sekvenssin rinnastus Onnistunut rinnastus on usein vaatimus muiden monimutkikkaampien tehtävien onnistumiselle Rinnastuksella siirretään usein tietoa sekvenssistä toiseen

Mitä on rinnastus? I Tarkoittaa sitä, että eri sekvensseissä samoilla kohdin olevat samanlaiset aminohapot tai nukleotidit asetetaan kohdakkain. Esimerkiksi ACGTACGT ACGTACGT ACGTACGT ACTACT AC-TACT AC-TAC-T Rinnastukseen voidaan lisätä aukkoja (gap, merkitään yleensä -, toisinaan myös.) siten, että samanlaiset aminohapot tai nukleotidit osuvat kohdakkain. Perustuu J.Tuimalan originaaleihin

Mitä on rinnastus II Rinnastuksella pyritään siis asettamaan sekvenssien samankaltaiset alueet kohdakkain. Tällä tavalla pyritään löytämään eri sekvensseissä olevia homologisia alueita. Samankaltaisuus (yleisesti) Mistä tahansa syystä johtuva kahden sekvenssin samanlainen tai samantapainen rakenne Homologia Sekvenssien evolutiivisista suhteista johtuva samankaltaisuus. Samankaltaisuus johtuu siis siitä, että eri sekvenssit periytyvät yhteisestä kantamuodosta. Perustuu J.Tuimalan originaaleihin

Rinnastaminen Mikä seuraavista on paras rinnastus? 1. 2. 3. ACGTACGT ACGTACGT ACGTACGT ACTACT AC-TAC-T A-CTAC-T Kuinka samankaltaisia eri nukleotidit ovat? Miten luoduista aukoista rankaistaan? Tarvitaan jokin pisteytystapa Pisteytysmatriisi! (Engl. scoring matrix tai substitution matrix) Perustuu J.Tuimalan originaaleihin

Pisteytysmatriisi = Substituutiomatriisi Taulukko, jossa kerrotaan aminohappojen tai nukleotidien muutosfrekvenssit (tai muutostodennäköisyydet) Kuvastaa aminohapoilla myös sitä kuinka samanlainen kyseinen pari on ominaisuuksiltaan. Lisäksi tarvitaan joku pisteytys rinnastuksen aukoille (aukkosakkoparametrit)

Esim: DNA-pisteytysmatriisit Identity matrix A T C G A 1 0 0 0 T 0 1 0 0 C 0 0 1 0 G 0 0 0 1 Suom. yksikkö- eli identiteettimatriisi BLAST matrix A T C G A 5-4 -4-4 T -4 5-4 -4 C -4-4 5-4 G -4-4 -4 5

DNA-pisteytysmatriisit Transition transversion matrix A T C G A 1-5 -5-1 T -5 1-1 -5 C -5-1 1-5 G -1-5 -5 1 Aukkosakkoparametrit: -16 aukon avaamiselle ja -4 jatkamiselle.

Miten lasketaan rinnastuksen pistemäärä? 1. 2. 3. ACGTACGT ACGTACGT ACGTACGT ACTACT AC-TAC-T A-CTAC-T Rinnastus 2: ACGTACGT AC-TAC-T Transitio-transversio-matriisi: A +1 C +1 Huomaa: - -16 Aukosta T +1 sakotetaan A +1 16 pistettä C +1 - -16 T +1 Yht. 1+1-16+1+1+1-16+1=-26

Rinnastusten 1 ja 3 pistemäärät? Mikä rinnastus on paras (tällä pisteytysmatriisilla ja aukkosakoilla)?

Pisteytysmatriisit Kaikki pisteytysmatriisit ovat yrityksiä kvantifioida evolutiivisten muutoksien tapahtumistodennäköisyyksiä DNA:lle ja aminohapoille on OMAT pisteytysmatriisinsa Joidenkin aminohappojen säilyminen samana on proteiinin rakenteen (ja niinmuodoin funktion) säilymisen kannalta tärkeämpää kuin toisten siksi isompi sakko muuttumiselle! Aminohappojen pisteytysmatriisit yrittävät kertoa siitä, josko tietty mutaatio säilyttää tai muuttaa (tuhoaa) proteiinin funktion Mutaatio voi vaikuttaa myös proteiinin rakenteeseen Useimmiten symmetrisiä, toisinaan epäsymmetrisiä. symmetrisyys: muutoksen todennäköisyys on kumpaankin suuntaan sama P(Ala -> Cys) = P(Cys -> Ala) Perustuu J.Tuimalan originaaleihin

Matriisien käyttötarkoitukset? Kahden sekvenssin rinnastamisessa, mutta myös... Tietokantahauissa (BLAST) Molekyylisystematiikassa Sekvenssien välisten etäisyyksien laskeminen (proteiinit) Pisteytysmatriiseja aminohapoille: PAM, Blosum, JTT DNA:lle: IUB (osuma 1.9, huti 0) Rinnastukset tehdään nykyisin tietokoneella Aminohappojen pisteytysmatriisit perustuvat niiden muodostamiin ryhmiin Perustuu J.Tuimalan originaaleihin

Aminohapporyhmät (huomaa virhe!) Aminohappojen samankaltaisuus perustuu niiden muodostamiin ryhmiin Saman ryhmän jäsenet korvaavat usein toisiaan proteiinisekvenssissä

Otetaas uusiksi:

Aminohappomatriisit Aminohappomatriisit pyrkivät esittämään aminohappojen edellä näytettyjä samankaltaisuuksia Kaksi käytetyintä matriisi-ryhmää: PAM-matriisit BLOSUM-matriisit

Blosum62-matriisi Aukon avaamissakko 12 ja jatkamissakko 4 toimivat suhteellisen hyvin.

PAM250-matriisi

Aminohappomatriisit PAM-matriisien numeroarvo ilmoittaa matriisin point accepted mutation-arvon (seuraavalla kalvolla tästä lisää), joka ei vastaa tismalleen sekvenssien erilaisuutta prosentteina, mutta on sinne päin. BLOSUM-matriisien numeroarvo ilmoittaa sen sekvenssijoukon samankaltaisuuden, jonka pohjalta matriisi on muodostettu. http://en.wikipedia.org/wiki/point_accepted_mutation http://en.wikipedia.org/wiki/blosum Perustuu J.Tuimalan originaaleihin

Näkyvien sekvenssieroavaisuuksien suhde PAM-lukuun Perustuu J.Tuimalan originaaleihin

PAM-matriisit PAM matriisit perustuvat sekvenssien linjauksista tehtyihin puihin. Puussa sekvenssejä vertaillaan puun rakenteessa ja seurataan kuinka aminohapot muuttuvat (linkki 1) Tämä matriisien muodostus keskittyy erityisesti muutoksiin lähinaapureiden välillä http://fenchurch.mc.vanderbilt.edu/bmif310/2008/2-b-pam-and-blosum http://en.wikipedia.org/wiki/point_accepted_mutation Perustuu J.Tuimalan originaaleihin

BLOSUM-matriisit BLOSUM-matriisit perustuvat aukottomiin sekvenssien linjauksiin Aminohappojen muutoksia ei rajata lähinaapureiden välille. Jokainen sekvenssi voi muuttua miksi tahansa toiseksi sekvenssiksi Tämä matriisien muodostus painottaa enemmän kaukaisten sukulaisten välisiin samankaltaisuuksiin http://en.wikipedia.org/wiki/blosum Perustuu J.Tuimalan originaaleihin

Aminohappomatriisit Kun rinnastetaan sekvenssejä tai muodostetaan fylogeneettisiä puita, tulee valita tilanteeseen sopiva matriisi. Esimerkiksi PAM50-matriisia tulisi käyttää 40% samankaltaisten sekvenssien rinnastamiseen. (kts. aikaisempi kuvaaja) Vastaavasti BLOSUM40-matriisia tulisi käyttää 40% samankaltaisten sekvenssien rinnastamiseen. Perustuu J.Tuimalan originaaleihin

Aminohappomatriisit Miten voi tietää sekvenssien samankaltaisuuden jo ennen niiden rinnastamista? Rinnastus ei ole objektiivista (aloitetaan akateemisella arvauksella :) Menetelmä vaatii useinkin kokeilemista erilaisilla asetuksilla tai matriiseilla. Haittaako, jos sekvenssijoukossa on kovin erilaisia sekvenssejä? Luultavasti, mutta sellaisten rinnastamiseen on tiettyjä menetelmiä, jolla ongelma voidaan kiertää. Perustuu J.Tuimalan originaaleihin

Yhteenveto rinnastuksesta Rinnastuksen tulos riippuu käytetystä pisteytysmatriisista. Valitse matriisi joka sopii hyvin tutkituille sekvensseille Sekvenssien samankaltaisuus keskeinen tekijä Perustuu J.Tuimalan originaaleihin

Yhteenveto rinnastuksesta Rinnastus pyrkii sijoittamaan sekvenssien toisiaan vastaavat alueet päällekkäin Rinnastuksen tulos riippuu siitä mitkä aminohapot arvioidaan keskenään samanlaisiksi Rinnastusalgoritmit käyttävät pisteytysmatriiseja, jotka arvioivat aminohappojen samankaltaisuutta. Perustuu J.Tuimalan originaaleihin

Ylimääräiset kalvot Luentokokonaisuuksien lopussa on kalvoja jotka olen jättänyt pois Usein näissä on silti hyödyllistä tietoa. Näitä ei käydä luennoilla Perustuu J.Tuimalan originaaleihin

Mistä pisteytysmatriisit tulevat? Empiiriset pisteytysmatriisit: Tietyn verran toisistaan eroavia proteiinisekvenssijoukkoja käyttäen on määritetty aminohappojen todennäköisyydet muuttua toisikseen log odds matriisi Perustuu J.Tuimalan originaaleihin

Matriisin muodostaminen II Empiiristen matriisien lähtömateriaalit PAM (1978) Evolutiivinen malli (puu) taustalla, 71 proteiiniryhmää BLOSUM (1992) BLOCKS-tietokanta GONNET (1992) Koko sekvenssitietokannan rinnastus JTT (1992) Evolutiivinen malli (puu) taustalla, mutta muodostamiseen käytetty suurempaa aineistoa kuin PAM-matriisien muodostamiseen Perustuu J.Tuimalan originaaleihin

Esim. PAM-matriisien muodostaminen PAM = percent accepted mutation Proteiinit etääntyvät (muuttuvat) alkuperäissekvenssistä siten, että niihin kerääntyy mutaatioita. Mutaatiot ovat sellaisia, että luonnonvalinta ei ole niitä karsinut, ja niitä voi siis löytyä populaatiosta. Tällaiset mutaatiot ovat niin sanotusti hyväksyttyjä (accepted). Mutaatioita tarkastellaan irrallaan niiden ympäristöstä ja historiasta. Perustuu J.Tuimalan originaaleihin

Esim. PAM-matriisien muodostaminen PAM on yksi kahden sekvenssin välillä tapahtunut hyväksytty pistemutaatio sataa aminohappoa kohden. Tietyt aminohappokohdat ovat voineet muuttua enemmän kuin kerran, mutta kahta sekvenssiä tarkasteltaessa voidaan kuitenkin aina havaita vain yksi muutos. Tällöin kahden sekvenssin välinen etäisyys on oikeasti suurempi kuin havaittujen muutosten määrä. Tämä täytyy ottaa ja otetaankin huomioon! Perustuu J.Tuimalan originaaleihin

Esim. PAM-matriisien muodostaminen PAM-matriisin muodostaminen alkaa fylogeneettisen puun piirtämisellä. Dayhoff et. al valitsivat proteiineja, joiden samankaltaisuus oli 85% tai enemmän, jotta useilta muutoksilta samassa kohdassa vältyttäisiin. Koska sekvenssit ovat suhteellisen samankaltaisia, on fylogeneettisen puunkin piirtäminen jokseenkin helppoa. Puun perusteella voidaan identifioida ja laskea hyväksytyt muutokset. Perustuu J.Tuimalan originaaleihin

Esim. PAM-matriisien muodostaminen Kun tiedetään Muutosten suunta (puu) Muutosten määrä Sekvenssien pituudet voidaan laskea matriisi, joka kuvaa muutostodennäköisyyksiä tai oikeammin niiden suhteita: kuinka tod.näk. tietty muutos on verrattuna kaikkiin ko. aminohapolle tapahtuneisiin muutoksiin Perustuu J.Tuimalan originaaleihin

Log odds-matriisi: Muutostodennäköisyyksien suhteista otetaan vielä logaritmi: p (0.02) <=> log 2 (0.02) <=> -5.6 ~ -6 P (2) <=> log 2 (2) <=> 1 ~ 1 Jos käytetään 2-kantaista logaritmia -> bittejä Usein käytetään myös ln(2)/3 = log10(2)/3 Engl. Scale Log odds-matriisi on siis sama asia kuin pisteytysmatriisi, esimerkiksi PAM250! Perustuu J.Tuimalan originaaleihin

Blosum Blosum-matriisien taustalla ei ole oletusta (puuta) sekvenssien evoluutiosta Muodostettu Blocks-tietokannassa olevien proteiinien konservoituneiden alueiden avulla Muutostodennäköisyydet laskettu olettaen, että muutos voi tapahtua mistä sekvenssistä miksi sekvenssiksi tahansa. Perustuu J.Tuimalan originaaleihin

Mikä on algoritmi? Perustuu J.Tuimalan originaaleihin

Algoritmi I Algoritmi on se joukko toimenpiteitä, joilla jokin haluttu (tai annettu) tehtävä saadaan suoritettua. Miten neuvoisit kaveriasi tulemaan Rautatieasemalta Biokeskukseen? Tule osoitteeseen Viikinkaari 9 A. Olettaa, että kaverisi osaa lukea karttaa. Ota taksi, ja aja osoitteeseen Viikinkaari 9 A. Kallis opintotuella elävälle kaverillesi. Perustuu J.Tuimalan originaaleihin

Algoritmi II Tarkennettu ohje voisi olla seuraavanlainen: Valitse seuraavista: Jos kellonaika on välillä 7-20: - kävele Rautatientorille - nouse bussiin 68 Jos sinulla on rahaa tai saat kimpan: - ota taksi. Mikäli ei rahaa tai haluat ulkoilla - kävele. Perustuu J.Tuimalan originaaleihin

Algoritmi III Käytännössä algoritmi on sijoitettu tietokoneohjelman osaksi. Yhdessä tietokoneohjelmassa voi olla useita algoritmeja. Algoritmien yhteistoiminta ratkaisee varsinaisen ongelman. Tämän jälkeen algoritmien ympärille kyhätty ohjelma (käyttöliittymä ja muut osaset) ilmoittaa tuloksen käyttäjälle sopivassa muodossa. Perustuu J.Tuimalan originaaleihin