Proteiinien kontaktiresidyjen ennustaminen. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

Samankaltaiset tiedostot
Aukkoja sekvensseissä. Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari

DNA, RNA ja proteiinirakenteen ennustaminen

S Laskennallinen Neurotiede

Signaalien generointi

TILASTOLLINEN OPPIMINEN

Osakesalkun optimointi

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Sekvenssien rinnastus. Rinnastus: helppoa tai vaikeaa

pitkittäisaineistoissa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Sovellettu todennäköisyyslaskenta B

Malliratkaisut Demo 4

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Henkilötunnus - Biokemian/bioteknologian valintakoe. Sukunimi Etunimet Tehtävä 1 Pisteet / 20

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Sovellettu todennäköisyyslaskenta B

10. Esitys ja kuvaus

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi


pitkittäisaineistoissa

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

2.4 Pienimmän neliösumman menetelmä

Integrointialgoritmit molekyylidynamiikassa

Korvausvastuun ennustejakauma bootstrap-menetelmän avulla

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Esimerkkejä vaativuusluokista

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ohjeita fysiikan ylioppilaskirjoituksiin

Esimerkki 1: auringonkukan kasvun kuvailu

Johdatus tekoälyn taustalla olevaan matematiikkaan

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Jäsenyysverkostot Kytkökset ja limittyneet aliryhmät sosiaalisten verkostojen analyysissä

Kertausta 1.kurssista. KEMIAN MIKROMAAILMA, KE2 Atomin rakenne ja jaksollinen järjestelmä. Hiilen isotoopit

Tietorakenteet ja algoritmit syksy Laskuharjoitus 1

MATEMATIIKKA 5 VIIKKOTUNTIA. PÄIVÄMÄÄRÄ: 8. kesäkuuta 2009

Sovellettu todennäköisyyslaskenta B

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

Menetelmä Markowitzin mallin parametrien estimointiin (valmiin työn esittely)

BIOMOLEKYYLEJÄ. fruktoosi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harha mallin arvioinnissa

11. laskuharjoituskierros, vko 15, ratkaisut

Malliratkaisut Demo 4

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

MUOVIA MAIDOSTA. AVAINSANAT: Arkikemia Proteiinit Denaturoituminen Polymeerit Happamuus

58131 Tietorakenteet (kevät 2009) Harjoitus 11, ratkaisuja (Topi Musto)

Tulosten arviointi. tulosten arviointi. voimmeko luottaa saamiimme tuloksiin?

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

5.6.3 Matematiikan lyhyt oppimäärä

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Moniulotteisia todennäköisyysjakaumia

Johdatus tekoälyn taustalla olevaan matematiikkaan

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Inversio-ongelmien laskennallinen peruskurssi Luento 7

REAKTIOT JA TASAPAINO, KE5 KERTAUSTA

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

7. laskuharjoituskierros, vko 10, ratkaisut

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Diskreetin matematiikan perusteet Laskuharjoitus 2 / vko 9

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento 10: Optimointitehtävien numeerinen ratkaiseminen; optimointi ilman rajoitusehtoja

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 2: Usean muuttujan funktiot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Sisällys. 16. Ohjelmoinnin tekniikkaa. Aritmetiikkaa toisin merkiten. Aritmetiikkaa toisin merkiten

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 1, Kevät 2018

Kombinatorinen optimointi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mallipohjainen klusterointi

16. Ohjelmoinnin tekniikkaa 16.1

Monitavoiteoptimointi

MS-A0004/A0006 Matriisilaskenta

766334A Ydin- ja hiukkasfysiikka

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Trichoderma reesein geenisäätelyverkoston ennustaminen Oskari Vinko

Jatkuvat satunnaismuuttujat

Maximum likelihood-estimointi Alkeet

Sovellettu todennäköisyyslaskenta B

Vastakkainasettelullinen riskianalyysi asejärjestelmien vaikuttavuusarvioinnissa

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

16. Ohjelmoinnin tekniikkaa 16.1

Simplex-algoritmi. T Informaatiotekniikan seminaari , Susanna Moisala

Sisällys. 17. Ohjelmoinnin tekniikkaa. Aritmetiikkaa toisin merkiten. for-lause lyhemmin

Laskennallinen menetelmä puun biomassan ja oksien kokojakauman määrittämiseen laserkeilausdatasta

S Basics for Biosystems of the Cell Harjoitustyö. Proteiinirakenteen mallintaminen. Niina Sandholm 62938M Antti Niinikoski 60348E

&()'#*#+)##'% +'##$,),#%'

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Transkriptio:

Proteiinien kontaktiresidyjen ennustaminen Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari 13.12.12

Terminologiaa Aminohappo = proteiinien rakennuspalikka, luonto käyttää 20 erilaista Aminohapporesidy = tietty aminohappo (monomeeri) aminohappojen muodostamassa ketjussa (polymeerissä) Proteiini = biomolekyyli joka koostuu yhdestä tai useammasta aminohappoketjusta, luonnon työjuhta Kontaktiresidy = proteiinin 3D-rakenteessa toisen residyn kanssa vuorovaikuttava aminohapporesidy 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 2

Esitelmän rakenne Taustaa Proteiinien rakenne, proteiiniperheet, proteiinidatapankit Kontaktiresidyjen ennustaminen (DCA, Direct Contact Analysis) Pottsin malli kuvaa residyjen korrelaatioita Mallin parametrit uskottavuutta optimoimalla Kuinka hyvin malli toimii? Yhteenveto 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 3

Rakenteen luokittelu Primäärinen Kovalenttiset/peptidisidokset Sekundäärinen Vetysidokset Tertiäärinen Hydrofobiset vuorovaikutukset, suolasillat, vetysidokset... Kvaternäärinen Ei-kovalenttiset vuorovaikutukset 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen Kuva: Wikipedia, 4 Protein Structure

Proteiiniperheet ovat sukulaisproteiinien kokoelmia Proteiiniperhe on kokoelma evolutionaarisesti läheisiä proteiineja, joilla on yhteinen kantaisä Proteiinit järjestetään perheisiin aminohapposekvenssien rinnastuksen (SA, sequence alignment) avulla Kuva: Wikipedia, 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen Sequence Alignment 5

Proteiinidatapankit: rakenteet ja muuta tietoa Proteiinien kolmiulotteiset rakenteet avoimesti saatavilla Tietokannat sisältävät myös primääriset rakenteet ja muuta tietoa proteiineista Proteiinit järjestetty perheittäin fylogeneettiset puut, MSA:t (monen sekvenssin rinnastus, multiple sequence alignment) Esim. PFAM 13672 perhettä, jokaisessa kymmenistä tuhansiin proteiineja Mahdollistavat rakenteiden tilastollisen ennustamisen! 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 6

Proteiinin rakenteen ennustaminen (PSP) Proteiinin 3D-rakenteen ennustamista primäärisen rakenteen perusteella Sovelluskenttä laaja Lääkekehitys (lääkkeiden vuorovaikutukset) Bioteknologia (keinotekoiset entsyymit jne.) Tässä esitelmässä käsitellään kontaktiresidyjen ennustamista Kontaktiresidyjen tunteminen EI vielä kerro 3Drakennetta, mutta auttaa esim. laskostumissimulaatioissa 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 7

Kontaktiresidyt voidaan löytää MSA:n avulla Tarkoitus selvittää proteiinin 3D-rakenteessa kosketuksissa toisiinsa olevat aminohapporesidyt primäärisen rakenteen perusteella Improved contact prediction in proteins: Using pseudolikelihoods to infer Potts models, M.Ekeberg, C.Lövkvist, Y.Lan, M.Weigt, E.Aurell, arxiv:1211.1281 Tämä voidaan tehdä etsimällä korrelaatioita MSA:sta Taustalla hypoteesi siitä, että lähekkäin kolmiulotteisessa rakenteessa olevat residyt kehittyvät yhdessä evoluution kuluessa 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 8

MSA-esimerkki Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 9

Epäsuorat korrelaatiot haittaavat oikean rakenteen löytämistä Vuorovaikutukset synnyttävät kahdenlaisia korrelaatioita: suoria: aminohappo A muuttuu, koska sen kanssa vuorovaikuttava aminohappo B muuttuu epäsuoria: aminohappo C muuttuu koska se on aminohapon A vieressä aminohappoketjussa, ja A muuttuu koska se vuorovaikuttaa B:n kanssa Epäsuorat korrelaatiot eivät siis vastaa todellisia pitkän kantaman vuorovaikutuksia -> halutaan oppia malli, joka erottaa suorat ja epäsuorat korrelaatiot 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 10

Pottsin malli pystyy kuvaamaan empiiriset korrelaatiot Pottsin malli on yksinkertaisin empiiriset korrelaatiot tuottava malli σ on N:n pituinen aminohapposekvenssi ja jokainen σ i voi saada yhden 21:stä arvosta (yksi jokaiselle aminohapolle ja yksi aukolle rinnastuksessa) h i ja J ij ovat mallin vapaat parametrit 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 11

Uskottavuusfunktion maksimointi antaa oikeat parametrit Tehtävä on siis löytää parametrit siten, että malli tuottaa samat korrelaatiot jotka voidaa laskea MSA:sta Uskottavuusfunktio kertoo todennäköisyyden generoida k.o data tietyillä parametreilla Uskottavuusfunktio on statistisen mallin parametrien funktio, jonka maksimiarvo antaa parametrit, jotka kuvaavat dataa parhaiten 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 12

Pseudouskottavuuden optimointi on laskennallisesti kevyempää Uskottavuusfunktion laskeminen vaatii tilasumman laskemista -> laskennallisesti raskasta Approksimoidaan uskottavuutta pseudouskottavuudella, joka on ehdollinen todennäköisyys havaita yksi muuttuja kun kaikkien muiden muuttujien tilat tiedetään Oikeastaan etsitään negatiivisen pseudouskottavuuden logaritmin minimiä -> laskennallisesti helpompaa 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 13

Parametrit kertovat vuorovaikutusten voimakkuuden Vuorovaikutusten voimakkuutta kuvaa qxq matriisi (q=aminohappojen lukumäärä) Vuorovaikutusten voimakkuuksien järjestämiseksi tarvitaan skalaarisuure Ekeberg et. al. käyttävät Frobeniuksen normia 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 14

plmdca pähkinänkuoressa (Pseudo Likelihood Minimization DCA) 1) Lasketaan MSA:sta korrelaatiot 2) Minimoidaan Pottsin mallin pseudouskottavuusfunktio käyttäen empiirisiä korrelaatioita sidosehtoina 3) Lasketaan vuorovaikutusten voimakkuudet saaduista malleista käyttäen Frobeniuksen normia Tässä jätetty yksityiskohtia pois (mm. fylogeneettiset korjaukset) 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 15

Vertailu kokeellisiin tuloksiin Mallin antamaa ennustetta kontaktiresidyistä verrataan proteiinidatapankeista saatuihin 3D-rakenteisiin Kristallografiakuvissa ei lue minkä aminohapporesidyjen välillä on vuorovaikutus Määritetään vuorovaikuttavat residyt residyjen välisten etäisyyksien avulla 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 16

Residyjen välisten etäisyyksien histogrammi (3D-rakenteessa) 1,5Å:n piikki: Peptidisidokset naapuriaminohappojen välillä Piikit 3-5Å ja 7-8Å epätriviaaleja 3D-rakenteesta johtuvia Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 17

Y-akseli: oikein ennustettujen kontaktien osuus kaikista ennustetuista kontakteista X-akseli: Ennustettujen kontaktien määrä N=aminohappoketjun pituus B eff =Rinnastettujen sekvenssien lukumäärä Mukana vain parit joille i-j >4 Oikeaa kontaktien lukumäärää ei tiedetä (tarkistamatta) -> tarvitaan pisteraja kontakteille Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 18

Y-akseli: vuorovaikutuspisteet pseudouskottavuuden minimoinnilla X-akseli: Keskeiskenttämallilla Suurempi lukuarvo -> vahvempi vuorovaikutus Hyvin toimiva malli erottaa vihreät ja punaiset pisteet toisistaan! Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 19

Potts ja pseudouskottavuus, +/- Ennusteet lähempänä todellisia rakenteita kuin aiemmilla malleilla, ennustukset eivät silti täydellisiä (kaikki vihreät ja punaiset pisteet eivät erotu toisistaan) Keskeiskenttämalli-algoritmin suoritusaika pöytäkoneella muutama sekunti, pseudouskottavuuden maksimoinnin suoritus voi viedä monta tuntia jos proteiiniperheessä on monta rinnakkaista sekvenssiä Pottsin mallissa rinnastusten aukkoja kohdellaan kuin oikeita aminohappoja, tuskin oikeutettua? 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 20

Yhteenveto Proteiinidatapankit mahdollistavat tilastolliset lähestymistavat proteiinien rakenteen ennustamiseen Pottsin malli yhdistettynä pseudouskottavuuden maksimointiin ennustaa hyvin kontaktissa olevat residyt proteiinin aminohappoketjussa Mallin ongelmana on tällä hetkellä sen hitaus 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 21

Kiitos! Kuva: xkcd.com/793 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 22