Proteiinien kontaktiresidyjen ennustaminen Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari 13.12.12
Terminologiaa Aminohappo = proteiinien rakennuspalikka, luonto käyttää 20 erilaista Aminohapporesidy = tietty aminohappo (monomeeri) aminohappojen muodostamassa ketjussa (polymeerissä) Proteiini = biomolekyyli joka koostuu yhdestä tai useammasta aminohappoketjusta, luonnon työjuhta Kontaktiresidy = proteiinin 3D-rakenteessa toisen residyn kanssa vuorovaikuttava aminohapporesidy 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 2
Esitelmän rakenne Taustaa Proteiinien rakenne, proteiiniperheet, proteiinidatapankit Kontaktiresidyjen ennustaminen (DCA, Direct Contact Analysis) Pottsin malli kuvaa residyjen korrelaatioita Mallin parametrit uskottavuutta optimoimalla Kuinka hyvin malli toimii? Yhteenveto 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 3
Rakenteen luokittelu Primäärinen Kovalenttiset/peptidisidokset Sekundäärinen Vetysidokset Tertiäärinen Hydrofobiset vuorovaikutukset, suolasillat, vetysidokset... Kvaternäärinen Ei-kovalenttiset vuorovaikutukset 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen Kuva: Wikipedia, 4 Protein Structure
Proteiiniperheet ovat sukulaisproteiinien kokoelmia Proteiiniperhe on kokoelma evolutionaarisesti läheisiä proteiineja, joilla on yhteinen kantaisä Proteiinit järjestetään perheisiin aminohapposekvenssien rinnastuksen (SA, sequence alignment) avulla Kuva: Wikipedia, 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen Sequence Alignment 5
Proteiinidatapankit: rakenteet ja muuta tietoa Proteiinien kolmiulotteiset rakenteet avoimesti saatavilla Tietokannat sisältävät myös primääriset rakenteet ja muuta tietoa proteiineista Proteiinit järjestetty perheittäin fylogeneettiset puut, MSA:t (monen sekvenssin rinnastus, multiple sequence alignment) Esim. PFAM 13672 perhettä, jokaisessa kymmenistä tuhansiin proteiineja Mahdollistavat rakenteiden tilastollisen ennustamisen! 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 6
Proteiinin rakenteen ennustaminen (PSP) Proteiinin 3D-rakenteen ennustamista primäärisen rakenteen perusteella Sovelluskenttä laaja Lääkekehitys (lääkkeiden vuorovaikutukset) Bioteknologia (keinotekoiset entsyymit jne.) Tässä esitelmässä käsitellään kontaktiresidyjen ennustamista Kontaktiresidyjen tunteminen EI vielä kerro 3Drakennetta, mutta auttaa esim. laskostumissimulaatioissa 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 7
Kontaktiresidyt voidaan löytää MSA:n avulla Tarkoitus selvittää proteiinin 3D-rakenteessa kosketuksissa toisiinsa olevat aminohapporesidyt primäärisen rakenteen perusteella Improved contact prediction in proteins: Using pseudolikelihoods to infer Potts models, M.Ekeberg, C.Lövkvist, Y.Lan, M.Weigt, E.Aurell, arxiv:1211.1281 Tämä voidaan tehdä etsimällä korrelaatioita MSA:sta Taustalla hypoteesi siitä, että lähekkäin kolmiulotteisessa rakenteessa olevat residyt kehittyvät yhdessä evoluution kuluessa 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 8
MSA-esimerkki Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 9
Epäsuorat korrelaatiot haittaavat oikean rakenteen löytämistä Vuorovaikutukset synnyttävät kahdenlaisia korrelaatioita: suoria: aminohappo A muuttuu, koska sen kanssa vuorovaikuttava aminohappo B muuttuu epäsuoria: aminohappo C muuttuu koska se on aminohapon A vieressä aminohappoketjussa, ja A muuttuu koska se vuorovaikuttaa B:n kanssa Epäsuorat korrelaatiot eivät siis vastaa todellisia pitkän kantaman vuorovaikutuksia -> halutaan oppia malli, joka erottaa suorat ja epäsuorat korrelaatiot 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 10
Pottsin malli pystyy kuvaamaan empiiriset korrelaatiot Pottsin malli on yksinkertaisin empiiriset korrelaatiot tuottava malli σ on N:n pituinen aminohapposekvenssi ja jokainen σ i voi saada yhden 21:stä arvosta (yksi jokaiselle aminohapolle ja yksi aukolle rinnastuksessa) h i ja J ij ovat mallin vapaat parametrit 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 11
Uskottavuusfunktion maksimointi antaa oikeat parametrit Tehtävä on siis löytää parametrit siten, että malli tuottaa samat korrelaatiot jotka voidaa laskea MSA:sta Uskottavuusfunktio kertoo todennäköisyyden generoida k.o data tietyillä parametreilla Uskottavuusfunktio on statistisen mallin parametrien funktio, jonka maksimiarvo antaa parametrit, jotka kuvaavat dataa parhaiten 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 12
Pseudouskottavuuden optimointi on laskennallisesti kevyempää Uskottavuusfunktion laskeminen vaatii tilasumman laskemista -> laskennallisesti raskasta Approksimoidaan uskottavuutta pseudouskottavuudella, joka on ehdollinen todennäköisyys havaita yksi muuttuja kun kaikkien muiden muuttujien tilat tiedetään Oikeastaan etsitään negatiivisen pseudouskottavuuden logaritmin minimiä -> laskennallisesti helpompaa 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 13
Parametrit kertovat vuorovaikutusten voimakkuuden Vuorovaikutusten voimakkuutta kuvaa qxq matriisi (q=aminohappojen lukumäärä) Vuorovaikutusten voimakkuuksien järjestämiseksi tarvitaan skalaarisuure Ekeberg et. al. käyttävät Frobeniuksen normia 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 14
plmdca pähkinänkuoressa (Pseudo Likelihood Minimization DCA) 1) Lasketaan MSA:sta korrelaatiot 2) Minimoidaan Pottsin mallin pseudouskottavuusfunktio käyttäen empiirisiä korrelaatioita sidosehtoina 3) Lasketaan vuorovaikutusten voimakkuudet saaduista malleista käyttäen Frobeniuksen normia Tässä jätetty yksityiskohtia pois (mm. fylogeneettiset korjaukset) 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 15
Vertailu kokeellisiin tuloksiin Mallin antamaa ennustetta kontaktiresidyistä verrataan proteiinidatapankeista saatuihin 3D-rakenteisiin Kristallografiakuvissa ei lue minkä aminohapporesidyjen välillä on vuorovaikutus Määritetään vuorovaikuttavat residyt residyjen välisten etäisyyksien avulla 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 16
Residyjen välisten etäisyyksien histogrammi (3D-rakenteessa) 1,5Å:n piikki: Peptidisidokset naapuriaminohappojen välillä Piikit 3-5Å ja 7-8Å epätriviaaleja 3D-rakenteesta johtuvia Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 17
Y-akseli: oikein ennustettujen kontaktien osuus kaikista ennustetuista kontakteista X-akseli: Ennustettujen kontaktien määrä N=aminohappoketjun pituus B eff =Rinnastettujen sekvenssien lukumäärä Mukana vain parit joille i-j >4 Oikeaa kontaktien lukumäärää ei tiedetä (tarkistamatta) -> tarvitaan pisteraja kontakteille Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 18
Y-akseli: vuorovaikutuspisteet pseudouskottavuuden minimoinnilla X-akseli: Keskeiskenttämallilla Suurempi lukuarvo -> vahvempi vuorovaikutus Hyvin toimiva malli erottaa vihreät ja punaiset pisteet toisistaan! Kuva: arxiv:1211.1281, M.Ekeberg et. al. 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 19
Potts ja pseudouskottavuus, +/- Ennusteet lähempänä todellisia rakenteita kuin aiemmilla malleilla, ennustukset eivät silti täydellisiä (kaikki vihreät ja punaiset pisteet eivät erotu toisistaan) Keskeiskenttämalli-algoritmin suoritusaika pöytäkoneella muutama sekunti, pseudouskottavuuden maksimoinnin suoritus voi viedä monta tuntia jos proteiiniperheessä on monta rinnakkaista sekvenssiä Pottsin mallissa rinnastusten aukkoja kohdellaan kuin oikeita aminohappoja, tuskin oikeutettua? 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 20
Yhteenveto Proteiinidatapankit mahdollistavat tilastolliset lähestymistavat proteiinien rakenteen ennustamiseen Pottsin malli yhdistettynä pseudouskottavuuden maksimointiin ennustaa hyvin kontaktissa olevat residyt proteiinin aminohappoketjussa Mallin ongelmana on tällä hetkellä sen hitaus 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 21
Kiitos! Kuva: xkcd.com/793 13.12.2012 Proteiinien kontaktiresidyjen ennustaminen 22