Aukkoja sekvensseissä Tuomo Hartonen Teoreettisen fysiikan syventävien opintojen seminaari 25.04.13
Terminologiaa Aminohappo = proteiinien rakennuspalikka, proteiinit rakentuvat 22:sta erilaisesta, 20 näistä normaaleja Aminohapporesidy = yksittäinen aminohappo (monomeeri) aminohappojen muodostamassa ketjussa (polymeerissä) Proteiini = biomolekyyli joka koostuu yhdestä tai useammasta aminohappoketjusta Kontaktiresidy = proteiinin 3D-rakenteessa toisen residyn kanssa kosketuksissa oleva residy 25.04.2013 Aukkoja sekvensseissä 2
Esitelmän rakenne Lyhyt kertaus kontaktiresidyjen ennustamisesta Suurimman entropian periaate auttaa mallin valinnassa Aukot sekvenssien rinnastuksissa, mitä niille tulisi/voisi tehdä? Yhteenveto Kuva: http://commons.wikimedia.org/wiki/file:sp ombe_pop2p_protein_structure_rainbow. 25.04.2013 Aukkoja sekvensseissä png 3
MSA 25.04.2013 Aukkoja sekvensseissä Kuva: http://upload.wikimedia.org/wikipedia/com 4 mons/7/79/rplp0_90_clustalw_aln.gif
Kontaktiresidyjen ennustaminen Kuva: arxiv:1211.1281, M.Ekeberg et. al. 25.04.2013 Aukkoja sekvensseissä 5
Kontaktiresidyt auttavat 3D-rakenteen ennustamisessa Proteiinien 3D-rakenteen ennustaminen on yksi tärkeimpiä bioinformatiikan ja teoreettisen kemian tavoitteita Laskostumisprosessin parempi ymmärtäminen, tieto 3D-rakenteesta ilman aminohappoketjun fyysistä valmistamista Sovelluskohteina mm. uusien lääkkeiden ja entsyymien kehittäminen Aminohappoketju kontaktiresidyt Monte Carlosimulaatio 3D-rakenne 25.04.2013 Aukkoja sekvensseissä 6
Suurimman entropian periaate Kilpailevista, yhtä selitysvoimaisista teorioista tulisi valita yksinkertaisempi (Occamin partaveitsi) Entropia mittaa todennäköisyysjakauman epävarmuuden määrää (Shannon 1948, Jaynes 1957) Entropian maksimoiminen antaa todennäköisyysjakauman, joka on yleisin mahdollinen annetuilla sidosehdoilla 25.04.2013 Aukkoja sekvensseissä 7
Oikean jakauman löytäminen on helppoa ja hauskaa! 1) Määritä sidosehdot 2) Maksimoi entropia sidosehtojen vallitessa (Lagrangen kertojien menetelmä 1 parametri per kertoja) 3) Ihastele jakaumaa, joka tekee vähiten oletuksia datasta 4) Ratkaise Lagrangen kertojat, eli mallin parametrit. Vaatii Z:n laskemista! (usein ei helppoa, aina ei myöskään hauskaa approksimatiiviset menetelmät) 25.04.2013 Aukkoja sekvensseissä 8
Pottsin malli Saadaan kun käytetään sidosehtoina aminohappojen esiintymistiheyksiä datassa σ on N:n pituinen sekvenssi ja jokainen σ i voi saada yhden 21:stä arvosta (21 aminohappoa, 1 aukko) 25.04.2013 Aukkoja sekvensseissä 9
Aukot eroavat aminohapoista Aminohapot ovat oikeasti olemassa, mutta aukot ovat rinnastusalgoritmin luomia keinotekoisia tiloja Pottsin malli käsittelee kaikkia 21 tilaa samalla tavalla! Esimerkiksi aukkojen pituuksien histogrammi poikkeaa selvästi muista aminohapoista 25.04.2013 Aukkoja sekvensseissä 10
25.04.2013 Aukkoja sekvensseissä 11
Erilaisia tapoja kohdella aukkoja Voidaan kokeilla erilaisia tapoja muuttaa mallia s.e se ottaa aukot paremmin huomioon Esim. arvotaan aukon paikalle satunnainen aminohappo, tai skaalataan tuloksia siten, että aukkojen väliset vuorovaikutukset heikentyvät On helppo löytää malleja, jotka ennustavat kontaktit huonommin! Teoreettinen motivaatio? 25.04.2013 Aukkoja sekvensseissä 12
Yksinkertaiset kokeilut eivät tuota tulosta 25.04.2013 Aukkoja sekvensseissä 13
Suurimman entropian periaate, revisited Asetetaan jakaumalle P(σ) lisää sidosehtoja, ja ratkaistaan jakauman muoto maksimoimalla entropia Uusien sidosehtojen lisääminen lisää malliin vähintään kolmen residyn välisiä vuorovaikutustermejä! Mitä enemmän sidosehtoja, sitä enemmän parametreja numeerisesti hankalampaa! 25.04.2013 Aukkoja sekvensseissä 14
Yhteenveto Suurimman entropian periaate on oikea tapa muodostaa mallin todennäköisyysjakauma, kun ei haluta tehdä ylimääräisiä oletuksia mallinnettavasta kohteesta Aukkojen käsitteleminen identtisesti aminohappojen kanssa on plmdca:n ilmeinen heikkous Suurimman entropian periaate mahdollistaa erilaisten sidosehtojen asettamisen nimenomaan aukoille 25.04.2013 Aukkoja sekvensseissä 15
Kiitos! Kiitokset myös: Erik Aurell, Martin Weigt, Alexander Mozeika, Rémi Lemoy, Onur Dijkmen, Magnus Ekeberg, Cecilia Lövkvist. Kuva: www.smbccomics.com/?id=2861 25.04.2013 Aukkoja sekvensseissä 16