S-114.2500 Basics for Biosystems of the Cell Harjoitustyö. Proteiinirakenteen mallintaminen. Niina Sandholm 62938M Antti Niinikoski 60348E

S-114.2500 Basics for Biosystems of the Cell Harjoitustyö Proteiinirakenteen mallintaminen Niina Sandholm 62938M Antti Niinikoski 60348E

Sisällysluettelo Johdanto... 3 Luonnontieteellinen perusta... 3 Proteiinit: Mitä, Missä, Miksi?... 3 Primäärirakenne... 3 Sekundäärirakenne... 3 Ramanchandran kulmat... 4 Tertiäärirakenne... 4 Kvartäärirakenne... 5 Proteiinisynteesi... 5 Laskostumisen mallintaminen ja laskennallinen lähestymistapa laskostumisongelmaan.. 6 Rakenteen vertaaminen... 6 Root mean square deviation (RMSD)... 6 Distance-matrix alignment (DALI)... 7 Stokastiset menetelmät... 7 Monte Carlo menetelmät... 7 Geneettiset algoritmit... 7 Piilotetut Markovin mallit (HMM, hidden Markov models)... 8 De novo mallintaminen... 8 Optimointi... 8 Oppivat mallit... 8 Vertaileva mallintaminen... 9 Homologioihin perustuva mallinnus... 9 Laskoksen tunnistus eli threading... 9 Proteiini-proteiini kompleksit... 11 Ohjelmat... 11 SWISS-MODEL... 11 jpred... 12 Rosetta... 12 Missä tällä hetkellä mennään?... 12 Kirjallisuuslähteet... 13

Johdanto Tässä työssä käsitellään proteiinien kolmiulotteisen rakenteen ennustamista. Aluksi esitellään proteiineja yleisellä tasolla, jonka jälkeen syvennytään työn painopisteeseen - laskostumisongelmaan. Aihetta lähestytään laskennallisesta näkökulmasta. Ennustamiseen on tarjolla suuri määrä ilmaisia ja helppokäyttöisiä ohjelmia, joten keskityimme työssä esittelemään yleisimpiä menetelmiä kolmiulotteisen rakenteen ennustamiseksi. Luonnontieteellinen perusta Proteiinit: Mitä, Missä, Miksi? Proteiinit ovat yleisimpiä biologisia makromolekyylejä. Niitä esiintyy kaikissa soluissa ja kaikissa solun osissa. Proteiinit vaihtelevat paljon muodoltaan ja kooltaan sekä biologiselta tarkoitukseltaan. Ne toimivat esimerkiksi entsyymeinä, hormoneina, vastaaineina, molekyylien siirtäjinä ja erilaisina tukirakenteina. Entsyymit ovat proteiineista vaihtelevimpia ja erikoistuneimpia, ja katalysoivat lähes kaikkia solussa tapahtuvia reaktioita. Proteiinin kolmiulotteinen muoto määrää proteiinin toiminnallisuuden. 1,2 Primäärirakenne Proteiinit ovat polymeerejä, jotka muodostuvat peptidisidoksin toisiinsa liittyneistä aminohapoista. Mahdollisia aminohappoja on yhteensä 20 erilaista, ja ne ovat samat kaikissa organismeissa. Primäärirakenteella tarkoitetaan proteiinin aminohappojen järjestystä, joka on DNA:n sekvenssin määräämä. Jokaisessa aminohapossa on alfahiileen sitoutuneena karboksyyliryhmä, aminoryhmä, vety sekä kullekin aminohapolle tyypillinen sivuketju. Peräkkäisten aminohappojen karboksyyli- ja aminoryhmät reagoivat muodostaen peptidisidoksen. Kuva 1. 1,2 Kuva 1: Osa aminohappoketjua. Sekundäärirakenne Sekundäärirakenne tarkoittaa proteiinin pääketjun paikallista laskostumismuotoa. Aminohappotähteiden polaaristen sivuryhmien väliset vetysidokset stabiloivat sekundäärirakenteen. Yleisimpiä sekundäärirakenteita ovat alfa-kierre ja beta-laskos. Kuva 2. Alfa-kierre on optimaalinen vetysidosten muodostamiseen, joten noin neljännes proteiinin aminohappotähteistä laskostuu alfa-kierteelle. Alfa-kierre on kierteinen rakenne, jossa normaalisti yhden kierroksen korkeus on 5,4Å ja 3,6 aminohappotähdettä.

Vetysidokset muodostuvat aina neljän aminohappotähteen välein. Toinen yleinen sekundäärirakenne on beta-laskos. Siinä pääketju muodostaa siksakmaisen rakenteen. Vetysidokset muodostuvat vierekkäisten beta-juosteiden välille. Jos juosteet kulkevat samaan suuntaan, on beta-laskos paralleeli, muuten antiparalleeli. Lisäksi pääketju voi muodostaa esimerkiksi beta-käännöksiä ja sekalaisia silmukoita. Kullakin sekundäärirakenteella on oma tyypillinen aminohappokoostumuksensa ja sallitut aminohappojen väliset kulmat. 1,2 kuva 2: Vasemmalla alfa-kierteen havainnekuva, sekä molekyylimalleja erilaisista alfa-kierteistä. Oikealla ylhäällä paralleelli beta-laskos, oikealla alhaalla antiparalleeli beta-laskos 20. Ramanchandran kulmat Ramanchandran kiertokulmakartalla voidaan tarkastella proteiinin stereokemiaa ja sekundäärirakenteiden esiintymistä. Aminohapot ovat esitettyinä kuvaajassa siten, että x- akselilla on esitetty phi-kulma ja vastaavasti y-akselilla psi-kulma. Pääketjun kiertyminen on sallittu ainoastaan typen ja alfa-hiilen sekä alfa-hiilen ja karboksyylihiilen välillä. Näiden sidosten phi- ja psi-kulmat sekä peptidisidoksen kiertyminen omega-kulman ympäri määräävät aminohappotähteen konformaation. Katso kuva 1. Peptidisidos on yleensä tasomainen, jossa ainoastaan kaksi tilaa ovat sallittuja: trans-muodossa omega kulma on 180 astetta ja cis muodossa kulma on 0 astetta. Trans-muoto on yleisin ja cismuoto esiintyy ainoastaan todella harvoin. 1,2 Tertiäärirakenne Tertiäärirakenne on monimutkainen kolmiulotteinen rakenne, joka koostuu laskostuneesta polymeeriketjusta. Vesiympäristössä hydrofobiset aminohappoketjut ovat hautautuneet proteiinin sisäosiin, ja pinnalla on hydrofiiliset sivuketjut. Usein myös proteiinin sisäosissa olevassa aktiivisessa kohdassa on hydrofiilisia aminohappoja. Rakenne stabiloituu vetysidosten sekä kovalenttisten sidosten, kuten rikkisiltojen avulla. Lisäksi aminohappojen välille voi muodostua van der Wahlsin voimia ja ionisidoksia. Sidokset voivat muodostua sekä vierekkäisten että kaukana olevien aminohappojen välille. 1,2

Kvartäärirakenne Jotkut proteiinit muodostuvat useista polypeptidiketjuista, jotka voivat olla joko erilaisia tai samanlaisia eli hetero- tai homomeereja. Rakenteeseen voi kuulua myös esimerkiksi hiilihydraatteja, ioneja ja muita yhdisteitä. Näiden kolmiulotteinen järjestys on proteiinin kvartäärirakenne. Kuva 3. 1,2 Kuva 3: Vasemmalla hemoglobiini, johon sitoutununeena hemiryhmiä. Oikealla useasta samanlaisesta alayksiköstä koostuva homomeeri. 21 Proteiinisynteesi Proteiinisynteesissä solu valmistaa proteiineja DNA:n ohjeiden mukaan. Ensin tumassa tapahtuu transkriptio, jossa DNA:n geneettinen koodi käännetään lähetti-rna:ksi (mrna). Tämän jälkeen mrna siirtyy solulimaan ribosomeihin, joissa geneettinen koodi translatoidaan aminohappoketjuksi. Kuva 4. mrna:ssa kolme emästä muodostavat yhden kodonin. Koska nukleiinihappoja on DNA:ssa neljää erilaista, mahdollisia kodoneita on 4x4x4=64. Aminohappoja on vain 20, joten kutakin aminohappoa koodaa yksi tai useampi kodoni. Ribosomi lukee mrna:ta kodoni kerrallaan, ja paikalle saapuu siirtäjä-rna:n kuljettamana kodonia vastaava aminohappo. Ribosomissa aminohappojen välille muodostuu peptidisidos. Ketjun pidetessä aminohappoketjun ensiksi muodostunut pää poistuu ribosomista, ja aloittaa laskostumisensa. Kun polypeptidiketju on riittävän pitkä, se alkaa erottua aliyksiköiksi ja yksiköiksi. Laskostumisen aiheuttavista voimista tärkein on hydrofobinen efekti. Hydrofobisten alueiden pakkautuessa sisään ympäröivien vesimolekyylien järjestäytyneisyys vähenee ja näin ollen entropia kasvaa. Lopulta proteiinin polypeptidiketju on syntetisoitu ribosomissa, ja proteiini saavuttaa tertiääri- ja kvartäärirakenteensa. Yleensä laskostumisprosessiin tarvitaan avuksi saperoneja. Toinen saperonien päätyyppi HSP70 ( heat shock protein ) tunnistaa peptidiketjun hydrofobiset alueet ja tarttuu niihin helpottaen muiden osien laskostumista. Toisen päätyypin HSP60 saperonit ovat suuria tynnyrimäisiä proteiineja, jotka ottavat sisäänsä koko laskostuvan proteiinin ja antavat proteiinille rauhallisen paikan löytää oma muotonsa. 1,2

Laskostumisen mallintaminen ja laskennallinen lähestymistapa laskostumisongelmaan Ihmisen genomi -projekti saatiin päätökseen vuonna 2003. Seuraava tiedemiehiä askarruttava tehtävä on selvittää toiminta ja tarkoitus kaikista ihmisen genomiin koodatuista proteiineista. Nykyään tunnetaan ainoastaan murto-osa proteiineista. Jos pystyisimme ennustamaan jokaisen proteiinin, pystyisimme syventämään tietämystämme kuinka ne mahdollistavat organismin toimimisen systeeminä. Proteiinin rakenne avaa tien ymmärtää ja jopa säätää sen toimintaa. Tietoa voidaan käyttää apuna mm. tautien ennalta ehkäisemisessä ja hoidossa. 3 Proteiinin laskostuminen kestää luonnossa mikrosekunneista useisiin sekunteihin. Laskostumiseen vaikuttavat useat tekijät. Lämpötila, muiden molekyylien pitoisuudet kuten suolojen, ja aminohappoketjun mutaatiot vaikuttavat proteiinin laskostumiseen. Jo pitkään on kuitenkin tiedetty, että tieto proteiinin oikeaan laskostumiseen sisältyy aminohappojärjestykseen. Laskostumisprosessissa proteiini käy läpi tuhansia eri muotoja ennen kuin se saavuttaa toiminnallisen muotonsa eli natiivin konformaationsa. 1,2 Levinthalin esitti kuuluisassa paradoksissaan, että miten on mahdollista, että proteiini laskostuu täsmälliseen kolmiulotteiseen rakenteeseensa paljon lyhyemmässä ajassa kuin olisi mahdollista käymällä läpi konformaatioavaruutta. Miten luonto ratkaisee tämän ongelman? Laskeeko jokainen atomi siihen vaikuttavat vuorot itsenäisesti muodostaen näin rinnakkaislaskentaa? Tapahtuuko laskostuminen pienissä osissa? Onko luonto valinnut mahdollisesti helposti laskostettavat sekvenssit? Saavutetaanko päämäärä useita konformaatio reittejä pitkin? Osaako luonto ratkoa NP-täydellisiä ongelmia polynomiajassa? Miten voimme lähestyä ongelmaa laskennallisesti käsin? Seuraavaksi esittelemme muutamia yrityksiä ratkaista tämä visainen ongelma. 4 Rakenteen vertaaminen Root mean square deviation (RMSD) Kahden proteiinin rakennetta voidaan vertailla käyttäen root mean square deviation menetelmää. Ideana on mitata alfa hiilien välisiä etäisyyksiä kahdessa proteiinissa. Mitä pienempi ero on, sitä lähempänä rakenteet ovat avaruudellisesti toisiaan. (Samalla proteiinille RMSD:n arvon pitäisi olla 0, mutta mittausvirheet ja muut variaatiot aiheuttavat eroja.) Jos merkitään ri malli ja ri oikea i:n alfa hiilen paikkaa mallissa ja oikeassa ja N:llä alfa hiilien lukumäärää voidaan RMSD määritellä 5 RMSD = 1 N N i= 1 r malli i r oikea i 2

Distance-matrix alignment (DALI) Kun proteiinit kehittyvät, niiden rakenne muuttuu. Koska proteiineilla on avaruudellisesti erilaisia rakenteita, ei RMSD menetelmä välttämättä anna hyviä tuloksia kahdelle läheiselle proteiinille. Silti yhteydet sivuketjujen välillä säilyvät samanlaisina kahden yhtenäisen proteiinin välillä. Näin ollen, analysoimalla yhteyksiä pystymme määrittelemään yhteenkuuluvat proteiinit. DALIssa käytetään jokaisen proteiinin kolmiulotteisia koordinaatteja laskemaan sivuketju-sivuketju (C α -C α ) etäisyys matriisi. 6 Stokastiset menetelmät Stokastisia menetelmiä käytetään sekä de novo että vertailevassa mallintamisessa. Monte Carlo menetelmät Monte Carlo menetelmät ovat laskennallisia algoritmeja, joita käytetään mallinnettaessa fysikaalisia ja matemaattisia systeemeitä. Monte Carlon stokastinen luonne johtuu yleensä siitä, että niissä käytetään satunnaislukuja. 7,8 Monte Carlo algoritmi on numeerinen menetelmä, jota käytetään etsimään ratkaisua matemaattiseen, joka ei muuten olisi helposti ratkaistavissa. Sen tehokkuus kasvaa muihin numeerisiin menetelmiin nähden dimension kasvaessa. 7 Monte Carlossa on syytä huomioida kuinka valitsee satunnaisluvut. Yleisesti käytetään pseudosatunnaislukuja, jotka on johdettu muistuttamaan satunnaislukuja jollain deterministisellä keinolla. Niiden hyöty on siinä, että simulaatiota on helppo testata ja uudelleen ajaa. Satunnaislukujen täytyy silti olla riittävän satunnaisia tutkittavaan ongelmaan nähden. 7 Geneettiset algoritmit Geneettiset algoritmit ovat saaneet nimensä analogiasta suvullisen lisääntymisen kiasmointiin ja mutaatioihin. Oletetaan, että meillä on populaatio jonka koko on m. Lisäksi oletetaan, että populaation jäsenet muodostuvat satunnaisista bitti ketjuista, joiden pituus on n. Nyt ajanhetkellä t, populaatio P(t) muodostuu ketjuista (kromosomeista) x 1,,x m. Jokaisella ketjulla x i on yhteensopivuus f(x i ), jolloin tavoitteemme on määrittää milloin f saavuttaa maksiminsa. Populaation sopivuus F(t) on yksittäisten sopivuuksien m summa eli F( t) = i = f ( x 1 i ). Esimerkiksi f(x i ) voi olla hydrofobisten sivuketjujen kosketukset proteiinin konformaatiossa. Lisääntymisvaiheessa tarkoitus on väliaikainen populaatio P (t), jossa x i :n tapahtumien odotettu lukumäärä P (t) on mp i, ja p i on suhteellinen sopivuus, joka voidaan laskea f ( xi ) kaavasta pi =. F( t) Jos oletamme, että yksilöt x i ovat vektorissa A. Voimme nyt parittaa A[0] A[1]:n kanssa, A[2] A[3]:n kanssa jne. ja suorittaa kiasmoinnin. Kiasmointi suoritetaan valitulle parille siten, että valitaan satunnaisesti kiasmointi kohta 1 i < n, jolloin äidin ketjusta a 1,,a n ja isän ketjusta b 1,,b n voidaan muodostaa uusi pari a 1,,a i, b i+1,,b n ja

b 1,,b i, a i+1,,a n. Mutaatioita saadaan aikaiseksi siten, että jokaista bittiä ketjussa yritetään vaihtaa jollain (pienellä) todennäköisyydellä. 8 Piilotetut Markovin mallit (HMM, hidden Markov models) Perinteisessä Markov-ketjussa tilassa i oleva systeemi siirtyy tilaan j siirtymätodennäköisyydellä p i,j. Tällöin oletetaan, että voimme tutkia systeemin tilaa. Jos nyt oletamme, ettemme pysty suoraan tutkimaan systeemin tilaa, mutta joka tilassa systeemi emittoi todennäköisyyden b i,k, joka kertoo onko systeemi tilassa i. Näin saadaan aikaiseksi piilotettu Markov malli. Eli jos nyt olisi b i,k =1, silloin kun k = i, olisi kyseessä normaali Markovin ketju. HMM:n algoritmit päättelevät tilasiirtymisten todennäköisyyksiä sekä ulostuloemissiota tutkitusta tiedosta, synnyttääkseen tilastollisen mallin, joka pystyisi generoimaan tutkitun tiedon. 8 De novo mallintaminen De novo- tai ab initio- menetelmät yrittävät ratkaista laskostumisongelman pohjalta lähtien. Lähestymistapoja on useita, mahdollisesti saatetaan matkia proteiinin laskostumista tai käyttää jotain stokastista menetelmää etsittäessä mahdollisia ratkaisuja. Kaikilla eri konformaatioilla on eri potentiaalienergia, mutta Anfinsenin hypoteesin mukaan natiivi konformaatio mimimoi potentiaalienergiafunktion. Aminohapposekvenssistä päästään siis laskokseen minimoimalla potentiaalienergiafunktion arvon. 8 Optimointi Matematiikassa optimointi tarkoittaa ongelmien tutkimusta jotka ovat muotoa f : A R, jostain joukosta A reaalilukuihin. Etsitään elementti x 0 joukossa A jolle f(x 0 ) f(x) (minimointi) tai jolle f(x 0 ) f(x) (maksimointi) kaikille x joukossa A. Optimoinnilla voidaan yrittää saavuttaa laskenta-ajan vähenemistä tai yrittää löytää energiafunktio minimejä. Jäädytys optimoinnissa osaa proteiinin rakenteesta pidetään liikkumattomana. Näin saavutetaan laskentatehon säästöä, kun ei tarvitse käydä läpi niin suurta joukkoa konformaatioita. Siloitus optimoinnissa laskentatehon säästö saavutetaan mallin asteittaisella parantamisella. Aluksi tehdään rajuja approksimaatioita kunnes huomataan, että tulokset siirtyvät hyvään suuntaan ja malli tarvitsee tarkennusta. 8 Oppivat mallit Oppivia malleja on käytetty onnistuneesti lähinnä sekundäärirakenteen ennustamiseen. Sekundaarirakennetta on yritetty ennustaa suoraan aminohapposekvensseistä käsin erilaisilla hahmontunnistusmenetelmillä, kuten ennestään tunnetun rakenteen omaavien proteiinien avulla harjoitetuilla neuroverkoilla. 9,10 Rakenteiden ennustamisessa on luontevaa käyttää ohjattua oppimisparadigmaa. Ylivoimaisesti eniten sekundaarirakenne-ennustuksissa on käytetty monikerroksisia perceptron-verkkoja. Neuroverkolle tulevan tiedon koodauksella tarkoitetaan symbolisten muuttujien muuntamista numeeriseen muotoon 11. Luonnossa esiintyvien aminohappojen lukumäärä on 20, joten neuroverkolle täytyy olla 20 eri numeerisessa muodossa olevaa muuttujaa. Sekundäärirakenne ei ole kiinni pelkästään juuri tarkastelun kohteena olevasta aminohaposta, vaan tästä edelliset ja seuraavat aminohapot ovat vuorovaikutuksessa

toistensa kanssa. Tämän takia sekundaarirakennetta kannattaa tarkastella useamman läheisen aminohapon perusteella ja syöttää neuroverkolle usea aminohappo kerrallaan. Aminohapot kerätään järjestyksessä tarkasteluikkunan avulla. Tarkasteluikkunan pituus pidetään koko sekvenssien läpikäynnin aikana samana. Jokaisessa positiossa tarkastetaan, mikä rakenne tarkasteluikkunan keskikohdan alueella esiintyy, ja sekvenssin luokitus määräytyy tämän mukaan. Tarkasteluikkunaa liikutetaan pitkin aminohapposekvenssiä ja aina yhdestä positiosta saadaan yksi opetusjoukon yksilö. Menetelmän ongelmana on, että opetusjoukon tapausten määrän pitäisi olla kymmenen kertaa neuroverkon yhteyksien lukumäärä. Yhteyksien määrä puolestaan kasvaa nopeasti sekvenssin pidentyessä 12. Pienellä opetusjoukolla mallinnettaessa on riskinä, että verkko oppii liian hyvin mallintamaan opetusjoukkoa, muttei enää kykene yleistymään yleiselle proteiinijoukolle sopivaksi. Ennustavaa systeemiä testatessa pitääkin käyttää testisekvenssijoukkoa, jossa ei ole samoja sekvenssejä kuin opetusjoukossa 13. Vertaileva mallintaminen Homologioihin perustuva mallinnus Homologioihin perustuvassa mallinnuksessa lähdetään teoriasta, jonka mukaan samankaltaiset sekvenssit laskostuvat samalla tavalla. Jos siis tutkittavalle proteiinille löydetään homologinen proteiini, jonka kolmiulotteinen rakenne tiedetään, voidaan tutkittavan proteiinin runko mallintaa samanlaiseksi kuin mallina toimivan homologisen proteiinin. Menetelmässä vaihdetaan laskennallisesti mallina toimivan proteiinin aminohapot niin, että ne vastaavat mallinnettavan proteiinin sekvenssiä. Menetelmän ongelmina on hyvien menetelmien löytäminen sekvenssien kohdentamiseksi, sekä tunnettujen proteiinirakenteiden pieni määrä. Menetelmä toimii lähinnä vain samaan sukuun tai supersukuun kuuluville proteiineille, jolloin puhtaasti rakenteelliset samankaltaisuudet jäävät huomaamatta. Hyvä puoli menetelmässä on, että samaan sukuun kuuluvat proteiinit muodostavat luotettavampia tuloksia, ja tulosten perusteella voidaan arvioida myös proteiinin toimintaa in vivo 15. Laskoksen tunnistus eli threading Laskoksen tunnistus on tällä hetkellä menestyksekkäimpiä menetelmiä ennustaa proteiinin tertiäärirakennetta. Menetelmä toimii ainakin joten kuten noin 80%:lle tutkittavista proteiineista 14. Laskoksen tunnistusmenetelmä sijoittuu homologioihin perustuvan ja ab initio -mallinuksen välimaastoon. Menetelmän perusidea on, että suuri osa proteiineista laskostuu pieneen märään erilaisia laskostumismuotoja. Arviot erilaisten laskostumismuotojen määrästä liikkuvat nykyisin 1000-2000 välillä 15. Laskostumismuodot voidaan jakaa karkeasti kolmeen pääluokkaan: vain α-kierteitä, vain β-laskoksia tai sekä α-kierteitä että β-laskoksia sisältävät rakenteet. Molempia sekundäärirakenteita sisältävät voidaan jakaa TIM-barrel:eihin, Sandwich:eihin sekä Roll:eihin. Kaikki löydetyt rakenteet voidaan jaotella näihin luokkiin 14. Kuva 6.

Kuva 4 Vasemmalla TIM-barrel ja oikealla sandwich-rakenne 22,23. Oikean rakenteen ab initio menetelmillä etsimisen sijaan voidaan olettaa, että proteille sopiva oikea tai lähes oikea kolmiuloitteinen rakenne on jo löydetty ja tallennettu johonkin rakenteiden tietokannoista. Jos proteiinille löytyy homologia, jonka kolmiulotteinen rakenne tunnetaan, on laskoksen tunnistusonegelma triviaali, ja voidaan suoraan käyttää homologioihin perustuvaa mallinnusta. Laskoksen tunnistusmenetelmällä voidaan kuitenkin tunnistaa rakenteellisia samankaltaisuuksia, vaikka sekvensseissä ei olisi varsinaisia yhtäläisyyksiä. Ensin valitaan tietokannoista edustava kirjasto proteiinirakenteita. Kirjastoon voidaan valita joko kokonaisia proteiineja, rakenteellisia alayksiköitä tai konservoituja ytimiä. Tutkittava sekvenssi kohdistetaan sitten jokaiseen kirjaston proteiinirakenteeseen vuorollaan. Homologia mallinnuksesta eroten sekvenssejä ei kohdisteta pelkästään suoran aminohappovastaavuuden perusteella, vaan huomioidaan menetelmästä riippuen myös esimerkiksi todennäköisyys sijaita erilaisissa sekundäärirakenteissa sekä sijaita proteiinin sisällä tai pinnalla, rakenteeseen muodostuvat pareittaiset vuorovaikutukset ja sivuketjun koko. Kohdistamiseen käytetään useita erilaisia algoritmeja, useimmiten dynaamisia ohjelmointialgoritmeja, mutta myös muita kuten Gibbs sampling tai branch-and-bound searching. Kun sekvenssit on kohdistettu, voidaan sekvenssi sijoittaa proteiinirakenteen templaattiin. Silmukoiden alueella sallitaan lisäyksiä ja deleetioita. Kulmia ja etäisyyksiä voidaan myös optimoida sopivammiksi. Parhaan osuman valitsemiseksi tarvitaan jonkinlainen pisteytysfunktio. Kohdistetulle sekvenssille voidaan laskea vapaaenergian määrä tai vapaaenergiaa jäljittelevä funktio kyseisessä muodossa. Funktioon voidaan valita mukaan laskettavaksi esimerkiksi ympäristötekijät kuten hydrofobisten aminohappojen pakkautuminen ytimeen sekä pareittain toisiinsa koskettavien sivuketjujen yhteensopivuutta. Menetelmän tuloksena saadaan lista parhaiten sekvenssille sopivista proteiinirakenteista. Laskoksen tunnistusmenetelmällä tuotettujen mallien oletettavissa oleva tarkkuus voidaan jakaa kolmeen ryhmään: Jos malli ja mallinnettava kuuluvat samaan proteiinisukuun(family), on sekvensseissä selvää samankaltaisuutta. Laskoksen tunnistusmallit ovat lähes täysin tarkkoja ja RMSD on 1.0-3.0Å, riippuen sekvenssien yhtäläisyydestä. Jos proteiinit kuuluvat samaan superperheeseen niillä ei ole merkittävää

samanlaisuutta sekvenssissä, mutta selkeä evolutiivinen yhteys. Mallit ovat osittain oikeita, varsinkin aktiivisten kohtien alueella. RMSD on tyypillisesti 3.0-6.0Å riippuen käytetystä kohdistusmenetelmästä. Jos proteiinit ovat analogioita (eli samankaltaisia, mutta eivät kehittyneet samasta muodosta), mallin taso on huomattavasti heikompi. RMSD:tä ei ole järkeä laskea, sillä suuret siirtymät kohdistuksessa luovat lähes satunnaisia RMSD:n arvoja. Malli on topologisesti oikein, eteenkin sekundäärirakenteen osalta. Laskoksen tunnistusmenetelmä toimii hyvin globulaarisille proteiineille, mutta sillä ei pystytä luotettavasti ennustamaan sellaisten proteiinien rakennetta, jotka koostuvat useista yksiköistä. Vielä ei ole kyetty kehittämään algoritmia, joka osaisi erottaa yksiköt toisistaan primäärirakenteen perusteella 15. Proteiini-proteiini kompleksit Useissa tapauksissa proteiinit muodostavat yhteenliittymiä. Jos tunnemme yksittäisten proteiinien rakenteen tai pystymme ennustamaan sitä korkealla tarkkuudella, voidaan proteiini-proteiini telakoitumismenetelmät ottaa käyttöön. Esimerkiksi Quantum 3.1. ohjelmalla voidaan laskea vapaa sitomisenergia ja ennustaa IC50 (inhibitory concentration 50%) kaikille proteiini-proteiini komplekseille, joiden koordinaatit tunnetaan. 8 Ohjelmat Useimmat ohjelmat perustuvat internetissä toimiviin palvelemiin. Yleisin formaatti tiedon välitykseen tietopankkien välillä on FASTA. Osaa ohjelmista pyöritetään tehokkailla palvelimilla ja osaa laskentaverkkoihin perustuvissa klustereissa. SWISS-MODEL SWISS-MODEL on internetpalvelin, jonka ylevänä tarkoituksena on tehdä proteiinien mallinnus mahdolliseksi kaikille maailman biokemisteille ja molekyylibiologeille. Peruskäytössä ohjelma soveltuu tertiäärirakenteen ennustamiseen, mutta sillä voidaan ennustaa myös kvartäärirakennetta tai viimeistellä omia proteiinirakennemalleja. Ohjelmalle annetaan proteiinin sekvenssi FASTA-formaatissa, ja se lähettää sähköpostilla ennustetun rakenteen PDB-muodossa. Ohjelma toimii viidessä vaiheessa. Ensilähestymisvaihe etsii mahdollisia rakennepohjia BLASTP2:n avulla. Se etsii samankaltaisuuksia kohdesekvenssin ja rakenteeltaan tunnettujen proteiinien sekvenssien väliltä. Jos käyttäjä haluaa käyttää omaa rakennepohjaansa, tämä vaihe ohitetaan. Toisessa vaiheessa SWISS-MODEL käyttää ohjelmaa nimeltä SIM, joka valitsee rakennepohjat, joiden sekvenssin samanlaisuus on yli 25% ja koko yli 20 aminohappoa. Kolmannessa vaiheessa ohjelma luo ProModII syötetiedoston. Neljännessä vaiheessa ProModII luo rakennemallit. ProMod on vertailevaan mallinnukseen perustuva ohjelma. Ensin se kohdistaa kolmiulotteiset rakenteet ja luo moninkertaisen ryhmittelyn mallinnettavan sekvenssin kanssa. Tämän

perusteella ohjelma luo rakenteellisen muotin. Muottiin lisätään puuttuvat silmukat ja poistetaan ylimääräiset. Sivuketjujen suunnat optimoidaan. ProMod myös arvioi mallin laadun, joka määräytyy yleensä sekvenssien samanlaisuuden asteen perusteella. Lopuksi rakenne viimeistellään energian minimisaatiolla ja molekyylidynamiikalla. Viidennessä vaiheessa vielä kaikkien mallien energiat minimoidaan Gromos96 ohjelmalla 17. jpred Jpred on internetpalvelin, joka ennustaa proteiinin sekundäärirakennetta käyttäen Jnetnimistä neuroverkko-ohjelmaa. Ohjelma ennustaa, kuuluuko kukin aminohappo alfakierteeseen, beta-juosteeseen vai satunnaiseen silmukkarakenteeseen. Tämän lisäksi ohjelma ennustaa aminohapon hautautuneisuuden astetta. Ohjelmalle annetaan sekvenssi FASTA-formaatissa. Jpred luo annetuille sekvensseille moninkertaisen ryhmittelyn PSI-BLAST:in kolmella iteraatiokierroksella ja klusteroi sekvenssit. Tämän jälkeen ajetaan varsinaiset ennustusalgoritmit Jnet:illä, joka koostuu kahdesta täysin yhdistetystä kolmikerroksisesta neuroverkosta (two fully connected, 3 layer, neural networks). Ensimmäinen 17 aminohapon tarkasteluikkuna ennustaa kullekin aminohapolle taipumuksen olla silmukassa, alfa-heliksissä tai beta-juosteessa. Toinen neuroverkko saa tämän tiedon ja käyttää 19 aminohapon tarkasteluikkunaa parannellakseen ennustusta kullekin aminohapolle. 16 Rosetta Rosetta ohjelma koostuu kahdesta erillisestä elementistä. Rosetta ab initio ennustaa laskostuneen proteiinin kolmiulotteisen rakenteen sen lineaarisesta sekvenssistä. Ab initiosta saatu ennuste yhdistetään ydin magneetti resonanssi (NMR) laitteistolla kerättyyn kokeelliseen tietoon. Rosetta käyttää pistefunktiota arvioimaan erilaisia konformaatioita, jotka synnytetään kääntämällä tiettyjen aminohapporyhmien sidoskulmia. Pisteytys muodostuu komponenttien, jotka arvioivat eri osa-alueita proteiinin rakenteessa, painotetusta summasta. Pisteytys voidaan jakaa kahteen osaalueeseen: ympäristönvaikutus-pisteisiin ja parin muodostuksesta saavutettuihin pisteihiin. Ympäristönvaikutuksessa tutkitaan kuinka hyvin hydrofobiset alueet pakkautuvat yhteen muodostaakseen tiukan ytimen. Parinmuodostuspisteissä arvioidaan koskettavien sivuketjujen yhteensopivuutta. 18 Missä tällä hetkellä mennään? Pienille proteiineilla on jo tällä hetkellä löydettävissä tarkkoja ja tehokkaita menetelmiä ja algoritmeja. Alle sadan aminohapon pituinen proteiini pystytään ennustamaan tällä hetkellä 1,5 Å tarkkuudella. Tähän kuluu normaalilta pöytäkoneelta aikaa 150 päivää. Tehokkaimmat keinot saavutetaan yhdistelemällä useita menetelmiä. Suurempien proteiinien kanssa on vielä runsaasti työtä. Tarvitsemme edelleen parempia algoritmeja sekä tehokkaampia tietokoneita kuten hajautettua laskentaa tai supertietokoneita. 19

Kirjallisuuslähteet 1. Principles of Biochemistry, Lehninger et al. 2. Molecular biology of the cell, Alberts etc. 3. http://www.ebi.ac.uk, 9.11.2005 4. Biochemistry, Fourth ed., Stryer et al. 5. http://liquid.sscu.iisc.ernet.in/protein/hp36finm/node19.html, 9.11.2005 6. http://www.ebi.ac.uk/dali/dali_jmb.html, 9.11.2005 7. S-114.1100 Laskennallinen tiede, TKK, luento 31.10.2005, TkT Laura Juvonen 8. Computational Molecular Biology: An introduction, Peter Clote ja Rolf Backofen, ISBN 0-471-87251-2, 2002 9. L. Holley and M. Karplus, Protein secondary structure prediction with a neuralnetwork. Proc. Natl. Acad. Sci. USA, 86: 152-156, 1989. 10. Laskennallisia näkökulmia proteiinien laskostumisongelmaan, L. Lahti 11. M. Juhola. Neurolaskenta. Kurssimateriaali, Tietojenkäsittelyopin laitos, Tampereen yliopisto, 1998. 12. www.cs.uta.fi/research/theses/masters/siermala_markku.pdf 13. Protein bioinformatics: an algorithmic approach to sequence and structure analysis, Ingvar Eidhammer, Inge Jonassen, William R. Taylor 14. S-114.2500 Solubiosysteemit, TKK, luento 19.10.2005, Mike Merckel 15. Bioinformatics: Sequence, structure and databanks, D. Higgins et al. ISBN 0-19- 963790-3, 2003 16. http://www.compbio.dundee.ac.uk/~www-jpred/ 17. swiss-model 18. ROSETTA, http://www.grid.org/projects/hpf/, 9.11.2005 19. Toward high-resolution de novo structure prediction for small proteins, Bradley P, Misura KM, Baker D, Science. 2005 Sep 16;309(5742):1868-71 20. xray.bmc.uu.se 21. http://www.lionden.com/hemo-beta-chain.gif, 9.11.2005 22. http://www.rpi.edu/dept/bcbp/molbiochem/mbweb/mb1/part2/images/timab.gif 9.11.2005 23. http://www.bioinformaticscourses.com/isb/sp2003/2tsc/cathtwolayersand wich1aa8a2.gif, 9.11.2005 24. Kannen kuvat, www.csc.fi