Laskennallisia näkökulmia proteiinien laskostumisongelmaan Leo Lahti - 49791N leo.lahti@hut.fi 1. Johdanto 2. Ongelman esittely 3. Menetelmiä ja haasteita 3.1 Optimointialgoritmit 3.2 Oppivat menetelmät 3.3 Laskennallinen kompleksisuus 3.4 Threading 3.5 Topologiset tarkastelut 4. Katsaus tulevaisuuteen 5. Lähdeluettelo 1. Johdanto Proteiinit ovat tärkeä komponentti elävissä organismeissa. Ne toimivat entsyymeinä elimistömme kemiallisissa reaktioissa, eikä DNA kykene toimimaan ilman niitä. Proteiinien tutkimuksella on tärkeä osa ihmiskehon toiminnan ymmärtämisessä ja taistelussa useita tappavia tauteja vastaan. Proteiinin rakennuspalikoina ovat n. 20 erilaista aminohappoa, jotka liittyvät ketjuiksi eli sekvensseiksi peptisidoksin. Aminohappojen järjestystä, aminohapposekvenssiä, kutsutaan proteiinin primaarirakenteeksi. Aminohappoketju laskostuu fysikaalisten vuorovaikutusten seurauksena kolmiulotteiseksi rakenteeksi. Siitä voidaan erottaa sekundaarirakenne, joka kuvaa aminohappoketjun paikallisia kiertymiä, taittumisia ja vyyhtejä. Tertiaarirakenne kuvaa sitä, miten proteiini on kokonaisuudessaan laskostunut ja määrää proteiinin toiminnan. Rakennetta, jossa proteiini toteuttaa tehtäväänsä kutsutaan natiiviksi tilaksi. Tila voi palautua spontaanisti jopa denaturoinnin jälkeen ilman proteiinin ulkopuolista informaatiota. Tämän viittaa siihen, että natiivi tila on yksikäsitteinen ja määräytyy aminohappojärjestyksestä. Proteiinin laskostumisongelma käsittelee sitä, miten aminohappojärjestyksestä edetään lopulliseen kolmiulotteiseen rakenteeseen. Kyseessä on yksi tämänhetkisen biokemian kiehtovimmista ongelmista. Laskostumisongelman laskennallinen tarkastelu vaatii erilaisia tekniikoita ominaisarvojen laskennasta haastaviin differentiaaliyhtälöihin, optimointiin, epälineaarisiin menetelmiin, funktioiden moniulotteiseen approksimointiin ja moderneihin tietojenkäsittelymenetelmiin. Jopa topologisista konsepteista ja solmuteorian muunnelmista (Jones polynomials) on keskusteltu tässä yhteydessä [1]. Proteiinin aminohappojärjestyksen selvittäminen on huomattavasti edullisempaa ja nopeampaa kuin sen kolmiulotteisen rakenteen tutkiminen. Menetelmä, joka ennustaisi proteiinin kolmiulotteisen rakenteen aminohapposekvenssistä käsin, merkitsisi läpimurtoa proteiinien toiminnan ymmärtämisessä ja niiden synteettisessä valmistamisessa. 1
Luon seuraavassa katsauksen erilaisiin laskennallisiin menetelmiin proteiinien kolmiulotteisen rakenteen ennustamiseksi aminohapposekvenssistä käsin. En pureudu yksityiskohtiin, mutta olen pyrkinyt sisällyttämään tekstiin riittävän määrän viitteitä tarkempaa perehtymistä varten. 2. Ongelman esittely Proteiinin rakenne voidaan poikkeustapauksia lukuun ottamatta esittää yksikäsitteisesti muutaman parametrin avulla, joita ovat sidosten pituudet, sidoskulmat, kulmat sidosten määräämien tasojen välillä, sekä erilaiset kiertymät. Mallintamisen näkökulmasta ongelmia ovat mm. sopivan proteiinia kuvaavan potentiaalienergiafunktion valinta, parametrien estimointi tunnetun datan perusteella ja potentiaalin optimointi [1]. Anfinsenin hypoteesin mukaan natiivit konformaatiot vastaavat potentiaalienergiafunktion minimiä. Molekyylin sisäiset vuorovaikutukset ovat monimutkaisia. Energiafunktion muodostamista varten on yritetty selvittää dominoivaa vuorovaikutusta. Ehdokkaita ovat olleet mm. vetysidokset, hydrofobia, sivuketjujen pakkaus ja proteiinin stabiilius. Nämä kaikki ovat laskostumisprosessiin voimakkaasti vaikuttavia tekijöitä, jotka jokaisen realistisen mallin tulisi huomioida. Energiafunktion muodostaminen on oma ongelmansa, jota en lähde tässä käsittelemään perusteellisemmin. Lisää sen muodostamiseen vaikuttavia tekijöitä on kirjattu esimerkiksi tutkimuksessa [1]. Energiafunktion muodostamisen jälkeen se on optimoitava. Optimointi keskittyy vapaan energian minimointiin standardimenetelmillä, kunhan malli on pelkistetty riittävän yksinkertaiseksi. Erilaisilla menetelmillä on omat hyvät ja huonot puolensa, ja parhaisiin tuloksiin päästään luultavasti yhdistelemällä erilaisia malleja laskostumisen erilaisissa vaiheissa. On ehdotettu, että ensin voitaisiin vastata yksinkertaisilla energiafunktiolla kysymykseen siitä, miksi proteiini laskostuu tietyllä tavalla. Tarkkoja energiamalleja tarvittaisiin vasta selittämään, miten proteiini pysyy tuossa rakenteessa [16]. On viitteitä, että yksinkertaisten mallien sijasta realistisemmilla malleilla voi olla vähemmän lokaaleja minimejä, jolloin optimointiongelma helpottuu mallin monimutkaistumisen kustannuksella [9]. Mahdollisten laskostumisreittien ja laskostuneen proteiinin stabiiliuden tutkimiseksi tarvitaan tavanomaisia tai stokastisia differentiaaliyhtälöitä. Proteiinien perusrakenteen geometria näyttää olevan optimoitu siihen, että se aiheuttaa mahdollisten välitilojen joukosta laajan "valuma-altaan" natiiviin tilaan. Valumaaltaalla viittaan niiden välitilojen joukkoon, joista laskos luontevasti etenee oikeaa konformaatiota fysikaalisten vuorovaikutusten suorana seurauksena. Joissakin tutkimuksissa on löydetty viitteitä siitä, että laskostuminen etenisi vaiheittain. Tutkimus [17] esittelee yhden laskostumisongelman, jonka ratkaisu etenee kolmivaiheisesti siten, että 10 16 konfiguraatiosta saavutaan nopeasti tilaan, jossa on vain 10 10 konfiguraatiota. Tämä tila pelkistyy edelleen nopeasti 10 3 mahdollisen tilan joukoksi, josta natiivi konformaatio on nopeasti löydettävissä. Tämän kaltainen käytös 2
toteutuu vain osalla sekvensseistä. Laskostuvat sekvenssit osoittautuivat tutkimuksessa sellaisiksi, joiden natiivin konformaation ja muiden mahdollisten tilojen välillä oli suuri energiavalli. Laskostumattomilla proteiineilla tätä eroa ei ollut. Tämän mukaan olennaista olisi keskittyä etsintäproseduurien sijasta mahdollisimman hyvän energiafunktion löytämiseen. Proteiinien suunnittelun kannalta on kuitenkin tärkeää tutkia myös laskennallista laskostumismekanismia. Sen avulla voidaan ennustaa synteettisen sekvenssin laskostuvuuden lisäksi laskoksen kolmiulotteinen rakenne. Voidaan myös kysyä, miten olemassa olevaa tietopankkia sekvensseistä ja niitä vastaavista laskoksista voidaan hyödyntää laskostumisen tutkimisessa. Tähän ongelmaan vastaavat oppivat mallit, threading-menetelmä ja topologiset tarkastelut. Tietyn sekvenssin yksikäsitteinen laskostuminen on oleellisesti kuvaus sekvenssiltä rakenteeksi. Tämä viittaa siihen, että matematiikassa esiintyviä topologisia konsepteja voitaisiin kenties soveltaa myös proteiinien tutkimukseen. Lähestymistapaa on menestyksellisesti käytetty RNA:n tutkimisessa. 3. Menetelmiä ja haasteita 3.1 Optimointialgoritmit Tehokkaiden algoritmien suunnittelussa on tärkeää huomioida proteiinimallin ja energiafunktioiden erityispiirteet. Approksimatiiviset algoritmit voivat olla hyödyksi hyvien aloituskonfiguraatioiden etsimiselle ennen perinteisten optimointimenetelmien hyödyntämistä. Energia on monimuuttujafunktio, jonka käsittelyyn on olemassa standardimenetelmiä (esim. steepest descent method). Proteiinin kolmiulotteisessa rakenteessa vapausasteiden määrä on suunnaton. Energiafunktion lokaaleja minimejä löytyy jopa eksponentiaalisesti verrattuna aminohappojen määrään [1]. Globaalia minimiä on vaikea löytää näiden joukosta perinteisillä menetelmillä, koska niillä on taipumus jumiutua lokaaleihin minimeihin. On myös mahdollista, että globaaleja minimejä on useampia kuin yksi. Tällöin samankaltaisten, mutta erillisten matalan energian konformaatioiden perhe muodostaisi proteiinien toiminnallisen tilan [10]. Eräitä algoritmeissa käytettäviä menetelmiä ovat jäädytys (frozing) ja silottaminen (smoothing). Jäädytyksessä osa proteiinilaskoksen rakenteesta kiinnitetään useiden iteraatioden (500-1000) ajaksi. Laskenta-aikaa säästyy, mutta toisaalta mallin realistisuus kärsii. Silotusalgoritmeissa "silotetaan" optimoitavaa funktiota. Hienojakoisemmat yksityiskohdat unohdetaan aluksi ja keskitytään etsimään funktion muotoa vastaavaa optimialuetta. Kun jonkinlainen optimi on saavutettu, yksityiskohtia lisätään ja optimia tarkennetaan. Menetelmää voisi verrata suunnistamiseen laakson pohjalle. Kauempaa nähdään pohjan paikka vain likimääräisesti, pohjalla nähdään yksityiskohtaisemmin minimikohtien sijainti [12]. Avuksi globaalin minimin etsintään lokaalien minimien heinäsuovasta tulevat geneettiset algoritmit ja Monte Carlo-simulointi. Menetelmät sisältävät konfiguraatioavaruudessa tapahtuvaa satunnaisetsintää sekä hyppyjä globaalin minimin löytämiseksi. On kuitenkin hankalaa osoittaa, että ne varmasti löytävät globaalin minimin, ja jos löytävät, tekevät sen kohtuullisessa ajassa. 3
Geneettiset algoritmit sallivat mutaatiot ja kandidaattien risteytykset, joiden avulla saatetaan löytää yhä parempia optimeita. Tämä on etu, mikäli parempien kandidaattien löytäminen näillä menetelmillä on tilastollisesti todennäköistä. Menetelmät vaativat tarkkaa sovitusta ongelmaan ollakseen tehokkaita. Toisaalta ne ovat helppoja ymmärtää ja implementoida. Ne myös tarjoavat alkeellisestikin sovitettuina hyviä ratkaisuehdokkaita silloin, kun muita menetelmiä ei ole helposti käytettävissä. Jokaisella askeleella käsitellään yhden ratkaisuyritteen sijasta useampia kandidaatteja. Kandidaatteja yhdistellään uusien tuottamiseksi. Vanhoja ratkaisukandidaatteja karsitaan todennäköisemmin, mikäli ne sopivat huonosti optimointikriteereihin tai muistuttavat uudempia. Kandidaattiehdokkaissa on mukana parempia ja huonompia kandidaatteja, mutta huonompiin voidaan liittää rankaisutermi ja niitä voidaan korjata vertaamalla toimivampiin samankaltaisiin. Ratkaisuihin voidaan tehdä lieviä satunnaismuutoksia (mutaatio-operaattorit). Optimointikriteerien nojalla parhaat ratkaisut valitaan jatkokäsittelyyn. Samat perusteet pätevät yleisesti populaatiodynamiikkaan. Evolutionaaristen algoritmien käyttöä proteiinien laskotumisen mallintamisessa käsitellään esimerkiksi tutkimuksessa [15]. Monte Carlo-menetelmää käytetään löytämään hyviä minimoijia, jotka muistuttavat todellista laskostettua geometriaa. Proteiinidatapankkia tutkimalla voidaan löytää laskoksessa esiintyville kulmille ja muille parametreille rajoituksia. Yhdistämällä nämä voitaisiin mahdollisesti luoda nykyisiä menetelmiä realistisempi lähestymistapa laskostumisongelman tarkasteluun. 3.2 Laskennallinen kompleksisuus Proteiinit eivät tarvitse laskostumiseensa eksponentiaalista aikaa, vaikka yleinen laskostumisongelma on osoitettu NP-täydelliseksi useissa tutkimuksissa viimeisten parinkymmenen vuoden aikana [15]. NP-täydellisyys tarkoittaa laskennallisen kompleksisuuden käsitteenä polynomiajassa ratkeavaa ongelmaa. Joko luonto kykenee ratkaisemaan NP-täydellisiä ongelmia polynomiajassa, tai sitten sen ei tarvitse ratkaista koko yleistä laskostumisongelmaa. Jälkimmäistä puoltavat muun muassa seuraavat seikat. NP-täydellisyys edellyttää, että haetaan nimenomaan globaalia minimiä, mutta globaalin minimin ja natiivin konformaation yhtenevyys on kuitenkin pelkkä hypoteesi. NP-täydellisyys on lisäksi asymptoottinen omnaisuus, kun luonto taas vaikuttaa äärelliseltä. On löydetty viitteitä siitä, että suuret proteiinimolekyylit jakautuisivat pienempiin yksiköihin, jotka laskostuvat itsenäisesti. NP-täydellisyys liittyy yleensä pahimpaan mahdolliseen laskennalliseen tapaukseen tietyssä ongelmajoukossa, kun taas useimmat joukkoon kuuluvat yksittäistapaukset voivat ratketa polynomiajassa. Kenties luonto on valinnut juuri ne proteiinit, joille laskostumisongelma voidaan ratkaista helposti. Tämä johtaisi meidät keskittymään tutkimuksessa yleisen laskostumisongelman sijasta niihin ongelmiin, joita esiintyy "helppojen" proteiinien laskostumisessa. Sekin on mahdollista, että laskostumismekanismi on tuntemattomalla tavalla koodattu amonihappojärjestykseen. Tässä tapauksessa laskostuminen ei ole etsintäprosessi, eikä laskennallisesta kompleksisuudesta ole edes mielekästä puhua. 4
3.3 Oppivat menetelmät Perinteisten menetelmien soveltaminen proteiiniperheisiin yksittäisten sekvenssien sijasta on osoittautunut selvästi tarkemmaksi keskeisten sekundaarirakenteen elementtien tarkastelussa. Sekundaarirakennetta on yritetty ennustaa suoraan aminohapposekvensseistä käsin erilaisilla hahmontunnistusmenetelmillä, kuten ennestään tunnetun rakenteen omaavien proteiinien avulla harjoitetuilla neuroverkoilla [24]. Menetelmien implementoinnissa on suuria eroja. Toiset menetelmät suorittavat luokittelun aminohappojen samankaltaisuuksien perusteella, toiset taas esimerkiksi aposteriorisesti syntyvien sekundaarirakenteiden avulla. Toistaiseksi parhaat menetelmät ennustavat vain noin 70 prosenttia konfiguraatioista oikein [25]. On ehdotettu [6], että sekvenssit, joilla on yli 30 prosentin homologia, synnyttäisivät samanlaisen rakenteen. Siten 70 prosentin raja johtuisi homologisten proteiinien sekundaarirakenteen vaihtelusta. Joidenkin tutkimusten mukaan [13] 30 prosentin virhemarginaali ehkäisee karkeankin rakenne-ennusteen laatimisen. Toistaiseksi sekundaarirakenteen ennusteita on tehty lähinnä vain lokaalien, 10-25 aminohapon ketjujen nojalla. Jos malleja tehtäisiin suurempien kokonaisuuksien perusteella, voitaisiin ehkä päästä parempiin tuloksiin [1]. Piilotetut Markovin mallit toimivat niin, että jokainen tila tuottaa jonkin tuloksen tietyllä todennäköisyydellä. Myös eteneminen tilojen välillä on satunnaisprosessi. Tutkimalla saatua tulosketjua voidaan päätellä, minkälaiset polut tuottavat kyseisen tulosketjun todennäköisimmin, mutta varsinainen polku pysyy piilossa. Menetelmää on yritetty soveltaa myös proteiinien rakenteen ennustamiseen [14]. Piilotettuja Markovin ketjuja on käytetty etupäässä yksittäisten sekvenssien laskostumisen tutkimiseen etsimällä säännönmukaisuuksia harjoittamalla niitä tunnetun datan avulla. Koska laskostumisen säännönmukaisuuksia etsitään oppivissa malleissa tunnetun proteiinijoukon perusteella, ne ovat yhteen sekvenssiin liittyvien säännöllisyyksien ja erilaisten sekvenssien vertailun välisellä rajapinnalla. 3.4 Threading Bryantin [22] ja Lathropin [23] ehdottama "threading"-metodi lähestyy laskostumisongelmaa seuraavasti. Tunnetun rakenteen omaavien proteiinien datapankista voidaan usein löytää sellainen, jonka rakenne vastaa tutkittavaa proteiinia. Ennustusalgoritmi vertaa tutkittavan proteiinin aminohapposekvenssiä tunnettujen ja vastaavia rakenteita omaavien proteiinien aminohapposekvensseihin. Energiafunktio luokittelee todennäköisyyksiä, joilla tietty sekvenssi muodostaa tietyn rakenteen. Tarkoituksena on etsiä paras vastaavuus tutkittavan ja ennestään tunnettujen rakenteiden välille. Useita tällaisia algoritmeja on tutkittu ja tulokset ovat olleet rohkaisevia. Hyvä puoli on sekin, että rakenteen ennustamisen lisäksi datapankista löydetään samankaltaisia proteiineja ja siten voidaan samalla ennustaa tutkittavan proteiinin ominaisuuksia. 5
Neumaier esittää tutkimuksessaan [1] pitkän listan viitteitä threading-metodia sivuavista tutkimuksista. Metodiikka näyttää tällä hetkeltä yhdeltä toimivimmista lähestymistavoista ja lisäksi sen luotettavuus kasvaa jatkuvasti datapankin täydentämisen myötä. Chou ja Fastman [21] analysoivat aminohappojen distribuutiota sekundaarirakenteissa jakaen ne puoltaviin, ehkäiseviin ja indifferentteihin suhteessa mahdollisiin sekundaarirakenne-elementteihin. Tällä tavoin useiden aminohappojen ryhmiä on kyetty yhdistämään tiettyihin sekundaarirakenteisiin [2]. Kun proteiini pakotetaan laskostumaan tunnettujen tapausten mukaisesti, on virheen mahdollisuus kuitenkin olemassa. Sen vuoksi myös muiden menetelmien kehittely jatkuu ja voi antaa paljon lisävaloa ongelman tutkimisessa. 3.5 Topologiset tarkastelumallit Laskostumisongelmaa on pyritty käsittelemään selvittämällä yksittäisen sekvenssin kuvautumista tietyksi kolmiulotteiseksi rakenteeksi. Monet uuden molekyylibiologian ja bioteknologian [19] ongelmat herättävät kysymyksiä, joihin ei voida vastata tyydyttävästi tästä lähtökohdasta käsin. Laskostumisfunktio kuvaa kaikkien mahdollisten sekvenssien avaruuden kaikkien mahdollisten rakenteiden avaruuteen. Laskostumisfunktion ominaisuudet ovat tiiviisti sidoksissa sekvenssiavaruuden ja laskosavaruuden ominaisuuksiin. Tämän lähestymistavan mukaan on tutkittava laskostumisfunktion globaaleja ominaisuuksia. Kenties tässä häämöttää ripaus Jouko Seppäsen kaipaamaa systeemitunnelmaa. Toistaiseksi topologisia tarkasteluja on sovellettu menestyksellisesti RNA:n laskostumisen tutkimuksessa, mutta viime aikoina samaa lähestymistapaa on sovellettu myös proteiineihin. Näyttää siltä, että monet ominaisuuksista ovat yhteisiä yleiselle sekvenssi-rakenne-kuvaukselle, koska niitä on havaittu laskennallisissa tutkimuksissa nukleiinihappojen lisäksi myös polypeptidimalleille [4, 5]. Käänteinen laskostumisongelma kysyy, mikä on niiden sekvenssien joukko, joka tuottaa tarkasteltavan kolmiulotteisen rakenteen. Samaksi rakenteeksi laskostuvien sekvenssien kokoelmaa sanotaan neutraalijoukoksi. Neutraalipolku muodostuu sekvenssijonosta, joka muodostuu kahden sekvenssin välille, kun ensimmäisestä edetään toiseen muuttamalla yhtä sekvenssielementtiä (proteiineissa aminohappoa) kerrallaan. Yhtenäinen neutraalijoukko on neutraaliverkko. Yhtenäisyydellä tarkoitetaan, että verkon kahden sekvenssin välillä on neutraalipolku, jonka kaikki alkiot kuuluvat verkkoon. Samankaltaiset rakenteet vastaavat usein samankaltaisia toimintoja. Samanlaisia rakenteita vastaavien sekvenssien jakautuminen sekvenssiavaruudessa vaikuttaa tutkimusten nojalla satunnaiselta, eikä klusterointia ei ole havaittavissa. Toisaalta on mahdollista, että on olemassa hienojakoisempaa klusterointia, jota emme ole pystyneet vielä tunnettujen laskostumisfunktion osien nojalla jäljittämään [4]. Neutraalijoukon epätasaisen jakautumisen seurauksena on vain harvoja useille sekvensseille yhteisiä rakenteita, mutta lukuisia harvinaisia rakenteita ja neutraaliverkkojen koko vaihtelee suuresti. Sekvenssit, jotka laskostuvat samanlaisiksi rakenteiksi, muodostavat sekvenssiavaruudessa yhtenäisiä neutraaliverkkoja ainakin RNA:n tapauksessa [20]. Keskimääräinen etäisyys satunnaisesta sekvenssistä 6
sellaiseen, joka laskostuu halutuksi rakenteeksi, on sekvenssiavaruuden maksimietäisyyteen nähden yleensä lyhyt. Neutraalipolkujen näkökulmasta proteiinin laskostumisessa näyttäisi olevan hyvin samantapaisia ilmiöitä kuin RNA:n tapauksessa. On olemassa viitteitä siitä, että sekvenssiavaruus olisi peittynyt neutraalipolkuihin. Neutraaliverkkojen satunnaisgraafimallit ennustavat, että erilaisia rakenteita vastaavat neutraaliverkot tulisivat aina lähelle toisiaan ainakin jossakin sekvenssiavaruuden osassa [18]. Uudet teoreettiset näkökulmat hyödyntävät neutraalipolkuihin perustuvia ideoita tarkastellen tilastollisia ominaisuuksia, erottaen nopeasti ja yksikäsitteisesti laskostuvat sekvenssit niistä, jotka eivät sitä tee. Sekvenssien ja laskosten avaruuteen ja niiden välisiin kuvauksiin voidaan liittää sekvenssien fysikaalisista, kemiallisista tai biologisista ominaisuuksista riippumattomia topologisia käsitteitä. Luonnollisia kysymyksiä ovat ainakin neutraalijoukkojen levittäytyminen sekvenssiavaruuteen ja erillisten neutraalijoukkojen sijoittuminen toisiinsa nähden. Sopivien topologisten rakenteiden määrittelyn jälkeen voidaan tutkia minkälaisia ilmiöitä avaruudessa voi esiintyä. Rajoitusehdot sisältyvät tässä tapauksessa implisiittisesti itse avaruuden rakenteeseen. Topologisia ominaisuuksia ovat esimerkiksi sekvenssien välinen "etäisyys", tietyn sekvenssin "ympäristö", joka muodostuu etäisyysfunktion mielessä läheisistä sekvensseistä, sekvenssijoukon "reuna", joka joko kuuluu tai ei kuulu joukkoon, sekä samanlaisiksi rakenteiksi laskostuvien sekvenssien "ekvivalenssiluokat". Laskostumisfunktion kohdalla voidaan puhua myös esimerkiksi jatkuvuudesta. Etäisyyden määritteleminen sekvenssien välille kolmiulotteisen rakenteen kautta on mielekästä, koska rakenne määrää proteiinin toiminnan. Etäisyys sekvenssien välillä voitaisiin esimerkiksi määritellä etäisyydeksi niiden neutraaliverkkojen välillä, joihin sekvenssit kuuluvat. Tämä tietysti edellyttää, että neutraaliverkkojen välille on määritelty etäisyys. Sekvenssiavaruuden "saavutettavuustopologia" määräisi pitkälle sitä, minkälaisia rajoituksia, homologiaa ja palautumattomuutta sekvenssiavaruus sisältää. Rajoitusehtojen valossa on mahdollista, että tietystä laskoksesta A on helpompaa saavuttaa toinen laskos B sekvenssitasolla tapahtuvan muuntelun kautta, kuin edetä B:stä A:han. Tällöin ainakin metriikan vaatima symmetria rikkoutuu eikä kyseessä ole metrinen avaruus. Euklidinen tai Hammingin metriikka ovat luultavasti riittämättömiä rakenteita laskostumiskuvauksen matemaattiseen tarkasteluun. Jos sekvenssiavaruuden rakenne aiotaan määritellä neutraalipolkujen ja erilaisten rakenteiden saavutettavuuden kautta, tarvitaan topologiaa heikompia ja tavanomaista eksoottisempia avaruusrakenteita [8, 11]. Eräs ehdotus tällaiseksi on myöa esitopologisten ja ns. suodatinavaruuksien matemaattinen teoria [3] Tilastollisen topologian käytön on perustuttava kunnollisiin tilastollisiin määritelmiin ympäristöstä ja läheisyydestä. Probabilistiset kovergenssiavaruudet ja sumeat topologiat [26] saattaisivat tarjota erään lähestymistavan. On huomattava, että evoluutio ei pelkästään ohjaudu tämän kuvauksen mukaisesti, vaan myös jatkuvasti muokkaa sitä. 7
4. Katsaus tulevaisuuteen Ennustuskyvyn mittarina on se, miten hyvin menetelmä kykenee ennustamaan jo olemassa olevan tiedon. Parhaita ennustustekniikoita kilpailutetaan kahden vuoden välein Asilomarissa (Kalifornia, USA). Viimeksi on järjestetty "Second meeting on the Critical Assessment of Techniques for Protein Structure Prediction" Parhaillaan fyysikot tutkivat kvanttimekaniikan avaamia mahdollisuuksia uudentyyppisten kvanttilaskentaan perustuvien tietokoneiden rakentamisessa. Toteutuessaan kvanttilaskenta mullistaisi kaiken muun ohella myös proteiinien laskostumisen tutkimisen. Sen avulla voitaisiin laskea muutamissa sekunneissa ongelmia, joiden ratkaiseminen on nykyisin käytännössä mahdotonta. Esimerkkinä mainittakoon tietokoneiden nykyisten alkulukuihin nojaavien salausmenetelmien purku. Proteiinien laskostumisongelman merkittävyys, lukuisat avoimet kysymykset, mallintamisen kiehtovuus ja haastavat laskennalliset näkökulmat tekevät tutkimusalueesta paratiisin myös sovelletuille matemaatikoille ja numeerisen analyysin asiantuntijoille. Lupaavia uusia lähestymistapoja ovat proteiiniperheiden tarkastelu yksittäisten proteiinien sijasta, threading-metodi, sekä topologiset konseptit. Lainaan tähän loppuun J. Neumaierin lausumaa elämästä, tutkimuksesta ja Jumalasta: "Molecular biology is mankind's attempt to figure out how God engineered His greatest invention - life. As with all great inventions, details are top secret; however, even top secrets may become known. I find it a great privilege to live in a time where God allows us to gain some insight into His construction plans, only a short step away from giving us the power to control life processes genetically. I hope it will be to the benefit of mankind, and not to its destruction" [1]. 5. Lähdeluettelo [1] J. Neumaier: Molecular modeling of proteins and mathematical prediction of protein structure. SIAM Rev., 407-460, 1993. [2] A. Krogh et al. : Hidden Markov Models in computational biology: Applications to protein modeling. J. Mol. Biol. 235: 1501-1531, 1994. [3] B. M. R. Stadler et al. : The topology of the possible: Formal spaces underlying patterns of evolutionary change. J. Theor. Biol., 2000. [4] A. Babajide et al. : Neutral networks in protein space: A computational study based on knowledge-based potentials of mean force. Folding & Design, 2: 261-269, 1997. [5] E. G. Bornberg-Bauer: How are model protein structures distributed in sequence space? Biophys. J. 73: 2393-2403, 1997. [6] C. Sander and R. Schneider: Database of homology-derived protein structures and the structural meaning of sequence alignment. Proteins, 9: 56-68, 1991. 8
[7] M. R. Stadler et al.: Recombination spaces, metrics and pretopologies. (http://www.santafe.edu/sfi/publications/wpabstract/200102011) [8] J. Cupal, S. Kopp and P.F. Stadler: RNA shape space topology. Artificial Life, 6: 3-23, 2000. [9] M. R. Hoare and J. A. McInnes: Morphology and statistical statics of simple microclusters, Adv. Phys., 32: 791-821, 1983. [10] Q. X. Hua, M. Kochoyan and M. A. Weiss: Structure and dynamics of despentapeptide-insulin in solution: the molten globule hypothesis, Proc. Natl. Acad. Sci. USA, 89: 2379-2383, 1992. [11] W. Fontana and P. Schuster: Shaping space: The possible and the attainable in RNA genotype-phenotype mapping. J. Theor. Biol., 194: 491-515, 1998. [12] K. A. Dill, A. T. Phillips and J. B. Rosen: Molecular structure prediction by global optimization (Manuscript), 1996. [13] J. Garnier: Protein structure prediction. Biochimie, 72: 513-524, 1990. [14] E. L. L. Sonnhammer, G. von Heijne and A. Krogh: A hidden Markov model for predicting transmembrane helices on protein sequences. In proceedings of the 6th International Conference on Intelligent Systems for Molecular Biology (ISMB), 175-182, 1998. [15] R. Unger and J. Moult: Genetic algorithms for protein folding simulations. J. Mol. Biol., 231: 75-81, 1993. [16] E. E. Lattman and G. D. Rose: Protein folding - what is the question? Proc. Natl. Acad. Sci. USA, 90: 439-441, 1993. [17] A. Sali, E. Shakhnovich and M. Karplus: How does a protein fold? Nature, 369: 248-251, 1994. [18] C. M. Reidys, P. F. Stadler and P. Schuster: Generic properties of combinatory maps: Neural networks of RNA secondary structures. Bull. Math. Biol., 59: 339-397, 1997. [19] P. Schuster: How to search for RNA structures. Theoretical concepts in evolutionary biotechnology. J. Biotechnology, 41: 239-257, 1995. [20] P. Schuster, P. F. Stadler and A. Renner: RNA structures and folding: From conventional to new issues in structure predictions. Curr. Opinions Structural Biol., 7: 229-235, 1997. [21] P. Y. Chou and G. D. Fasman: Biochemistry, 13: 222-245, 1974. [22] S. H. Bryant and C. E. Lawrence: An empirical energy function for threading protein sequence through folding motif. Proteins, 16: 92-112, 1993. 9
[23] R. H. Lathrop: The protein threading problem with sequence amino acid interaction preference is NP-complete. Protein engineering, 7(9): 1059-1068, 1994. [24] L. Holley and M. Karplus, Protein secondary structure prediction with a neural network. Proc. Natl. Acad. Sci. USA, 86: 152-156, 1989. [25] G. D. Rose and T. P. Creamer: Protein folding: predicting predicting. Proteins Struct. Funct. Gen. 19: 1-3, 1994. [26] J. N. Mordeson and P. S. Nair. Fuzzy Mathematics: An introduction for Engineers and Scientists. Physica Verlag, Heidelberg, New York 1998. 10