MD-simulaatiot S-114.2500 Solubiosysteemit, 13.10.2005
Sisällys Aluksi 2. Sisällys 3. Molekyylien mallinnus 4. MD-simulaatio (energian minimointi, simulaation parametrit, voimien laskeminen, liikeyhtälöiden ratkaiseminen, tulosten analysointi) 6. Simulaatioiden heikkoudet 7. Simulaation tekeminen käytännössä 11. Ohjelmistoja md-simulaatioihin 12. Loppusanat Tämä on Teknillisen Korkeakoulun Solubiosysteemit-kurssin (S-114.2500) harjoitustyö. Harjoitustyö käsittelee MD-simulaatioita. Esityksen kieleksi valikoitui englannin sijasta suomi, koska harjoitustyöaineistoa kerätessänihavaitsin aihepiiriä suomenkielisen materiaalin olevan varsin olematonta. Tämän esityksen tavoitteena on muodostaa lukijalleen konkreettinen yleiskuva siitä, mihin MD-simulaatiot perustuvat ja miten niitä käytännössä tehdään. Kaikki esityksessä käytetyt kuvat molekyyleistä on tehty joko VMDtai MacPyMol-ohjelmilla. Kuvassa on harjoitustyön yhteydessä Gromacs-ohjelmistolla simuloitu Ribonukleaasi S -peptidi. 2
Molekyylien mallinnus Molekyylien mallinnuksessa (Molecular modelling) pyritään kuvaamaan monimutkaisia kemiallisia systeemejä realistisen mallin avulla. Tavoitteena on ymmärtää ja pystyä ennustamaan halutun systeemin makroskooppisia ominaisuuksia, kun systeemistä on olemassa täsmällistä atomitason tietoa 2. Approksimaatiot ovat välttämättömiä Ab initio -lähestymistavassa käytetään puhdasta kvanttimekaniikkaa atomisysteemin potentiaalienergian laskemiseen. Vaikka tässä yhteydessä tehtäisiinkin joitakin approksimaatioita, niin lähestymistavassa mallinnus perustuu puhtaasti teoreettisiin oletuksiin, sen sijaan että mallia rakennettaisiin perustuen empiirisesti saatuihin tietoihin mallinnettavasta systeemistä 1. Edellinen lähestymistapa on mahdollinen vain, jos halutaan mallintaa muutaman atomin kokoista tasapainossa olevaa systeemiä lyhyellä ajanjaksolla 2. Muussa tapauksessa joudutaan tyytymään käytetyn mallin empiiriseen parametrisointiin. Mitä monimutkaisempi mallinnettava systeemi on, ja mitä pidempää ajanjaksoa halutaan tutkia, sitä suurempia approksimaatioita joudutaan tekemään. Esimerkiksi proteiinien laskostumista ei voi vielä simuloida käyttämällä hyväksi (empiirisesti parametrisoitua) tietoa atomien välisistä vuorovaikutuksista, vaan joudutaan käyttämään vastaavista systeemeistä olemassaolevaa systeemin rakennetta ja kemiallisia ominaisuuksia koskevaa tietoa 1. MD-simulaatio Lyhenne MD tulee sanoista Molecular dynamics. MD-simulaatiot perustuvat Newtonin liikeyhtälöiden ratkaisemiseen. Liikeyhtälöitä ratkaistaan pieni ajanjakso kerrallaan niin kauan, että systeemi ei enää muutu, eli toisin sanoin kunnes systeemi saavuttaa tasapainotilan. Systeemin saavutettua tasapainon suoritetaan varsinaiset mittaukset 1. MD-simulaation kulku 1,2 1. määritetään alkutila 2. lasketaan voimat (voimakenttä) 3. ratkaistaan Newtonin liikeyhtälöt 4. kirjataan tarvittaessa tietoja tilasta ylös kohtia 2.-4. toistetaan tarvittava määrä askelia. 3
Energian minimointi MD-simulaatio saattaa epäonnistua, mikäli systeemi on kovin kaukana energiaminimistään 2. Energian minimoinnin avulla pyritään määrittämään missä muodossa mallinnettava systeemi on sen ollessa sen alhaisimmassa mahdollisessa energiatilassaan. Paikallisia minimejä on paljon, ja globaali minimi (global minimum) on käytännössä mahdoton löytää 2. Menetelmiä paikallisen minimin löytämiseen on olemassa lukuisia, Gromacs-ohjelmistossa on mahdollista käyttää seuraavia menetelmiä: 1. Steepest descent method: Menetelmä pääsee nopeasti lähelle minimiä. 2. Conjugate gradient method: Menetelmä toimii hitaasti kaukana minimistä, mutta nopeasti lähellä minimiä. 3. L-BFGS: Menetelmä on tehokkuudessaan suunnilleen yhtä hyvä kuin conjugate gradient. Simulaation parametrit Alla on esitetty tärkeimmät MD-simulaation tarvitsemat parametrit. Parametrien nimet vastaavat Gromacs-ohjelmiston asetustiedoston (.mpd) parametrejä 6. 1. integrator: Määritellään käytettävä algoritmi. MD-simulaation tapauksessa vaihtoehtoina voi olla vaikka Leap from tai Verlet. Mikäli tehdään energiaminimointi niin vaihtoehtoina voi olla esimerkiksi yllä esitetyt. 2. dt: aika-askeleen pituus integroinnille. 3. nsteps: kuinka monta askelta simulaatiota tehdään 4. nstxout: kuinka usein kirjoitetaan trajektoritiedostoon atomien koordinaatit Useinkaan ei ole mielekästä tallentaa jokaisella simulaation hetkellä atomien koordinaatteja trajektoritiedostoon, vaan esimerkiksi joka kymmenes askel riittää hyvin. Koordinaattien tallennustahdin lisäksi voidaan valita erikseen oma tallennustahti esimerkiksi atomien nopeuksille. Käytettävän voimakentän valintaa ei Gromacsissa tehdä simulaation asetustiedostossa, vaan tuo valinta tehdään jo aiemmin valmisteltaessa systeemiä simulaatiota varten. Gromacs pyytää valitsemaan voimakentän, kun proteiinitietokannan pdb-muotoista tiedostoa muunnetaan gromacsin omiin systeemin rakennetta ja topologiaa kuvaaviin tiedostomuotoihin. 4
Voimien laskeminen Voimien laskeminen on simulaation eniten aikaa vievä osuus. Koska yleensä ei ole tarkoituksenmukaista simuloida tutkittavaa systeemiä tyhjiössä, käytetään yleensä konseptia nimeltä periodic boundary conditions 1, jossa tutkittavan systeemin ympärille luodaan kopiota tutkittavasta systeemistä. Oheinen kuva havainnollistaa asiaa. Tutkittavassa systeemissä on partikkelit A-F. Kaikki A-kirjaimella merkityt partikkelit ovat A-partikkelin kuvia. Mikäli simulaatiossa lasketaan partikkelien väliset vuorovaikutukset kullekkin partikkelille vain partikkelia lähinnä olevien toisten partikkelien kuvien kanssa, tulee n:n partikkelin kokoisessa systeemissä vuorovaikutuksia laskettavaksi yhteensä: n x ( n - 1 ) / 2 Kuvaan on merkitty nuolella ne partikkelien B-F kuvat, joiden vaikutus A- partikkeliin tulisi tällöin huomioiduksi. Kertolaskun tulos jaetaan kaavalla kahdella, koska puolet voimista saadaan suoraan voiman ja vastavoiman lain avulla. Tässä laskettavien vuorovaikutusten määrä kasvaa partikkelien määrän kasvaessa nopeudella O(n 2 ), mutta on olemassa tekniikoita 1, joiden avulla käytetty tietokoneaika saadaan kasvamaan vain nopeudella O(n). 5
Liikeyhtälöiden ratkaiseminen Mitä parempaa algoritmia liikeyhtälöiden ratkaisemiseen käytetään, sitä pidemmäksi voi asettaa simulaation aika-askeleen. Erityisesti korkeampien derivaattojen tietoa hyväksikäyttäville algoritmeilla voidaan käyttää hyvinkin pitkiä aika-askelia 1. Koska voimien laskemiseen kuluva aika on simulaation ajankäytön kannalta selvästi merkittävin, kannattaa usein liikeyhtälöiden ratkaisemiseen käyttää hidasta ja tarkkaa algoritmia. Liikeyhtälöiden ratkaisemiseen käytetään usein Verlet-algoritmia tai sen muunnelmia 1, kuten Leap-frog-algoritmia, jota Gromacs-ohjelmisto käyttää oletuksena. Tulosten analysointi MD-simulaation tuloksista kiinnostavimpia ovat usein ne ominaisuudet, joita voitaisiin mitata myös empiirisesti. Niistä yksinkertaisimpia ovat termodynaamiset ominaisuudet, kuten lämpötila, paine ja lämpökapasiteetti. Kaikkia termodynaamisia ominaisuuksia ei voida mitata suoraan simulaatiossa, koska niitä ei voida esittää partikkelien koordinaattien ja momenttien funktion keskiarvona. Näitä ominaisuuksia ovat esimerkiksi entropia, Helmholtzin vapaa energia ja Gibbsin vapaa energia 1. Lisäksi on joukko ominaisuuksia, jotka kuvaavat nesteen paikallisia rakenteita. Näistä tärkein on radiaalinen tiheysfunktio. MD-simulaatioihin tarkoitetut ohjelmistot tarjoavat yleensä monipuolisen valikoivan valmiita toimintoja eri ominaisuuksien laskemiseksi simulaation tulosdatasta. Simulaatioiden heikkoudet MD-simulaatioilla on joukko heikkouksia, joiden huomiotta jättäminen saattaa johtaa joissain tapauksissa virheellisiin tuloksiin 2. Heikkouksien kirjo riippuu ohjelmistosta, käytetystä voimakentästä sekä simulaation parametreista, mutta jotkin asiat voidaan yleistää kaikille simulaatioille: Simulaatiot ovat klassisia Newtonin liikeyhtälöiden käytön suorana seurauksena simulaatioissa käytetään klassista mekaniikkaa. Normaaleissa lämpötiloissa tämä ei yleensä aiheuta ongelmia, mutta tässä on kuitenkin joitakin poikkeuksia. Tärkeä asia huomioitavaksi on kovalenttisten sidosten korkeataajuuksinen väreily. Molekyylimallinnusohjelmat ottavat tämän yleensä oletuksena jollakin tavoin huomioon. Elektronit ovat matalimmassa viritystilassa MD:ssä käytetään konservatiivista voimakenttää, joka on vain atomien si- 6
jaintien funktio. Elektronien liikkeitä ei siis oteta huomioon, toisin sanoin oletetaan, että elektronit mukauttavat dynamiikkansa heti kun atomien sijainnit vaihtuvat. Tätä kutsutaan Born-Oppenheimer-approksimaatioksi 2. Tämä oletus on yleensä oikeutettu, mutta elektronien siirtymisiä tai viritystiloja ei tällöin voida käsitellä. Myöskään kemiallisia reaktioita ei voida käsitellä, mutta sille olisi muitakin syitä. Vuorovaikutuksia approksimoidaan Esimerkiksi Gromacs-ohjelmisto jättää huomiotta Lennard-Jones -vuorovaikutukset sekä joskus myös Coulombin vuorovaiktukset, mikäli kantama ylittää ohjelmaan määritellyn rajan (cut-off-radius) 2. Voimakentät on yleensä toteutettu niin, että niihin liittyy joukko erilaisia approksimaatioita. MD-simulaation tekeminen käytännössä Seuraavassa käsitellään vedessä olevaa peptidiä simuloivan MD-simulaation toteuttamista Gromacs-ohjelmistolla. Simulaatio perustuu ohjelmiston Internet-sivuilla olevaan esimerkkiin 6. Esimerkin avulla pyritään muodostamaan käsitys siitä, minkälaisten määrittelyjen tekemistä MD-simulaatio vaatii, ennen kuin se voidaan toteuttaa. Eri ohjelmistoissa määrittelyt tehdään eri tavoilla, mutta kaikki ohjelmistot Gromacsin tärkeimmät tiedostotyypit 6 Molecular topology file (.top) Tiedosto sisältää käsiteltävän systeemin topologiainformaation. Molecular structure file (.gro) Tiedosto sisältää informaation käsiteltävän systeemin molekyylien rakenteesta. Molecular dynamics parameter file (.mdp) Tiedostossa määritellään simulaation parametrit, kuten aika-askeleiden määrän, niiden pituuden, lämpötilan ja paineen. Index file (.idx) Tarvitaan, mikäli halutaan määritellä atomiryhmiä, joille halutaan määritellä erityisiä ominaisuuksia. Ryhmiä voivat olla esimerksiksi temperatule coupling group, accelerate group tai freezing group Run input file (.trt) Tämä tiedosto generoidaan ylläolevien tiedostojen pohjalta Trajectory file (.trr) Tämäntyyppinen tiedosto saadaan simulaation tuloksena. 7
vaativat kuitenkin likimain samansisältöisen lähtöinformaation. Otetaan pdb-tiedosto käyttöön Simulaation valmistelu aloitetaan muuntamalla proteiinitietopankista saatu pdb-muotoinen tiedosto Gromacsin tarvitsemaksi topologia- ja rakenneinformaatioksi. Tämä tehdään komennolla: pdb2gmx -f peptidi.pdb -o peptidi.gro -p topologia.top Pdb2gmx on ohjelma jolla tuo muunnos siis suoritetaan. Rakenneinformaatio tallentuu tiedostoon peptidi.gro ja topologiainformaatio tiedostoon topologia.top. Laitetaan peptidi veteen Seuraavaksi haluamme luoda suorakulmaisen tyhjän laatikon molekyylin ympärille, jotta voimme myöhemmin täyttää laatikon vedellä. Tämä onnistuu komennolla: editconf -f peptidi.gro -o boksi.gro -c -d 0.5 Laatikon rakenneinformaatio tallentuu tiedostoon boksi.gro. Käskyn perässä oleva 0.5 määrittelee, kuinka paljon tilaa halutaan jättää peptidin ympärille. Tämän jälkeen täytetään laatikko vedellä, se onnistuu komennolla: genbox -cp boksi.gro -cs -p topologia.top -o peptidi_vedessa.gro Tiedostoon peptidi_vedessa.gro on tämän jälkeen tallentuneena vedessä olevan peptidin muodostaman systeemin rakenneinformaatio. Samalla tiedostossa topologia.top oleva topologiainformaatio päivitettiin. Tehdään energian minimointi Koska genbox-funktion tulostama systeemi ei ole energiaminimissä, on systeemille tehtävä energian minimointi ennen kuin voidaan tehdä MD-simulaatioita. Esiprosessoidaan systeemi energian minimointia varten komennolla: grompp -v -f em.mdp -c peptidi_vedessa.gro -o em.tpr -p topologia. top tässä tiedosto em.mdp siis sisältää simulaation parametrit. Komento generoi tiedoston em.tpr, joka sisältää kaikki energiaminimisaatiosimulaation tarvitsemat tiedot. Ajetaan seuraavaksi simulaatio komennolla: mdrun -v -s em.tpr -o em.trr -c peptidi_minimisaation_jalkeen.gro -g emlog.log Nyt tiedostossa peptidi_minimisaation_jalkeen.gro on systeemin rakenne energian minimoinnin jälkeen. 8
S-114.2500 Solubiosysteemit, TKK Kuvassa on systeemi ennen ja jälkeen energian minimoinnin. Kuvan punaiset viivat kuvaavat vesimolekyylejä minimoinnin jälkeen, ja vihreät viivat vesimolekyylejä ennen minimointia. Vastaavasti tummanvihreät viivat kuvaavat peptidiä minimoinnin jälkeen, ja liilat viivat peptidiä ennen minimointia. Kuvasta nähdään, että vesimolekyylien sijainnit ovat muuttuneet minimoinnissa peptidimolekyylejä vähemmän. Lyhyt valmisteleva MD-simulaatio Seuraavaksi tehdään lyhyt MD-simulaatio siten, että peptidin sijainnin muutoksia rajoitetaan. Tarkoituksena on antaa vesimolekyylien mukautua vedessä olevaan peptidin. Peptidin liikkumista koskeva rajoitus on määritelty tiedostoon pr.mdp, joka sisältää ajettavan simulaation parametrit. Valmistellaan simulaatio: grompp -f pr.mdp -o pr.tpr -c peptidi_minimisaation_jalkeen.gro -p topologia.top Ja ajetaan MD-simulaatio: mdrun -v -s pr.tpr -e pr.edr -o pr.trr -c peptidi_prn_jalkeen.gro -g prlog >& pr.job & Lopussa oleva >& pr.job tarkoittaa että komennon tuloste viedään tiedostoon pr.job. Tiedostoon peptidi_prn_jalkeen.gro tallentuu peptidin rakenneinformaatio valmistelevan simulaation jälkeen. 9
Alla on kuva systeemistä ennen ja jälkeen äsken tehdyn lyhyen md-simulaation. Kuvassa punaiset ja tummanvihreät viivat ovat samoja kuin äskeisessä, loput värit ovat ilmeiset. Kuvasta voidaan havaita, että vaikka peptidimolekyylien liikkeitä tässä MDsimulaatiossa rajoitettiin, liikkuivat ne enemmän kuin energiaminimoinnin yhteydessä. Vesimolekyylit ovat selvästikin tämän simulaation aikana liikkuneet uusiin sijainteihin. Kuvasta ei voi hahmottaa, mikä vesimolekyyli on mennyt minnekin, kuten edellisestä kuvasta. Varsinainen MD-simulaatio Tämän jälkeen siirrytään vihdoin tekemään koko ajan valmisteltua varsinaista MD-simulaatiota. Suoritetaan esiprosessointi: grompp -v -f full.mdp -o full.tpr -c peptidi_prn_jalkeen.gro -p topologia.top Ja simulaatio: mdrun -v -s full.tpr -e full.edr -o full.trr -c peptidi_simun_ jalkeen.gro -g full.log >& full.job & Tiedosto full.mdp sisälsi siis simulaation parametrit. Simulaation määriteltiin 100000 aika-askelta, yhden aika-askelen pituuden ollessa 0.002 ps. Näin ollen mitattu ajanjakso oli yhteensä 100ps. Tulostiedostoon tallennettiin atomien koordinaatit 250 askeleen välein. Simulaation suorittaminen vei normaalilla työpöytäkoneella aikaa vajaan puoli tuntia. Ohjelman antamat arviot jäljellä olevasta ajasta pitivät alusta asti paikkansa. 10
Kuvassa alla on peptidi ennen viimeistä simulaatiota ja sen jälkeen. Kuvan vihreä molekyyli on molekyyli ennen simulaatiota. Molekyylin käyttäytyminen simulaation aikana tallentuu trajectory-tiedostoon, jota voi tarkastella esimerkiksi VMD-ohjelmalla. Ohjelmalla voi katsoa animaation simulaation kulusta ja määritellä tarkkaan, millä tavalla haluaa mitkäkin atomit visualisoida. Gromacs sisältää myös joukon apuvälineitä, joilla simulaation tuloksista voi saada tietoa irti. Niihin tutustuminen ei kuitenkaan tämän laajuisen harjoitustyön puitteissa ole mahdollista. Ohjelmistoja MD-simulaatioihin Alla on taulukko, jossa on esitetty tunnetuimpia ohjelmia MD-simulaatioiden ja energian minimointien tekemiseen 3,4,5,6,7. Ohjelmisto Lisenssi Valmistaja AMBER CHARMM 400$ akateeminen, 20,000$ kaupallinen 600$ akateeminen, kaupallinen ei tiedossa University of California, Scripps research institute Harvard GROMACS GPL, ilmainen Groningen University GROMOS 400$ akateeminen, 12,000$ kaupallinen Groningen University NAMD ilmainen Illinois University Ohjelmistoille Amber, Charmm ja Gromos on yhteistä se, että ohjelmien ni- 11
met tarkoittavat itse ohjelman lisäksi niiden käyttämää voimakenttää. Esimerkiksi Gromacs-ohjelmistossa voidaan käyttää Charmm- ja Gromos-voimakenttiä. Gromacs-ohjelmisto valikoitui tarkempaan tutkimukseen tässä harjoitustyössä sen ilmaisuuden ja hyvän ohjekirjan perusteella. Amber-ohjelmisto perustuu alunperin University of Californiassa kehitettyyn samannimiseen voimakenttään. Nykyään ohjelmistoa hallinnoi Scripps research institute. Ohjelmistoa käytetään folding@home -ohjelmassa, jossa ihmiset voivat antaa kotitietokoneidensa käyttämättömänä hukkaan menevän prosessoriajan proteiinien laskostumisen simuloimiseen 1. Ohjelmiston halvemman lisenssin voivat saada akateemisten tahojen lisäksi voittoa tavoittelemattomat organisaatiot sekä valtionhallinnon toimijat. Charmm-ohjelmisto on kehitetty Harvardin yliopistolla. Sen kaupallista versiota markkinoi nykyisin yritys nimeltä Accelrys, joka tarjoaa ohjelmistoa osana omaa laajempaa biokemian ohjelmistopakettiaan. Charmm markkinoi olevansa monipuolinen ja joustava ohjelma erilaisien molekyylisysteemien mallintamiseen 4. Gromos-ohjelmisto on Gromacsin tavoin alunperin kehitetty Groningenin yliopistolla. Ohjelmisto muistuttaa ominaisuuksiltaan Gromacs-ohjelmistoa. Yrityksille ohjelman lisenssi maksaa 12 000 dollaria. Illinoissin yliopistossa kehitetty Namd-ohjelmisto (Not Another Molecular Dynamics) soveltuu erityisesti suurten molekyylisysteemien tutkimiseen. Se toimii erittäin hyvin rinnakkaisajossa 2,5. Ohjelman tiedostomuodot ovat yhteensopivia Amber ja Charmm -ohjelmistojen kanssa. Loppusanat MD-simulaatioiden tekemiseen on olemassa hyvä valikoima erittäin laadukkaita ohjelmia. Aihepiiriin on täysin mahdollista tutustua pelkästään ilmaisten ohjelmien avulla. Ohjelmien pieniä kokeiluja pidemmälle menevä käyttö vaatii aihepiirin hyvää hallintaa, ohjelman toiminnan syvällistä tuntemusta ja tietoteknistä osaamista. Aiheesta ei ole juurikaan olemassa suomenkielistä kirjallisuutta. Aiheen syvällinen ymmärtäminen vaatii hyvää tilastomatematiikan, kemian, fysiikan ja tietotekniikan perusosaamista. Koin vaikeaksi muodostaa asiasta eheää kokonaiskuvaa keräämäni materiaalin avulla. Asioiden ymmärtäminen vaatii tietojen keräämistä ja yhdistelemistä useista eri lähteistä. Tietokonesimulaatioiden merkitys tulee tulevaisuudessa kasvaamaan tietokoneiden nopeuksien kehittymisen tuodessa lisää mahdollisuuksia erilaisille simulaatioille. Tästä syystä aiheen opiskelun voi katsoa erittäin hyödyllistä. Tämänkaltainen harjoitustyö on mielestäni oikein hyvä tapa tutustua aihepiiriin, johon tulisi täysin harrastusmielessä tuskin vastaavalla tavalla tutustuttua. 12
Lähteet 1. Daan Frenkel & Berend Smit: Understanding Molecular Simulation: From Algorithms to Applications. San Diego, California, USA. Academic Press, 2002. ISBN 0-12-267351-4 2. David van der Spoel, Erik Lindahl, Berk Hess: Gromacs user manual ver 3.2. Saatavilla osoitteesta http://www. gromacs.org (13. lokakuuta 2005) 3. Amber-ohjelmiston Internet-sivut: http://amber.scripps.edu/ 4. Charmm-ohjelmiston Internet-sivut: http://www.charmm.org/ 5. Gromos-ohjelmiston Internet-sivut: http://www.igc.ethz.ch/gromos/ 6. Gromacs-ohjelmiston Internet-sivut: http://www.gromacs.org 7. Namd-ohjelmiston Internet-sivut: http://www.ks.uiuc.edu/research/namd/ 13