S-114.500 Solubiosysteemien perusteet Harjoitustyö Syksy 2003 DNA, RNA ja proteiinirakenteen ennustaminen Ilpo Tertsonen, 58152p Jaakko Niemi, 55114s
Sisällysluettelo 1. Alkusanat... 3 2. Johdanto... 4 2.1. DNA:n ja RNA:n rakenne... 4 2.2. Aminohappojen ja proteiinien rakenteesta... 5 2.3. Proteiinien rakennetasot... 6 2.4. Laskostumisongelma ja fysikaalinen näkökulma... 8 3. Ennustamiseen käytettävät ohjelmat... 8 3.1. RNA:n sekundäärirakenteen ennustamiseen käytetyt ohjelmat... 8 3.1.1. Circles... 8 3.1.2. Vienna RNA Package... 9 3.1.3. ESSA... 9 3.2. Proteiinien rakenteen ennustamiseen käytettävät ohjelmat...10 3.2.1. kprot...10 3.2.2. Protein Explorer...10-2-
1. Alkusanat Tehtävänä oli kertoa internetmateriaalin pohjalta ohjelmista, jotka ennustavat DNA:n, RNA:n ja proteiinien rakenteen, kun sekvenssi tiedetään. Esitelmä alkaa johdantoosuudella, jossa kerrataan DNA:n, RNA:n ja proteiinien rakennetta. Tutkimme myös lyhyesti laskostumisen fysikaalisia syitä ja laskennallisia ongelmia, jotka olennaisesti liittyvät ohjelmien tekoon. Lopuksi esittelemme nämä ohjelmat, joiden toimimisen kanssa oli suuria vaikeuksia (esim. käyttöjärjestelmäongelmat ja oman kokemuksen puute). Tämän takia osa www-materiaalin ohjelmista jäi käsittelemättä. -3-
2. Johdanto 2.1. DNA:n ja RNA:n rakenne Nukleiinihappojen perusrakenne on puriini- tai pyrimidiiniemäksestä, riboosista (RNA) tai deoksiriboosista (DNA) ja fosfaattiryhmästä koostuva nukleotidi. DNA on kaksijuosteinen ketju, kun taas RNA on yksijuosteinen. DNA:ssa esiintyvät emäkset ovat nimeltään sytosiini, tymiini, adeniini ja guaniini. RNA:ssa tymiini korvautuu urasiililla. Sytosiini, tymiini ja urasiili ovat pyrimidiinejä, ja guaniini ja adeniini puriineja. Nukleotidit liittyvät nukleiinihapoissa fosfaatti-ryhmien kautta toisiinsa muodostaen DNA:ssa erittäin pitkiä polymeerejä. Puriinit ja pyrimidiinit voivat muodostaa välilleen vetysidoksia siten, että tymiinin ja adeniinin (tai urasiilin) välille muodostuu kaksi vetysidosta, sekä sytosiinin ja guaniinin välille kolme sidosta. Näistä jälkimmäinen onkin kemiallisesti vahvempi sidos. DNA sijaitsee pääasiassa solun tumassa, josta siirtäjä-rna (trna) siirtää information sytoplasmaan. Ribosomissa tapahtuu proteiinien valmistus, jossa RNA:n informaation perusteella muodostuu valkuaisaineet. Tämän jälkeen proteiini laskostustuu sille ominaiseen 3-dimensionaaliseen muotoon, joka lopulta määrää myös sen funktion. Kuva 1 RNA:n rakenne Kuva 2 DNA:n rakenne -4-
2.2. Aminohappojen ja proteiinien rakenteesta Oheinen kuva osoittaa aminohappojen yleisen rakenteen. Niissä on aina karboksyylihapporyhmä (COOH) sekä aminoryhmä (NH2). Aminohappojen sivuketju, joka kuvassa on merkitty kirjaimella R, antaa niille lisäominaisuuksia. Sivuketjun rakenteen perusteella aminohapot voidaan luokitella monellakin eri tavalla. Valkuaisaineissa (proteiineissa) aminohapot liittyvät toisiinsa peptidisidoksella, josta on esimerkkinä on glysiinin ja alaniinin välinen sidos alakuvassa. Eliminaatioreaktiossa vapautuu vettä. Muutamia aminohappoja sisältävää molekyyliä kutsutaan oligopeptidiksi, noin yli 20 aminohappoa sisältävä on jo polypeptidi, tosin rajanveto oligo- ja polypeptidin välillä on varsin häilyvä. -5-
2.3. Proteiinien rakennetasot Valkuaisaineiden rakennetta voidaan tarkastella usealla eri tasolla. Se järjestys, jossa aminohapot sijaitsevat valkuaisaineessa antaa polypeptidin primäärirakenteen. Tämä tarkastelukulma ei vielä suoranaisesti kerro valkuaisaineen avaruudellisesta rakenteesta kovinkaan paljon. Valkuaisaineen sekundäärirakenteessa voidaan erottaa kahdenlaisia alueita, ns. α- kierteitä sekä β-laskoksia. α-heliksi on ainoa mahdollinen kierteinen (helikaalinen) polypeptidimuoto, joka sisältää suotuisat vetysidokset ja on sidoskulmien puolesta mahdollinen. α-heliksi on yleinen sekundäärirakenne kuitumaisilla ja pallomaisilla (globulaarisilla) proteiineilla. β-laskoksessa vetysidokset muodostuvat vierekkäisten polypeptidiketjujen välille, eivätkä pitkin samaa ketjua kuten α-heliksissä. β-laskoksia on kahdenlaisia: antiparallelleja, joissa vierekkäiset vetysidoksilla kiinnittyneet ketjut kulkevat vastakkaisiin suuntiin ja paralleja, joissa ketjut kulkevat samaan suuntaan. Koko kiertyneen polypeptidin kolmiulotteinen rakenne muodostaa sen tertiäärisen rakenteen, ja jos kaksi tai useampia polypeptidejä rakentuvat yhdeksi kompleksiksi käytetään tästä nimitystä kvaternäärinen rakenne. Muun muassa hemoglobiini koostuu kahdesta alfa-ketjusta ja kahdesta beta-ketjusta. -6-
Kuva 3 Proteiinin eri rakennetasot -7-
2.4. Laskostumisongelma ja fysikaalinen näkökulma Laskennalliseen tutkimiseen liittyy paljon ongelmia. Proteiinin tai RNA:n laskostuneen muodon tunteminen on erittäin tärkeää sillä se määrää molekyylin funktion. Tämän avuksi on kehitetty erilaisia metodeja ja malleja, joilla voidaan redusoida luonnon kompleksisuutta. Näitä metodeja käytetäänkin testaamissamme ohjelmissa. Näistä metodeista mainittakoon: - Anfinsenin hypoteesi (energeettisesti edullisin muoto) - kokemusperäinen data - termodynaamiset metodit - fysikaaliset vuorovaikutukset (vetysidokset, rikkisillat, van der Waalsin voimat, hydropaattisuus) 3. Ennustamiseen käytettävät ohjelmat Seuraavassa on esitelty internetistä löytyviä ohjelmia, joita voi käyttää DNA:n, RNA:n ja proteiinien rakenteen ennustamiseen. Ohjelmat voi käytännössä jakaa kahteen osaan RNA:n sekundäärirakennetta ennustaviin(circles, Vienna RNA Package ja ESSA) ja proteiininrakennetta ennustaviin(kprot ja Protein Explorer). 3.1. RNA:n sekundäärirakenteen ennustamiseen käytetyt ohjelmat 3.1.1. Circles Windows 95, 98, NT pohjainen ohjelma RNA:n sekundäärirakenteen tutkimiseen käyttää comparative methodia vaikeakäyttöinen aloittelijoille perustuu maximum weight matching (MWM) menetelmään, joka taas perustuu graafiteorian soveltamiseen RNA:n sekundäärirakenteen tutkimisessa MWM käyttää mm. minimienergiaperiaatetta, teoreettista ja kokeellista dataa MWM on selvästi nopeuttanut comparatiivista RNA:n sekundäärirakenteen tutkimista ja menetelmää on testattu menestyksekkäästi trna:n, SRP RNA:n ja 16S rrna:n sekvenssien tutkimisessa. http://taxonomy.zoology.gla.ac.uk/rod/circles/ -8-
3.1.2. Vienna RNA Package ohjelma RNA:n sekundäärirakenteen ennustamiseen ja vertailemiseen, toteutettu C-ohjelmointikielellä käyttää RNA:n sekundäärirakenteen ennustamisessa pääasiassa minimienergiaperiaatetta Vienna RNA package koostuu kolmesta eri algoritmia: minimivapaaenergia algoritmi, joka ennustaa yhden optimaalisen rakenteen partition function algoritmi, joka laskee base pair todennäköisyyksiä termodynamiikan perusteella suboptimal folding algoritmi, joka luo muita mahdollisia rakenteita tietyllä optimaalienergiavälillä Vienna RNA Package koostuu seuraavanlaisista osakokonaisuuksista: RNAfold, ennustaa sekundäärirakenteen minimienergian ja paritodennäköisyydet RNAeval, laskee sekundäärirakenteen energian RNAheat, laskee RNA sekvenssin specific heatin RNAinverse, kääntää jo määritellyn sekvenssin RNAdistance, vertailee sekundäärirakanteita RNApdist, vertailee perusparitodennäköisyyksiä RNAsubopt, suorittaa suboptimaalisen foldauksen http://www.tbi.univie.ac.at/~ivo/rna/ 3.1.3. ESSA Unix-pohjainen työkalu RNA:n sekundäärirakenteen analysoimiseen kokemus, vertailu ja termodynaamiset metodit ovat ohjelman perusta graafinen käyttöliittymä piirtää havainnollisia (?) kuvia http://www.inra.fr/bia/t/essa/doc/essa_home.html -9-
3.2. Proteiinien rakenteen ennustamiseen käytettävät ohjelmat 3.2.1. kprot www-palvelu kalvoproteiinien rakenteen ennustamiseen erityisesti transmembraaniproteiineille, joilla on lukuisia alfa-heeliksejä 4 eri alaohjelmaa (SwissProt database) kprot:in alaohjelmat: kahden proteiinin hydropaattisuusprofiilin plot-ohjelma vertailu ennustaa transmembraaniheliksin suunnistuksen ohjelma, joka etsii muita proteiineja, joilla samanlainen hydropaattisuusprofiili 3.2.2. Protein Explorer kun tiedetään proteiinin PDB ID ja 3-D rakenne kätevä ohjelma rakenteen tutkimiseen laiskoille tarvitsee vain tietää PDB ID koodi -10-