Bioinformatiikan perusteet

Koko: px
Aloita esitys sivulta:

Download "Bioinformatiikan perusteet"

Transkriptio

1 Bioinformatiikan perusteet

2

3 Bioinformatiikan perusteet Jarno Tuimala Tieteen tietotekniikan keskus CSC

4 Tämän teoksen tekijänoikeudet kuuluvat Jarno Tuimalalle ja Tieteellinen Laskenta OY:lle. Teoksen tai osia siitä voi kopioida vapaasti henkilökohtaiseen käyttöön sekä Suomen yliopistojen ja korkeakoulujen kurssikäyttöön edellyttäen, että kopioon tai tulosteeseen merkitään tämä ilmoitus teoksen tekijästä ja tekijänoikeuksista. Teosta ei saa myydä, lainata, vuokrata, tai sisällyttää osaksi muita teoksia ilman tekijän lupaa, mahdolliset kirjastokappaleet poislukien. Myös kirjan jakaminen digitaalisesti ilman tekijän lupaa on kielletty. c Jarno Tuimala ja CSC Tieteellinen laskenta Oy painos ISBN Painopaikka: Picaset Oy Helsinki 2005

5 Bioinformatiikan perusteet 5 Esipuhe Alunperin bioinformatiikalla on tarkoitettu biologisten sekvenssiaineistojen käsittelyä tietokoneavusteisin menetelmin. Sittemmin bioinformatiikkaan on alettu lukea monia muitakin biologisessa tutkimuksessa keskeisiä sovellusaloja, kuten geenikartoitus ja molekyylimallitus. Bioinformatiikka on viime vuosina noussut keskeiseksi tutkimusalaksi. Kehitystä on vauhdittanut erityisesti tietokoneiden nopeutuminen ja halpeneminen. Huolimatta alan nopeasta kehityksestä, ei oppikirjoiksi soveltuvia suomenkielisiä teoksia ole julkaistu. Tämän kirjan tarkoituksena on paikata tuota kirjallisuudessa ammottavaa aukkoa. Tässä Bioinfomatiikan perusteet -kirjan laajassa versiossa keskitytään erityisesti biologisten sekvenssiaineistojen käsittelyyn, ja uusia sovelluksia, kuten DNAsiruja, käsitellään lyhyesti. Tämä ei olekaan kattava kuvaus bioinformatiikan laajasta kentästä, vaan ennemminkin pyritään antamaan kuva, mitä bioinformatiikan menetelmillä voidaan saavuttaa. Teoriaosuuksissa on painotettu pääperiaatteita, joiden ei uskota vanhenevan muutamassa vuodessa. Kirjasta on saatavilla myös lyhyempi, painettu versio, jota voi tilata CSC:stä. Kirja on suunnattu lähinnä biologian ja sen lähitieteiden opiskelijoille ja tutkijoille. Mukaan on otettu jossain määrin myös menetelmien taustalla olevaa matematiikkaa. Tämän tarkoituksena on syventää teorian ymmärtämystä. Kirjaa alkaa yleisluontoisilla kappaleilla, joissa esitellään lyhyesti perusbiologiaa, laskennallisten menetelmien perusteita ja käsiteltävien menetelmien sovelluksia. Lisäksi yksittäiset luvut alkavat yleensä kattavammalla kuvauksella esiteltävien menetelmien käyttökohteista. Lukujen tiivistelmät on koottu erilliseksi luvuksi kirjan loppuun, jotta asioiden kertaaminen tiivistelmiä käyttäen olisi mahdollisimman yksinkertaista. Kirjan lopuksi esitellään keskeinen, yleensä englanninkielinen kirjallisuus ja annetaan joitakin tehtäviä lukijan ratkottavaksi. CSC on julkaissut erinomaisia kirjoja geenikartoituksesta, DNA-siruaineistojen analysoinnista ja monien kirjassa mainittujen ohjelmistojen käytöstä, joten näitä bioinformatiikan alueita käsitellään kirjassa lyhyesti tai ei lainkaan. Näistä menetelmistä kiinnostuneita lukijoita kehotetaan tutustumaan tarkemmin kirjoihin Geenikartoitusopas (2004) ja DNA microarray data analysis (2005). Painettuja kirjoja voi tilata CSC:stä, mutta ne ovat myös saatavilla PDF-muodossa Internetistä. Kiitän Taavi Hupposta, Jaakko Hyvöstä, Eija Korpelaista, Jyrki Muonaa ja Martti Tolvasta käsikirjoituksen rakentavasta ja tarkentavasta kommentoinnista. Kirjan ideamateriaalina on käytetty Pekka Uimarin Helsingin Yliopiston Biotieteiden laitoksella pitämän Geneettinen Bioinformatiikka -kurssin luentomateriaalia vuodelta 2002, joka kiitoksella huomioidaan. Kirjaan jääneet epätarkkuudet ja virheet ovat ainoastaan kirjoittajan aikaansaannoksia. Toivon, että kirjasta on iloa ja hyötyä niille, jotka haluavat tutustua bioinformatiikan kiehtovaan maailmaan. Palautetta voi lähettää sähköpostilla osoitteeseen Espoossa,

6 6 Bioinformatiikan perusteet Tekijä

7 Sisältö 7 Sisältö Esipuhe 5 I Johdanto 17 1 Johdanto Mitä on bioinformatiikka? Keitä bioinformaatikot ovat? Bioinformatiikan merkitys biologiassa Laskennallisen biologian perusteet Laskennalliset asiat ovat bioinformatiikassa keskeisiä Mikä on algoritmi? Kuinka nopea tietokoneohjelma on? Kuinka paljon muistia ohjelma vaatii? NP-ongelmat Rinnakkaislaskenta Dynaaminen ohjelmointi Esiteltävien menetelmien sovellusalueet Miksi esimerkkejä? Sekvenssien hankkiminen Sekvenssien ominaisuuksien selvittäminen Kahden sekvenssin rinnastus Usean sekvenssin rinnastus Molekyylisystematiikka SARS-epidemian selvittäminen II Sekvenssianalyysi 33 4 Sekvensointi ja DNA-sekvenssit Sekvensointi Yleiset sekvensointivirheet Sekvenssin tallentaminen EMBL-tietokantaan Sekvenssin tallentaminen omaan käyttöön Tietopankeissa olevien sekvenssien luotettavuus Sekvensseistä genomiksi Genomin toiminnan selvittäminen... 40

8 8 Bioinformatiikan perusteet 4.8 Eri tyyppiset sekvenssit Biotietokannat Mitä tietokannat ovat? Flat file -tietokanta Relaatiotietokanta Mitä molekyylibiologiset tietokannat ovat? Nukleotidisekvenssitietokannat EMBL, GenBank ja DDBJ RefSeq UniGene Locuslink dbest Aminohapposekvenssitietokannat UniProt SWISS-PROT TrEMBL PIR Yhdistelmätietokannat Tunnistetietokannat PROSITE PRINTS Tunnisteiden yhdistelmätietokannat - InterPro Genomitietokannat Ensembl UCSC Rakennetietokannat PDB Julkaisutietokannat PubMed Miten käytän tietokantoja? Mistä tietokannasta lähteä liikkeelle? Asiasanahaku Sekvenssihaku Tunnistenumerohaku Tunnistenumeroista Pisteytysmatriisit Pisteytysmatriisit PAM-matriisit aminohapoille PAM-matriisien muodostaminen BLOSUM-matriisit aminohapoille PAM- ja Blosum-matriisien erot Muut aminohappomatriisit Aukkosakot Nykyisin käytetyt aukkosakkomallit Kahden sekvenssin rinnastus Kahden sekvenssin rinnastusmenetelmät Mikä on sekvenssirinnastus?... 68

9 Sisältö Sekvenssirinnastusten kuvaaminen tietokoneelle Rinnastuksen pistemäärän laskeminen Pistematriisimenetelmä Dynaaminen optimointi Needleman-Wunsch-algoritmi Esimerkki Needleman-Wunsch-algoritmista Smith-Waterman-algoritmi Esimerkki Smith-Waterman-algoritmitmista Sekvenssirinnastuksen tilastollinen merkitsevyys Paikallisen sekvenssirinnastuksen tilastollinen merkitsevyys Kokonaissekvenssirinnastuksen tilastollinen merkitsevyys Rinnastuksen asetusten määrittäminen Sekvenssihaut Sekvenssihaku on monille jokapäiväinen työkalu Kuinka tietohakuja tehdään? BLAST PSI-BLAST PHI-BLAST Sekvenssihaut Smith-Waterman-algoritmilla BLAST:n ja FastA:n Hakuparametrien asettamisesta Rajoita haku vain kiinnostavaan tietokantaan Suodata hakusekvenssi Lyhyiden sekvenssien hakeminen Homologien tunnistaminen Eksonien määrittäminen Pääsäännöt Suunnittele haut! Pitkät sekvenssit - vaihtoehtoiset lähestymistavat Uusi ratkaisu - PatternHunter Usean sekvenssin rinnastus Mikä on usean sekvenssin rinnastus? Usean sekvenssin rinnastus dynaamista optimointia käyttäen Progressiiviset menetelmät eli asteittain etenevät menetelmät Clustal-perhe T-Coffeen menetelmä Muscle-menetelmä Usean sekvenssin rinnastuksen pistemäärän laskeminen Iteratiiviset menetelmät Proteiineja koodaavien DNA-sekvenssien rinnastaminen Aminohapposekvenssirinnastuksen editointi käsin Sekvenssirinnastuksen laadun arviointi Clustal-perheen tekemiä tyypillisiä virheitä DNA-sekvenssin ominaisuuksien selvittäminen Mitä DNA:sta voidaan selvittää? Restriktioentsyymien katkaisukohtien löytäminen Nukleotidien ja kodonien runsaussuhteiden arviointi DNA-sekvenssin translointi aminohapposekvenssiksi DNA:n käänteiskomplementarisointi

10 10 Bioinformatiikan perusteet 11.6 Eksonien ja intronien määrittäminen Vaihtoehtoinen silmukointi Promoottorialueen tunnistaminen Antisense-RNA Aminohapposekvenssin ominaisuuksien selvittäminen Mitä aminohapposekvensseistä voidaan ennustaa? Aminohappokoostumuksen selvittäminen Sekundäärirakenteen ennustaminen Coiled-coil alueiden tunnistaminen Hydrofobisten alueiden tunnistaminen Sekundäärirakenteiden selvittäminen Chou-Fasman -menetelmä Lähimmän naapurin menetelmät Neuroverkkomenetelmät Motiivien ja domeenien tunnistaminen Translaation jälkeisten modifikaatiokohtien tunnistaminen Rakenteiden rinnastaminen SSAP-algoritmi DALI-algoritmi III Molekyylisystematiikka Johdatus molekyylisystematiikkaan Mitä molekyylisystematiikka on? Fylogeneettinen puu Lajien ja tuntomerkkien evoluutio Lajit luokitellaan monofyleettisiin ryhmiin Molekyylisystematiikan suuntaukset Tavanomaisen analyysin eteneminen Yksinkertaisen analyysin työvaiheet Sekvenssien valinta Sisäryhmän valinta ja ulkoryhmän käyttö Evolutiivisen mallin valinta ja sekvenssien rinnastaminen Analyysimenetelmän valinta Tuloksen luotettavuuden arviointi Evoluutiomallit Mikä on evoluutiomalli? Mihin evoluutiomallia käytetään? Aminohapposekvensseille sopivat evoluutiomallit DNA-sekvensseille soveltuvat evoluutiomallit Parsimoniamenetelmä ja evoluutiomalli Aukkokohtien käsittely Etäisyysmenetelmät Mitä etäisyysmenetelmät ovat Ultrametriset puut UPGMA ja WPGMA Additiiviset puut

11 Sisältö Minimievoluutiomenetelmä Neighbor-joining Pienimmän neliösumman menetelmät Molekyylisystematiikka ja etäisyysmenetelmät Etäisyyspuun luotettavuuden arviointi Molekyylikello-oletuksen testaaminen etäisyysmenetelmin Laskennalliset esimerkit Parittaisten etäisyyksien laskeminen Puun muodostaminen UPGMA-menetelmällä Parsimoniamenetelmä Mikä on parsimoniamenetelmä? Parsimoniapuun muodostamisen periaate Hennigin argumentaatio Wagnerin menetelmä Wagnerin kaava Optimaalisuuskriteeri Wagnerin optimaalisuuskriteeri Fitchin optimaalisuuskriteeri Dollon optimaalisuuskriteeri Camin-Sokalin optimaalisuuskriteeri Yleistetty optimaalisuuskriteeri Lyhyimmän mahdollisen puun etsintä Muodostettujen puiden kuvailu ja vertailu Puun pituus Yhdenmukaisuusindeksi Synapomorfiaindeksi Muokattu yhdenmukaisuusindeksi Indeksien ongelmista Ominaisuuksien painotus analyysissä Suurimman uskottavuuden menetelmä ja bayesilainen menetelmä Mitä ovat suurimman uskottavuuden menetelmät? Uskottavuuden käyttö todennäköisyyden arviointiin Puun uskottavuuden laskeminen Evoluutiomallin määrittäminen DNA-sekvensseille Uskottavuuden laskeminen Kahden taksonin puu Kolmen taksonin puu Neljän taksonin puun uskottavuuden laskeminen Ominaisuuksien evoluutionopeuden vaihtelun ottaminen huomioon Evoluutiomallin määrittäminen aminohapposekvensseille Kuinka paras puu löydetään Mitä ovat bayesilaiset menetelmät? Superpuumenetelmät Mitä superpuumenetelmät ovat? Olemassa olevat superpuumenetelmät MRP-menetelmän periaate MRP-menetelmän muunnokset Menetelmän edut

12 12 Bioinformatiikan perusteet 19.6 MRP-menetelmään kohdistettu kritiikki Parhaan puun etsiminen ja puun uudelleenjärjestelymenetelmät Mitä puun uudelleenjärjestelymenetelmät ovat? Menetelmien käyttö Perinteinen haku Uudempia menetelmiä käyttävä haku Miten menetelmät toimivat? Täydellinen haku Rajattu haku Nearest neighbor interchange Subtree pruning and regrafting Tree bisection and reconnection Ratchet Tree fusing Tree-drifting Sectorial searches Random sectorial search (RSS) Consensus-based sectorial searches (CSS) Mixed sectorial searches (MSS) Superpuumenetelmät Puun luotettavuuden arviointi, konsensuspuut ja tilastolliset testit Puun luotettavuuden arviointi Bootstrapping Jackknifing Bremerin tukiarvo Puun pituuksien jakauma (DCL) Permutaatiohännäntodennäköisyys (PTP) Topologia-riippuvainen permutaatiohännäntodennäköisyys (T-PTP) Parametrinen bootstrapping Konsensuspuut Strict konsensus Semi-strict konsensus Majority-rule konsensus Nelson-konsensus Adams-konsensus Agreement subtrees Tilastolliset testit Kishino-Hasegawa Templeton Todennäköisyysosamäärätesti Puiden välinen etäisyys Symmetrinen etäisyys Pituuseroetäisyys Incongruence lenght difference Likelihood heterogeneity test Molekyylisystematiikan avoimia kysymyksiä Taksonominen vai ominaisuuksien yhteensopivuus? Erillinen analyysi

13 Sisältö Yhdistetty analyysi Ehdollinen aineistojen yhdistäminen Käytännön ehdotuksia Analyysiin DNA- vai proteiinisekvenssit? Long branch attraction Taksoniotanta ja häly - miten ne vaikuttavat analyysiin? Taksoniotanta Häly Sekvenssirinnastus ja POY Perinteinen lähestymistapa POY:n ratkaisumalli Optimointikohdistus (direct optimization) Fixed-states optimization Iterative-pass optimization Suosituksia Proteiinia koodaavat geenit Ribosomaalinen-RNA Aminohapposekvenssit Pseudogeenit Puu vai verkosto? Menetelmän valinta - simulaatiotutkimusten tuloksia Muutamia julkaistuja tuloksia Yhteenveto IV Genomiikka ja proteomiikka PCR-alukkeiden suunnittelu Miten alukkeet liittyvät bioinformatiikkaan? PCR-RFLP-menetelmien teoria Alukkeiden suunnitteleminen käsin Esimerkki alukkeiden suunnittelusta Alukkeiden suunnitteleminen tietokoneella Pistemutaatioiden etsintä ja niiden sovellukset Mitä ovat pistemutaatiot Seulonta tietokannoista EST-sekvenssien hakeminen EMBL-tietokannasta Tulosten tulkinta Edistyneempi tulkintamenetelmä Aminohappomuutokset ovat kiinnostavimpia Jatkotutkimukset Pistemutaatiot ja populaatiogenetiikka Geenikartoitus Farmakogenetiikka Tuntemattoman sekvenssin toiminnan selvittäminen Mihin toiminnan selvittäminen perustuu? BLAST-haku Tunnistetietokannat Fylogeneettinen analyysi

14 14 Bioinformatiikan perusteet 25.5 Ortologisten geenien luokittelu Geeniontologia DNA-sirut Promoottorianalyysi Mitä promoottorit ovat? Miten promoottorisekvenssejä analysoidaan? Promoottorisekvenssin hankkiminen Tunnettujen transkriptiofaktoreiden sitoutumiskohtien esittäminen ja etsiminen Miten parantaa haun spesifisyyttä? DNA-sirutulokset Fylogeneettiset jalanjäljet Modulit Tuntemattomien sitoutumiskohtien etsiminen Yhteisten piirteiden etsinnän sensitiivisyyden parantaminen DNA-siruanalyysi Mitä DNA-sirut ovat? DNA-sirujen valmistus DNA-sirujen käyttäminen Data-analyysi Koesuunnittelu Esikäsittely Suodatus Ilmentyneiden geenien löytäminen Tulosten visualisointi Jatkotutkimukset Tulosten julkaiseminen RNA:n sekundäärirakenteen ennustaminen Mihin RNA:n rakenteen ennustamista käytetään? RNA:ssa esiintyviä sekundäärirakenteita Miten sekundäärirakenteita ennustetaan? Minimienergiaperiaate Kovariaatiomenetelmä Geenirakenteen ennustaminen Mitä menetelmiä geenirakenteen ennustamiseen voidaan käyttää? Translaatio ja validointi Fickettin menetelmä Kodoniharhaan perustuva testi DNA:ta jäsentävien alueiden paikantaminen Esitumallisten geenien ennustaminen Aitotumallisten geenien ennustaminen Ennustusmenetelmien tarkkuus Vertaileva genomiikka Mitä on vertaileva genomiikka? DNA-sekvenssin konservoituminen Geenirakenteen säilyminen Rakenne-DNA:n säilyminen

15 Sisältö Neutraalievoluution alueiden tunnistaminen Ihmisen ja hiiren vertailuista opittua Geeni- ja genomiduplikaatiot Geeniduplikaatiot Genomiduplikaatiot Eliöiden geenisisältö Horisontaalinen geeninsiirto Geenijärjestyksen säilyminen Vertaileva genomiikka ja lääketiede Rokotteiden kehittäminen Lääkeaineiden kehittäminen Proteomiikka Mitä on proteomiikka? Proteiinien ilmentymisen tutkiminen D-geelielektroforeesi Massaspektrometria Proteiinisirut Proteiinimallitus Homologiamallitus Ab initio-mallitus Rakenneprofiilimenetelmä Laskostaminen V Liitteet Lukujen tiivistelmät Johdanto ja bioinformatiikan historia Laskennallisen biologian perusteet Esiteltävien menetelmien sovellusalueet Sekvensointi ja DNA-sekvenssit Biotietokannat Pisteytysmatriisit Aukkosakot Kahden sekvenssin rinnastus Sekvenssihaut Usean sekvenssin rinnastus PCR-alukkeiden suunnittelu Pistemutaatioiden seulonta tietokannoista DNA-sekvenssien ominaisuuksien sevlittäminen Aminohapposekvenssin ominaisuuksien selvittäminen Tuntemattoman sekvenssin toiminnan selvittäminen Johdatus molekyylisystematiikkaan Tavanomaisen analyysin eteneminen Evoluutiomallit Etäisyysmenetelmät Parsimoniamenetelmä Suurimman uskottavuuden menetelmät ja bayesilaiset menetelmät Superpuumenetelmät Parhaan puun löytäminen ja uudelleenjärjestelymenetelmät.. 344

16 16 Bioinformatiikan perusteet Puun luotettavuuden arviointi ja konsensuspuut Molekyylisystematiikan avoimia kysymyksiä Promoottorianalyysi DNA-sirut RNA:n sekundäärirakenteen selvittäminen Geenirakenteen ennustaminen Vertaileva genomiikka Proteomiikka Harjoitustehtävät Sekvenssirinnastukset Fylogenetiikka Alukkeiden suunnittelu Sanasto Kirjallisuus Artikkeliviitteet Kirjaviitteet Hakemisto 367

17 Osa I Johdanto

18 18 Bioinformatiikan perusteet 1 Johdanto 1.1 Mitä on bioinformatiikka? Bioinformatiikan kehitys itsenäiseksi tieteenalaksi alkoi, kun ensimmäiset biologiset tietokannat paisuivat niin suuriksi, että niissä olevan tiedon etsimiseksi ja analysoimiseksi tarvittiin tietokoneistettuja ratkaisuja. Suurten aineistojen käsittelyyn luotiin myös tehokkaita algoritmeja. Erityisesti viime vuosina tietokannat ovat kasvaneet kiihtyvää vauhtia, ja kasvu jatkunee lähitulevaisuudessakin (Kuva 1.1). Tietokoneiden ja intenetin käyttö on nykyisin bioinformatiikassa keskeisellä sijalla. Voidaan sanoa, että ilman tietokoneita ja internetiä ei nykyaikaista bioinformatiikkaakaan olisi olemassa. Bioinformatiikan määritelmä ei ole toistaiseksi vakiintunut. Varsin kaikenkattavan määritelmän mukaan bioinformatiikka on informaatiotieteen ja biologian yhtymäkohtaan syntynyt tieteenala. Bioinformatiikkaan voidaan katsoa myös alaksi, jonka tarkoituksena on kehittää biologisten ongelmien ratkaisemiseen soveltuvia tietoteknisiä välineitä. Kolmannen määritelmän mukaan bioinformatiikalla käsitetään informaatioteknologia ja sen menetelmät, joita käytetään biologisen datan tallentamiseen, ylläpitämiseen ja analysoimiseen. Lisäksi bioinformatiikan katsotaan usein kuuluvan osaksi laskennallista biologiaa. Bioinformatiikan määritelmää on pohdittu laajemmaltikin. Luscomben (2001) mukaan bioinformatiikalla on kolme pyrkimystä. Yksinkertaisimmillaan bioinformatiikka organisoi aineistoa siten, että se saadaan tutkijoiden saataville, ja että he voivat liittää tähän informaatioon omia tuloksiaan. Tyypillisiä esimerkkejä tästä ovat esimerkiksi sekvenssitietokanta GenBank, johon on kerätty sekvenssejä jo yli parikymmentä vuotta, ja ArrayExpress, joka ottaa Euroopassa vastaan DNAmikrosiru-dataa. Toisena tavoitteena on kehittää työkaluja, jotka auttavat tutkijoita aineistojen analysoinnissa. Kolmantena päämääränä on käyttää näitä työkaluja ja tietoresursseja aineistojen analysointiin siten, että tulokset voidaan tulkita biologisesti mielekkäästi. Helsingin yliopistossa geneettinen bioinformatiikka määritellään lisäksi seuraavasti. Geneettinen bioinformatiikka on perinnöllisyystieteen eli genetiikan osaalue, joka on keskeisessä asemassa lähes kaikessa modernissa genetiikassa. Geneettinen tutkimus ja sen kautta koko biologia on viimeisen vuosikymmenen aikana kokenut valtavan mullistuksen uusien genomitason menetelmien myötä. Nämä uudet funktionaalisen genomiikan työkalut mahdollistavat geenitoiminnan ymmärtämisen, geenien ilmenemisestä siitä seuraavien aineenvaihdunnan muutosten kokonaisvaltaiseen tunnistamiseen koko genomin tasolla. Tällaiset systeemitason lähestymistavat tuottavat valtavasti tietoa, jonka täysimittainen hyödyntäminen vaatii bioinformatiikan menetelmiä, ja geneettinen bioinformatiikka onkin viime vuosina noussut keskeiseksi osaksi geneettistä tutkimusta. Genomitason sekvenssitiedon käsittely vaatii aina bioinformatiikan menetelmiä. Geneettisen bioinformatiikan tutkimuskohteina voi olla esimerkiksi tautigeenien identifiointi ihmisellä, geenien säätelyelementtien tunnistus genomisekvensseistä, geenien ja geeniperheiden fylogeneettinen analyysi, genomien evoluution tutkimus tai geenien ilmenemisen tutkiminen koko genomin tasolla. [professori Tapio Palva ]

19 1 Johdanto 19 Kuva 1.1: GenBank-nukleotiditietokannan uusimman julkaisun koko lajeittain ja tietokannan koon kasvu parin vuosikymmenen aikana. Tietokannasta yli 2/3 koostuu ihmisen tai laboratoriojyrsijöiden sekvensseistä.

20 20 Bioinformatiikan perusteet Perinteinen bioinformatiikan määritelmä on sisältänyt ainoastaan sekvenssianalytiikan, ja senkin suhteellisen suppeassa muodossa, käsittäen ainoastaan DNAja aminohapposekvensseihin liittyvät primäärianalyysit, kuten BLAST-haut ja parittaiset sekä usean sekvenssin rinnastukset, muttei esimerkiksi promoottorianalyysia. Lavean määritelmän mukaan bioinformatiikka sisältää myös genomiikan, toiminnallisen genomiikan (muun muassa polymorfia-analyysit, ekspressiotutkimukset ja proteomiikka) ja uutena suuntauksena kirjallisuuden louhinnan, mikä laajentaa bioinformatiikan määritelmän kattamaan pitkälti myös erilaisten biologisten aineistojen tilastotieteellisiä analyysivaiheita. Nykyisin bioinformatiikka on läheisesti kosketuksissa monien sitä soveltavien alojen tutkimuksen kanssa. Esimerkiksi molekyylisystematiikan, proteiinien kiderakenteiden analysoinnin, ja geenikartoituksen katsotaan nykyisin kuluvan bioinformatiikan kenttään. Hyvin läheisiä aloja ovat myös molekyyliepidemiologia, joka kytkeytyy bioinformatiikkaan erityisesti tutkittaessa ihmisten perinnöllistä monimuotoisuutta, ja tiedonlouhinta, joka tarkoittaa lähinnä tilastollisten mallien soveltamista moniulotteisten ja monia muuttujia sekä paljon aineistoa sisältävien biologisten tutkimusten analysointiin. Koska bioinformatiikan tutkimuskenttä on näin laaja, ei sen yksiselitteinen määritteleminen ole helppoa. Yhtäkaikki, mainittuja tutkimuskohteita yhdistää kaksi tekijää: ne kaikki liittyvät biologiaan ja niihin liittyvien ongelmien ratkaisemiseen tarvitaan tietokonetta. 1.2 Keitä bioinformaatikot ovat? Perinteisen käsityksen mukaan bioinformaatikko on henkilö, joka osaa sekä biologiaa että tietojenkäsittelytiedettä niin, että hän kykenee kehittämään uusia hyödyllisiä työkaluja biologisten ongelmien ratkaisemiseksi. Toinen vaihtoehto on jakaa bioinformaatikot osaamistason mukaan eri luokkiin (Hack, 2005). 1. Superkäyttäjiksi kutsutaan henkilöitä, jotka tuntevat laajan valikoiman ohjelmia tai ohjelmistoja, ja heillä on peruskäsitys siitä, miten eri parametrien muokkaaminen vaikuttaa tuloksiin. Heillä ei kuitenkaan välttämättä ole ohjelmointi- tai tietokantakehityskokemusta. Tilastotieteen tuntemus rajoittuu perusteisiin. 2. Tehokäyttäjiksi voitaisiin katsoa henkilöt, joilla on hyvä ymmärrys eri parametrien vaikutuksesta ohjelmien antamiin tuloksiin, ja jotka osaavat kirjoittaa skriptejä, joilla ohjelmat voidaan liittää tietokantoihin tai toisiinsa analyysiputkien luomiseksi ja jotka kehittävät tietokantoja. Tilastotieteellinen osaaminen on laajaa ja sitä osataan soveltaa monien biologisten ongelmien selvittämiseen. 3. Bioinformaatikoita leimaa ohjelmakehitykseen osallistuminen, algoritmien ja mallien kehitys sekä tiedonlouhintamenetelmien soveltaminen biologisten aineistojen analysointiin. Hackin jaottelun mukaan useimmat biologit sijoittunevat ryhmiin 1 ja 2, ja pääosin vain insinöörit ja tietokäsittelytieteilijät saavuttavat ryhmää 3 vastaavan osaamistason. Viime vuosina bioinformatiikan ongelmiin on kuitenkin jo kehitetty niin monia tietokoneistettuja ratkaisuja, että ohjelmointitaitojen sijaan näiden työkalujen tuntemus alkaa korostua. Yksinkertaisella Internet-haulla on usein mahdollista löytää useita tietyn ongelman ratkaisemiseen kehitettyjä ohjelmistoja. On kuitenkin tilanteita, jolloin ohjelmointitaidoista on selvää hyötyä, sillä kaikkien ongelmien ratkaisemiseen ei ole vielä olemassa valmiita työkaluja.

21 1 Johdanto Bioinformatiikan merkitys biologiassa Bioinformatiikan perimmäinen tarkoitus on selvittää biologisia ilmiöitä. Vaikka bioinformatiikka onkin itsenäinen tieteenala, on sillä lisäksi nykyisessä molekyylibiologisessa tutkimuksessa erittäin suuri välinearvo. Bioinformatiikkaa ei voi tehdä biologiasta irrallaan, joten alan tutkimuksen pääpaino onkin työkalujen kehittämisessä rajattujen biologisten ongelmien ratkaisemiseksi. Bioinformatiikka on työkalu, ei päämäärä sinänsä, vaikka osa tutkimuksesta on kohdennettukin biologia suoranaisesti varsin vähän hyödyttäviin hankkeisiin. Bioinformatiikan avulla on mahdollista hahmottaa, kuinka eliöt rakentuvat, kehittyvät ja toimivat, ja kuinka ne muuttuvat aikojen saatossa. Tämä ei ole välttämättä helppoa. Esimerkiksi tuntemattomien geenien ennustaminen DNA-sekvenssistä tietokoneen avustuksella on edelleen jokseenkin epävarmaa. Vielä ei myöskään osata täydellisesti ennustaa hnrna:n (heterogenous nuclear RNA) silmikointikohtia tai proteiinin laskostumista aminohapposekvenssin perusteella. Bioinformatiikan ansiosta muun muassa näiden ongelmien ratkaisussa on kuitenkin huomattavasti edistytty. Tuntemattomien geenien lukuraami selviää nykyisin noin 75% tapauksista, ja intronien ja eksonien väliset rajatkin noin 90% aitotumallisten geeneistä pelkällä tietokoneanalyysillä. On kuitenkin hyvin tärkeää muistaa, että tietokoneanalyysillä ei voida todistaa, miten esimerkiksi proteiinit toimivat soluissa. Bioinformatiikka tarjoaa työkaluja valistuneiden arvausten tekemiseksi, mutta viimekädessä arvaukset on todennettava laboratoriomenetelmin. Biologinen data on hyvin moniulotteista. Esimerkiksi DNA-sirulla oleva täplä voidaan yhdistää sen fluoressenssin voimakkuuteen, mutta myös DNA-juosteen sekvenssiin ja sitä vastaavan proteiinin rakenteeseen ja toimintaan. Näin monimutkaisia verkostoja muodostavan aineiston pukeminen helposti käsiteltävään muotoon, saati sen analysoiminen ei ole yksinkertaista. Apua tällaisten biologisten ongelmien ratkaisemiseen tarvitaan niin tietojenkäsittelijöiltä kuin tilastotieteilijöiltäkin. DNA-sekvenssien, geenisäätelyverkkojen ja biokemiallisten aineistojen yhdistäminen tulee luultavasti olemaan vielä useiden bioinformaatikkosukupolvien työmaana.

Tieto tietojenkäsittelytieteessä

Tieto tietojenkäsittelytieteessä Tieto tietojenkäsittelytieteessä Jesse Hauninen 14.4.2008 Joensuun yliopisto Tietojenkäsittelytieteen ja tilastotieteen laitos Pro gradu -tutkielma Tiivistelmä Tiedosta kuulee puhuttavan jatkuvasti. Yhteiskunnan

Lisätiedot

TIETO- JA VIESTINTÄTEKNIIKKA TUTKIVAN OPPIMISEN VÄLINEENÄ

TIETO- JA VIESTINTÄTEKNIIKKA TUTKIVAN OPPIMISEN VÄLINEENÄ TIETO- JA VIESTINTÄTEKNIIKKA TUTKIVAN OPPIMISEN VÄLINEENÄ Kai Hakkarainen, Lasse Lipponen, Liisa Ilomäki, Sanna Järvelä, Minna Lakkala, Hanni Muukkonen, Marjaana Rahikainen & Erno Lehtinen Helsingin kaupungin

Lisätiedot

Teknologian käyttö matematiikan oppitunnilla yläkoulussa ja lukiossa. Senja Roivas

Teknologian käyttö matematiikan oppitunnilla yläkoulussa ja lukiossa. Senja Roivas Teknologian käyttö matematiikan oppitunnilla yläkoulussa ja lukiossa Senja Roivas Pro gradu -tutkielma Itä-Suomen yliopisto Luonnontieteiden ja metsätieteiden tiedekunta Fysiikan ja matematiikan laitos

Lisätiedot

Kirjallisuuden vaihto hankintatapana

Kirjallisuuden vaihto hankintatapana Tieteellisen kirjallisuuden vaihtokeskus - Georg Strien Kirjallisuuden vaihto hankintatapana Tieteellisen kirjallisuuden vaihdolla on pitkä perinne, vanhimmat viitteet löytyvät vuodesta 1694 Ranskasta.

Lisätiedot

3. Muistin hallinta. 3.1 Erityyppiset muistit

3. Muistin hallinta. 3.1 Erityyppiset muistit Muistin hallinta 51 3. Muistin hallinta Tämä luku käsittelee erityyppisiä muisteja ja ohjelman sijoittelua muistiin, dynaamisen muistin hallintaa ja yleensä muistinhallintaa. Pääpaino on siinä, miten muisti

Lisätiedot

Anita Saaranen-Kauppinen & Anna Puusniekka. Menetelmäopetuksen tietovaranto KvaliMOTV. kvalitatiivisten menetelmien verkko-oppikirja

Anita Saaranen-Kauppinen & Anna Puusniekka. Menetelmäopetuksen tietovaranto KvaliMOTV. kvalitatiivisten menetelmien verkko-oppikirja Anita Saaranen-Kauppinen & Anna Puusniekka Menetelmäopetuksen tietovaranto KvaliMOTV kvalitatiivisten menetelmien verkko-oppikirja Yhteiskuntatieteellisen tietoarkiston julkaisuja 2009 KvaliMOTV Kirjoittajat:

Lisätiedot

Juuso Ilander & Matti Latvala. Miksi joku on parempi kuin toinen? Case - Toni Kohonen. Pesäpallon lajinkehittämistyö

Juuso Ilander & Matti Latvala. Miksi joku on parempi kuin toinen? Case - Toni Kohonen. Pesäpallon lajinkehittämistyö Juuso Ilander & Matti Latvala Miksi joku on parempi kuin toinen? Case - Toni Kohonen. Pesäpallon lajinkehittämistyö Huhtikuu 2015 2 SISÄLLYS 1 JOHDANTO 3 2 TEOREETTINEN KEHYS 4 2.1 Asiantuntijuus 4 2.2

Lisätiedot

Ideasta kasvuyritykseksi

Ideasta kasvuyritykseksi McKinsey & Company Ideasta kasvuyritykseksi Käsikirja liiketoimintasuunnitelman laatimiseen Werner Söderström Osakeyhtiö Helsinki Copyright 1999 McKinsey & Company Englanninkielisestä alkuteoksesta Starting

Lisätiedot

OPINNÄYTETYÖ JAAKKO KURTTI 2012 FACEBOOK YRITYKSEN VERKOSTOITUMISEN VÄLINEENÄ TIETOJENKÄSITTELYN KOULUTUSOHJELMA

OPINNÄYTETYÖ JAAKKO KURTTI 2012 FACEBOOK YRITYKSEN VERKOSTOITUMISEN VÄLINEENÄ TIETOJENKÄSITTELYN KOULUTUSOHJELMA OPINNÄYTETYÖ JAAKKO KURTTI 2012 FACEBOOK YRITYKSEN VERKOSTOITUMISEN VÄLINEENÄ TIETOJENKÄSITTELYN KOULUTUSOHJELMA ROVANIEMEN AMMATTIKORKEAKOULU LUONNONTIETEIDEN ALA Tietojenkäsittely Opinnäytetyö FACEBOOK

Lisätiedot

Hanna Vilkka Tutki ja mittaa Määrällisen tutkimuksen perusteet

Hanna Vilkka Tutki ja mittaa Määrällisen tutkimuksen perusteet Hanna Vilkka Tutki ja mittaa Määrällisen tutkimuksen perusteet Kustannusosakeyhtiö Tammi Helsinki Copyright sivu Sisällys 3 Sisällys JOHDANTO...7 OSA I Määrällisen tutkimuksen suunnittelu ja aineiston

Lisätiedot

Mikä kirjallisuuskatsaus?

Mikä kirjallisuuskatsaus? ARI SALMINEN Mikä kirjallisuuskatsaus? Johdatus kirjallisuuskatsauksen tyyppeihin ja hallintotieteellisiin sovelluksiin VAASAN YLIOPISTON JULKAISUJA OPETUSJULKAISUJA 62 JULKISJOHTAMINEN 4 VAASA 2011 III

Lisätiedot

Verkkomarkkinointiopas. Verkkomarkkinointiopas. Pohjoiskarjalaisille pienyrityksille. Toni Haatainen Mika Heikura

Verkkomarkkinointiopas. Verkkomarkkinointiopas. Pohjoiskarjalaisille pienyrityksille. Toni Haatainen Mika Heikura Verkkomarkkinointiopas Verkkomarkkinointiopas Pohjoiskarjalaisille pienyrityksille Toni Haatainen Mika Heikura Pohjois-Karjalan ammattikorkeakoulu Liiketalouden koulutusohjelma Joulukuu 2011 Sisällysluettelo

Lisätiedot

SOSIAALISEN MEDIAN KÄYTTÖ SUOMEN TEATTERIT RY:N JÄSENTEATTEREISSA

SOSIAALISEN MEDIAN KÄYTTÖ SUOMEN TEATTERIT RY:N JÄSENTEATTEREISSA Sara Häkkinen SOSIAALISEN MEDIAN KÄYTTÖ SUOMEN TEATTERIT RY:N JÄSENTEATTEREISSA Opinnäytetyö Kulttuurituotannon koulutusohjelma Huhtikuu 2015 KUVAILULEHTI Opinnäytetyön päivämäärä 31.3.2015 Tekijä(t) Sara

Lisätiedot

VAASAN YLIOPISTO KAUPPATIETEELLINEN TIEDEKUNTA JOHTAMISEN LAITOS

VAASAN YLIOPISTO KAUPPATIETEELLINEN TIEDEKUNTA JOHTAMISEN LAITOS VAASAN YLIOPISTO KAUPPATIETEELLINEN TIEDEKUNTA JOHTAMISEN LAITOS Marina Kinnunen MUUTOSPROSESSI JA SEN HALLITSEMINEN Case vaaratapahtumien raportointijärjestelmän käyttöönottoprosessi Vaasan keskussairaalassa

Lisätiedot

Martti Grönfors LAADULLISEN TUTKIMUKSEN KENTTÄTYÖMENETELMÄT

Martti Grönfors LAADULLISEN TUTKIMUKSEN KENTTÄTYÖMENETELMÄT S A O F I SoFia Sosiologi- Filosofiapu Vilkka T u t k i T i e d ä T a i d a Martti Grönfors P o s s e n t i e 1 A 5, 1 3 2 0 0 H M L 0 4 0 5 8 3 9 6 2 6 h a n n a v i l k k a @ m e. c o m s o f i a. v

Lisätiedot

Robotille aivot. Suomen. SEURA ry. Sudoku ihmisen ja koneen ratkaisemana TEKOÄLY. ARPAKANNUS 1 / 2009 www.stes.fi

Robotille aivot. Suomen. SEURA ry. Sudoku ihmisen ja koneen ratkaisemana TEKOÄLY. ARPAKANNUS 1 / 2009 www.stes.fi Suomen TEKOÄLY ARPAKANNUS 1 / 2009 www.stes.fi SEURA ry Robotille aivot Sudoku ihmisen ja koneen ratkaisemana Tekoäly menneisyydestä tulevaisuuteen ARTIKKELIT 6 11 12 18 PELITEKOÄLY Sudoku ihmisen ja koneen

Lisätiedot

TIETO- JA VIESTINTÄTEKNIIKKA OPETUSKÄYTÖSSÄ

TIETO- JA VIESTINTÄTEKNIIKKA OPETUSKÄYTÖSSÄ TIETO- JA VIESTINTÄTEKNIIKKA OPETUSKÄYTÖSSÄ - Välineet, vaikuttavuus ja hyödyt TILANNEKATSAUS TOUKOKUU 2011 Muistiot 2011:2 Työryhmä: Tina Heino Riku Honkasalo Ella Kiesi Jari Koivisto Kimmo Koskinen Kari

Lisätiedot

Uuden tieteenalan ongelmat

Uuden tieteenalan ongelmat Juha Varto Uuden tieteenalan ongelmat Tässä artikkelissa tarkastellaan käytäntölähtöisen empiirisen tietenalan rakentumisen mahdollisuutta. Pyrin ottamaan esille piirteitä, jotka tosiasiallisesti vaikuttavat

Lisätiedot

Käyttäjä tuotekehityksessä Tieto, tutkimus, menetelmät. Sampsa Hyysalo

Käyttäjä tuotekehityksessä Tieto, tutkimus, menetelmät. Sampsa Hyysalo Käyttäjä tuotekehityksessä Tieto, tutkimus, menetelmät Sampsa Hyysalo nnistunut tuotekehitys vaatii syvällistä ymmärtämystä Okäyttä jien toimista, tyyleistä ja haluista. Käyttäjätiedon puute on puolestaan

Lisätiedot

Strategisten IT-investointien ongelmat ja epäonnistumisen aiheuttavat syyt

Strategisten IT-investointien ongelmat ja epäonnistumisen aiheuttavat syyt Strategisten IT-investointien ongelmat ja epäonnistumisen aiheuttavat syyt Laskentatoimi Maisterin tutkinnon tutkielma Tapio Mattila 2009 Laskentatoimen ja rahoituksen laitos HELSINGIN KAUPPAKORKEAKOULU

Lisätiedot

Karttojen värittäminen

Karttojen värittäminen Karttojen värittäminen Neliväriongelman värityskombinaatioiden lukumäärän etsiminen graafien avulla Eero Räty & Samuli Thomasson Valkeakosken Tietotien lukio / Päivölän Kansanopisto Tieteenala: Matematiikka

Lisätiedot

THE FINNISH LANGUAGE IN THE DIGITAL AGE SUOMEN KIELI DIGITAALISELLA AIKAKAUDELLA

THE FINNISH LANGUAGE IN THE DIGITAL AGE SUOMEN KIELI DIGITAALISELLA AIKAKAUDELLA White Paper Series Valkoiset kirjat THE FINNISH LANGUAGE IN THE DIGITAL AGE SUOMEN KIELI DIGITAALISELLA AIKAKAUDELLA Kimmo Koskenniemi Krister Lindén Lauri Carlson Martti Vainio Antti Arppe Mietta Lennes

Lisätiedot

1.Kuvauksen lähtöaineisto

1.Kuvauksen lähtöaineisto 1.Kuvauksen lähtöaineisto 1 Tieteen tehtävänä on uuden tiedon hankkiminen. Käyttäytymistieteet tutkivat elollisten olioiden käyttäytymistä voidakseen ymmärtää sitä tai ainakin löytääkseen siitä säännönmukaisuuksia;

Lisätiedot

Kun tiedostaminen ja oivallus kohtaavat

Kun tiedostaminen ja oivallus kohtaavat Kun tiedostaminen ja oivallus kohtaavat - TYÖKIRJA PK-YRITYKSEN HILJAISEN TIEDON JAKAMISEKSI Katri Helin Pirkanmaan ammattikorkeakoulu Hyvinvointia Nääs-hanke Pirkanmaan ammattikorkeakoulu Kun tiedostaminen

Lisätiedot

Eero Ojanen. Hyvä päätös? polemia KAKS KUNNALLISALAN KEHITTÄMISSÄÄTIÖ

Eero Ojanen. Hyvä päätös? polemia KAKS KUNNALLISALAN KEHITTÄMISSÄÄTIÖ polemia Eero Ojanen Hyvä päätös? KAKS KUNNALLISALAN KEHITTÄMISSÄÄTIÖ Hyvä päätös? Eero Ojanen Hyvä päätös? Filosofisia näkökulmia päätöksentekoon kaks kunnallisalan kehittämissäätiö HYVÄ PÄÄTÖS? Kieliasun

Lisätiedot

SOSIAALISEN MEDIAN HYÖDYNTÄMINEN MATKAILUYRITYKSEN LIIKETOIMINNASSA ONNISTUMISEN ESIMERKKEJÄ

SOSIAALISEN MEDIAN HYÖDYNTÄMINEN MATKAILUYRITYKSEN LIIKETOIMINNASSA ONNISTUMISEN ESIMERKKEJÄ OPINNÄYTETYÖ Katariina Kinnunen Johanna Niemi 2011 SOSIAALISEN MEDIAN HYÖDYNTÄMINEN MATKAILUYRITYKSEN LIIKETOIMINNASSA ONNISTUMISEN ESIMERKKEJÄ MATKAILUN KOULUTUSOHJELMA ROVANIEMEN AMMATTIKORKEAKOULU MATKAILU-,

Lisätiedot

VAASAN YLIOPISTO FILOSOFINEN TIEDEKUNTA

VAASAN YLIOPISTO FILOSOFINEN TIEDEKUNTA VAASAN YLIOPISTO FILOSOFINEN TIEDEKUNTA Antti Mäenpää ÄLYKKÄÄN ERIKOISTUMISEN MITTAAMINEN Esimerkkinä Pohjanmaan triple helix -tutkimus Aluetieteen pro gradu -tutkielma VAASA 2014 1 SISÄLLYSLUETTELO TAULUKKO-

Lisätiedot

7 turmiollista ajatteluvirhettä, jotka estävät sinua tienaamasta niin paljon kuin ansaitset

7 turmiollista ajatteluvirhettä, jotka estävät sinua tienaamasta niin paljon kuin ansaitset 7 turmiollista ajatteluvirhettä, jotka estävät sinua tienaamasta niin paljon kuin ansaitset JOONA LUOSTARINEN & TIMO HYVÄRI Sisällysluettelo SISÄLLYSLUETTELO...2 7 turmiollista ajatteluvirhettä...8 #1

Lisätiedot

raportteja 76 HYVINVOINTIA TYÖSTÄxxx Kuinka työelämää voi kehittääxxx kestävällä tavalla?xxx Tuomo Alasoini

raportteja 76 HYVINVOINTIA TYÖSTÄxxx Kuinka työelämää voi kehittääxxx kestävällä tavalla?xxx Tuomo Alasoini raportteja 76 H E L S I N K I 2 0 1 1 HYVINVOINTIA TYÖSTÄxxx Kuinka työelämää voi kehittääxxx kestävällä tavalla?xxx Tuomo Alasoini Tuomo Alasoini Hyvinvointia työstä Kuinka työelämää voi kehittää kestävällä

Lisätiedot

Tieto, totuus, tiede (2004)

Tieto, totuus, tiede (2004) 1 Tieto, totuus, tiede (2004) Keskustelijat: Eero Byckling Viljo Martikainen Heikki Mäntylä Jyrki Rossi Jyrki Tyrkkö 2.1.2004 Heikki Mäntylä Hyvät Luonnonfilosofit, Joululoman jälkeen on syytä palata taas

Lisätiedot