SIMO-PEKKA LEPPÄNEN DNA-SEKVENSOINTIDATAN KÄSITTELY JA VISUALISOINTI. Kandidaatintyö

Samankaltaiset tiedostot
6 GEENIT OHJAAVAT SOLUN TOIMINTAA nukleiinihapot DNA ja RNA Geenin rakenne Geneettinen informaatio Proteiinisynteesi

Bioteknologian perustyökaluja

VASTAUS 1: Yhdistä oikein

Sukunimi Etunimet Tehtävä 3 Pisteet / 20

Perinnöllisyyden perusteita

Perinnöllisyystieteen perusteita III Perinnöllisyystieteen perusteita

Peptidi ---- F K V R H A ---- A. Siirtäjä-RNA:n (trna:n) (3 ) AAG UUC CAC GCA GUG CGU (5 ) antikodonit

Genomin ilmentyminen Liisa Kauppi, Genomibiologian tutkimusohjelma

Perinnöllisyystieteen perusteita III Perinnöllisyystieteen perusteita. BI2 III Perinnöllisyystieteen perusteita 9. Solut lisääntyvät jakautumalla

Bioteknologian tutkinto-ohjelma Valintakoe Tehtävä 3 Pisteet / 30

DNA Tiina Immonen, FT, yo-lehtori HY Biolääketieteen laitos, Biokemia ja kehitysbiologia

DNA (deoksiribonukleiinihappo)

Genomin ylläpito Tiina Immonen BLL Lääke8eteellinen biokemia ja kehitysbiologia

Francis Crick ja James D. Watson

Geenitekniikan perusmenetelmät

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen BLL Biokemia ja kehitysbiologia

måndag 10 februari 14 Jaana Ohtonen Kielikoulu/Språkskolan Haparanda

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen Medicum, Biokemia ja kehitysbiologia

DNA (deoksiribonukleiinihappo)

DNA:n informaation kulku, koostumus

DNA Tiina Immonen, FT, yo-lehtori HY Lääketieteellinen tiedekunta Biokemia ja kehitysbiologia

Genomi-ilmentyminen Genom expression (uttryckning) Nina Peitsaro, yliopistonlehtori, Medicum, Biokemia ja Kehitysbiologia

Muuttumaton genomi? Genomin ylläpito. Jakson luennot. Luennon sisältö DNA:N KAHDENTUMINEN ELI REPLIKAATIO

LUENTO 3 Kyösti Ryynänen Seutuviikko 2014, Jämsä

DNA RNA proteiinit transkriptio prosessointi translaatio regulaatio

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Seutuviikko 2015, Jämsä Kyösti Ryynänen PROTEIINISYNTEESI LUENTO 3 DNA-RAKENNE DNA SOLUJAKAUTUMINEN DNA-KAKSOISKIERRE

Genomin ilmentyminen

II Genetiikka 4.(3) Nukleiinihapot

GEENITEKNIIKAN PERUSASIOITA

Genomin ylläpito TIINA IMMONEN MEDICUM BIOKEMIA JA KEHITYSBIOLOGIA

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

PCR - tekniikka elintarvikeanalytiikassa

Uusia mahdollisuuksia FoundationOne

Uusia mahdollisuuksia FoundationOne CDx. keystocancer.fi

NON-CODING RNA (ncrna)

Avainsanat: perimä dna rna 5`-ja 3`-päät replikaatio polymeraasientsyymi eksoni introni promoottori tehostajajakso silmukointi mutaatio

Lääketieteen ja biotieteiden tiedekunta Sukunimi Bioteknologia tutkinto-ohjelma Etunimet valintakoe pe Tehtävä 1 Pisteet / 15

"Geenin toiminnan säätely" Moniste sivu 13

Functional Genomics & Proteomics

DNA > RNA > Proteiinit

Euromit2014-konferenssin tausta-aineistoa Tuottaja Tampereen yliopiston viestintä

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

BIOLOGIAN OSIO (45 p.)

BIOLOGIAN OSIO (45 p.)

Biologian tehtävien vastaukset ja selitykset

Drosophila on kehitysgenetiikan mallilaji nro 1

DNA sukututkimuksen tukena

KOE 6 Biotekniikka. 1. Geenien kloonaus plasmidien avulla.

Nukleiinihapot! Juha Klefström, Biolääketieteen laitos/biokemia ja genomibiologian tutkimusohjelma Helsingin yliopisto.

DNA, RNA ja proteiinirakenteen ennustaminen

VIIKKI BIOCENTER University of Helsinki

811312A Tietorakenteet ja algoritmit , Harjoitus 2 ratkaisu

Solun tutkiminen. - Geenitekniikka

S Laskennallinen Neurotiede

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

SÄTEILYN TERVEYSVAIKUTUKSET

Toinen harjoitustyö. ASCII-grafiikkaa

Syöpä. Ihmisen keho muodostuu miljardeista soluista. Vaikka. EGF-kasvutekijä. reseptori. tuma. dna

Biopolymeerit. Biopolymeerit ovat kasveissa ja eläimissä esiintyviä polymeerejä.

Biomolekyylit 2. Nukleotidit, aminohapot ja proteiinit

Matemaatikot ja tilastotieteilijät

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

ELAHEH MORADI ARABINOOSIPROMOOTTORIN TRANSKRIPTIODYNAMIIKKA KOLIBAKTEERISSA. Kandidaatintyö

9/30/2013. GMO analytiikka. Termistöä. Markkinoilla olevien GM kasvien ominaisuuksia

DNA RNA proteiinit transkriptio prosessointi translaatio regulaatio

Genomi- ilmentymisen säätely

GMO analytiikka Annikki Welling Kemian tutkimusyksikkö Evira

Ohjelmoinnin perusteet Y Python

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

MAB3 - Harjoitustehtävien ratkaisut:

BI4 IHMISEN BIOLOGIA

S09 04 Kohteiden tunnistaminen 3D datasta

Perinnöllisyyden perusteita

Ohjelmoinnin perusteet Y Python

Populaatiosimulaattori. Petteri Hintsanen HIIT perustutkimusyksikkö Helsingin yliopisto

Anatomia ja fysiologia 1 Peruselintoiminnat

State of the Union... Functional Genomics Research Stream. Molecular Biology. Genomics. Computational Biology

Paretoratkaisujen visualisointi. Optimointiopin seminaari / Kevät 2000 Esitelmä 11 Petteri Kekäläinen 45305L

DNA-testit. sukututkimuksessa Keravan kirjasto Paula Päivinen

a. Mustan ja lyhytkarvaisen yksilön? b. Valkean ja pitkäkarvaisen yksilön? Perustele risteytyskaavion avulla.

Taulukot. Jukka Harju, Jukka Juslin

Yhtäläisyydet selkärankaisten aivoissa, osa II. Niko Lankinen

Nimi sosiaaliturvatunnus. Vastaa lyhyesti, selkeällä käsialalla. Vain vastausruudun sisällä olevat tekstit, kuvat jne huomioidaan

Ohjelmoinnin perusteet Y Python

2.3 Virheitä muunnosten käytössä

Ohjelmoinnin perusteet Y Python

Ratkaisut Summa on nolla, sillä luvut muodostavat vastalukuparit: ( 10) + 10 = 0, ( 9) + 9 = 0,...

Taulukkolaskennan perusteet Taulukkolaskentaohjelmat

TAMPEREEN TEKNILLINEN YLIOPISTO KÄYTTÖOHJE TIETOVARASTON KUUTIOT

MAB3 - Harjoitustehtävien ratkaisut:

5 Lineaariset yhtälöryhmät

Lineaarinen yhtälöryhmä

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

T Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Laskennallinen data-analyysi II

Vastaa lyhyesti selkeällä käsialalla. Vain vastausruudun sisällä olevat tekstit, kuvat jne huomioidaan

Transkriptio:

SIMO-PEKKA LEPPÄNEN DNA-SEKVENSOINTIDATAN KÄSITTELY JA VISUALISOINTI Kandidaatintyö Tarkastaja: Heikki Huttunen Ohjaaja: Matti Nykter Työ jätetty tarkastettavaksi 13.12.2012

I TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Biotekniikan koulutusohjelma SIMO-PEKKA LEPPÄNEN: DNA-sekvensointidatan käsittely ja visualisointi Kandidaatintyö, 17 sivua Joulukuu 2012 Pääaine: Laskennallinen systeemibiologia Tarkastaja: Heikki Huttunen Ohjaaja: Matti Nykter Avainsanat: sekvensointi, normalisointi, visualisointi, syöpä Geenien säätely on monimutkainen prosessi, johon vaikuttaa useita eri tekijöitä. Kaikkia näitä ominaisuuksia voidaan kuitenkin mitata sekvensoimalla ja näin saadaan runsaasti hyödyllistä tietoa esimerkiksi syövässä tapahtuvista muutoksista. Uudet sekvensointimenetelmät ovat mahdollistaneet ihmisen perimän tutkimisen entistä tehokkaammin. Niin sanotut toisen sukupolven sekvensointimenetelmät ovat moninkertaistaneet mittauksista saatavan datamäärän. Sekvensoimalla, eli emäsjärjestystä selvittämällä, saatavasta datasta voidaan laskea useita eri geeneihin liittyviä ominaisuuksia. Käsittelemättömässä biologisessa datassa on kuitenkin erilaisia virhelähteitä, jotka täytyy ottaa huomioon. Tällaisia ovat muun muassa geenien pituuden vaikutus niiden aktiivisuutta kuvaavaan ekspressioarvoon ja laskemalla saaduissa kopioluvuissa esiintyvä kohina. Geenien säätely on hyvin monimutkainen prosessi ja on hyödyllistä ottaa useat eri datatyypit huomioon tutkittaessa esimerkiksi syöpää. Nämä toisiinsa liittyvät datat täytyy myös pystyä visualisoimaan hyödyllisesti. Tässä työssä tutustutaan datan käsittelyyn ja toteutetaan muutamien geenien visualisointiin tarkoitettu ja tutkimustyötä helpottava työkalu.

II ALKUSANAT Kandidaatintyöni pohjautuu kesällä 2012 tekemääni visualisointiin osana Tampereen teknillisen yliopiston Signaalinkäsittelyn laitoksen Laskennallisen systeemibiologian tutkimusryhmän eturauhassyöpäprojektia. Kiitos kuuluu ohjaajalleni Matti Nykterille, joka auttoi ideoimaan työn sisältöä ja on antanut mahdollisuuden tehdä töitä tutkimusapulaisena sekä CSB-ryhmän johtajalle Olli Yli-Harjalle. Kiitos myös Heikki Huttuselle seminaarin aikana annetuista vinkeistä. Suuret kiitokset kuuluvat Miesten huoneen TF312 muille asukkaille Matti Annalalle ja Janne Seppälälle, jotka ovat tehneet suurimman osan työssä kuvatusta datan käsittelystä sekä Kimmo Kartasalolle, joka edellämainittujen ohella on ollut mukana luomassa hienoa työilmapiiriä. Lopuksi vielä kiitos Jägerille (M. Sc.), joka loi unohtumattoman ilmapiirin seuraavan aamun viimeiseen seminaaritapaamiseen. Simo-Pekka Leppänen 12.12.2012

III SISÄLLYS 1. Johdanto...................................... 1 2. Biologinen tausta ja geenien ominaisuuksien mittaaminen............ 2 2.1 DNA:n rakenne................................ 2 2.2 Geenien ilmentyminen............................ 2 2.3 Sekvensointi................................. 3 3. Datan käsittely.................................. 6 3.1 Sekvenssien linjaaminen referenssigenomiin................ 6 3.2 Geeniekspressio............................... 7 3.3 Kopioluvut.................................. 8 3.4 DNA-metylaatio............................... 10 3.5 Mutaatiot................................... 11 4. Visualisointi.................................... 12 4.1 Visualisointi ympyröinä........................... 12 4.2 Visualisointi värimatriisina.......................... 13 4.3 Toteutuksen arviointi............................. 15 Lähteet......................................... 16

IV TERMIT JA NIIDEN MÄÄRITELMÄT BPH CRPC DNA geeni MeDIP mrna NEPC PC PCR RNA transkriptio translaatio Benign prostate hyperplasia, hyvänlaatuinen eturauhasen liikakasvu. Castration resistant prostate cancer, kastraatioresistentti eturauhassyöpä. Eturauhassyövän muoto, joka uusiutuu kastraationkin jälkeen. Deoksiribonukleiinihappo, pitkä ketjumainen molekyyli, joka sisältää ihmisen perimän. Pätkä DNA:ta, josta tuotetaan proteiinia. Methylated DNA immunoprecipitation, metyloidun DNA:n immunosaostus, keino havaita tai erotella metyloityneet DNA-fragmentit metyloitumattomista. Messenger RNA, lähetti-rna, tuotetaan geenistä transkriptiossa ja käännetään edelleen proteiiniksi translaatiossa. Neuroendocrine prostate cancer, neuroendokriininen eturauhassyöpä. Syövän tyyppi, joka saa alkunsa eturauhasen hormoneja erittävistä soluista. Prostate cancer, eturauhassyöpä. Polymeraasiketjureaktio, DNA:n monistamista käyttäen hyväksi lämpötilan vaihtelua, emäksiä ja tiettyjä entsyymejä. Ribonukleiinihappo, DNA:n kaltaisia, yleensä yksijuosteisia, molekyylejä, joilla on useita erilaisia tehtäviä soluissa. mrna:n tuottaminen geenistä. Proteiinin tuottaminen mrna:sta.

1 1. JOHDANTO Elintoiminnot perustuvat geenien tuottamien proteiinien toimintaan. Proteiinit voivat toimia solujen rakennuspaloina, kuljettaa viestejä hormoneina tai olla esimerkiksi ruuansulatuskanavan entsyymejä, jotka pilkkovat ravintomme. Monet geenit myös säätelevät toistensa ilmentymistä tuottamalla niin sanotuiksi transkriptiofaktoreiksi kutsuttuja proteiineja. DNA:han kertyvät mutaatiot voivat kuitenkin muuttaa proteiinien rakenteita ja tehdä niistä toimimattomia tai väärin toimivia. Kun soluihin kertyy riittävästi mutaatioita, voivat ne alkaa jakautua muita soluja nopeammin eivätkä ne enää reagoi apoptoosiin eli ohjattuun solukuolemaan. Näin soluista kehittyy syöpäsoluja ja ne valtaavat tilaa normaaleilta soluilta. [1, s. 718] Syöpää tutkittaessa geenien ilmentymistasojen muutokset kertovat millä tavalla solut toimivat väärin. Kiinnostavampaa on kuitenkin tietää, mistä nämä muutokset ovat aiheutuneet, sillä geenien säätely on hyvin monimutkainen prosessi ja yksittäisen geenin muutos voi olla pitkän säätelyketjun sivutuote tai syövan kehitystä ajava muutos. Sen lisäksi, että geenit säätelevät toisiaan, vaikuttavat niiden ekspressioon DNA- sekä histonimetylaatiot [2], geenin kopioiden määrä sekä mutaatiot säätelyalueilla [1, s. 298-299]. Usein tutkimuksissa on keskitytty johonkin tiettyyn ominaisuuteen kuten pelkästään mutaatioihin, mutta on hyödyllistä yhdistää kaikki nämä datatyypit kokonaiskuvan rakentamiseksi. Kun näitä ominaisuuksia mitataan sekvensoinnin avulla, saadaan suuri määrä dataa, joka vaatii käsittelyä ennen kuin se on tulkittavassa muodossa. Käsittelyn jälkeen data voidaan visualisoida esimerkiksi siten, että voidaan löytää ne muutokset, jotka aiheuttavat syövän muuttumista aggressiivisemmaksi. Tässä työssä käsitellään geenien ominaisuuksien mittaamista ja siitä saatavan datan käsittelyä ja visualisointia. Työssä on toteutettu MATLAB-skripti, joka tuottaa datojen yhdistämistä ja tulkintaa helpottavan kuvan, jonka avulla voidaan tarkastella ominaisuuksien muuttumista esimerkiksi pienissä geeniverkoissa syövän muuttuessa aggressiivisemmaksi. Kappaleessa 2 tutustutaan biologiseen taustaan ja siihen kuinka geenien ominaisuuksia voidaan mitata sekvensoimalla ja kappaleessa 3 käydään läpi saadun datan käsittelyä. Lopuksi kappaleessa 4 pohditaan visualisoinnin toteutusta ja siitä saatavia hyötyjä.

2 2. BIOLOGINEN TAUSTA JA GEENIEN OMINAISUUKSIEN MITTAAMINEN Ihmisen perimä löytyy jokaisesta solun tumasta 23 kromosomiparista, jotka muodostuvat deoksiribonukleiinihaposta (DNA). Kromosomeista toinen tulee isältä ja toinen äidiltä eli ihmisellä on normaalitilassa kaksi kopiota kustakin geenistä. Geenit ovat alueita DNA:ssa, joista tuotetaan proteiineja. Niiden koko voi vaihdella sadoista emäspareista jopa kahteen miljoonaan emäspariin. Ihmisellä geenejä arvellaan olevan 20000-25000, mikä on muihin eliöihin verrattuna yllättävän vähän [3]. Esimerkiksi vesikirpulla on noin 31000 geeniä [4]. 2.1 DNA:n rakenne DNA on pitkä ketjumainen molekyyli, joka koostuu pienistä alayksiköistä eli nukleiinihapoista. Nukleiinihapossa on fosfaattiosa, emäs ja sokeriosa, joka on deoksiriboosia. Nukleiinihapot sitoutuvat toisiinsa muodostaen fosfodiesterisidoksia fosfaattiosiensa avulla. [1, s. 173] DNA:ssa emäkset ovat adeniini, guaniini, sytosiini ja tymiini. Ihmisen perimässä DNA on kaksijuosteisena molekyylinä siten, että emäksistä adeniini ja tymiini sekä guaniini ja sytosiini ovat muodostaneet keskenään vetysidoksia, jotka pitävät juosteet kiinni toisissaan. DNA:n sytosiinit voivat metyloitua eli niiden renkaan yksi vetyatomi voi korvautua metyyliryhmällä. Syövissä tapahtuva poikkeava metylaatio tapahtuu lähes aina CpG-dinukleotideille eli kohtiin joissa sytosiini ja guaniini ovat vierekkäin. Näin ollen suurin osa DNA-metylaatiosta tapahtuu CpG-saarekkeilla eli alueilla, joissa CpG-tiheys on suuri. [5, 6] Mutaatiot ovat muutoksia DNA:n rakenteessa. Mutaatiotyyppejä ovat pistemutaatiot eli yhden emäksen muuttumiset toiseksi, yhden tai useiden emästen deleetiot ja lisäykset sekä kääntymät, joissa DNA katkeaa ja irronnut osa liittyy takaisin väärinpäin kääntyneenä. 2.2 Geenien ilmentyminen Geeniä ilmennettäessä siitä tuotetaan ribonukleiinihappoa eli RNA:ta. RNA:n rakenne on samankaltainen kuin DNA:n, mutta RNA:n sokeriosa on riboosia ja emäksistä tymiinin

2. Biologinen tausta ja geenien ominaisuuksien mittaaminen 3 tilalla on urasiili. Kun geeniä aletaan ilmentää, tarttuu RNA-polymeraasi niminen entsyymi DNA:han. RNA-polymeraasi liikkuu DNA:ta pitkin samalla avaten kaksoiskierrettä ja tuottaen templaattijuosteesta lähetti-rna-molekyylin (mrna). Tätä kutsutaan transkriptioksi. mrna:n emäsjärjestys määräytyy emäspariutumissäännön mukaan, jolloin se vastaa templaattijuosteelle komplementaarista koodaavaa juostetta. Tämän jälkeen mrna:sta poistetaan geenin intronit eli ei-koodaavat alueet ja lopullisesta molekyylistä tuotetaan translaatiossa proteiini. Geenin transkriptiota säädellään monin eri tavoin. RNA-polymeraasin sitoutuminen transkription aloituskohdan läheisyyteen vaatii ensin yleisten transkriptiofaktoreiden sitoutumista ja vielä sen sitoutumisen jälkeenkin muodostuvaan kompleksiin tarttuu muita transkriptiofaktoreita. Promoottorin lisäksi geenien ilmentymistä säätelevät myös voimistaja-alueet, jotka voivat sijaita hyvinkin kaukana geenistä. Niiden uskotaan toimivan siten, että DNA taipuu tuoden voimistajaan sitoutuneen proteiinin promoottorilla olevien proteiinien muodostaman kompleksin läheisyyteen, jolloin ne voivat sitoutua keskenään. [1, s. 278] Kun DNA metyloituu geenin promoottorilla eli säätelyalueella, on geenin ilmentymisen havaittu heikkenevän, kun taas geenin sisällä oleva DNA-metylaatio yhdistetään usein aktiivisiin geeneihin [6 8]. Tämän on arveltu johtuva siitä, että DNA-metylaatio ajaisi pois geeniä hiljentävää histonimetylaatiota. Histonit ovat proteiineja, joiden ympärille DNA kiertyy ja pakkautuu tiiviimpään ja joilla esiintyy useaa erityyppistä hiljentävää ja aktivoivaa metylaatiota. Metylaation vaikutus geenien ekspressioon on kuitenkin vielä heikosti tunnettu. Pistemutaatiot eivät välttämättä vaikuta proteiinien tuotantoon mitenkään, sillä käännettäessä mrna proteiiniksi määrittyy proteiiniin lisättävä aminohappo niin sanotusta kodonista eli kolmen emäksen kokoisesta pätkästä. Yhtä aminohappoa voi koodata muutama eri kodoni, jolloin pistemutaatio saattaa säilyttää oikean aminohapon itse proteiinissa. Deleetiot ja lisäykset voivat puolestaan muuttaa proteiinin lukukehystä, jolloin kodonit luetaan väärin ja lopputuloksena on täysin väärin toimiva tai kokonaan toimimaton proteiini. 2.3 Sekvensointi Sekvensointi on DNA:n emäsjärjestyksen selvittämistä. Sekvensointimenetelmiä on olemassa useita, mutta usein niiden toiminta perustuu näytteen DNA:n tai RNA:n eristämiseen ja pilkkomiseen, jonka jälkeen sekvenssi määritetään jollain menetelmällä käyttäen hyväksi värjättyjä emäksiä ja esimerkiksi mittaamista laserilla tai kuvantamista. Ensimmäiset 1970-luvulla kehitetyt sekvensointimenetelmät perustuivat niin sanottuun geelielektroforeesiin [9], jossa DNA pilkotaan eri entsyymein ja saadaan fragmentteja, joiden viimeiset emäkset tiedetään, koska entsyymit pilkkovat DNA:ta aina tietyn sekvenssin perusteella. Fragmentit laitetaan geelille omiin kohtiinsa riippuen käytetystä entsyymis-

2. Biologinen tausta ja geenien ominaisuuksien mittaaminen 4 tä ja erotellaan sähkövirran avulla. Geelin rakenteen vuoksi lyhyemmät DNA-fragmentit liikkuvat pidemmälle ja näin saadaan neljä eri linjaa, joiden perusteella voidaan suoraan lukea DNA:n sekvenssi alkaen lyhimmistä fragmenteista. Työssä käytetty data on peräisin TTY:n laskennallisen systeemibiologian tutkimusryhmän projektista [10], jossa tutkitaan eturauhassyöpää. Näytteet on otettu 12 potilaalta, joilla on hyvänlaatuista eturauhasen liikakasvua (BPH), 28 eturauhassyöpäpotilaalta (PC) sekä 13 potilaalta, joilla oli kastraatioresistentti eturauhassyöpä (CRPC) eli syöpä, joka uusiutui kastraation jälkeenkin. Yksi PC- ja yksi CRPC-näyte osottautui analyyseissa niin sanotuksi neuroendokriiniseksi eturauhassyöväksi, joka saa alkunsa eturauhasen hormoneja erittävistä soluista. Data on tuotettu käyttäen syväsekvensointia ja Illumina Hiseq 2000 sekvensaattoria, jonka toiminta perustuu polymeraasiketjureaktioon (PCR). PCR:ssä lämpötilaa vaihtelemalla saadaan DNA:n juosteet erottumaan toisistaan ja polymeraasientsyymi tuottamaan kopion DNA:n toisesta juosteesta. Näytteistä eristetty DNA pilkotaan ja huuhdotaan levylle, jonka alukkeisiin, eli lyhyihin yksijuosteisiin DNAmolekyyleihin, näytteen DNA tarttuu. Tarttuneet DNA-molekyylit monistetaan alukkeiden jatkoksi ja alkuperäiset molekyylit huuhdotaan pois. Pitkänä ketjumaisena molekyylina DNA pystyy taipumaan ja sen toinen pää tarttuu toiseen alukkeeseen muodostaen sillan. Tämä molekyyli monistetaan kaksijuosteiseksi, minkä jälkeen DNA:n juosteet erotetaan toisistaan. Näin tuotettujen kahden erillisen molekyylin toiset päät ovat vapaita muodostamaan uusia siltoja. Nämä vaiheet on esitetty kuvassa 2.1 Kun DNA:ta on monistettu riittävästi, jatketaan monistamista muokatuilla emäksillä, joihin on liitetty väriaine ja joihin ei suoraan voi liittyä uutta emästä. Yhden emäksen lisäämisen jälkeen levy kuvataan ja näin saaduista kuvista saadaan määritettyä jokaisen DNA-fragmentin emäsjärjestys, kun monistetun molekyylin muodostama klusteri vaihtaa kuvissa väriä. [11] Kuva 2.1. DNA:n monistamisen vaiheet on esitetty alkaen sinisin ympyröin kuvatun yksijuosteisen DNA-molekyylin monistamisesta kiinni alukkeeseen. Punainen ja vihreä ovat kaksi eri aluketta, jotka ovat kiinnitettyinä levyyn. Seuraavissa vaiheissa alukkeissa kiinni olevat molekyylit muodostavat siltoja monistaen sekvenssinsä toisiin alukkeisiin.

2. Biologinen tausta ja geenien ominaisuuksien mittaaminen 5 DNA-sekvensointia voidaan käyttää pelkän DNA:n sekvenssin lukemisen lisäksi myös geenien aktiivisuuden sekä DNA:n metylaation mittaamiseen. Geenien aktiivisuutta voidaan tarkastella sekvensoimalla niistä tuotettuja mrna-molekyylejä. Ne käännetään ensin komplementaariseksi DNA:ksi (cdna) käyttäen käänteiskopioijaentsyymiä ja sen jälkeen ne voidaan sekvensoida samalla tavalla kuin muukin DNA. Metyloidun DNA:n immunosaostus (MeDIP) yhdistettynä syväsekvensointiin (MeDIP-seq) mahdollistaa DNA:n metylaation mittaamisen genominlaajuisesti. Metyloituneet sytosiinit voidaan tunnistaa vasta-aineella, johon kiinnitetyn esimerkiksi magneettisen tunnisteen avulla pilkotun DNA:n fragmentit saadaan eroteltua toisistaan ja näin saadaan sekvensoitavaksi vain metyloitunutta DNA:ta [5].

6 3. DATAN KÄSITTELY Sekvensoimalla luetut pätkät ovat tiedostoissa, joissa on listattuna kaikki luetut lyhyet sekvenssit sekä erilaisia laatumerkintöjä kaikille näistä sekvensseistä. Jotta tällaista dataa voitaisiin käyttää, siitä täytyy ensin joko luoda koko genomin sekvenssi tai linjata se valmiiseen niin sanottuun referenssigenomiin. Kun tiedetään mistä kukin sekvenssi on peräisin, voidaan linjautuneiden sekvenssien lukumäärien ja sijaintien perusteella laskea geeneille ekspressioarvoja, alueiden kopiolukuja sekä metylaation määriä. 3.1 Sekvenssien linjaaminen referenssigenomiin Sekvensointidatan käsittelyä varten eliöille on luotu referenssigenomeja sekvensoimalla useita yksilöitä ja yhdistämällä saatu data. Tällaisia referenssejä vasten sekvensointidata on helppo linjata käyttäen valmiita ohjelmia, jotka etsivät referenssistä parhaat vastaavuudet mitatuille sekvensseille. Tässä työssä käytetty data on linjattu ihmisen referenssigenomiin GRCh37 (Genome Reference Consortium human genome, build 37) käyttäen Bowtie-ohjelmistoa [12]. Sekvensoitaessa saadaan erittäin suuri määrä dataa, jonka käsittely on laskennallisesti hyvin raskasta. Bowtie käyttää Burrows-Wheeler muunnosta, jolla referenssigenomi saadaan muutettua tehokkaasti indeksoitavaan muotoon. Muunnos toimii siten, että sekvenssin perään laitetaan merkki, joka ei siinä ennestään esiinny ja on aakkosissa ennen sen muita merkkejä. Sekvenssi kirjoitetaan uudestaan siten, että viimeinen merkki siirretään ensimmäiseksi. Tämä toistetaan kunnes se pyörähtäisi ympäri ja näin saadut permutaatiot järjestetään aakkosjärjestykseen. Ottamalla nyt jokaisen rivin viimeinen merkki saadaan Burrows-Wheeler muunnettu sekvenssi. Sekvenssin haku Burrows-Wheeler matriisin perusteella on esitetty kuvassa 3.1. Käytännössä muistiin ei ole tallennettuna koko matriisia vaan indeksit, joiden avulla lasketaan haetun sekvenssin sijainti genomissa.

3. Datan käsittely 7 Kuva 3.1. Sekvenssin GCAA haku sekvenssistä ACGTGTAGCGCGCAAATGA käyttäen Burrows-Wheeler matriisia. Haku tapahtuu merkki kerrallaan lukien haettavaa sekvenssiä takaperin. Nuoli osoittaa vastaavan merkin haun seuraavasta vaiheesta. Linjattaessa sekvenssiä etsitään sen viimeinen merkki Burrows-Wheeler matriisin ensimmäisestä sarakkeesta eli aakkosjärjestyksessä olevasta referenssigenomista. Näin on löydetty kaikki mahdolliset kohdat, joihin linjattava sekvenssi voi päättyä. Näistä riveistä otetaan ne, jotka päättyvät linjattavan sekvenssin toiseksi viimeiseen merkkiin, sillä varsinaisessa sekvenssissä rivin viimeinen merkki edeltää rivin ensimmäistä. Seuraavaksi ensimmäisestä sarakkeesta haetaan ne rivit, jotka vastaavat edellisellä kierroksella löydettyjä rivejä eli alkavat samalla merkillä, johon aiemmat päättyivät. Jos sekvenssi on riittävän uniikki, löydetään lopulta vain yksi rivi, jonka perusteella voidaan päätellä sekvenssin koordinaatti genomissa. 3.2 Geeniekspressio Geeniekspressioarvot kuvaavat kuinka runsaasti geeniä ilmennetään näytteen soluissa. Ekspressio saadaan laskemalla geenin alueelle linjautuneiden sekvenssien lukumäärä. Linjattujen sekvenssien lukumäärissä on eroja näytteiden välillä, joten ekspressioarvoille täytyy tehdä normalisointeja. Koska sekvensaattorin lukemat pätkät ovat aina tietyn mittaisia, linjautuu eri pituisiin geeneihin eri määrä sekvenssejä sekä erilaisen ekspression että geenin pituuden vuoksi. Tämän takia ekspressioarvot täytyy siis normalisoida myös geenien pituuden suhteen. Kvantiilinormalisoinnilla saadaan ekspressioiden jakaumat samoiksi näytteiden välillä. Tämä toteutetaan muodostamalla ekspressioista matriisi siten, että geenit tulevat vaakariveille ja näytteet pystyriveille. Näytteittäin kaikille arvoille annetaan järjestysluku pienimmästä suurimpaan, jonka jälkeen jokainen pystyrivi laitetaan suuruusjärjestykseen. Tämän jälkeen lasketaan keskiarvo geeneittäin ja näin saaduille keskiarvoille annetaan

3. Datan käsittely 8 järjestysluku. Lopuksi keskiarvot sijoitetaan alkuperäisten ekspressioarvojen järjestyslukujen mukaan samoille paikoille matriisiin. Jotta eri geenien ekspressioarvot olisivat vertailukelpoisia keskenään näytteen sisällä sekä näytteiden yli, ne normalisoidaan geenin eksonien, eli mrna:ta tuottavien osien, yhteispituuden ja kaikkien näytteeseen linjautuneiden sekvenssien suhteen (reads per kilobase per million mapped, RPKM). Tällöin RPKM-normalisoitu ekspressioarvo on RPKM = 10 9 C/NL, (3.1) jossa C on geeniä vasten linjattujen sekvenssien lukumäärä, N on koko näytteeseen linjattujen sekvenssien lukumäärä ja L on geenin eksonien yhteispituus emäspareina. Osassa näytteistä käytettiin eri RNA:n eristysmenetelmää, joka aiheutti eroja ekspressioarvoissa. Eristysmenetelmät huomioonottava korjauskerroin k on k = med(e T )/med(e Q ), (3.2) jossa med(e T ) on mediaaniekspressio niin sanotulla Trizol-protokollalla ja med(e Q ) Qiagen-protokollalla eristetyissä BPH-näytteissä. Kaikista geeneistä etsittiin t-testillä ne, joiden ekspressioissa on eroa eri menetelmin eristettyjen näytteiden välillä käyttäen rajana p-arvoa 0,0001, ja näiden geenien ekspressio Trizolilla eristetyissä näytteissä jaettiin k:lla. T-testissä tutkitaan, onko ryhmien ekspressioiden odotusarvot samat. 3.3 Kopioluvut Ihmisen referenssigenomi sisältää koko genomin sekvenssin normaalitilassa. Kun jokin kohta genomia on monistunut tai deletoitunut se näkyy linjattujen sekvenssien lukumäärän poikkeamana tällä alueella. Kopiolukuanalyysissa lasketaan linjautuneiden sekvenssien lukumääriä, verrataan niitä normaalitilaan ja segmentoidaan saadut arvot. Segmentointi vähentää kohinaa ja antaa alueille tasaiset ja biologisesti järkevät kopiolukuarvot. Lisäksi kromosomien lukumäärä eli niin sanottu ploidia otetaan huomioon lopullisia kopiolukuja laskettaessa. Kopioluvut saatiin määritettyä laskemalla linjautuneiden sekvenssien lukumäärä osittain päällekkäin menevissä 500 emäksen mittaisissa ikkunoissa koko genomin yli. Jokaisen ikkunan summa jaettiin BPH-näytteiden keskiarvolla, jolloin tulokseksi saadaan suhde verrattuna BPH-näytteisiin. Suhteista otettiin kaksikantainen logaritmi, jolloin arvojen jakauma on lähempänä normaalijakauma. Kopioluvut normalisoitiin näytteittäin ottamalla joka kahdeskymmenes arvo ja suodattamalla arvot mediaanisuotimella. Jokaiselle kromosomille laskettiin histogrammi ja niistä otettiin moodi eli eniten esiintynyt arvo. Moodeista otettiin mediaani, joka vähennettiin kaikista näytteen kopiolukuarvoista. Näin saatiin muuttumattomien alueiden ko-

3. Datan käsittely 9 piolukuarvot lähemmäs nollaa. Korjauksen vaikutus on esitetty kuvassa 3.2. Korjausta ei tehty sukupuolikromosomeille eikä kromosomille 8, jonka on kauan tunnettu muuttuvan vahvasti eturauhassyövässä [13]. Kuva 3.2. Histogrammi näytteen CRPC_543 kopioluvuista kromosomissa 6 ennen korjausta. Vaaka-akselin arvot ovat log 2 -suhteita ja pystyrivillä on kunkin arvon lukumäärä. Punainen pystyviiva kuvaa moodia ennen korjausta ja musta sen jälkeen. Normalisoidut log 2 -suhteet segmentoitiin käyttäen Circular binary segmentation -algoritmia (CBS). Segmentoinnissa pyritään kopiolukudatasta löytämään sellaiset kohdat, joiden eripuolille jäävien alueiden jakaumat poikkeavat toisistaan. Näin kopioluvut saadaan jaoteltua alueisiin, joille annetaan arvoksi alueen keskiarvo. [14] Segmentoinnin vaikutus kopiolukuihin on nähtävissä kuvassa 3.3. Lopulliset kopiolukuarvot saadaan ottamalla huomioon ploidia eli kromosomien lukumäärä normaalitilassa. Ploidian huomioiva kopioluku K on K = P 2 L P, (3.3) jossa P tarkoittaa alueen kopioiden määrää normaalitilassa ja L normalisoitua log 2 -suhdetta. Näin lasketut arvot ovat todellisia kopioiden tai deleetioiden määriä eivätkä suhteita.

3. Datan käsittely 10 Kuva 3.3. Kuvassa on esitetty näytteen CRPC_543 kopioluvut kromosomissa 8. Sinisillä pisteillä on piirretty joka viidessadas kopioluku log 2 -suhteena ja punaisella viivalla CBSalgoritmilla tuotetut segmentoidut kopioluvut. Kromosomin alueet on esitetty harmaalla X-akselin yläpuolella. Kuvaajasta nähdään jo kauan eturauhassyövässä tunnetut deleetiot kromosomin lyhessä ja monistumat pitkässä käsivarressa. 3.4 DNA-metylaatio Sekvensoitaessa voidaan tuottaa joko yksittäisiä sekvenssejä (single-end read) tai sekvenssipareja (paired-end read). Sekvenssiparit tulevat yhden DNA-fragmentin molemmista päistä, jolloin niiden etäisyys toisistaan tiedetään. MeDIP-seq:llä tuotetut sekvenssiparit ovat siis peräisin yhden metyloituneen DNA-fragmentin päädyistä, joten ne yhdistettiin yhdeksi pitkäksi sekvenssiksi, jos ne olivat enintään 5000 emäksen päässä toisistaan. Tämän jälkeen niiden lukumäärät summattiin 50 emäksen ikkunoissa yli koko genomin ja jokaisen ikkunan summa normalisoitiin koko näytteessä linjautuneiden sekvenssien lukumäärällä. Näin saatiin pienissä ikkunoissa näytteiden yli vertailukelpoisia metylaatioarvoja. DNA-metylaation määrään vaikuttaa jokaisen kohdan kopioluku. Kopioituneiden alueiden oletettiin olevan samalla tavalla metyloituneita, joten metylaatioarvot normalisoitiin kopiolukujen suhteen. Tämä tapahtui jakamalla genomi 500 000 emäksen ikkunoihin ja laskemalla sekvenssien lukumäärät näissä ikkunoissa. Koska suurin osa metylaatiosta sijaitsee CpG-saarekkeilla ja ne ovat pituudeltaan lyhyitä ikkunaan verrattuna, eivät varsinaiset metylaation muutokset näy merkittävästi näin suuressa ikkunassa. Näin ollen summat poikkeavat suuresti vain sellaisissa ikkunoissa, joissa alue on monistunut tai de-

3. Datan käsittely 11 letoitunut. Koska BPH-näytteitä pidettiin datassa normaalitilana, summat kerrottiin siten, että ne saatiin samoiksi kuin BPH-näytteiden mediaani. 3.5 Mutaatiot Mutaatioita etsittiin RNA-seq datasta, jolloin nähtiin suoraan, missä mrna molekyylissä oli tapahtunut mutaatio. Löydökset validoitiin vertaamalla DNA-seq dataan, jolloin nähdään onko löydös vain sekvensoinnissa tapahtunut virhe vai näkyykö se DNA:ssa asti. RNA-sekvenssejä käsiteltiin samtools-työkalulla [15], joka on tehty niin sanotussa SAMformaatissa olevien sekvenssien käsittelyyn. Kyseisessä formaatissa jokaiselle luetulle sekvenssille on annettu lisäksi muun muassa sen sijainti genomissa ja sen linjautumisen laatuarvo. Sekvensseistä poistettiin samtools-työkalun avulla kaikki ne, joilla oli samat alku- ja loppukoordinaatit, jolloin jäljelle jäi vain uniikkeja sekvenssejä. Tämän jälkeen kaikki data koottiin yhteen tiedostoon ja muutokset analysoitiin käyttäen ANNOVAR-ohjelmistoa [16], joka hakee tietoa useista tietokannoista ja päättelee mutaatioiden potentiaalisia vaikutuksia. Lisäksi etsittiin tunnettuja mutaatioita COSMIC- (Catalogue of Somatic Mutations in Cancer) ja dbsnp-tietokannoista sekä 1000 Genomes -projektin luettelemista mutaatioista. Näin saatiin eroteltua potentiaaliset oikeat mutaatiot ihmisen genomissa luonnostaan esiintyvästä vaihtelusta.

12 4. VISUALISOINTI Käsiteltäessä useita eri datatyyppejä, jotka vaikuttavat toisiinsa, on tärkeää saada arvot sellaiseen muotoon, että niiden välisiä suhteita on helppo tulkita. Kastraatioresistentin eturauhassyövän mutaatioita käsittelevässä artikkelissa [17] käytettiin visualisointiin matriisiesitystä, jossa oli eri värein esitettynä mutaation tyyppi tai kopioluvun muutos ja nuolilla ekspression muutos. Tästä ideasta otettiin mallia työssä toteutettuun visualisointiin. 4.1 Visualisointi ympyröinä Visualisointia lähdettiin toteuttamaan kuvassa 4.1. esitettyyn tapaan siten, että jokaista näytettä ja geeniä kohden piirrettiin ympyrä, jonka koko kuvasti ekspression ja väri kopioluvun muutosta. Koska ekspressiotasot vaihtelevat suuresti, ei ympyrän koko voi suoraan kuvata ekspressiotasoa vaan se määriteltiin muutoksena verrattuna BPH-näytteiden mediaaniin. Muutokset jaettiin viiteen kategoriaan sen mukaan oliko muutos pieni vai suuri ja oliko se kasvua vai vähenemistä vai oliko ekspressio säilynyt samana. Metylaatioiden esittämiseen harkittiin värillistä ympyrän kehää ja mutaatioille symbolia ympyrän sisälle. Visualisoinnin etuja on sen miellyttävä ulkonäkö ja kopioluvut on helppo nähdä väreistä. Ongelmaksi ympyrän koon käyttämisessä ekspressioarvoja varten kuitenkin muodostui vaikeus erottaa luokat toisistaan. Eri rivien välillä on käytännössä mahdotonta nähdä nopeasti kuvaako ympyrä normaalitilaa vai muutosta, ellei ympyrän koko muutu riittävän paljon. Suuret erot ympyröiden koossa levittävät kuvaa liikaa, kun näytteitä on useita kymmeniä, ja jos taas koko pienenee merkittävästi, ei kopiolukua kuvaavaa väritystä pysty erottamaan eikä kuvaan ole enää mahdollista lisätä symbolia esittämään mutaatioita.

4. Visualisointi 13 Kuva 4.1. Kuvassa ympyrän koko kuvaa geenin ekspressiotason ja väri kopioluvun muutosta. Sininen kuvastaa deleetiota, punainen monistumaa ja tumman harmaa puuttuvaa arvoa. Näytteiden nimet ovat X-akselilla ja geenien Y-akselilla. 4.2 Visualisointi värimatriisina Visualisointitavaksi valittiin kuvassa 4.2 esitetty matriisiesitys, jossa valituille geeneille on neljä väripistettä jokaista näytettä kohden. Sinipunaisella väriskaalalla esitetään ekspression, kopioluvun ja DNA-metylaation muutokset ja vihrein pistein mutaatiot. Geeneille laskettiin näytteittäin ekspressioiden ja metylaatioiden suhde BPH-näytteiden mediaaniin ja arvoista otettiin kaksikantainen logaritmi. Lisäksi vaadittiin riittävän suurta absoluuttista eroa ekspressioarvoissa biologisen merkittävyyden lisäämiseksi. Koska metylaatioita esiintyy ympäri genomia, valittiin geenille visualisoitavaksi parhaiten sen ekspres-

4. Visualisointi 14 sionmuutoksen kanssa korreloiva ja vahvasti muuttunut alue. Kopioluvut ovat suoraan kappaleessa 3.3 esiteltyä muotoa. Kuva 4.2. Lopullinen visualisoinnin muoto. Vaakariveillä ovat visualisointiin valitut geenit ja pystyriveillä näytteet. Jokaiselle geenille on neljä riviä, jotka kuvaavat geeniekspression, kopioluvun ja DNA metylaation muutoksia sinipunaisella skaalalla sekä mutaatioita vihreillä pisteillä. Koska joillain geeneillä ekspression muutos oli hyvinkin suuri joissain näytteissä, saivat muut näytteet arvon hyvin läheltä nollaa, eikä pienemmässä skaalassa tapahtuvia merkittäviäkään eroja näkynyt. Ensimmäisessä matriisiesityksen versiossa päädyttiin luokittelemaan muutokset viiteen ryhmään kappaleessa 4.1 esitellyllä tyylillä. Tällöin ekspressioille ja metylaatioille rajoina käytettiin -4 ja 4 suurille muutoksille ja -2 ja 2 pienemmille ja kopioluvuille -2 ja 2 sekä -1 ja 1 vastaavasti. Koska ryhmiin luokittelu pienentää informaation määrää, päädyttiin esittämään ekspressio- ja metylaatioarvot välillä (-4, 4) ja kopioluvut välillä (-2, 2) jatkuvana skaalana. Rajoja pienemmät tai suuremmat arvot asetettiin rajan arvoksi. Näin saadut arvot muutettiin väreiksi käyttäen HSV-arvoja (hue, saturation, value). Värimatriisi alustettiin ykkösillä eli kaikki pisteet saivat värikseen valkoisen. Puuttuville arvoille valoisuusarvo laskettiin 0,9:ään, jolloin ne näkyvät kuvassa vaaleanharmaina. Jos absoluuttinen muutos oli liian pieni, asetettiin muutos nollaksi eli arvo näkyy kuvassa valkoisena. Muille arvoille värisävyksi valittiin sininen tai punainen riippuen siitä, oliko arvo laskenut vai noussut BPH-näytteiden mediaaniin nähden, ja värikylläisyys määriteltiin suoraan itse

4. Visualisointi 15 datan itseisarvona. Tällöin kuvaksi piirrettäessä MATLAB skaalaa arvot siten, että suurin muutos näkyy kirkkaana sinisenä tai punaisena ja pienet muutokset vaaleansinisinä tai -punaisina ja muuttumattomat kohdat valkoisina. Kopioluvuille käytettiin hieman eri punaisen ja sinisen sävyjä, jotta rivit olisivat helpompi erottaa toisistaan. Mutaatiot piirrettiin vaaleanvihreinä tai tummanvihreinä sen mukaan, oliko mutaatio tapahtunut vain toisessa vai molemmissa DNA-juosteissa. 4.3 Toteutuksen arviointi Toteutettu MATLAB-funktio ottaa parametreinaan tietorakenteen, johon kaikki data on tallennettu, listan geenejä, jotka halutaan kuvaan visualisoida, sekä nimen tuotettavalle kuvatiedostolle. Sen käyttö on yksinkertaista ja tehokasta useidenkin kuvien tuottamiseen. Funktion toimintaa voisi kehittää lisäämällä parametreihin tietorakenteen näytteiden nimistä, jolloin työkalun toiminta ei olisi riippuvainen samanlaisesta näytteiden jaottelusta ja ryhmien väliset rajaviivat voisi määrittää tämän tietorakenteen perusteella. Tällä hetkellä näytteitä indeksoidaan niiden nimien alussa esiintyvän syöpätyypin perusteella. Etuina visualisoinnissa ovat sen kompaktius ja mahdollisuus nähdä eri näyteryhmien välillä tai yhdessä näytteessä tapahtuvat muutokset helposti. Esimerkiksi kuvassa 4.2 esitetyssä AP1-signalointipolussa näkyy yhden PCaN-näytteen monen geenin poikkeava ekspressio selkeästi muista eroavina väripisteinä. Muita havaintoja ovat JUN- ja FOSgeenien noussut ekspressio eturauhassyöpänäytteissä sekä MAPK10-geenin ekspression heikentyminen samalla kun sen DNA-metylaatio kasvaa. Metylaatioiden esittämisessä ongelmaksi nousi edustavimman metylaatioalueen valinta ja tästä johtuen useilla geeneillä metylaatioarvot puuttuvat kokonaan visualisoinnista. Toisaalta visualisoinnin tärkein tehtävä onkin tuoda esiin muutoksia geenin käyttäytymisessä syövän eri vaiheissa, jolloin puuttuvat arvot eivät haittaa muuten kuin harmaiden pisteiden runsautena. Myös mutaatioista luotettava tieto puuttuu useiden näytteiden kohdalta, koska dataa ei alkujaan sekvensoitu siten, että tarkoituksena olisi ollut mutaatioiden tutkiminen. Tällöin linjautuneiden sekvenssien lukumäärät jäävät monessa kohdassa liian alhaisiksi, eikä voida varmasti sanoa onko kyseessä mutaatio vai sekvensoinnissa tai linjatessa tapahtunut virhe. Toteutettu työkalu on kuitenkin hyödyllinen apuväline tutkimukseen ja pienissä geeniverkoissa tapahtuvien muutosten esittämiseen julkaisuissa.

16 LÄHTEET [1] B. Alberts, D. Bray, K. Hopkin, A. Johnson, J. Lewis, M. Raff, K. Roberts, and P. Walter, Essential cell biology. New York: Garland Science, 3rd ed., 2010. 731 p. [2] A. J. Bannister and T. Kouzarides, Regulation of chromatin by histone modifications, Cell Research, vol. 21, pp. 381 395, 2011. [3] U.S. Department of Energy, The science behind the human genome project. [WWW, cited 07.11.2012]. Available: http://www.ornl.gov/sci/techresources/ Human_Genome/project/info.shtml, March 2008. [4] J. K. Colbourne, M. E. Pfrender, D. Gilbert, W. K. Thomas, A. Tucker, T. H. Oakley, S. Tokishita, A. Aerts, G. J. Arnold, M. K. Basu, D. J. Bauer, C. E. Cáceres, L. Carmel, C. Casola, J.-H. Choi, J. C. Detter, Q. Dong, S. Dusheyko, B. D. Eads, T. Fröhlich, K. A. Geiler-Samerotte, D. Gerlach, P. Hatcher, S. Jogdeo, J. Krijgsveld, E. V. Kriventseva, D. Kültz, C. Laforsch, E. Lindquist, J. Lopez, J. R. Manak, J. Muller, J. Pangilinan, R. P. Patwardhan, S. Pitluck, E. J. Pritham, A. Rechtsteiner, M. Rho, I. B. Rogozin, O. Sakarya, A. Salamov, S. Schaack, H. Shapiro, Y. Shiga, C. Skalitzky, Z. Smith, A. Souvorov, W. Sung, Z. Tang, D. Tsuchiya, H. Tu, H. Vos, M. Wang, Y. I. Wolf, H. Yamagata, T. Yamada, Y. Ye, J. R. Shaw, J. Andrews, T. J. Crease, H. Tang, S. M. Lucas, H. M. Robertson, P. Bork, E. V. Koonin, E. M. Zdobnov, I. V. Grigoriev, M. Lynch, and J. L. Boore, The Ecoresponsive Genome of Daphnia pulex, Science, vol. 331, pp. 555 561, Feb 2011. [5] F. V. Jacinto, E. Ballestar, and M. Estellar, Methyl-DNA immunoprecipitation (Me- DIP): hunting down the DNA methylome, BioTechniques, vol. 44, no. 1, pp. 35, 37, 39, 41, 43, 2008. [6] P. A. Jones and D. Takai, The role of DNA methylation in mammalian epigenetics, Science, vol. 293, pp. 1068 1070, 2001. [7] D. Aran, G. Toperoff, M. Rosenberg, and A. Hellman, Replication timing-related and gene body-specific methylation of active human genes, Human Molecular Genetics, vol. 20, no. 4, pp. 670 680, 2011. [8] H. Wu, V. Coskun, J. Tao, W. Xie, W. Ge, K. Yoshikawa, E. Li, Y. Zhang, and Y. E. Sun, Dnmt3a-dependent nonpromoter DNA methylation facilitates transcription of neurogenic genes, Science, vol. 329, pp. 444 448, Jul 2010. [9] F. Sanger, S. Nicklen, and A. R. Coulson, DNA sequencing with chain-terminating inhibitors, Proceedings of the National Academy of Sciences of the United States of America, vol. 74, no. 12, pp. 5463 5467, 1977.

LÄHTEET 17 [10] M. J. Annala, K. K. Waltering, A. Ylipää, K. Kartasalo, K. Tuppurainen, S. Karakurt, L. Latonen, O. Saramäki, S.-P. Leppänen, J. Seppälä, H. E. Rauhala, T. L. J. Tammela, O. Yli-Harja, W. Zhand, T. Visakorpi, and M. Nykter, Integrative sequencing reveals novel alterations in untreated and castration resistant prostate cancer. Unpublished. [11] E. R. Mardis, Next-generation DNA sequencing methods, Annual Review of Genomics and Human Genetics, vol. 9, pp. 387 402, 2008. [12] B. Landmead, C. Trapnell, M. Pop, and S. L. Salzberg, Ultrafast and memoryefficient alignment of short DNA sequences to the human genome, Genome Biology, vol. 10, p. R25, 2009. [13] C. Abate-Shen and M. M. Shen, Molecular genetics of prostate cancer, Genes & Development, vol. 14, no. 19, pp. 2410 2434, 2000. [14] A. B. Olshen, E. S. Venkatraman, R. Lucito, and M. Wigler, Circular binary segmentation for the analysis of array-based DNA copy number data, Biostatistics, vol. 5, pp. 557 572, Oct 2004. [15] H. Li, B. Handsaker, A. Wysoker, T. Fennell, J. Ruan, N. Homer, G. Marth, G. Abecasis, and R. Durbin, The Sequence Alignment/Map format and SAMtools, Bioinformatics, vol. 25, pp. 2078 2079, Aug 2009. [16] K. Wang, M. Li, and H. Hakonarson, ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data, Nucleic Acids Res., vol. 38, p. e164, Sep 2010. [17] C. S. Grasso, Y. M. Wu, D. R. Robinson, X. Cao, S. M. Dhanasekaran, A. P. Khan, M. J. Quist, X. Jing, R. J. Lonigro, J. C. Brenner, I. A. Asangani, B. Ateeq, S. Y. Chun, J. Siddiqui, L. Sam, M. Anstett, R. Mehra, J. R. Prensner, N. Palanisamy, G. A. Ryslik, F. Vandin, B. J. Raphael, L. P. Kunju, D. R. Rhodes, K. J. Pienta, A. M. Chinnaiyan, and S. A. Tomlins, The mutational landscape of lethal castrationresistant prostate cancer, Nature, vol. 487, no. 7406, pp. 239 243, 2012.