T-61.246 Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa Liisa-Ida Sorsa, 58714E
Sisällysluettelo i SISÄLLYSLUETTELO 1JOHDANTO... 1 2BIOLOGIAA DNA-MIKROSIRUTEKNOLOGIALLA... 1 2.1MOLEKYYLIBIOLOGIAN PERUSTEET... 1 2.2DNA-MIKROSIRUTEKNOLOGIA... 2 3SIGNAALINKÄSITTELYN MENETELMÄT MIKROSIRUDATAN PROSESSOINNISSA... 3 3.1KUVASTA DATAKSI... 3 3.2TILASTOLLINEN ANALYYSI KUNNIAAN... 4 3.3AIKASARJADATA... 4 4YHTEENVETO... 4 5LÄHTEITÄ JA LISÄTIETOA... 4
11/24/2003 1 1 Johdanto DNA-mikrosiruteknologia on mullistanut molekyylibiologian tutkimuksen. Aikaisemmin tutkijat tutkivat yhtä molekyyliä kerrallaan. Nyt voidaan yhdestä kudosnäytteestä mitata tuhansien geenien yhtäaikaista toimintaa. Mikrosirudatan myötä on biologisen tiedon määrä ja luonne kuitenkin kasvanut valtavasti. Aikaisemmin pärjättiin visuaalisella tarkastelulla, ja hypoteeseihin saatiin kyllä ja ei -tyyppisiä vastauksia. Nyt numeerista dataa on enemmän kuin ihmissilmä ja -aivot kykenevät kerralla prosessoimaan, joten laskennalliset menetelmät ovat välttämättömiä myös perinteisesti ei-matemaattisessa biologiassa. Tässä tutkielmassa tarkastellaan DNA-mikrosirudatan analysointia signaalinkäsittelyn menetelmien avulla. Aiheesta ei ole mitään yksittäistä lähdeteosta, koska ala on vielä niin uusi. Lähteenä toimivat useat erilaiset tieteelliset artikkelit, koulusivistys ja vuoden työkokemus alalta. Tämä tutkielma on pikemminkin tekijänsä tulkinta aikaisempien tietojensa ja signaalinkäsittelyn kurssilla oppimansa materiaalin yhdistämisestä. Luvussa 2 kuvaillaan DNA-mikrosiruteknologian perusteet ja sitä millaisiin kysymyksiin sillä etsitään vastauksia. Luvussa 3 käydään läpi mikrosiruanalyysissä käytetyimpiä ja välttämättömimpiä signaalinkäsittelyn menetelmiä. Luvussa 4 esitetään vielä yhteenveto ja loppusanat. 2 Biologiaa DNA-mikrosiruteknologialla 2.1 Molekyylibiologian perusteet Elollinen aine koostuu itsenäisistä yksiköistä, soluista. Solun tuma on sen komentokeskus, jossa sijaitsee elämän ohjekirja, DNA-molekyylit. DNA koodaa bioaktiivisia makromolekyylejä, proteiineja, jotka osallistuvat lähes kaikkeen elävässä aineessa tapahtuvaan toimintaan. Ihmisen solun DNA koostuu noin 3 miljardista neljän erilaisen nukleotidiemäksen muodostamasta ketjusta. Geeni on lyhyt (1000-10000 emäsparia pitkä) proteiinia koodaava pätkä DNA:ta. Ihmisen genomin arvioidaan koostuvan noin 30 000 geenistä. Solu vastaa ympäristöstä saamiinsa ärsykkeisiin esimerkiksi valmistamalla proteiineja eli expressoimalla geenejään. DNA-mikrosiruteknologialla voidaan mitata geenin ekspressiotasoa. Molekyylibiologian keskusdogman mukaan DNA makes RNA makes protein eli DNA tekee RNA:n (DNA:n tyyppinen molekyyli), joka tekee proteiinin. Tämän hetkisen käsityksen mukaan geenin korkea ekspressiotaso johtaa sitä geeniä vastaavan proteiinin suureen tuotantoon. Tämän hetkinen molekyylibiologian suurimpia haaste on ymmärtää solun toimintaa ja geenien säätelyverkkoja geeniekspressiodatan avulla. Tällä hetkellä kahden organismin, hiivan (Saccharomycces cerecisiae) ja banaanikärpäsen (Drosophila melanogaster) geenisäätelyverkot tunnetaan pääpiirteittäin. Näiden eliöiden genomit koostuvat reilusti alle 10 000:sta geenistä. Geenisäätelyverkkojen tunteminen on vain yksi askel matkalla solun toiminnan selvittämiseen. Ei nimittäin riitä, että tiedetään geenin A aktivoivan geeniä B. Voi nimittäin olla, että geeni B aktivoituu vain silloin, kun geenin A ekspressio ylittää tietyn kynnysarvon. Toisaalta geeni C saattaa deaktivoitua silloin, kun geeni A aktivoi geenin B. Pitää muistaa,
11/24/2003 2 että ihmisen genomissa on noin 30 000 muuttujaa, joista jotkut voivat vuorovaikuttaa useammankin kohteen kanssa. Molekyylibiologisen tiedon uskotaan tuottavan tulevaisuudessa uusia hoitomuotoja ja lääkkeitä perinöllisten sairauksien hoitoon. Puhutaan ns. räätälöidyistä lääkkeistä, myös siitä, että samaan vaivaan voidaan määrätä kahdelle eri henkilölle täysin erilaista lääkettä näiden henkilöiden geneettisen sormenjäljen, eli perimän, perusteella. Jo nyt on näyttöä siitä, että esimerkiksi sydän- ja verisuonitaudeilla on geneettisiä alttiustekijöitä ja että ihmiset, joilla on geenimuoto A eräästä geenistä hyötyvät olemassa olevasta lääkkeestä, kun taas potilaat, joilla on geenimuoto B, eivät hyödy samasta kalliista hoidosta mitenkään, koska heidän solunsa eivät kykene hyödyntämään sitä. 2.2 DNA-mikrosiruteknologia DNA-mikrosiruteknologia on yksinkertaisuudessaan sitä, että mitataan kuinka paljon mikrosirulle laitettua DNA-koetinta vastaavaa geeniä on tutkittavassa näytteessä. Fyysisesti mikrosiru on noin neliösenttimetrin kokoinen lasilevy, jolle sijoitetaan eri geeniä vastaavia koettimia. Esimerkiksi ihmisen geenejä mittaavissa siruissa on noin 22 000 erilaista mittauspistettä, koetinsekvenssityyppiä, yhden neliösenttimetrin alueella. Lisäksi jokaisesta koetinsekvenssistä on miljoonia replikaatteja yhdessä mittauspisteessä. Käytännössä tutkittava DNA-näyte uutetaan perinteisillä molekyylibiologian tekniikoilla solusta. Koska yhdestä solusta ei voida saada tarpeeksi suurta määrää DNA:ta, otetaan näyte kudoksesta, joka on samankaltaisten solujen muodostama funktionaalinen kokonaisuus. Näyte leimataan fluoresoivalla aineella ja pipetoidaan mikrosirulle sekä annetaan näytteen DNA:n hybridisoitua eli liittyä koettimiin (Kuva 1). Tämän jälkeen siru skannataan laser-skannerilla. Laser saa näytteen fluoresenssileiman emittoimaan valoa ja skanneri vastaanottaa tuon valon intensiteetin. Tämän vaiheen jälkeen mikrosirudata on sähköisessä muodossa ja datan prosessointi alkaa. Kuva 1DNA-näyte otetaan soluryhmistä. Näytteen annetaan tarttua mikrosirun koettimiin. Näytteen emittoima fluoresenssivalo havaitaan skannerilla. Tuloksena on kuva geeniekspressioiden intensiteeteistä.[1]
11/24/2003 3 3 Signaalinkäsittelyn menetelmät mikrosirudatan prosessoinnissa 3.1 Kuvasta dataksi Skannauksen tuloksena on harmaaväripikselikuva, jossa kutakin mittauspistettä vastaa 16 pikseliä. Yleensä näiden 16 pikselin intensiteeteissä on hajontaa. Ensimmäinen tehtävä on siis määrittää, mikä on oikeasta geenin ekspressiosta tulevaa signaalia ja mikä taustakohinaa. Tämä on vaativa hahmontunnistustehtävä. Tarkoitus kun on erottaa viereiset mittauspisteet toisistaan ja tämän jälkeen vielä päättää mittauspisteiden sisäisen hajonnan tarkastelun jälkeen kompromissiarvo mittauspisteen geeniekspressiolle. Mittana voidaan käyttää mittauspisteen pikseleiden keskiarvoa, mediaania tai jotain muuta sopivaa arvoa. Mikrosiruja käytettäessä taustakohinan erottaminenkin on toisinaan ongelma. Käytännön teknisten ongelmien vuoksi taustakohina on erilaista sirun eri kohdissa. Esimerkiksi sirun reunoilla kohinaongelma on yleensä suurempi. Siksi taustakohinan poistamiseksi ei ole yhtä ja ainoata oikeaa ratkaisua. Tavoitteena olisi kuitenkin, että taustakohina, jos sitä ei voida poistaa kokonaan, ei olisi paikkariippuva. Skannatusta kuvasta lasketaan kohinanpoiston jälkeen geeniekspressiointensiteetit eli kuinka paljon kutakin geeniä ilmentyy tutkittavassa kudoksessa sillä ajan hetkellä ( lukumäärä ). Näitä intensiteettiarvoja käytetään, kun dataa aletaan tutkia tiedon löytämiseksi. Kuva 2 esittää kohinapoistettua ja false colour -värjättyä ekspressiodataa, josta ei vielä sinällään saada kunnollista tietoa, mutta voidaan osoittaa silmämääräiset ekspressiotasot. Vihreät ja punaiset pisteet osoittavat, että näytteistä joko vihreällä tai punaisella leimatut molekyylit dominoivat mittauspisteen geenin ilmentymistä. Keltainen väri indikoi, että molempien näytteiden geenien ekspressiot ovat kutakuinkin samat. Mustilta alueilta ei olla saatu mittausdataa. Joko siinä ei edes ole ollut koetinta mittaamaan geenin ekspressiota tai sitten ekspressiotaso ei ole yltänyt skannerin resoluutiotasolle. Kuva 2Geeniekspressiodata kuvana: hiivan geeniekspressio. [1], modifioitu
3.2 Tilastollinen analyysi kunniaan 11/24/2003 On muistettava, että mikrosirulla mitattu DNA on peräisin useista tuhansista soluista. Koska solut ovat itsenäisiä ympäristöönsä reagoivia yksiköitä, niiden geeniekspressiot eivät ole identtisiä. Voidaan kuitenkin olettaa, että kukin näytteen solu on osallisena yhtä suurella painolla ja siksi tulkita datapiste näytteen geeniekspressioiden keskiarvoksi. Tämä koskee siis vain yhtä datakuvan pikseliä. 3.3 Aikasarjadata Lienee helpointa tarkastella mikrosirudatan tulkintaa ja analyysiä signaalinkäsittelyn kannalta aikasarjojen avulla. DNA-mikrosiruista saadaan aikasarjadataa vain silloin, kun näytteitä otetaan tietyin aikavälein ja kustakin näytteestä tehdään oma sirunsa. Biologiset aikasarjat eroavat kuitenkin monista muista aikasarjoista. Ensinnäkin näytteitä on vaikea saada juuri tietyllä ajanhetkellä, koska näytteiden kanssa on oltava hyvin varovainen. Toisekseen DNA-analytiikka on hyvin kallista. Yksi sirukoe maksaa noin 1000 euroa. Toisin sanoen dataa ja taustatietoa on vähän ja aikasarjan näytteenottoajankohdat saattavat olla hieman epämääräiset. Useat biologiset prosessit ovat luonteeltaan syklisiä. Myös solun elämä on jatkuvaa kiertoa: solu jakaantuu, ylläpitää toimintojaan, valmistautuu jakaantumaan ja jakaantuu uudelleen. On hyvin tyypillistä, että tietoa etsiessä halutaan löytää geenit, joiden ekspressiot muuttuvat solusyklin mukana. Olettaen, että datassa on jotain jaksollisia komponentteja, ne pitäisi pystyä löytämään Fourier-muunnoksen avulla. Samalla nähdään minkä pituisia jaksoja ja kuinka voimakkaasti näitä jaksoja on olemassa. Joskus voidaan haluta selvittää jonkin geeniperheen reagointia tiettyyn ärsykkeeseen, esimerkiksi sitä miten koivuallergisen ihmisen silmäluomen epiteelisolut reagoivat koivun siitepölyyn. Tämän jälkeen voidaan seurata näiden geenien ekspressiotasojen muutoksia. Hyvänä apuna on risti- ja autokorrelaatiofunktiot, koska ihmissilmä näkee mieluusti korrelaatioita ja riippuvuuksia myös siellä, missä niitä ei oikeasti ole. 4 Yhteenveto Tässä tutkielmassa tarkasteltiin lyhyesti tavallisimpia signaalinkäsittelyn työkaluja mikrosiruanalytiikassa. Huomattiin, että ongelma on vaikea ja että vastauksia on vähemmän kuin kysymyksiä. Ymmärrettävien lähteiden vähyys on yksi ongelmista, joten asian käsittämisksi tarvitsee yhdistellä omia kokemuksia koulussa opittuihin asioihin. Kirjallisuudesta saa hyviä ideoita, ongelmaksi muodostuu kuitenkin se, että julkaisuissa mennään hyvin nopeasti niin syvälle, että ymmärryksen taso laskee eksponentiaalisesti luettujen sanojen määrän kasvaessa. Tässä tutkielmassa on lisäksi jätetty tilastolliset analyysimenetelmät kokonaan käsittelemättä, koska niiden käytössä on kyse jo muustakin kuin signaalinkäsittelystä. Lienee kuitenkin aiheellista muistaa ja korostaa vielä sitä, että signaalinkäsittely on kaiken DNA-mikrosiruanalyysin perusta, jota ilman ei koko dataa edes olisi olemassa. 4 5 Lähteitä ja lisätietoa Tässä tutkielmassa on käytetty lähteinä lähinnä tekijän omaa käytännön työkokemusta ja koulusivistystä aihealueen piiristä. Aihealueen kirjallisuus biologian osalta on laajaa. Datan
11/24/2003 5 analyysistä on olemassa lukuisia tieteellisiä artikkeleita, mutta sirun skannauksen ja mittauspisteiden erottelemisen osalta kirjallisuudessa on aukko ja tietoa on erittäin vaikea löytää. Ohessa kuitenkin viitteitä taustojen hahmottamisen helpottamiseksi. Googlen avulla voi kiinnostunut etsiä lisätietoa esimerkiksi hakusanoilla DNA microarray, systems biology ja gene expression. 1. European Bioinformatics Institute: A quick introduction to elements of biology - cells, molecules, genes, functional genomics, microarrays. Sivusto tarjoaa erinomaisen tiivistelmän siitä, mistä molekyylibiologiassa on kyse ja mitä mikrosiruilla voidaan tehdä. http://www.ebi.ac.uk/microarray/biology_intro.html 2. Lähdesmäki H. et al.: Using signal processing tools to improve the quality of microarray time-series measurements. Technical report, Tampere University of Technology, 2002. Tamperelaiset ovat edelläkäviöitä systeemibiologisessa tutkimuksessa ja mikrosirudatan signaalinkäsittelyssä. 3. Flash-animaatio siitä, miten mikrosirukoe suoritetaan. Suosittelen katsomaan. Tällä pätkällä on viihdearvoa ja ääniefektit mukana. http://www.bio.davidson.edu/courses/genomics/chip/chip.html