Omiikka Geenisirutekniikka ja siihen liittyvä bioinformatiikka Outi Monni, Sampsa Hautaniemi ja Olli Kallioniemi Geenisirujen avulla voidaan tutkia samanaikaisesti kymmenien tuhansien geenien ilmentymistasot solu- tai kudosnäytteissä. Tekniikka poikkeaa periaatteeltaan merkittävästi perinteisestä tutkimuksesta, jossa on tutkittu kerrallaan yhden geenin toimintaa ja merkitystä. Geenisirutekniikan suosio on kasvanut valtavasti biolääketieteellisen tutkimuksen eri alueilla solu- ja molekyylibiologiasta kliiniseen patologiaan ja immunologiaan. Lisäksi biotekninen ja lääketeollisuus hyödyntävät geenisiruja uusien lääkkeiden kehitystyössä ja testaamisessa. Saadut tutkimustulokset enteilevät geenisirujen hyödyntämistä myös kliinisessä käytössä, esimerkiksi pahanlaatuisten kasvainten diagnostiikassa, luokittelussa ja hoidon suunnittelussa. Geenisiruanalyysissä käsitellään miljoonia havaintopisteitä, joiden käsittelyssä tarvitaan bioinformatiikkaa. Lähes kaikki ihmisen geenien DNA-jaksot on tunnistettu, ja ne ovat saatavilla tietokannoista. Useimpien geenien merkitys ja toiminta soluissa tunnetaan kuitenkin hyvin huonosti. Lähitulevaisuuden haasteena on selvittää geenien biologinen merkitys ja toisaalta käyttää geenitietoa hyväksi lääketieteellisten ongelmien ratkaisuissa. Näihin haasteisiin vastaamisen keskeinen menetelmä on geenisirutekniikka (Schena ym. 1995, DeRisi ym. 1996). Geenisiruille voidaan asettaa kymmeniätuhansia geeniklooneja, joiden avulla pystytään määrittämään samanaikaisesti tutkittavasta näytteestä vastaavien geenien ilmentymistasot. Tekniikasta julkaistujen artikkelien määrä on kasvanut viime vuosina lähes eksponentiaalisesti, ja tänä vuonna aiheesta julkaistaneen jo lähes 3 000 artikkelia. Koska kunkin näytteen geenisirututkimus tuottaa kymmeniätuhansia havaintopisteitä, kertyy julkaistuista tutkimuksista useita satoja miljoonia tutkimushavaintoja vuodessa. Geenisirutekniikan suosion syynä ovat laajat sovellusalueet ja se, että tällä menetelmällä kyetään keräämään aivan uudella tavalla tietoa geenien normaalista ja patologisesta toiminnasta koko genomin mittakaavassa. Geenisirutekniikan sovellusmahdollisuudet koskettavat lähes kaikkea biologista ja lääketieteellistä tutkimusta, lääkekehitystyötä ja tulevaisuudessa myös diagnostiikkaa. Geenisirujen käyttö vaatii investointeja ja kalliita reagensseja. Kustannukset vähenevät kuitenkin kaiken aikaa ja ovat jo nyt kohtuullisia suhteessa sirutekniikalla saatavaan hyötyyn. Geenisirutekniikasta puhuttaessa käytetään vaihtelevasti termejä DNA-mikrosirutekniikka (microarray), DNA-siru tai DNA-lastu. Tässä artikkelissa emme puutu DNA:n emäsjärjestyksen määrittämiseen DNA-siruilla (single nucleotide polymorphisms, SNP) vaan keskitymme geenien ilmentymistasojen tutkimukseen ja sen sovelluksiin. Duodecim 2002;118:1157 66 1157
Geenisirujen valmistus ja hybridisaatio Geenisirut koostuvat mikroskooppilasille asetetuista tuhansista geenikoettimista, joihin hybridisoidaan tutkimusnäytteen RNA:sta valmistettua komplementaarista DNA:ta (cdna). Geenisiruja valmistetaan monin eri tavoin käyttämällä lähtömateriaalina erilaisia DNAjaksoja tai -klooneja. Tutkimuslaboratorio voi valmistaa DNA-sirut itse tai ostaa ne hybridisaatiovalmiina. Geenisiruja, niihin liittyviä reagensseja ja laitteita myyvät jo kymmenet yritykset. Kaupallisten lasien etuina ovat niiden tasainen laatu ja vertailukelpoisuus laboratoriosta toiseen. Niiden yleistymistä on toistaiseksi rajoittanut kallis hinta, noin 500 /kpl, joka on ainakin viisi kertaa enemmän kuin itse valmistettujen sirujen hinta. Alan teollisuus kuitenkin kehittää koko ajan uusia ratkaisuja, joten mikrosirujen laatu ja kattavuus paranevat nopeasti hinnan laskiessa. Lukuisten vaihtoehtojen varjopuoli on se, että varsinkaan kaupallisten geenisirujen lukulaitteet ja analyysiohjelmat eivät ole keskenään yhteensopivia. Eri sirumuodoilla saatavia tuloksia ei ole systemaattisesti verrattu keskenään, ja erot saattavat olla yllättävän suuria. Valtaosa akateemisista laboratorioista on toistaiseksi valmistanut sirut itse cdna-klooneista. cdna-kirjastoista poimitaan haluttujen geenien kloonit ja ne asetetaan pipetointirobotilla (»mikrosirukirjoitin») mikroskooppilasille sirumuotoon. Yhdelle mikroskooppilasille kirjoitetaan tavallisesti 10 000 20 000 cdnakloonia. Tulevaisuudessa siirryttäneen koko genomin kattaviin noin 50 000 kloonin laseihin. Yksittäisten cdna-kloonien sekaantumisen ja kontaminoitumisen vuoksi cdna-mikrosiruanalyysin tulokset eivät saavuta 100-prosenttista luotettavuutta. Itse valmistettujen mikrosirulasien laatu saattaa myös vaihdella päivittäin. cdna-klooneista valmistettuja siruja on saatavissa myös kaupallisesti lukuisilta tuottajilta, jotka ovat pyrkineet minimoimaan cdna-kloonien ongelmat ja tuottamaan tasalaatuisia geenisiruja teollisten valmistusprosessien avulla. Biotekniikan teollisuus ja myös akateemiset tutkijat käyttävät yhä enemmän oligonukleotideista (pituus 25 70 emästä) valmistettuja geenisiruja. Oligonukleotidisiruja valmistetaan tavallisesti käyttäen fotolitografista in situ -synteesiä, jonka kehitti Affymetrix-yritys Palo Altossa. Suomessakin laajassa käytössä olevat Affymetrixin uusimmat geenisirut kattavat 33 000 geeniä, jotka on syntetisoitu kahdelle eri sirulle. Jokaista geeniä edustaa noin 11 20 erillistä oligonukleotidiparia. Liuosmuodossa syntetisoidut oligonukleotidit voidaan myös»kirjoittaa» sirumuotoon mikroskooppilasille. Lukuisat valmistajat ovat tuoneet markkinoille kymmenientuhansien oligonukleotidien kirjastoja ja näistä valmistettuja hybridisaatiovalmiita geenisirulaseja. Oligonukleotidien etu cdna-klooneihin verrattuna on se, että niillä on mahdollista tunnistaa yksittäinen geeni tai geenivariantti, jolloin pystytään tutkimaan esimerkiksi vaihtoehtoisen silmukoinnin ja polyadenylaation merkitystä (Modrek ja Lee 2002). Oligonukleotidisiruille voidaan asettaa lukuisia emäsjärjestykseltään poikkeavia (mismatch) oligonukleotideja, joiden avulla saadaan myös varmistettua analyysin tarkkuus. Oligonukleotidisirut ovat toistaiseksi kalliita, mutta lähitulevaisuudessa niiden suosion ennustetaan kasvavan nopeasti. Yleinen ja melko halpa mikrosiruvaihtoehto ovat nailonkalvolle asetetetut cdna-kloonit tai oligonukleotidit, joiden hybridisaatio todetaan usein radioaktiivisuuden avulla. Menetelmä sopii hyvin yksittäisten geenien ilmentymismuutosten etsimiseen, mutta tulosten laatu ja toistettavuus rajoittavat laajempien tutkimusten tai koko genomin kattavien analyysien tekoa. Geenisiruanalyysin toteutus riippuu käytettävistä DNA-siruista, näytteen leimauksesta ja lukijalaitteista. Keskitymme seuraavassa kuvaamaan mikroskooppilaseille painettujen, cdnaklooneista tai oligonukleotideista koostuvien geenisirujen analyysiä kahden merkkiaineen fluoresenssin avulla (kuva 1). Periaatteessa kaikki geenisirut analysoidaan samalla tavalla, joskin Affymetrix-sirujen analyysissä käytetään vain yhtä väriainetta. Geenisiruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. syöpäkudosta ja tervettä kudosta). Testi- ja vertailunäytteestä eristetään kokonais- tai lähetti-rna:t, minkä jäl- 1158 O. Monni ym.
keen RNA käännetään cdna:ksi. cdna leimataan kahdella fluoresoivalla väriaineella (esim. Cy3 ja Cy5) ja hybridisoidaan samanaikaisesti geenisiruun (kuva 1). Analyyseissä käytettävän RNA:n laatu on ratkaisevan tärkeä. Siten esimerkiksi analyysiä varten otettavat kudosnäytteet tulee pakastaa mahdollisimman nopeasti. RNA:ta tarvitaan menetelmän mukaan 5 50 µg, mikä saattaa joskus rajoittaa kliinisten kudosnäytteiden käyttöä. On luonnollisesti tärkeää varmistaa, että näyte on otettu kudoksesta, jonka edustavuus ja homogeenisuus on varmistettu histologisessa tutkimuksessa. Jos tähän on mahdotonta päästä, vaihtoehdoksi jää kudosten mikrodissektio ja RNA:n esimonistus. Geenisirujen kuva-analyysi Onnistuneen hybridisaation jälkeen geenisiru luetaan laserpohjaisella mikroskoopilla. Tulokseksi saadaan kuvat sirun fluoresenssista kahdella eri aallonpituudella, jotka kuvaavat testija vertailunäytteiden cdna-jaksojen hybridisoitumista kussakin sirun testipisteessä. Tavallisesti geenisirujen kuvat esitetään värillisinä, jolloin testinäytteen fluoresenssi on kuvattu punaisella Kuva 1. Geenisirutekniikan periaate ja bioinformatiikan käyttö tulosten analysoinnissa (mukailtu Hedenfalkin ym. 2001 julkaisusta). Testi- ja vertailunäytteestä (esim. kasvain- ja normaalikudoksesta) eristetään RNA:t, käännetään RNA:t cdna:ksi, leimataan ne kahdella fluoresoivalla väriaineella (punaisella ja vihreällä) ja hybridisoidaan tuhansia geenejä sisältävään DNA-siruun. Punaisen ja vihreän värin suhde määritetään sirun jokaisessa pisteessä. Saatava suhdeluku kertoo geenien ilmentymistasot testinäytteessä vertailunäytteeseen nähden. Geenisiruilla tutkitaan tavallisesti useita kymmeniä näytteitä. Tulokset analysoidaan tilastollisilla menetelmillä sekä ryhmittely- ja luokittelualgoritmeilla. Kuvassa on esimerkki hierarkkisesta ryhmittelystä (samankaltaisten geenien ja tutkittavien näytteiden ryhmittely lähekkäin), moniulotteisesta skaalauksesta (yksittäisten näytteiden geeniprofiilien kokonaiseroavaisuuksien visualisointi) ja itseorganisoituvasta kartasta (yksittäisten näytteiden geeniprofiilien havainnollistaminen ja vertailu). Vrt. taulukko 1. Geenisirutekniikka ja siihen liittyvä bioinformatiikka 1159
ja vertailunäytteen vihreällä. Geenit, joiden ilmentyminen on lisääntynyt testinäytteessä, tulevat esiin punaisina pisteinä. Vastaavasti geenit, joiden ilmentyminen on testinäytteessä vähäisempää kuin vertailunäytteessä, näkyvät vihreän sävyisinä. Geenit, joiden ilmentyminen on yhtä aktiivista molemmissa näytteissä, näkyvät keltaisina (kuva 1). Kuvankeräysvaiheen jälkeen geenisirujen fluoresenssitasot mitataan kussakin geenisirun testipisteessä, vähennetään taustafluoresenssi ja muutetaan kuvan informaatio lukuarvoiksi. Analyysiohjelmat normalisoivat testi- ja vertailunäytteen väliset intensiteettierot ja muodostavat kullekin geenille punaisen ja vihreän fluoresenssin välisen suhteen. Tämä luku kertoo suoraan geenin ilmentymisen vilkkaudesta testinäytteessä suhteessa vertailunäytteeseen. Yhdessä tutkimuksessa analysoidaan usein kymmeniä näytteitä, joiden tuloksia verrataan yhteen vertailunäytteeseen. Näin ollen tilastollisen ja bioinformatiivisen analyysin lähtökohtana on joukko geenien ilmentymisen vilkkautta kuvaavia suhdelukuja. Usein on tarpeellista normalisoida suhdeluvut esimerkiksi keskiarvon, hajonnan tai molempien suhteen. Mikrosirujen kuvankäsittelyyn, normalisointiin ja tilastolliseen käsittelyyn on kehitetty useita menetelmiä (esim. Chen ym. 1997, Hess ym. 2001, Yang ym. 2002). Geenisiruanalyysiin käytettävä bioinformatiikka Geenisirun suunnittelu. Bioinformatiikkaa tarvitaan geenisirututkimuksen kaikissa vaiheissa. Geenitietokantojen ja bioinformatiikan avulla voidaan valita geenisiruanalyysiin esimerkiksi poikkeavasti ilmentyviä, tietyissä kudoksissa aktiivisia tai tietyn kromosomin osaan paikantuvia geenejä (Ideker ym. 2000, Quackenbush 2001, Thomas ym. 2001a). Lähitulevaisuudessa on oletettavissa, että tutkimustyössä käytettävät geenisiruanalyysit tehdään koko genomin kattavalla geenivalikoimalla, kun taas diagnostiset ja kliiniset tutkimukset tehdään tarkoin valituilla spesifisillä geenisiruilla. Geenisirutulosten käsittelyvaiheessa tutkija on käytännössä täysin riippuvainen bioinformatiikasta. Jos geenisirulla on määritetty 20 000 geenin ilmentymistasot 50 kudosnäytteestä, on tutkija kerännyt miljoona havaintopistettä. Tällaisen tietomäärän käsittelyssä tietokone ei ole ainoastaan tärkeä vaan välttämätön työkalu. Geenisirutulosten tulkintavaiheessa voidaan bioinformatiikan keinoin luokitella sekä geenejä että tutkittavia näytteitä (Eisen ym. 1998, Furey ym. 2000). Geenien ryhmittely. Ryhmittelyalgoritmien avulla geenit jaetaan ryhmiin, joiden jäsenille on ominaista, että niiden ilmentymistasot tutkituissa näytteissä vaihtelevat samalla tavalla (Kerr ja Churchill 2001, Lukashin ja Fuchs 2001, Wall ym. 2001). Yhtäläinen ilmentymisprofiili saattaa johtua siitä, että geenit ovat toiminnaltaan samankaltaisia, sijaitsevat saman signaalinvälitysketjun varrella, toimivat samojen transkriptiotekijöiden alaisina tai edustavat tietyn kudoksen normaalia geenijakaumaa. Kunkin geeniryhmän biologisesta merkityksestä voidaan siten tehdä epäsuoria päätelmiä, jos kyseiseen ryhmään kuuluu myös ennestään tunnettuja, toiminnaltaan hyvin kartoitettuja geenejä. Geenisirutiedon käsittelyssä tyypillisesti käytettyjä algoritmeja ovat mm. hierarkkinen ryhmittely, itseorganisoituva kartta ja moniulotteinen skaalaus, joiden perusperiaatteet on kuvattu taulukossa 1 ja joilla saatuja tulostuksia on havainnollistettu kuvassa 1. Ryhmittelyalgoritmeilla voidaan ryhmitellä myös näytteitä. Tällöin samankaltaisen geenien aktiivisuusprofiilin omaavat näytteet ryhmittyvät automaattisesti yhteen (kuvat 1 ja 2). Näytteiden luokittelu geenisirutiedon perusteella. Luokittelun tarkoituksena on päätellä havaintojen perusteella jonkin tapahtuman todennäköisyys. Luokittelualgoritmeja on lukuisia, ja jokaisella on omat vankkumattomat kannattajansa. Usein käytettyjä luokittelualgoritmeja ovat mm. erilaiset neuroverkot (Brown ym. 2000) ja bayesiläiseen päättelyyn (Thomas ym. 2001b) perustuvat menetelmät. Käytännössä luokittelualgoritmi rakennetaan siten, että geeniprofiili analysoidaan esimerkiksi kahdesta diagnoosiltaan erilaisesta näytesarjasta ja tulok- 1160 O. Monni ym.
sien avulla algoritmi opetetaan tunnistamaan näytteet. Esimerkkinäytteitä tarvitaan paljon, koska puutteellisesti opetettu luokittelualgoritmi toimii epäluotettavasti. Algoritmien toimivuus täytyy aina testata uudella riippumattomalla näytesarjalla, ennen kuin voidaan puhua luokittelun diagnostisesta merkityksestä. On myös syytä huomata, että vaikka luokittelussa ei aina päästä 100 %:n onnistumisosuuteen, eivät myöskään asiantuntijat ole keskenään yhtä mieltä näytteiden kliinisestä luokittelusta esimerkkeinä syövän histopatologinen diagnoosi ja erilaistumisasteen määrittäminen. Kun kliinisesti mielekäs luokittelutarkkuus on saavutettu, on mahdollista valmistaa diagnostiseen toimintaan soveltuva spesifinen testisiru. Siten sirutekniikka on mahdollista tuoda myös kliinisten laboratorioiden käyttöön. Geenisirutiedon tulkinta ja tietopankit. Luettelo kymmenientuhansien geenien ilmentymistasoista on jo sinänsä päätä pyörryttävä määrä tietoa. Asian haastavuutta lisää se, että geenin nimi ja sen biologinen luonne tai kliininen merkitys vastaavat toisiaan yleensä varsin huonosti. Geenit ovat aikanaan nimetty esimerkiksi sen mallisysteemin mukaan, mistä ne ovat löydetty. Tähänkin ongelmaan odotetaan apua bioinformatiikasta. Geeneistä on jo valtavasti tietoa Internetissä olevissa tietokannoissa. Systemaattinen yritys koota tätä tietoa on esimerkiksi geenien ontologialuokittelu (Gene Ontology, www. geneontology.org/), jossa geenit ryhmitellään systemaattisesti mm. toiminnan, biologian ja proteiinituotteen sijainnin perusteella (The Gene Ontology Consortium 2000). Vieläkin monipuolisempaa taustatietoa ja apua geenisirutulosten tulkintaan on saatavissa noin kymmenestä miljoonasta Medline-tietokannassa löytyvästä artikkelista. Näiden tietojen hyödyntäminen vaatii erikoisohjelmistoja, koska julkaisutieto ei ole systemaattisesti koottua. Tulevaisuuden haaste on suhteuttaa geenisirutulokset ontologialuokittelujen ja»bibliomiikan» keinoin muuhun biologiseen ja lääketieteelliseen tutkimustietoon (Jenssen ym. 2001). Geenisirutekniikalla saatujen tulosten raportoinnissa perinteinen julkaisu onkin menettämässä merkitystään. On tärkeää tallettaa tiedot systemaattisessa, standardoidussa muodossa (esim. www.mged.org/workgroups/miame/miame. html) suoraan Internetissä oleviin tietopankkeihin (esim. NCBI:n Gene Expression Omnibus, Taulukko 1. Geenisirutulosten käsittelyyn käytettyjä ryhmittelymenetelmiä. Vrt. kuva 1, jossa on esimerkki kustakin ryhmittelymenetelmästä. Hierarkkista ryhmittelyä on käytetty myös kuvassa 2. Menetelmä Hierarkkinen ryhmittely Itseorganisoituva kartta Moniulotteinen skaalaus Ryhmittelyn pääkohde Geenit ja näytteet Geenit ja näytteet Useimmiten näytteet Toimintaperiaate Aluksi jokainen geeni ja jokainen näyte muodostaa oman ryhmän. Korrelaatioanalyysin myötä muodostetaan suurempia ryhmiä, kunnes kaikki geenit ja näytteet on ryhmitelty. Geenien ilmentymistasot esitetään kaksiulotteisena karttana, joka koostuu»neuroneista» (havaintopiste). Samankaltaisen profiilin omaavat geenit sijoitetaan samoihin tai vierekkäisiin»neuroneihin». Kartta»elää» dataa päivitettäessä ja on lopulta organisoitunut. Joukko monimuuttujamenetelmiä, joilla saadaan määritettyä ja havainnollistettua näytteiden geeniprofiilien erot kolmiulotteisessa avaruudessa. Tulosten esitysmuoto Iso taulukko, jossa rivit edustavat geenejä ja sarakkeet näytteitä. Taulukon solut on värjätty geenien ilmentymistasojen mukaan. Yksi kuva näytettä kohti. Neuronin väri kuvaa sen sisältämien geenien ilmentymistasoa näytteessä. Neuronien sisältämä lista ryhmitellyistä geeneistä on osa tulostusta. Kolmiulotteinen kuva, jossa näytteet on ryhmitelty geeniprofiilierojen perusteella. Pisteiden etäisyys kuvaa näytteiden geeniprofiilien erilaisuutta. Lisätietoa Eisen ym. 1998, Alizadeh ym. 2000 Tamayo ym. 1999, Törönen ym. 1999 Khan ym. 1998, Bittner ym. 2000 Geenisirutekniikka ja siihen liittyvä bioinformatiikka 1161
www.ncbi.nlm.nih.gov/geo/, EBI:n ArrayExpress -tietokanta, www.ebi.ac.uk/microarray/ ArrayExpress/), jotta muut tutkijat voivat löytää niistä apua omiin ongelmiinsa samaan tapaan kuin geenitutkijat ovat tottuneet vertailemaan geenien sekvenssieroja bioinformatiikan keinoin. Ilman uusia systemaattisia informaation jakelu-, yhdistely- ja analyysimahdollisuuksia ei tutkijayhteisö pysty pidemmällä aikavälillä saamaan täyttä hyötyä geenisirutekniikasta. Bioinformatiikan menetelmiä on kehitetty myös geenien säätelyverkkojen mallintamiseen geenien ilmentymistasojen perusteella. Säätelyverkkojen luotettava kehittely on teknisesti vaikeaa ja vaatii mm. tuloksia pitkistä aikasarjoista. Pelkkien ilmentymistasojen perusteella on myös vaikeaa mallintaa solun geenisäätelyä tai signaalinvälitystä. Uusia bioinformatiikan menetelmiä geenitietojen analysoimiseksi julkaistaan koko ajan (Chen ym. 1999, Ideker ym. 2001, Bar-Joseph ym. 2002). Taulukossa 2 on lueteltu Internet-osoitteita, joista löytyy lisätietoa geenisirutiedon analysoimiseen. Geenisirujen käyttö lääketieteellisessä tutkimuksessa Geenisirutekniikkaa käytetään hyväksi monilla perustutkimuksen aloilla, kuten solu- ja molekyylibiologiassa. Lisäksi uusien lääkeaineiden vaikutuskohteiden etsiminen sekä lääkkeiden tehon ja haittavaikutusten tutkimus saa sirutekniikasta uutta puhtia. Tulevaisuudessa geenisiruilla on selkeitä kliinisiä sovelluksia, erityisesti diagnostiikassa ja hoidon ohjauksessa. Yhdistämällä sirutekniikkaa ja erilaisia ryhmittelymenetelmiä on mm. osoitettu, kuinka akuutti myelooinen ja lymfaattinen leukemia voidaan erottaa toisistaan pelkän geeniprofiilin perusteella (Golub ym. 1999). Vastaavasti pediatriset pyörösolukasvaimet, joita on histologisesti vaikea erotella toisistaan, on pystytty jakamaan luotettavasti alaryhmiin (Khan ym. 2001). Geenisirutekniikkaa on myös käytetty yleisten syöpäkasvainten (esim. rintasyöpä, melanooma, lymfoomat) jakamiseen biologisiin alaryhmiin geeniprofiilin perusteella (Perou ym. 1999 ja 2000, Bittner ym. 2000). Jos samasta tautiryhmästä löydetään biologisesti erilaisia alaryhmiä, tämä antaa edellytykset hoitojen kehittämiseen kyseiselle alaryhmälle. Bioinformatiikan avulla löydetyt alaryhmät ovat osoittautuneet kliinisestikin merkittäviksi esimerkiksi taudin ennuste-erojen perusteella (Alizadeh ym. 2000, Sørlie ym. 2001). Geenisirutekniikkaa voidaan lähteä soveltamaan suoraan kliinisestä ongelmanasettelusta. Esimerkiksi Van t Veer ym. (2002) vertailivat hyvä- ja huonoennusteisten rintasyöpien geeniprofiileja ja löysivät 5 000 geeniä, joiden perusteella nämä syöpätyypit voitiin luotettavasti erottaa toisistaan. Taulukossa 3 on mainittu lisää esimerkkejä geenisirutekniikan sovelluksista. Diagnostisen luokittelun lisäksi kliinisten näytteiden analyyseistä saadaan uutta tietoa tautien molekyylitason mekanismeista. Geenisirutekniikasta onkin muodostunut lupaava työkalu täsmälääkkeiden kehittämiseen esimerkiksi tautispesifisten geenien jäljittämisessä (Bärlund Taulukko 2. Geenisirutekniikkaan ja erityisesti sen analyyseihin liittyvien Internet-sivujen osoitteita. Osoite ihome.cuhk.edu.hk/~b400559/arraysoft.html www.mpiz-koeln.mpg.de/~weisshaa/adis/dna-array-links.html www.microarrays.org/software.html www.gene-chips.com/ www-binf.bio.uu.nl/~dutilh/research/gene-networks/references.html cmgm.stanford.edu/pbrown/ www.nhgri.nih.gov/dir/microarray/index.html rana.lbl.gov/ www.stat.berkeley.edu/users/terry/zarray/html/ derisilab.ucsf.edu/ Sisältö ja ylläpitäjä Kaupallisia ja ilmaisohjelmistoja Kaupallisia ja ilmaisohjelmistoja Ohjelmistoja ja laboratorio-ohjeita Julkaisuja ja linkkejä Geenien säätelyverkot Stanfordin yliopisto National Human Genome Research Institute, NIH Michael Eisenin laboratorio Terry Speedin laboratorio Joe DeRisin laboratorio 1162 O. Monni ym.
Kuva 2. Esimerkki 96 pahanlaatuisen ja normaalin lymfaattisen kudoksen hierarkkisesta ryhmittelystä geenien ilmentymisprofiilin perusteella (Alizadeh ym. 2000). Oikeassa yläkulmassa olevaan värikarttaan on merkitty tutkitut näytteet. Värikuvassa jokainen rivi kuvaa yhtä geeniä ja jokainen sarake yhtä näytettä. Punaisella merkittyjen geenien ilmentymistaso on kohonnut vertailunäytteeseen nähden. Vihreällä on merkitty geenit, joiden ilmentyminen on testinäytteessä vähäisempää kuin vertailunäytteessä. Geenien ilmentymistasoja kuvaavat suhdeluvut vaihtelivat 0,25:n ja 4:n välillä ( 2:sta +2:een logaritmisella asteikolla; ks. kuvan alaosa). Ylhäällä oleva dendrogrammi osoittaa, että biologisilta ominaisuuksiltaan samanlaiset näytteet ryhmittyvät yhteen. Lisäksi toiminnaltaan samanlaiset geenit ilmentyvät samalla tavalla eri tautiryhmissä. Geenisirutekniikka ja siihen liittyvä bioinformatiikka 1163
ym. 2000, Khan ym. 1999). Tätä tekniikkaa käytetään laajasti tutkittaessa uusien tai kehitteillä olevien lääkeaineiden vaikutuksia solulinjoissa tai kudoksissa (Scherf ym. 2000, Zembutsu ym. 2002). Tutkimustulokset tuovat uutta tietoa lääkeaineiden sekä toivotuista että eitoivotuista (esim. elinten toksisuustutkimukset) molekyylitason mekanismeista, joiden tuntemus voi nopeuttaa optimaalisten lääkemolekyylien löytymistä. Tulevaisuudessa tarkka tieto lääkkeen geeniprofiilista ja toisaalta tautikudosten geeniprofiileista saattaa auttaa myös valitsemaan parhaan yksilöllisen lääkehoidon kullekin potilaalle. Pohdinta Geenisirututkimukset ja genomin toiminnan kokonaisvaltainen tutkimus (functional genomics) ovat tulleet pysyviksi osiksi biolääketieteellistä tutkimusta. Lienee vain ajan kysymys, milloin ne siirtyvät diagnostisiin laboratorioihin. Geenisirutekniikka on vielä kehitysasteella, joten käytössä on useita kymmeniä menetelmiä ja tulosten analysointiin tarkoitettuja ohjelmistoja (taulukko 2). Geenisirut ovat parhaimmillaan seulontatutkimuksissa, esimerkiksi tuottaessaan runsaasti uusia hypoteeseja jatkotutkimuksille (ks. Kallioniemi, tässä numerossa). Geenisiruanalyyseja ei ole vielä syytä pitää lopullisena»totuutena» tutkittavasta aiheesta vaan pyrkimyksenä biologisten ja lääketieteellisten ongelmien ymmärtämiseen uudella, kokonaisvaltaisella tavalla. Ennen päätelmien tekoa ja tulosten julkaisemista tulisi keskeiset tulokset varmistaa toisilla menetelmillä tai testata esitettyjä uusia hypoteeseja biologisessa kokeessa. On myös syytä pitää mielessä tekniikan ja biologian asettamat rajoitukset. Geenien biologisen merkityksen ymmärtämiseen tullaan tarvitsemaan esimerkiksi oligonukleotidisiruihin pohjautuvia menetelmiä, joilla tunnistetaan erikseen geenien eri varianttimuotojen ilmentymistasot. Vaihtoehtoista silmukointia esiintyy jopa 40 60 %:ssa geeneistä ja vaihtoehtoista polyadenylaatiota 25 %:ssa (Modrek ja Lee 2002). Geenien ilmentymistasot eivät muutenkaan aina kerro lopullista totuutta solun toiminnasta. Esimerkiksi apoptoosi on alkuvaiheessa paljolti proteiinitason tapahtuma, joten sen tutkimus geenisiruilla antaa vain rajallisesti tietoa. Geenien ilmentymisprofiilit ovat monimutkaisia tulkittavia, sillä primaarisia vaikutuksia on usein mahdotonta erottaa sekundaarisista muutoksista. Esimerkiksi lääkeaineen suoria geenitason Taulukko 3. Esimerkkejä geenisirututkimuksen sovelluksista lääketieteellisessä tutkimuksessa (erityisesti syövän). Sovellus Esimerkkejä Kirjallisuusviite Diagnostinen luokittelu Taudin alaryhmien tunnistus Kliinisten yhteyksien etsintä Taudin molekyylitason mekanismit ja tautigeenin etsintä Taudin seuranta Farmakogenomiikka Akuutti myelooinen ja akuutti lymfaattinen leukemia, lymfoomat, pediatriset pyörösolukasvaimet Rintasyöpä, lymfoomat, melanooma Ennustetekijät, metastasoinnin ennakointi, hoitovasteet Rintasyöpä, melanooma, eturauhassyöpä, alveolaarinen rabdomyosarkooma Lääkehoidon aikaansaamat muutokset, syövän eteneminen Lääkehoidon kohdemolekyylit, lääkkeiden teho ja toksisuus Golub ym. 1999, Alizadeh ym. 2000, Khan ym. 2001, Shipp ym. 2002 Perou ym. 1999, Alizadeh ym. 2000, Bittner ym. 2000, Perou ym. 2000, Gruvberger ym. 2001, Hedenfalk ym. 2001 Sørlie ym. 2001, Shipp ym. 2002, Van t Veer ym. 2002 Khan ym. 1999, Bittner ym. 2000, Bärlund ym. 2000, Schwarze ym. 2002 Perou ym. 2000, Scherf ym. 2000, Mousses ym. 2001, Zembutsu ym. 2002 Galon ym. 2002, Shipp ym. 2002, Zembutsu ym. 2002 1164 O. Monni ym.
vaikutuskohteita on usein vaikeaa erottaa sekundaarisista vaikutuksista (esim. solujen kasvun pysähtyminen), joihin liittyy usein jopa tuhansien geenien ilmentymistasojen muutokset. Geenisirututkimus on sitä arvokkaampi työväline, mitä spesifisemmäksi tutkimusasetelma voidaan luoda. Parhaimmillaan geenisirututkimus on selvitettäessä sellaisia toimintoja, joiden säätely tapahtuu geenien luennan tasolla, esimerkiksi tutkittaessa transkriptiotekijöiden ja niiden kohdegeenien vaikutuksia. Ennen kliinisten sirudiagnostisten testien kehittelyä tarvitaan vielä runsaasti lisätutkimuksia ja lisää kokemusta geenisiruista kliinisten tutkijoiden käsissä. Geenisirutekniikka soveltuu parhaiten sellaisten tautien tutkimukseen ja tulevaisuuden diagnostiikkaan, joista saadaan suoraan solu- tai kudosnäyte taudin kohdekudoksesta. Syövän diagnostiikka ja hoidon valinta ovat epäilemättä ensimmäisiä sovellusalueita. Kliinisissä syöpäkudosnäytteissä esiintyy yleensä useita solutyyppejä, joiden yhteisvaikutuksesta syntyy kudoksen geenisiruprofiili. Näytteen valintaan ja käsittelyyn tulee siten kiinnittää huomiota. Myös analyysien laaduntarkkailua ja tulosten tulkintaa tulee kehittää. Miten tuhansista havaintopisteistä koostuva geenisirutulos muutetaan kliinistä diagnostiikkaa tai hoidon valintaa suuntaavaksi toimintaohjeeksi? Eräs mahdollisuus on yksinkertaistaa testi paremmin kliiniseen käyttöön sopivaksi. Tarvitaanko esimerkiksi tautien luotettavaan luokitteluun välttämättä 50 000 geenin luentaa? Vastaus lienee useimmissa tapauksissa ei, sillä monilla geeneillä on usein täsmälleen samanlainen ilmentymisprofiili. Esimerkiksi rintasyövän luokittelussa geeniprofiilien erot voitiin pitkälti selittää syöpien kantasolujen eroilla, jotka olivat myös todettavissa yksinkertaisella sytokeratiinivärjäyksellä (Perou ym. 2000). Jos taudit ovat biologisesti selkeästi erilaisia, muutama kymmenen geeniä saattaa riittää näytteiden diagnostisessa luokittelussa (Khan ym. 2001). Huonosti erilaistuneiden syöpien on havaittu olevan vaikeammin eroteltavissa toisistaan, ja analyyseihin saatetaan tarvita useita satoja tai tuhansia geenejä (Ramaswamy ym. 2001). Tulevaisuudessa geenisirudiagnostiikan keskeinen tavoite ei ole pelkästään diagnostinen luokittelu vaan ehdotus hoidon ohjaukseen. Sirudiagnostiikalla tuleekin epäilemättä olemaan tärkeä asema yksilöllisen täsmälääkehoidon annostelun määrittämisessä. Riippumatta siitä, mitä geenejä tulevaisuuden diagnostisille sirulaseille asetetaan, geenisirudiagnoosit tehtäneen tulevaisuudessa yksinkertaisilla lukulaitteilla, joissa lähes kaikki analyysivaiheet on automatisoitu ja standardoitu. Geenisirututkimus Suomessa Suomessa geenisirututkimukseen herättiin hiukan myöhässä. Suomalaistutkijoiden panos tällä äärimmäisen nopeasti kehittyneellä ja edelleen kehittyvällä alalla lienee parasta kohdistaa geenisiruanalyyseistä saatavan tiedon kliiniseen hyväksikäyttöön. Esimerkiksi korkeatasoisten kliinisten materiaalien, rekisteritietojen ja suomalaisen informaatiotekniikan (esim. Törönen ym. 1999) yhdistäminen geeniprofilointiin luo erinomaisia mahdollisuuksia. Geenisiruanalyysin leviämistä Suomessa on toistaiseksi rajoittanut kattavien ja kohtuuhintaisten sirulasien saatavuus. Sirutekniikan kehitys ja sirujen halpeneminen kilpailun myötä tulevat kuitenkin helpottamaan tilannetta. Sirujen valmistukseen on tätä nykyä valmiudet ainakin Turun kansallisessa mikrosirukeskuksessa (www3.btk.utu.fi:8080/genomics/microarray) ja Helsingin yliopiston Biomedicumin biosiruyksikössä (www.helsinki.fi/biochipcenter). Geenisirujen lukulaitteita on hankittu valtaosaan Suomen yliopistoista, joten valmiudet tekniikan soveltamiseen ovat hyvät. Kun tutkimusten hinnat halpenevat kaiken aikaa, on odotettavissa, että geenisirututkimuksesta tulee jo lähivuosina Suomessakin polymeraasiketjureaktioon verrattava perustyökalu tutkijalääkäreille. Perustutkimuksen tuottamien tulosten määrä on viimeisten viiden vuoden aikana kasvanut vähintään tuhatkertaisesti. Jotta kliiniset sovellukset kehittyisivät samaa vauhtia, on lääkärien panos tärkeää mm. tutkimusten suuntaamisessa keskeisiin kliinisiin ongelmiin ja tulosten lääketieteellisen merkityksen selvittämisessä. Geenisirutekniikka ja siihen liittyvä bioinformatiikka 1165
Kirjallisuutta Alizadeh A, Eisen MB, Davis RE, ym. Identification of clinically distinct types of diffuse large B-cell lymphoma based on gene expression patterns. Nature 2000;403:503 11. Bar-Joseph Z, Gerber G, Gifford D, Jaakkola T. A new approach to analyzing gene expression time series data. International conference on research in computational molecular biology (RE- COMB 02), 2002. Bittner M, Meltzer P, Chen Y, ym. Molecular classification of cutaneous malignant melanoma by gene expression profiling. Nature 2000;406:536 40. Brown M, Grundy W, Lin D, ym. Knowledge-based analysis of microarray gene expression data by using support vector machines. Proc Natl Acad Sci 2000;97:262 7. Bärlund M, Forozan F, Kononen J, ym. Detecting activation of ribosomal protein S6 kinase by complementary DNA and tissue microarray analysis. J Natl Cancer Inst 2000;92:1252 9. Chen T, Filkov V, Skiena S. Identifying gene regulatory networks from experimental data. International conference on research in computational molecular biology (RECOMB 99), 1999. Chen Y, Dougherty E, Bittner M. Ratio-based decisions and the quantitative analysis of cdna microarray images. J Biomed Optics 1997;2:364:364 74. DeRisi J, Penland L, Brown PO, ym. Use of a cdna microarray to analyse gene expression patterns in human cancer. Nat Genet 1996;14: 457 60. Eisen MB, Spellman PT, Brown PO, Botstein D. Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci USA 1998;95:14863 8. Furey TS, Cristianini N, Duffy N, Bednarski DW, Schummer M, Haussler D. Support vector machine classification and validation of cancer tissue samples using microarray expression data. Bioinformatics 2000;16:906 14. Galon J, Franchimont D, Hiroi N, ym. Gene profiling reveals unknown enhancing and suppressive actions of glucocorticoids on immune cells. FASEB J 2002;16:61 71. Golub TR, Slonim DK, Tamayo P, ym. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 1999;286:531 7. Gruvberger S, Ringnér M, Chen Y, ym. Estrogen receptor status in breast cancer is associated with remarkably distinct gene expression patterns. Cancer Res 2001;61:5979 84. Hedenfalk I, Duggan D, Chen Y, ym. Gene-expression profiles in hereditary breast cancer. N Engl J Med 2001;244:539 48. Hess KR, Zhang W, Baggerly KA, Stivers DN, Coombes KR. Microarrays: handling the deluge of data and extracting reliable information. Trends Biotechnol 2001;19:463 8. Ideker T, Thorsson V, Siegel AF, Hood LE. Testing for differentiallyexpressed genes by maximum-likelihood analysis of microarray data. J Comput Biol 2000;7:805 17. Ideker T, Thorsson V, Ranish J, ym. Integrated genomic and proteomic analyses of a systematically perturbed metabolic network. Science 2001;292:929 33. Jenssen TK, Lægrid A, Komorowski J, Hovig E. A literature network of human genes for high-throughput analysis of gene expression. Nat Genet 2001;28:21 8. Kerr MK, Churchill GA. Bootstrapping cluster analysis: assessing the reliability of conclusions from microarray experiments. Proc Natl Acad Sci USA 2001;98:8961 5. Khan J, Simon R, Bittner M, ym. Gene expression profiling of alveolar rhabdomyosarcoma with cdna microarrays. Cancer Res 1998;58: 5009 13. Khan J, Bittner ML, Saal LH, ym. cdna microarrays detect activation of a myogenic transcription program by the PAX3-FKHR fusion oncogene. Proc Natl Acad Sci USA 1999;96:13264 9. Khan J, Wei JS, Ringnér M, ym. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Med 2001;7:539 48. Lukashin A V, Fuchs R. Analysis of temporal gene expression profiles: clustering by simulated annealing and determining the optimal number of clusters. Bioinformatics 2001;17:405 14. Modrek B, Lee C. A genomic view of alternative splicing. Nat Genet 2002;30:13 9. Mousses S, Wagner U, Chen Y, ym. Failure of hormone therapy in prostate cancer involves systematic restoration of androgen responsive genes and activation of rapamycin sensitive signaling. Oncogene 2001;20:6718 23. Perou CM, Jeffrey SS, van de Rijn M, ym. Distinctive gene expression patterns in human mammary epithelial cells and breast cancers. Proc Natl Acad Sci USA 1999;96:9212 7. Perou CM, Sorlie T, Eisen MB, ym. Molecular portraits of human breast tumours. Nature 2000;406:747 52. Quackenbush J. Computational analysis of microarray data. Nat Rev Genet 2001;2:418 27. Ramaswamy S, Tamayo P, Rifkin R, ym. Multiclass cancer diagnosis using tumor gene expression signatures. Proc Natl Acad Sci USA 2001;98:15149 54. Schena M, Shalon D, Davis RW, Brown PO. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 1995;270:467 70. Scherf U, Ross DT, Waltham M, ym. A gene expression database for the molecular pharmacology of cancer. Nat Genet 2000;24:236 44. Schwarze SR, DePrimo SE, Grabert LM, Fu VX, Brooks JD, Jarrard DF. Novel pathways associated with bypassing cellular senescence in human prostate epithelial cells. J Biol Chem 2002 (julkaistu verkossa ennen lehden ilmestymistä). Shipp M, Ross K, Tamayo P, ym. Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nat Med 2002;8:68 74. Sørlie T, Perou CM, Tibshirani R, ym. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci USA 2001;98:10869 74. Tamayo P, Slonim D, Mesirov J, ym. Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc Natl Acad Sci USA 1999;96: 2907 12. The Gene Ontology Consortium. Gene ontology tool for the unification of biology. Nat Genet 2000;25:25 9. Thomas JG, Olson JM, Tapscott SJ, Zhao LP. An efficient and robust statistical modeling approach to discover differentially expressed genes using genomic expression profiles. Genome Res 2001(a); 11:1227 36. Thomas RS, Rank DR, Penn SG, ym. Identification of toxicologically predictive gene sets using cdna microarrays. Mol Pharmacol 2001(b); 60:1189 94. Törönen P, Kolehmainen M, Wong G, Castrén E. Analysis of gene expression data using self-organizing maps. FEBS Lett 1999;451:142 6. Van t Veer LJ, Dai H, van de Vijver MJ, ym. Gene expression profiling predicts clinical outcome of breast cancer. Nature 2002;415:530 6. Zembutsu H, Ohnishi Y, Tsunoda T, ym. Genome-wide cdna microarray screening to correlate gene expression profiles with sensitivity of 85 human cancer xenografts to anticancer drugs. Cancer Res 2002;62:518 27. Yang YH, Dudoit S, Luu P, ym. Normalization for cdna microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res 2002;30:e15. Wall ME, Dyck PA, Brettin TS. SVDMAN singular value decomposition analysis of microarray data. Bioinformatics 2001;17:566 8. OUTI MONNI, FT, tutkija outi.monni@helsinki.fi Biomedicum Biochip Center PL 63, 000 14 Helsingin yliopisto ja HUS PL 700, 00029 HUS SAMPSA HAUTANIEMI, DI, tutkija Tampereen teknillinen korkeakoulu, signaalinkäsittelyn laitos PL 553, 33101 Tampere OLLI KALLIONIEMI, LT, tutkimusprofessori VTT-Biotekniikka, lääkekehityksen biotekniikka PharmaCity Itäinen Pitkäkatu 4 20520 Turku ja Cancer Genetics Branch, National Human Genome Research Institute, National Institutes of Health 50 South Drive, Room 5349 Bethesda, MD 20892-8000 USA 1166