VIRPI KIVINEN GEENIEKSPRESSIO- JA KOPIOLUKUMITTAUKSET RUOANSULATUSKANAVAN SYÖVILLÄ Kandidaatintyö Tarkastaja: lehtori Heikki Huttunen Työ jätetty tarkastettavaksi 1.2.2009
II TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Biotekniikan koulutusohjelma KIVINEN, VIRPI: Geeniekspressio- ja kopiolukumittaukset ruoansulatuskanavan syövillä Kandidaatintyö, 20 sivua Helmikuu 2009 Pääaine: Laskennallinen systeemibiologia Tarkastaja: lehtori Heikki Huttunen Avainsanat: DNA-mikrosiru, syöpä, kopioluku, korrelaatio, geeniekspressio Syöpä on geneettinen sairaus, joka on nykyään yksi yleisimmistä kuolinsyistä länsimaissa. Normaalin solun uskotaan kehittyvän syöpäsoluksi, kun sen genomiin kerääntyy haitallisia mutaatioita. Yhden mutaatiolajin muodostavat muutokset geenin kopioluvussa, joka kertoo geenin kappalemäärän genomissa. Kopioluvun muuttumisen on havaittu vaikuttavan mutatoituneen geenin ja myös muiden geenien ekspressiotasoihin eli aktiivisuuteen. Mikrosirutekniikoiden käyttö on yleistynyt viime vuosina niiden tehokkuuden vuoksi. Yhdellä sirulla voidaan mitata kaikkien ihmisten geenien ominaisuuksia yhtä aikaa. Tässä työssä tutkitaan geenien aktiivisuuksia ja kopiolukumuutoksia kahdelta ruoansulatuskanavan syövältä, GIST ja LMS. Käytettävissä on mikrosirudataa 17 GISTja 20 LMS-kasvaimesta. Tavoitteena on tutkia, kuinka yhteneväisiä kunkin syöpätyypin geenien ekspressiotasot ja kopioluvut ovat, sekä verrata myös syöpätyyppien samankaltaisuutta keskenään. Tuloksista havaitaan, että syöpätyypit ovat melko heterogeenisiä geneettisten ominaisuuksiensa perusteella. Kunkin näytteen geeniekspressio- ja kopiolukudatan profiileissa on kuitenkin samankaltaisuutta.
III ALKUSANAT Kiitän kandidaatintyöohjaajaani Matti Nykteriä työn ideoinnista ja asiantuntevasta avusta jokaisessa työn vaiheessa. Kiitän Laskennallisen systeemibiologian ryhmän johtajaa Olli Yli-Harjaa, joka on tukenut ja innostanut minua työssäni. Olen kiitollinen Wei Zhangille mahdollisuudesta käyttää hänen ryhmänsä tuottamaa mikrosirudataa työssäni. Haluan kiittää myös Antti Ylipäätä, joka teki kappaleen 3.2.2. osalta datan esikäsittelyn, segmentoinnin, ja segmenttien kopiolukujen määrittämisen. Kiitän työn rahoittajia, Suomen Akatemiaa ja Tekesiä. Kiitän myös perhettäni ja muita läheisiäni varauksettomasta tuesta ja kannustuksesta. Lopuksi haluan kiittää kandidaatintyöni tarkastajaa Heikki Huttusta ja kandidaatintyöseminaariin osallistuneita opiskelijoita mielenkiintoisista esityksistä ja kommenteista.
IV SISÄLLYS 1. Johdanto...1 2. Teoreettinen tausta...3 2.1. Syövän synty...3 2.2. DNA-mikrosirut...3 2.2.1. Geeniekspressiosirut...5 2.2.2. acgh-sirut...6 2.3. Geeniekspressio- ja kopiolukudatan yhteisanalyysi...6 3. Tutkimusmenetelmät ja aineisto...8 3.1. Tekniset tiedot siruista ja syöpänäytteistä...8 3.2. Yhteisten geneettisten poikkeavuuksien etsiminen...8 3.2.1. Korkeasti ekspressoituneiden geenien etsiminen...8 3.2.2. Kopioluvultaan epänormaalien geenien etsiminen acgh-datasta...9 3.2.3. Yleisten geneettisten poikkeavuuksien etsiminen...9 3.3. Korrelaation tutkiminen...10 4. Tulokset ja niiden tarkastelu...12 4.1. Yhteisten geneettisten poikkeavuuksien etsiminen...12 4.2. Korrelaation tutkiminen...13 5. Johtopäätökset...16 Lähteet...17
V TERMIT JA NIIDEN MÄÄRITELMÄT acgh Array comparative genomic hybridization. Menetelmä, jolla voidaan mitata geenien kopiolukuja. Amplifikaatio Geenin monistuminen. Deleetio Geenin häviäminen. DNA Deoksiribonukleiinihappo. Organismien geenien rakennusaine. DNA-mikrosiru Pienikokoinen siru, jossa on nukleiinihapposekvenssejä, joihin toiset nukleiinihapposekvenssit voivat sitoutua. Käytetään molekyylibiologian tutkimuksessa mittaamaan esimerkiksi geeniaktiivisuuksia tai geenien kopiolukuja. Geeniekspressio Geenin aktiivisuus. Geenistä tuotetaan mrna-molekyylejä joiden pohjalta valmistetaan geenin koodaamaa proteiinia. Genomi Kaikki organismin geenit. GIST Gastrointestinal stromal tumor. Ruoansulatuskanavan sidekudosverkon syöpätyyppi. Hybridisaatio Komplementaaristen DNA-sekvenssien sitoutuminen yhteen. LMS Leiomyosarcoma. Sileälihassarkooma, ruoansulatuskanavan syöpätyyppi. Mesenkymaalinen Rusto-, rasva-, side- tai lihaskudoksesta peräisin oleva. mrna Lähetti-ribonukleiinihappo. Valmistetaan geenin perusteella, toimii tuotettavan proteiinin sekvenssin mallina. Mutaatio Muutos organismin DNA-sekvenssissä. Oligonukleotidi Tyypillisesti alle 20 nukleotidista koostuva lyhyt nukleiinihappomolekyyli. Onkogeeni Geeni, joka on mutaation seurauksena aktivoitunut ja osallistuu solun kehittymiseen syöpäsoluksi. PCR Polymeraasiketjureaktio. Menetelmä, jonka avulla voidaan monistaa DNA-sekvenssejä. Silmukointi Silmukoinnissa geenin mrna-tuotteesta poistetaan sekvenssit, jotka eivät koodaa tuotettavan proteiinin aminohapposekvenssiä. Geenillä on useita erilaisia silmukointivaihtoehtoja. SNP Single nucleotide polymorphism. DNA-sekvenssin muuttuminen yhdellä nukleotidilla.
1 1. JOHDANTO Syövän syntyyn liittyy tyypillisesti mutaatioita geeneissä, jotka säätelevät tärkeitä solun prosesseja. Esimerkiksi onkogeenien aktivoitumisen tai kasvunrajoitegeenien inaktivoitumisen on todettu johtavan kasvaimen kehittymiseen. Yksi mutaatiolajeista on geenien kopiolukujen muutokset. Kopioluku kertoo geenin kappalemäärän genomissa. Normaalisti ihmisellä on kustakin geenistä kaksi kopiota, joista toinen on saatu isältä, toinen äidiltä. Kopiolukumutaatiossa geeni voi monistua, tai yksi tai molemmat sen kopioista voivat hävitä genomista. Geenin kopioluvun muutoksilla on todettu olevan yhteys geenin ekspressiotasoon eli geenin koodaaman proteiinin tuottoaktiivisuuteen. Joidenkin tutkimusten mukaan geenit, joiden kopioluku on kasvanut merkittävästi, ovat usein korkeasti ekspressoituvia. Ei voida kuitenkaan olettaa, että suhde kopiolukujen ja geeniekspression välillä olisi samanlainen eri geenien tai syöpätyyppien välillä. Mikäli mutatoituneet geenit säätelevät reaktioreittejä, jotka vaikuttavat solun kasvuun, ohjelmoituun solukuolemaan tai muihin solun tärkeisiin prosesseihin, saattaa tämä johtaa solun epätasapainoon, jolloin syntyy mahdollisuus syövän kehittymiselle. Monilla tunnetuilla syöpätyypeillä tiedetään tapahtuneen muutoksia genomissa, joten on todennäköistä tunnistaa lisää syöpägeenejä tutkimalla syöpäsolujen geneettisiä poikkeamia ja niiden vaikutuksia geeniaktiivisuuksiin. Mikrosirutekniikoita on viime vuosina käytetty menestyksekkäästi solujen geneettisten ominaisuuksien tutkimiseen. Erilaisten mikrosirutekniikoiden käyttäminen luo mahdollisuuden tutkia geneettisten poikkeamien vaikutusta geenin tai muiden geenien aktiivisuuteen koko genomin laajuudella. Yksi yleisimmistä mikrosirujen käyttötarkoituksista on geeniekspressiotasojen mittaaminen. Array comparative genomic hybridization (acgh) puolestaan on yksi tekniikoista, joilla voi tutkia genomin poikkeamia. Menetelmällä saadaan selville kunkin geenin kopioluku genomissa. Tutkimalla geeniekspressio- ja kopiolukudataa yhdessä, saadaan tietoa genomin poikkeamien vaikutuksesta kyseisten geenien aktiivisuuteen. On mielenkiintoista tutkia, kuinka yhteneviä nämä kaksi datatyyppiä ovat, ja kuinka paljon genomissa on geenejä, joissa ilmenee toistuvasti kopiolukujen muutoksia ja korkeita geeniekspressiotasoja. Tässä työssä tutkitaan kahden ruoansulatuskanavan syövän, ruoansulatuskanavan sidekudosverkon kasvaimen (GIST) ja sileälihassarkooman (LMS), geneettisiä ominaisuuksia. Koska genomin poikkeamat vaihtelevat syöpätyypeittäin, on syytä tutkia syöpätyyppien yksilöllisiä ominaisuuksia. Kun syöpäkasvainten kehittymiseen liittyvät geenit tunnistetaan paremmin, niitä voidaan käyttää geeniterapian kohteena. Käytössä on sekä geeniekspressio- että kopiolukudataa samoista syöpäkasvaimista. Tämä työ
edistää osaltaan GIST- ja LMS-kasvainten geneettisten muutosten ja niiden seurausten tuntemusta, ja antaa siten pohjatietoa syöpien parempien hoitomenetelmien kehittämistä varten. Kappaleessa 2 käsitellään tarkemmin syöpää sekä geeniekspressio- ja acghmikrosiruja ja niiden avulla tehtyä tutkimusta, kappaleessa 3 käydään läpi tässä työssä käytetyt menetelmät, ja kappale 4 esittelee työn tuloksia. Lopuksi kappaleessa 5 vedetään saavutetuista tuloksista työn johtopäätökset. 2
3 2. TEOREETTINEN TAUSTA 2.1. Syövän synty Syövän synty on moniportainen prosessi, jossa genomiin kasautuu geneettisiä muutoksia eli mutaatioita (Albertson et al., 2003; Vogelstein & Kinzler, 2004). Jotta normaali solu kehittyisi syöpäsoluksi, siinä on tapahduttava useimmiten kuusi fysiologista muutosta: solujen vähentynyt riippuvaisuus ulkoisista kasvusignaaleista, epäherkkyys kasvua estäville signaaleille, apoptoosin eli ohjelmoidun solukuoleman estyminen, rajaton solunjakautumispotentiaali, ylläpidetty verisuonittuminen, sekä kudoksen vahingoittuminen ja etäpesäkkeiden syntyminen (Hanahan & Weinberg, 2000). Suurin osa näistä muutoksista johtuu suorasti tai epäsuorasti genomin muutoksista syöpäsoluissa (Hanahan & Weinberg, 2000). Erityisesti mutaatiot, jotka johtavat onkogeenien syntymiseen ja aktiivisuuden kasvuun tai kasvunrajoitegeenien aktiivisuuden laskuun edesauttavat solun muuntumista syöpäsoluksi. Genomin geenien kopiolukujen muutokset ovat yksi mutaatiolaji. Normaalisti ihmisellä on kustakin geenistä kaksi kopiota, joista toinen on saatu isältä, toinen äidiltä. Genomin osia voi amplifikoitua eli monistua tai deletoitua eli hävitä, jolloin geenien kopioluvut voivat kasvaa tai pienentyä. Useilla syöpätyypeillä tiedetään tapahtuneen kopiolukujen muutoksia (Tirkkonen et al., 1997; Seeger et al., 1985). Geenien kopiolukumutaatioiden lisäksi genomin alueita voi kääntyä tai siirtyä, ja genomiin voi myös tulla uusia nukleotideja insertion kautta. GIST (gastrointestinal stromal tumor) eli ruoansulatuskanavan sidekudosverkon kasvain ja LMS (leiomyosarcoma) eli sileälihassarkooma ovat harvinaisia syöpätyyppejä, jotka esiintyvät ruoansulatuskanavassa. Pitkään uskottiin GISTkasvaimien olevan osa LMS-kasvainten ryhmää, kunnes huomattiin että kasvaimilta puuttuu ultrastrukturaalisia ja immunohistokemiallisia sileän lihaksen piirteitä (Mazur & Clark, 2003), ja nyt GIST-syöpätyypin tiedetään olevan erillinen mesenkymaalisten kasvainten ryhmä. Syöpätyypit on pystytty erottamaan myös geeniekspressiodatan perusteella (Nykter et al., 2006). Tyypillinen GIST-syövän ominaisuus on sen mutaatio c-kitissä (Hirota et al., 1998). On tärkeää tunnistaa, kumpi syöpä potilaalla on, jotta voidaan antaa hänelle oikeanlaista hoitoa. 2.2. DNA-mikrosirut DNA-mikrosirut ovat hyvin pieniä levyjä, joiden avulla voidaan tutkia geenien ominaisuuksia. DNA-mikrosiruteknologia on merkittävästi nopeuttanut molekyylibiologista tutkimusta tehokkuutensa vuoksi. Teknologian avulla
4 laboratoriokokeisiin tarvitaan aiempaa vähemmän työvoimaa ja aikaa, jolloin voidaan saavuttaa suuria säästöjä. Tekniikan etu vanhempiin menetelmiin nähden on siinä, että sillä voidaan tarkastella usean geenin käyttäytymistä yhtä aikaa. Alkeellisimmilla DNAmikrosiruilla tutkittiin valikoituja geenijoukkoja, kun taas nykytekniikalla on mahdollista tehdä geenimittauksia jopa kaikille ihmisen geeneille yhdellä sirulla. Näin ollen ennen koetta ei tarvitse välttämättä tietää, mitkä geenit ovat kiinnostavia, vaan voi nähdä suoraan tuloksista, minkä geenien käyttäytyminen on poikkeavaa ja mielenkiintoista. Sirujen perusperiaatteena on sirun pinnalle istutetut DNA-sekvenssit, koettimet, jotka emäspariutumisen johdosta pystyvät tunnistamaan komplementaarisia DNAsekvenssejä. Sirun pinnalle hybridisoidaan pieni määrä näytteestä saatua geneettistä materiaalia, joka sitoutuu koettimiin. Mittaamalla sitoutuneen materiaalin määrä saadaan tietoa tutkittavien sekvenssien pitoisuuksista näytteen soluissa. Kuva 2.1. DNA-mikrosirukokeen työvaiheet. Kuvassa 2.1. on esitetty tyypillisen DNA-mikrosirukokeen työvaiheet. Aluksi pienestä määrästä tutkittavan näytteen soluja eristetään nukleiinihappomolekyylejä, eli DNA:ta tai mrna:ta. Molekyylit tai niiden perusteella valmistettu komplementaarinen DNA hybridisoidaan sirulle, minkä jälkeen sitoutuneen materiaalin määrä mitataan. Yleisimmässä mittausmenetelmässä molekyylit värjätään ennen sirulle hybridisointia jollain fluoresoivalla väriaineella kuten Cy3 tai Cy5. Hybridisaation jälkeen siru skannataan laser-skannerilla, joka mittaa kunkin koettimen kohdalla fluoresoivan valon intensiteetin. Intensiteetin suuruuden katsotaan olevan verrannollinen sitoutuneen geneettisen materiaalin määrään. DNA-mikrosiruja on olemassa kahdentyyppisiä, cdna-mikrosirut ( spotted ) ja oligonukleotidimikrosirut. cdna-siruissa koettimina on yleensä komplementaarista DNA:ta, oligonukleotideja tai PCR-tuotteita, ja kutakin geeniä vastaa yksi koetin. cdna-sirut ovat kaksikanavaisia; niiden avulla voidaan tutkia geneettistä materiaalia kahdesta näytteestä kerrallaan. Usein toinen näytteistä on tutkittava näyte esimerkiksi syöpäkudoksesta, toinen toimii referenssinä terveestä kudoksesta, jolloin näytteen ja referenssin geneettisiä ominaisuuksia voidaan vertailla keskenään. Oligonukleotidisiruilla koettimet ovat lyhyitä oligonukleotidisekvenssejä. Yhtä geeniä edustaa monta lyhyttä sekvenssiä. Oligonukleotidisirut ovat yksikanavaisia, eli niille hybridisoidaan geneettistä materiaalia ainoastaan yhdestä näytteestä. Myös kaksikanavaisia siruja voidaan käyttää yksikanavaisten sirujen tapaan, hybridisoimalla
5 samalle sirulle kaksi näytettä ja tutkimalla niiden geenien intensiteettiarvoja erillisesti, kuten tässä työssä geeniekspressiomittausten kohdalla tehdään. DNA-mikrosirujen avulla pystytään tekemään hyvin monenlaisia mittauksia. Yleisintä on käyttää siruja geeniekspression mittaamiseen. Myös geenien kopiolukumittaukset ovat yleistyneet viime vuosina. Lisäksi sirujen avulla voidaan mitata muun muassa proteiinien sitoutumista genomin DNA:han (ChIP-sirut), yksittäisten nukleotidien muutoksia genomissa (SNP-sirut), sekä geenien erilaisten silmukointivaihtoehtojen yleisyyttä. Tämän työn data on peräisin geeniekspressiosiruilta (kappale 2.2.1.) ja acgh- eli kopiolukusiruilta (kappale 2.2.2.). 2.2.1. Geeniekspressiosirut Geeniekspressiosirujen käyttö on jo vuosia ollut hyvin yleistä. Ensimmäisen geeniekspressiosirututkimuksen julkaisivat Schena et al. vuonna 1995, minkä jälkeen tekniikkaa on käytetty lukuisissa tutkimuksissa esimerkiksi syöpäsolujen geenien tutkimiseen (DeRisi et al., 1996; Alizadeh et al., 2000). Sirujen avulla tutkitaan eri geenien ilmentymistä soluissa eli geenien aktiivisuustasoja eri olosuhteissa. Geenien aktiivisuutta kuvaa se, kuinka paljon geeniä transkriptoidaan mrna:ksi, ja käännetään edelleen proteiiniksi. Proteiinit ovat tärkeässä osassa solussa, sillä ne osallistuvat kaikkiin solun prosesseihin, ja tuotettujen proteiinien pitoisuudet määrittelevät näin ollen solun ilmiasun. Kuva 2.2. Geeniekspressiosirukokeen työvaiheet Kuvassa 2.2. on kuvattu tyypillisen geeniekspressiosirukokeen työvaiheet. Geeniekspressiosirujen koettimet ovat yleensä cdna:ta tai oligonukleotideja. Sirulle hybridisoidaan komplementaarinen DNA, joka on valmistettu käänteistranskriptoimalla solusta eristetty mrna. Jos siru on kaksikanavainen, sille voidaan hybridisoida lisäksi komplementaarinen DNA terveen kudoksen mrna:sta. cdna-näytteet värjätään kumpikin erilaisella fluoresoivalla väriaineella. Kun kiinnittyneen geneettisen materiaalin määrää tutkitaan fluoresoinnin intensiteetin mittaamisen avulla, voidaan laskea näytteestä saadun cdna:n ja referenssistä saadun cdna:n määrien suhde kunkin koettimen kohdalla. Suhteesta nähdään, onko kyseiseen koettimeen hybridisoitunut enemmän näytteen cdna:ta vai referenssin cdna:ta. Jos näytteen cdna:ta on hybridisoitunut enemmän, katsotaan geenin olevan tavallista korkeammin ekspressoitunut.
6 2.2.2. acgh-sirut CGH (comparative genomic hybridization) on tekniikka, jonka avulla voidaan mitata geenien kopiolukuja näytteessä (Kallioniemi et al., 1992). Geenin kopioluku kertoo, onko geeni amplifikoitunut tai deletoitunut. Viime vuosina enemmän käytetty arraycgh eli acgh pystyy tutkimaan kopiolukujen muutoksia ihmisen koko genomin laajuisesti mikrosiruteknologiaa hyödyntämällä (Pinkel et al., 1998; Pollack et al., 1999). Kuva 2.3. acgh-mittausen työvaiheet Tyypillisessä acgh-mittauksessa (kuva 2.3.) eristetään DNA soluista, joiden genomin rakennetta halutaan tutkia, esimerkiksi syöpäsoluista. Lisäksi eristetään referenssi-dna normaalin kudoksen soluista. Kaksi DNA-näytettä värjätään kukin omalla fluoresoivalla väriaineellaan, minkä jälkeen näytteet hybridisoidaan mikrosirulle. Sitten kuhunkin koettimeen sitoutuneiden näytteen ja referenssin intensiteettiarvot mitataan mikrosiruskannerilla. Ideaalitilanteessa näytteen intensiteettiarvon ja referenssin intensiteettiarvon välinen suhde on suoraan verrannollinen kyseisen sekvenssin kopiolukuun testi- tai referenssigenomissa (Pinkel & Albertson, 2005). 2.3. Geeniekspressio- ja kopiolukudatan yhteisanalyysi Geeniekspressio- ja acgh-sirujen dataa kannattaa analysoida yhdessä, sillä tällöin voidaan saada biologisesti merkityksellisempiä tuloksia, koska pystytään seuraamaan geenien kopiolukujen ja aktiivisuuksien yhteyttä. Geeniekspressio- ja acgh-sirujen dataa on analysoitu jo aiemmin yhdessä. Hyvin usein analysoitavana on ollut syöpädataa; yhteisanalyyseja on tehty esimerkiksi rintasyövälle (Hyman et al., 2002; Pollack et al., 2002; Chin et al., 2006), paksusuolen syövälle (Tsafrir et al., 2006; Platzer et al., 2002), haimasyövälle (Heidenblad et al., 2005), keuhkosyövälle (Dehan et al., 2007), pää- ja niskasyövälle (Järvinen et al., 2006), imusolmukesyövälle (Martinez- Climent et al., 2003), kohdunkaulan syövälle (Wilting et al., 2008), sekä mahasyövälle (Tsukamoto et al., 2008). GIST- ja LMS-syöpien kopioluku- ja ekspressiodataa ei kuitenkaan ole vielä aiemmin analysoitu yhdessä. Suuressa osassa analyyseista on keskitytty etsimään geenejä, jotka ovat sekä korkeasti ekspressoituneita, että joilla on lisäksi muuttunut kopioluku, tai tutkittu,
kuinka kopioluvun muuttuminen vaikuttaa saman tai muiden geenien ekspressioon (Hyman et al., 2002; Pollack et al., 2002; Linn et al., 2003; Hautaniemi et al., 2004; Dehan et al., 2007). Suurimmassa osassa julkaisuja kopioluku- ja ekspressioprofiilien välillä on havaittu yhteneväisyyksiä, mutta joissakin tutkimuksissa on huomattu, ettei geenin kopioluvun muutos välttämättä johda geeniekspressiotason kasvamiseen (Platzer et al., 2002). Geeniekspressio- ja CGH-dataa on tutkittu yhdessä ilman mikrosiruteknologian apua jo aiemmin, mutta ensimmäiset mikrosiruja hyödyntävät tutkimukset julkaisivat Hyman et al. (2002) ja Pollack et al. (2002). Hyman et al. (2002) tutkivat kopioluvun muutosten kokonaisvaikutusta geeniekspressioprofiiliin. He huomasivat, että erityisesti kopioluvun suuret positiiviset muutokset vaikuttivat ekspressiotasoihin, mutta myös pienemmillä muutoksilla oli ekspressioon merkittävä, tosin lievempi vaikutus. He löysivät satoja geenejä, joiden yliekspression he katsoivat johtuvan suoraan kopioluvun muutoksesta, ja joiden he uskovat olevan lupaavia geeniterapian kohteita. He tunnistivat myös geenin, jonka kopioluvun muutos ja kohonnut ekspresssiotaso korreloi potilaan huonon ennusteen kanssa. Pollack et al. (2002) analysoivat rintasyöpädataa, ja he huomasivat, että kopioluvun muutoksella on yleisesti suora yhteys geeniekspressiotasoihin. He myös korostavat, että on tärkeää tunnistaa monistuneen tai tuhoutuneen DNA-alueen rajat, jotta voitaisiin tunnistaa vaarattomien kopiolukumuutosten joukosta ne muutokset, jotka todella vaikuttavat syövän kehittymiseen. Tsafrir et al. (2006) tutkivat geeniekspressio- ja kopiolukudatan lisäksi SNP-dataa. He tutkivat näiden kolmen datatyypin välisiä korrelaatioita, ja huomasivat että korrelaatio oli hyvin suuri ekspressiotasojen ja DNA-sisällön välillä. He havaitsivat, että kromosomaalisten alueiden monistumista tai poistumista seurasi yleensä positiivinen muutos monien geenien mrna-tasoissa, mutta yksittäisten geenien kohdalla muutos saattoi olla myös negatiivinen. Chin et al. (2006) analysoivat geeniekspressio- ja cgh-dataa rintasyöpänäytteistä. He löysivät geenejä, joiden kopioluku ja ekspressiotaso korreloivat vahvasti, ja joiden he uskoivat olevan yhteydessä rintasyövän kehittymiseen. He tutkivat myös kopiolukumuutosten suhdetta potilaiden paranemisennusteeseen sekä heille soveltuviin hoitomuotoihin, ja huomasivat että suuret kopiolukumuutokset olivat yhteydessä huonompaan paranemisennusteeseen. Bussey et al. (2006) tutkivat erilaisten lääkeaineiden vaikutusta DNA:n kopiolukujen ja mrna-tasojen suhteeseen. He käyttivät 60 syöpäsolulinjasta (NCI-60) saatua dataa ja tutkivat tunnettujen syöpägeenien kopioluvun muutoksen korrelaatiota geenin ja muiden geenien ekspressioon ja solun lääkeherkkyyteen laskemalla Pearsonin korrelaatiokertoimia. Martinez-Climent et al. (2003) tutkivat geeniekspression ja kopiolukumuutosten välistä suhdetta henkilöillä, joilla vaarattomampi imusolmukesyövän tyyppi oli muuttunut aggressiivisemmaksi imusolmukesyövän muodoksi. He löysivät kopiolukumuutoksia, jotka tapahtuivat vain muuttuneilla kasvaimilla, ja mutta niistä seuranneet geeniekspressiotasojen muutokset vaihtelivat runsaasti eri näytteiden välillä. 7
8 3. TUTKIMUSMENETELMÄT JA AINEISTO 3.1. Tekniset tiedot siruista ja syöpänäytteistä Mikrosirudatan on tuottanut Wei Zhangin työryhmä M.D. Anderson Cancer Centerissa (Houston, Texas, USA). DNA-näytteet acgh-kokeita varten on eristetty 40 syöpäkasvaimesta, 20 GIST- ja 20 LMS-kasvaimesta. Kullekin cdna-sirulle hybridisoitiin DNA syöpäkasvaimesta sekä terveestä kudoksesta. Työssä käytettiin Agilentin Human Genome CGH mikrosiruja (4x44k), jotka mittaavat yli 43000 DNAsekvenssin kopioluvut ihmisen genomista. Mikrosirudata saatiin Agilentin Feature extraction -ohjelmiston version 9.5 avulla oletusasetuksia käyttäen. Lopulta data tuotiin Matlabiin ja sille tehtiin Lowess-normalisointi (Cleveland, 1979) sirujen sisäisten väriainevääristymien poistamiseksi. Geeniekspressiokokeita varten eristettiin mrna-näytteet 68 syöpäkasvaimesta, 37 GIST- ja 31 LMS-kasvaimesta. Näistä kasvaimista 37 (17 GIST-kasvainta ja 20 LMSkasvainta) oli samoja kasvaimia, joita käytettiin myös acgh-kokeissa. Tässä työssä käytetään geeniekspressio- ja acgh-dataa kyseisistä 37 kasvaimesta. Geeniekspressiotasojen mittauksissa käytettiin Agilentin human whole-genome mikrosiruja (44k), jotka mittaavat 41000 geenin ja transkriptin ekspressiota. Yhdelle sirulle hybridisoitiin kaksi näytettä yhden näytteen ja referenssin sijaan. Data saatiin Agilentin Feature extraction -ohjelmiston version 8.0 avulla. Data tuotiin Matlabiin ja sille tehtiin Lowess-normalisointi (Cleveland, 1979). 3.2. Yhteisten geneettisten poikkeavuuksien etsiminen 3.2.1. Korkeasti ekspressoituneiden geenien etsiminen Aluksi geeniekspressiodata esikäsiteltiin. Datasta poistetaan positiiviset ja negatiiviset kontrolliarvot, eli data-analyysissa referenssinä käytetyt koettimet, jotka ovat aina korkeasti ekspressoituneita tai eivät lainkaan ekspressoituneita. Jos datassa esiintyy sama koetin useamman kerran, etsitään koettimen intensiteettiarvoista suurin, sijoitetaan se koettimen arvoksi ja poistetaan koettimen kopiot. Mikrosirudatan intensiteettiarvot vaihtelevat voimakkaasti, ja suurten intensiteettiarvojen varianssi on paljon suurempi kuin pienemmillä arvoilla. Varianssin stabiloimiseksi datalle tehdään log2-muunnos. Seuraavaksi siruille tehdään kvantiilinormalisointi, jotta koettimien intensiteettiarvojen jakaumat eri sirujen välillä saataisiin samaksi (Bolstad et al., 2003). Jakaumiin syntyy eroja mikrosirukokeen aikana esimerkiksi näytteiden valmistusvaiheessa. Kvantiilinormalisoinnin jälkeen kaikilla siruilla on samat kvantiiliarvot.
9 Nyt voitiin etsiä kustakin näytteestä korkeasti ekspressoituneet geenit. Tätä varten kunkin näytteen datasta etsittiin ne koettimet, joilla on korkea ekspressioarvo. Koettimella määriteltiin olevan korkea ekspressioarvo, mikäli sen mitattu intensiteettiarvo on korkeimman 5 % joukossa kaikista kyseisen näytteen koettimien intensiteettiarvoista. Lopulta kunkin geenin ekspressioarvo määriteltiin laskemalla keskiarvo niiden koettimien intensiteettiarvoista, jotka edustivat kyseistä geeniä. Korkeasti ekspressoituneet geenit etsittiin erikseen GIST- ja LMS-datasta. Huomattavaa on, että tämä oli tilanteessa paras mahdollinen menetelmä korkeasti ekspressoituneiden geenien löytämiseksi, koska saatavilla ei ollut terveestä kudoksesta mitattua ekspressiodataa. Myös referenssinäytteen kudostyypin valinta olisi ollut vaikeaa, sillä GIST- ja LMS-näytteet ovat peräisin useista eri kudoksista. Terveen kudoksen leikkaamiseen liittyy lisäksi eettisiä ongelmia. 3.2.2. Kopioluvultaan epänormaalien geenien etsiminen acgh-datasta Seuraavaksi kopiolukudatasta etsittiin geenit, joiden kopioluku oli muuttunut. Aluksi data esikäsiteltiin tekemällä sille log2-muunnos ja laskettiin sille niin sanottu logratio vähentämällä kunkin näytteen koettimien log2-muunnetuista intensiteettiarvoista referenssin log2-muunnetut arvot. Seuraavaksi data segmentoitiin circular binary segmentation algoritmilla (CBS) (Olshen et al., 2004). CGHcall-algoritmia käytettiin tunnistamaan segmentit, joiden kopioluku oli epänormaali (van de Wiel et al., 2007). Yllä olevat työvaiheet on kuvattu tarkemmin Ylipään diplomityössä (Ylipää, 2008). Kun kopiolukumuutoksen omaavat segmentit oli saatu selville, voitiin paikantaa tällaisilta segmenteiltä koettimet. Geenin kopioluvun katsottiin muuttuneen, mikäli sitä edustavat koettimet sijaitsevat segmentillä, jonka kopioluku on muuttunut. 3.2.3. Yleisten geneettisten poikkeavuuksien etsiminen Seuraavaksi molemmista näytejoukoista (GIST ja LMS) etsittiin ne geenit, jotka käyttäytyivät epätavallisesti koko näytejoukossa tai suurimmassa osassa geeniekspressio-, kopioluku- tai molempia näytteitä. Nämä geenit ovat kiinnostavimpia, koska ne voivat paljastaa yleisiä piirteitä syöpätyyppien geneettisistä profiileista. Luotiin kolmentyyppisiä geenilistoja. Ensin koottiin lista niistä geeneistä, jotka olivat korkeasti ekspressoituneet 60, 70, 80, 90 tai 100 prosentissa näytteistä. Samaan tapaan luotiin lista geeneistä, joiden kopioluku oli muuttunut 60 100 prosentissa näytteistä. Lopuksi listattiin geenit, jotka olivat sekä korkeasti ekspressoituneita, että omasivat muuttuneen kopioluvun 60 100 prosentissa näytteistä. GIST- ja LMSnäytejoukot analysoitiin erikseen.
10 3.3. Korrelaation tutkiminen Näytteiden välisiä yhteneväisyyksiä tutkittiin laskemalla korrelaatioarvoja kaikkien näytteiden geeniekspressio- ja acgh-datojen kesken. Geeniekspressiodata esikäsiteltiin samalla tavalla kuin on kuvattu kappaleessa 3.2., ja acgh-data kuten on kuvattu kappaleessa 3.3. Korrelaation laskemista varten datojen intensiteettiarvot järjestetään siihen järjestykseen, missä koettimen edustama geeni sijaitsee genomilla. Tämä on mahdollista, sillä kullekin koettimelle on annotoitu geeni, jota koetin edustaa, kromosomi, jolla geeni sijaitsee, sekä tarkempi sijainti kromosomilla. Genomin mukainen järjestys on hyödyllinen, sillä kopiolukumuutokset kattavat usein useamman geenin alueen genomissa, minkä vuoksi myös peräkkäisten geenien ekspressioarvot voivat olla samalla tasolla. Koska geeniekspressiodataan ei ollut saatavilla referenssinäytteitä terveestä kudoksesta, laskettiin 31 GIST-näytteen ja 31 LMS-näytteen koettimien keskiarvoista perustaso, joka kuvaa terveen henkilön geeniekspressiodataa. Näin kullekin koettimelle saatiin laskettua keinotekoinen logratio vähentämällä näytteen arvosta perustason vastaava arvo. acgh-näytteille logratiot laskettiin yksinkertaisemmin jakamalla näytteen koettimien arvot vastaavilla referenssin koettimien arvoilla. Seuraavaksi datavektoreita pehmennettiin, sillä niiden kohinaisuuden epäiltiin heikentävän saavutettavaa korrelaatiota vektoreiden välillä. Datan pehmentäminen tuo paremmin sen yleispiirteet esiin häiritsevää kohinaa vähentämällä. Pehmennys toteutettiin painotetulla liikkuvan keskiarvon menetelmällä. Menetelmässä lasketaan koettimille uudet arvot siten, että uudeksi arvoksi tuli tarkasteltavan ikkunan koettimien arvojen painotettu keskiarvo. Painot laskettiin koettimien etäisyyksien mukaan tarkasteltavasta koettimesta siten, että paino w koettimelle i on 1 wi =, (1) di jossa d i on koettimen i etäisyys tarkasteltavasta koettimesta. Tarkasteltavasta koettimesta kauimmaiset koettimet saivat näin pienimmän painon ja tarkasteltava koetin suurimman. Ikkunan pituus vaihteli acgh-datalla 40-1000 koettimeen ja geeniekspressiodatalla 150-2500 koettimeen. Nyt pehmennettyjen datavektoreiden välisiä korrelaatioita voidaan tutkia laskemalla niiden välinen korrelaatiokerroin. Korrelaation laskemisessa käytettiin Pearsonin korrelaatiokerrointa cov( X, Y ) E(( X μ X )( Y μy )) ρ X, Y = =, (2) σ σ σ σ X Y jossa X ja Y ovat näytteiden logratiovektorit, σ X ja σ Y ovat datavektoreiden keskivirheet, sekä μ X ja μ Y datavektoreiden odotusarvot. X y
Lasketuista korrelaatioista muodostettiin kolme matriisia. Ensimmäinen matriisi sisältää lasketut Pearsonin korrelaatiokertoimet jokaisen mahdollisen geeniekspressiokopiolukunäytteen välillä. Toinen matriisi sisältää korrelaatiotulokset kaikkien kopiolukunäytteiden välillä, ja kolmas matriisi kaikkien geeniekspressionäytteiden välillä. 11
12 4. TULOKSET JA NIIDEN TARKASTELU 4.1. Yhteisten geneettisten poikkeavuuksien etsiminen Kuvassa 4.1. esitetään geeniekspressio-, kopioluku- tai molemmissa datoissa epänormaalisti käyttäytyvien geenien lukumäärät eri prosenttiosuuksissa näytteitä. Kuvassa 4.1.(a) kuvataan korkeasti ekspressoituneiden geenien lukumääriä eri prosenttiosuuksissa näytteitä, kuvassa 4.1.(b) vastaavasti niiden geenien lukumääriä, joiden kopioluku on muuttunut. Kuvassa 4.1.(c) kuvataan niiden geenien lukumääriä, jotka ovat sekä korkeasti ekspressoituneet että omaavat muuttuneen kopioluvun. Geenien lukumääriä on laskettu viidelle eri prosenttiosuudelle näytteitä. Kuva 4.1. (a) Korkeasti ekspressoituneiden geenien lukumäärät 60 100 %:ssa näytteistä. (b) Kopiolukumuutoksen omaavien geenien lukumäärät 60 100 %:ssa näytteistä. (c) Sekä korkeasti ekspressoituneiden että kopiolukumuutoksen omaavien geenien lukumäärät 60 100 %:ssa näytteistä.
13 Kuvasta 4.1. nähdään, että kopioluvultaan muuttuneita geenejä on näytteissä paljon enemmän kuin korkeasti ekspressoituneita geenejä. Tämä johtuu luultavasti eroista kopioluvultaan muuttuneiden geenien ja korkeasti ekspressoituneiden geenien etsintäalgoritmien välillä. Mikäli määritelmä geenin korkeasta ekspressiosta olisi ollut väljempi kuin korkeimman 5 % joukossa oleminen, olisi korkeasti ekspressoituneita geenejä saatu määrältään enemmän. Kuvasta 4.1. nähdään myös, että aina LMS-näytteiden epänormaalisti käyttäytyvien geenien lukumäärät ovat systemaattisesti suuremmat GIST-näytteiden vastaaviin arvoihin nähden. Tämä saattaa indikoida, että LMS-kasvaimissa esiintyy enemmän kopiolukumuutoksia kuin GIST-kasvaimissa, ja myös geenien ekspressiotasot ovat GIST-kasvainten ekspressiotasoja suuremmat. Menetelmä, jolla korkeasti ekspressoituneet geenit valittiin, ei poista lainkaan luonnostaan korkeasti ekspressoituneita geenejä. Tästä seuraa, että korkeasti ekspressoitujen geenien listoissa on luultavasti paljon vääriä positiivisia. Kuvasta 4.1.(a) nähdään, että korkeasti ekspressoituneiden geenien lukumäärä todella kasvaa hyvin nopeasti, kun näytteiden prosenttiosuus laskee. Kuitenkin geenejä, jotka ovat korkeasti ekspressoituneita kaikissa näytteissä, on hyvin vähän. Tästä voidaan päätellä, että GISTja LMS-näytteet ovat hyvin heterogeenisiä geeniekspression suhteen. Kuvasta 4.1.(b) voidaan nähdä, että vain hyvin pienellä osalla geeneistä on tapahtunut kopioluvun muutos kaikissa GIST- tai LMS-tyypin näytteissä (GIST:illä neljässä geenissä, LMS:llä ei yhdessäkään geenissä). Syöpätyyppien näytteet ovat siis melko heterogeenisiä myös kopioluvun muutosten suhteen. Kuvasta 4.1.(c) nähdään, että vasta 80 %:n kohdalla aletaan saada merkittäviä määriä geenejä, jotka ovat sekä korkeasti ekspressoituneet että omaavat muuttuneen kopioluvun. Huomattavaa on, että yhdistämällä geeniekspressio- ja kopiolukudatat pystytään poistamaan tuloksista geeniekspressiodatan väärät positiiviset geenit. Nämä geenit eivät siis vaikuta geeniekspressio- ja kopiolukudatalle yhteisten geenien tutkimiseen. 4.2. Korrelaation tutkiminen Kuvassa 4.2. esitetään näytteiden välisten korrelaatiolaskujen tulokset. Kuvan korrelaatioiden laskemisessa käytettiin acgh-datalla 500 koettimen pituista ja geeniekspressiodatalla 1500 koettimen pituista ikkunaa. Pienemmillä ikkunanpituuksilla datavektoreiden kohina vaikeutti korreloivien näytteiden tunnistamista. Suuremmilla ikkunanpituuksilla informaatiota aletaan menettää, jolloin korrelaatiot alkavat kasvaa myös niiden näytteiden välillä, joiden kesken ei pienemmillä ikkunanpituuksilla havaita korrelaatiota. Kuvassa 4.2. käytetyt ikkunanpituudet havaittiin sopivimmiksi korrelaatioiden tarkasteluun. Kuvassa 4.2.(a) kuvataan matriisimuodossa jokaisen mahdollisen geeniekspressioacgh-näyteparin välinen korrelaatio värikoodauksen avulla. Matriisin rivit edustavat kaikkia acgh-näytteitä ja sarakkeet geeniekspressionäytteitä siten että
14 rivillä/sarakkeella näytteet 1-17 ovat GIST-kasvaimista ja näytteet 18-37 LMSkasvaimista. Matriisin diagonaalilla on näin ollen aina saman näytteen geeniekspressioja kopiolukudatan välinen korrelaatio. Mitä lähempänä matriisin alkion väri on punaista, sitä suurempi on alkiota vastaavan näyteparin välille laskettu Pearsonin korrelaatiokerroin, ja vastaavasti mitä lähempänä sinistä, sitä pienempi laskettu korrelaatiokerroin on. Kuvassa 4.2.(b) on vastaavalla tavalla esitetty kunkin geeniekspressio-geeniekspressio-näyteparin välille lasketut korrelaatiot, ja kuvassa 4.2.(c) kunkin acgh-acgh-näyteparin välille lasketut korrelaatiot. Kuva 4.2. Korrelaatiot näytteiden välillä. (a) Geeniekspressio-aCGH-näyteparien väliset korrelaatiot. (b) Geeniekspressio-geeniekspressio-näyteparien välille lasketut korrelaatiot. (c) acgh-acgh-näyteparien väliset korrelaatiot. Kuvasta 4.2. nähdään, että korrelaatio GE-näytteiden välillä on melko vähäistä, mikä saattaa osaltaan johtua mikrosirudatan suuresta kohinasta (kuva 4.2.(b)). Korrelaatio acgh-näytteiden välillä on puolestaan selvästi suurempaa (kuva 4.2.(c)). Erityisesti GIST-näytteiden välillä korrelaatio on suurta, mikä vahvistaa käsitystä, että muutokset genomissa osallistuvat normaalin solun kehittymiseen tietyksi syöpäsoluksi. Toisaalta yhdellä GIST-näytteellä (matriisin rivi 16) on hyvin voimakasta negatiivista korrelaatiota erityisesti LMS-näytteiden kanssa. Geeniekspressio-aCGH-näyteparien
välillä korrelaatio on melko vähäistä (kuva 4.2.(a)). Kuitenkin voidaan selvästi nähdä, että saman näytteen geeniekspressio- ja acgh-datan välinen korrelaatio on keskimäärin muiden näyteparien korrelaatiota suurempaa. Kuvasta 4.2.(a) huomataan, että GIST- ja LMS-lohkojen välillä ei korrelaatioissa ole juurikaan eroa. Tästä voidaan päätellä, että syöpätyyppien sisäinen heterogeenisyys on niin suurta, että se peittää syöpätyyppien väliset erot. Syöpätyypeille ei siis ole olemassa kaikille sen näytteille yhtenäistä geeniekspressio- tai kopiolukuprofiilia, joka selvästi erottaisi nämä kaksi syöpätyyppiä toisistaan. 15
16 5. JOHTOPÄÄTÖKSET Tässä työssä tarkasteltiin GIST- ja LMS-syöpätyyppien geeniekspressio- ja kopiolukumikrosirujen dataa. Kahden datatyypin yhteneväisyyksiä tutkittiin. Kopiolukujen muutoksilla on aiemmin huomattu olevan vaikutuksia geeniekspressiotasojen kasvuun, ja haluttiin nähdä, toteutuuko tämä GIST- ja LMSkasvainten kohdalla. Tulokset antavat paljon viitteitä GIST- ja LMS-syöpätyyppien keskinäisestä ja sisäisestä heterogeenisyydestä. Erityisesti geeniekspressioprofiilit ovat hyvin vaihtelevia kummallakin syöpätyypillä. Näytteillä ei ole yhtään geeniä, joka olisi sekä korkeasti ekspressoitunut että omaisi muuttuneen kopioluvun 100 tai 90 % näytteistä. Se, että tällaisia geenejä identifioidaan vasta 80 % näytteistä, osoittaa syöpäkasvainten geneettisten profiilien olevan hyvin erilaisia jopa saman syöpätyypin sisällä. Myös korrelaatiolaskut osoittivat syöpätyyppien heterogeenisyyden. Erityisesti geeniekspressioprofiilit erosivat selkeästi toisistaan sekä syöpätyyppien välillä että sisäisesti. Tuloksista nähdään kuitenkin, että saman näytteen geeniekspressio- ja kopiolukudatan välillä on merkittävää korrelaatiota. Syöpätyypin sisällä merkittävää korrelaatiota näiden datatyyppien kesken ei kuitenkaan ole havaittavissa. Vaikka syöpätyypit näiden tulosten valossa ovat selkeästi heterogeenisiä, on aiemmin kuitenkin löydetty hyvin yksinkertainen kahden geenin luokittelija, joka ennustaa tarkasti, kumpaan syöpätyyppiin kasvain kuuluu (Price et al., 2007). Tästä voidaan päätellä, että vaikka syöpätyyppien väliset erot eivät ole selvästi nähtävillä geeniekspressio- tai kopiolukuprofiileiden perusteella, on syöpätyyppien synnyn taustalla kuitenkin tiettyjä biologisia prosesseja, jotka aiheuttavat normaalien solujen kehittymisen näiksi syöpätyypeiksi. Tämän työn perusteella on selvää, ettei näin heterogeenisten syöpien syntyyn johtavia biologisia prosesseja voida ymmärtää ainoastaan yksinkertaisten mikrosirudatan analyysien perusteella. Syöpää ymmärtääkseen on hallittava myös biologinen taustatieto erittäin hyvin. Tämä työ edistää kuitenkin osaltaan tuntemusta näiden syöpätyyppien geneettisistä ominaisuuksista, ja selvitettyjä tietoja voidaan hyödyntää syöpätutkimuksessa jatkossa.
17 LÄHTEET Albertson, D.G., Collins, C., McCormick, F., and Gray, J.W., Chromosome aberrations in solid tumors, Nature Genetics, vol. 34, no. 4, pp. 369 376, 2003. Alizadeh, A.A., Eisen, M.B., Davis, R.E., Ma, C., Lossos, I.S., Rosenwald, A., Boldrick, J.C., Sabet, H., Tran, T., Yu, X., Powell, J.I., Yang, L., Marti, G.E., Moore, T., Hudson, J. Jr, Lu, L., Lewis, D.B., Tibshirani, R., Sherlock, G., Chan, W.C., Greiner, T.C., Weisenburger, D.D., Armitage, J.O., Warnke, R., Levy, R., Wilson, W., Grever, M.R., Burd, J.C., Botstein, D., Brown, P.O., and Staudt, L.M., Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling, Nature, vol. 403, no. 6769, pp. 503 511, 2000. Bolstad, B.M., Irizarry, R.A., Åstrand, M., and Speed, T.P., A comparison of normalization methods for high density oligonucleotide array data based on variance and bias, Bioinformatics, vol. 19, no. 2, pp. 185 193, 2003. Bussey, K.J., Chin, K., Lababidi, S., Reimers, M., Reinhold, W.C., Kuo, W.-L., Gwadry, F., Ajay, Kouros-Mehr, H., Fridlyand, J., Jain, A., Collins, C., Nishizuka, S., Tonon, G., Roschke, A., Gehlhaus, K., Kirsch, I., Scudiero, D.A., Gray, J.W., and Weinstein, J.N., Integrating data on DNA copy number with gene expression levels and drug sensitivities in the NCI-60 cell line panel, Molecular Cancer Theapeutics., vol. 5, pp. 853 867, 2006. Chin, K., DeVries, S., Fridlyand, J., Spellman, P., Roydasgupta, R., Kuo, W., Lapuk, A., Neve, R., Qian, Z., and Ryder, T., Genomic and transcriptional aberrations linked to breast cancer pathophysiologies, Cancer Cell, vol. 10, no. 6, pp. 529 541, 2006. Cleveland, W.S., Robust locally weighted regression and smoothing scatterplots, Journal of the American Statistical Association, vol. 74, no. 368, pp. 829 836, 1979. Dehan, E., Ben-Dor, A., Liao, W., Lipson, D., Frimer, H., Rienstein, S., Simansky, D., Krupsky, M., Yaron, P., Friedman, E., Rechavi, G., Perlman, M., Aviram-Goldring, A., Izraeli, S., Bittner, M., Yakhini, Z., and Kaminski, N., Chromosomal aberrations and gene expression profiles in non-small cell lung cancer, Lung Cancer, vol. 56, pp. 175 184, 2007. DeRisi, J., Penland, L., Brown, P.O., Bittner, M.L., Meltzer, P.S., Ray, M., Chen, Y., Su, Y.A., and Trent, J.M., Use of a cdna microarray to analyse gene expression patterns in human cancer, Nature Genetics, vol. 14, no. 4, p. 457, 1996. Hanahan, D. and Weinberg, R.A., The hallmarks of cancer, Cell, vol. 100, pp. 57 70, 2000. Hautaniemi, S., Ringnér, M., Kauraniemi, P., Autio, R., Edgren, H., Yli-Harja, O., Astola, J., Kallioniemi, A., and Kallioniemi, O.-P., A strategy for identifying putative causes of gene expression variation in human cancers, Journal of the Franklin Institute, vol. 341, no. 1-2, pp. 77 88, 2003.
Heidenblad, M., Lindgren, D., Veltman, J.A., Jonson, T., Mahlamäki, E.H., Gorunova, L., Geurts van Kessel, A., Schoenmakers, E.F.P.M., and Höglund, M., Microarray analyses reveal strong influence of DNA copy number alterations on the transcriptional patterns in pancreatic cancer: implications for the interpretation of genomic amplifications, Oncogene, vol. 24, pp. 1794 1801, 2005. Hirota, S., Isozaki, K., Moriyama, Y., Hashimoto, K., Nishida, T., Ishiguro, S., Kawano, K., Hanada, M., Kurata, A., Takeda, M., Muhammad Tunio, G., Matsuzawa, Y., Kanakura, Y., Shinomura, Y., and Kitamura, Y., Gain-of-function mutations of c- kit in human gastrointestinal stromal tumors, Science, vol. 279, no. 5350, pp. 577 580, 1998. Hyman, E., Kauraniemi, P., Hautaniemi, S., Wolf, M., Mousses, S., Rozenblum, E., Ringner, M., Sauter, G., Monni, O., Elkahloun, A., Kallioniemi, O.-P., and Kallioniemi, A., Impact of DNA amplification on gene expression patterns in breast cancer, Cancer Research, vol. 62, pp. 6240 6245, 2002. Järvinen, A.-K., Autio, R., Haapa-Paananen, S., Wolf, M., Saarela, M., Grénman, R., Leivo, I., Kallioniemi, O., Mäkitie, A.A., and Monni, O., Identification of target genes in laryngeal squamous cell carcinoma by high-resolution copy number and gene expression microarray analyses, Oncogene, vol. 25, pp. 6997 7008, 2006. Kallioniemi, A., Kallioniemi, O.-P., Sudar, D., Rutovitz, D., Gray, J.W., Waldman, F., and Pinkel, D., Comparative genomic hybridization for molecular cytogenetic analysis of solid tumors, Science, vol. 258, no. 5083, pp. 818 821, 1992. Linn, S.C., West, R.B., Pollack, J.R., Zhu, S., Hernandez-Boussard, T., Nielsen, T.O., Rubin, B.P., Patel, R., Goldblum, J.R., Siegmund, D., Botstein, D., Brown, P.O., Gilks, C.B., and van de Rijn, M., Gene expression patterns and gene copy number changes in Dermatofibrosarcoma Protuberans, American Journal of Pathology, vol. 163, pp. 2383 2395, 2003. Martinez-Climent, J.A., Alizadeh, A.A., Segraves, R., Blesa, D., Rubio-Moscardo, F., Albertson, D.G., Garcia-Conde, J., Dyer, M.J.S., Levy, R., Pinkel, D., and Lossos, I.S., Transformation of follicular lymphoma to diffuse large cell lymphoma is associated with a heterogeneous set of DNAcopy number and gene expression alterations, Blood, vol. 101, no. 8, pp. 3109 3117, 2003. Mazur, M.T. and Clark, H.B., Gastric stromal tumors. Reappraisal of histogenesis, The American Journal of Surgical Pathology, vol. 7, no. 6, pp. 507 519, 1983. Nykter, M., Hunt, K.K., Pollock, R.E., El-Naggar, A.K., Taylor, E., Shmulevich, I., Yli- Harja, O., and Zhang, W., Unsupervised analysis uncovers changes in histopathologic diagnosis in supervised genomic studies, Technology in Cancer Research & Treatment, vol. 5, no. 2, pp. 177 182, 2006. Olshen, A.B., Venkatraman, E.S., Lucito, R., and Wigler, M., Circular binary segmentation for the analysis of array-based DNA copy number data, Biostatistics, vol. 5, no. 4, pp. 557 572, 2004. Pinkel, D., Segraves, R., Sudar, D., Clark, S., Poole, I., Kowbel, D., Collins, C., Kuo, W.-L., Chen, C., Zhai, Y., Dairkee, S.H., Ljung, B., Gray, J.W., and Albertson, 18
D.G., High resolution analysis of DNA copy number variation using comparative genomic hybridization to microarrays, Nature Genetics., vol. 20, pp. 207 211, 1998. Pinkel, D. and Albertson, D.G., Array comparative genomic hybridization and its applications in cancer, Nature Genetics, vol. 37, pp. s11-s17, 2005. Platzer, P., Upender, M.B., Wilson, K., Willis, J., Lutterbaugh, J., Nosrati, A., Willson, J.K.V., Mack, D., Ried, T., and Markowitz, S., Silence of chromosomal amplifications in colon cancer, Cancer Research, vol. 62, pp. 1134 1138, 2002. Pollack, J.R., Perou, C.M., Alizadeh, A.A., Eisen, M.B., Pergamenschikov, A., Williams, C.F., Jeffrey, S.S., Botstein, D., and Brown, P.O., Genome-wide analysis of DNA copy-number changes using cdna microarrays, Nature Genetics, vol.. 23, pp. 41 46, 1999. Pollack, J.R., Sorlie, T., Perou, C.M., Rees, C.A., Jeffrey, S.S., Lonning, P.E., Tibshirani, R., Botstein, D., Borresen-Dale, A.L., and Brown, P.O., Microarray analysis reveals a major direct role of DNA copy number alteration in the transcriptional program of human breast tumors, Proceedings of the National Academy of Sciences of the United States of America, vol. 99, no. 20, 12963, 2002. Price, N.D., Trent, J., El-Naggar, A.K., Cogdell, D., Taylor, E., Hunt, K.K., Pollock, R.E., Hood, L., Shmulevich, I., and Zhang, W., Highly accurate two-gene classifier for differentiating gastrointestinal stromal tumors and leiomyosarcomas, Proceedings of the National Academy of Sciences of the United States of America, vol. 104, no. 9, pp. 3414 3419, 2007. Schena, M., Shalon, D., Davis, R.W., and Brown, P.O., Quantitative monitoring of gene expression patterns with a complementary DNA microarray, Science, vol 270, pp. 467 470, 1995. Seeger, R.C., Brodeur, G.M., Sather, H., Dalton, A., Siegel, S.E., Wong, K.Y., and Hammond, D., Association of multiple copies of the N-myc oncogene with rapid progression of neuroblastomas, The New Enland Journal of Medicine, vol. 313, no. 18, pp. 1111 1116, 1985. Tirkkonen, M., Johannsson, O., Agnarsson, B.A., Olsson, H., Ingvarsson, S., Karhu, R., Tanner, M., Isola, J., Barkardottir, R.A., Borg, Å., and Kallioniemi, O.-P., Distinct somatic genetic changes associated with tumor progression in carriers of BRCA1 and BRCA2 germ-line mutations, Cancer Research, vol. 57, pp. 1222 1227, 1997. Tsafrir, D., Bacolod, M., Selvanayagam, Z., Tsafrir, I., Shia, J., Zeng, Z., Liu, H., Krier, C., Stengel, R.F., Barany, F., Gerald, W.L., Paty, P.B., Domany, E., and Notterman, D.A., Relationships of gene expression and chromosomal abnormalities in colorectal cancer, Cancer Research, vol. 66, pp. 2129 2137, 2006. Tsukamoto, Y., Uchida, T., Karnan, S., Noguchi, T., Nguyen, L.T., Tanigawa, M., Takeuchi, I., Matsuura, K., Hijiya, N., Nakada, C., Kishida, T., Kawahara, K., Ito, H., Murakami, K., Fujioka, T., Seto, M., and Moriyama, M., Genome-wide 19
analysis of DNA copy number alterations and gene expression in gastric cancer, The Journal of Pathology, vol. 216, no. 4, pp. 471 482, 2008. van de Wiel, M.A., Kim, K.I., Vosse, S.J., van Wieringen, W.N., Wilting, S.M., and Ylstra, B., CGHcall: calling aberrations for array CGH tumor profiles, Bioinformatics, vol. 23, no. 7, pp. 892 894, 2007. Vogelstein, B. and Kinzler, K.W., Cancer genes and the pathways they control, Nature medicine, vol. 10, no. 8, pp. 789 799, 2004. Wilting, S.M., de Wilde, J., Meijer, C.J.L.M., Berkhof, J., Yi, Y., van Wieringen, W.N., Braakhuis, B.J.M., Meijer, G.A., Ylstra, B., Snijders, P.J.F., and Steenbergen, R.J.M., Integrated genomic and transcriptional profiling identifies chromosomal loci with altered gene expression in cervical cancer, Genes, Chromosomes and Cancer, vol. 47, no. 10, pp. 890 905, 2008. Ylipää, A., Finding common DNA copy number aberrations in array CGH data," diplomityö, Tampereen teknillinen yliopisto, Signaalinkäsittelyn laitos, 2008. 20