Mikrosirut ja niiden data-analyysi S-114.2510 Laskennallinen systeemibiologia 11. Luento: To 24.4.2008 Oppimistavoitteet Mikä on mikrosiru ja miten niitä tehdään Millaisia mikrosiruja on olemassa Kuinka mikrosiruista saatua dataa tarvittaessa normalisoidaan Kuinka geenejä klusteroidaan ja ryhmitellään erilaisilla menetelmillä 1
Motivointi Lähes kaikissa soluissa samat geenit Solujen ja kudosten erilaisuus johtuu geenien ilmentymisestä (ekspressiosta) eri tavalla eri soluissa ja kudoksissa ilmentymiseen vaikuttaa muun muassa: solusykli, kehitysvaihe, ympäristö, lämpötila, hormonit, sairaudet Geenijoukko, jonka ekspressio muuttuu samoissa olosuhteissa, jakaa todennäköisesti saman biologisen funktion tai säätelymekanismin DNA mikrosirutekniikka Mikrosirut mahdollistavat tuhansien geenien ekspressiotasojen samanaikaisen tarkkailun jokaisella geenillä oma paikkansa sirulla Siruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. sairas ja terve kudos) Sovellusmahdollisuudet koskettavat lähes kaikkea biologista ja lääketieteellistä tutkimusta, lääkekehitystyötä ja diagnostiikka. 2
Erilaisia mikrosiruja 2 yleisintä sirujen valmistustekniikkaa geenien ekspression tarkkailuun: cdna oligonukleotidisirut muita siruja: SNP: sekvenssin variaation tarkkailuun ChIP-on-chip: proteeinin ja DNA:n interaktioiden tutkimiseen 3
cdna sirujen valmistus Siruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. sairas ja terve kudos) 1. Testi- ja vertailunäytteestä eristetään lähetti-rna:t, jotka käännetään cdna:ksi (RNA:ta tarvitaan tyypillisesti 5-50 µg). 2. cdna leimataan kahdella fluoresoivalla väriaineella (esim. Cy3 ja Cy5) ja hybridisoidaan samanaikaisesti siruun 3. Hybridisaation jälkeen geenisiru luetaan laserpohjaisella mikroskoopilla =>saadaan kuvat sirun fluoresenssista kahdella eri aallonpituudella, jotka kuvaavat testi- ja vertailunäytteiden cdna jaksojen hybridisoitumista kussakin sirun testipisteessä. Oligonukleotidisirut Nykyisin suosittuja ns. oligonukleotideista (tyypillinen pituus 25-70 emästä) valmistetut sirut Oligonukleotidi on lyhyt, synteettinen DNA-molekyyli, joka koostuu maksimissaan noin 150 nukleotidista. Oligonukleotideja kutsutaan myös oligoiksi, alukkeiksi, koettimiksi, primereiksi tai probeiksi. Sirut koostuvat mikroskooppilasille asetetuista tuhansista geenikoettimista Geenikoettimiin hybridisoidaan tutkimusnäytteen RNA:sta valmistettua komplementaarista DNA:ta (cdna), joka on leimattu biotiinillä Tarvitaan kaksi eri sirua testi- ja vertailunäytteelle Oligonukleotidisirutekniikan kehitti Affymetrix yritys Palo Altossa Uusimmat Affymetrix sirut kattavat 33000 geeniä, jotka syntetisoitu kahdelle eri sirulle (jokaista geeniä edustaa noin 11-20 erillistä oligonukleotidiparia) Oligonukleotidien etu cdna klooneihin on se, että niillä on mahdollista tunnistaa yksittäinen geeni tai geenivariantti, jolloin pystytään tutkimaan esim. vaihtoehtoisen silmukoinnin merkitystä. 4
Oligonukleotidisirut Siruanalyysi 5
Biological question Experimental design Platform Choice Sample Attributes Microarray experiment 16-bit TIFF Files Image analysis (Rspot, Rbkg), (Gspot, Gbkg) Normalization Data Mining Clustering Statistical Analysis Pattern Discovery Classification Biological verification and interpretation Kuva-analyysi Kuvankeräysvaiheen jälkeen sirujen fluoresenssitasot mitataan kussakin sirun testipisteessä Testipisteestä vähennetään taustafluoresenssi ja pisteen informaatio muutetaan lukuarvoksi. Testi- ja vertailunäytteen väliset intensiteettierot normalisoidaan ja kullekin geenille saadaan punaisen ja vihreän värin (kanavan) suhde Taustan erottaminen joskus iso ongelma, esim alla: 6
Image analysis 7
Kanavien suhde Punaisen ja vihreän värin (kanavan) suhde kertoo geenin ilmentymisen vilkkaudesta testinäytteessä suhteessa vertailunäytteeseen Yleensä tutkimuksessa analysoidaan kymmeniä näytteitä, joiden tuloksia verrataan vertailunäytteisiin -> Analyysin lähtökohtana suhdeluvut, jotka saatetaan yleensä samanarvoisiksi esim. keskiarvon tai hajonnan tai näiden molempien suhteen. Tilastollisen analyysin tekee haastavaksi ns. laiha data (suuri ulottuvuus, vähän näytteitä) Image Analysis - Output Red Intensity R= (R spot R background ) Green Intensity G= (G spot G background ) Ratio = T = R G Log Ratio = log 2 (T) = log 2 R G Differential Expression Increased Expression Equal Expression Decreased Expression Log Ratio 1 0 1 8
Lineaarisuuden tarkastelu Yleensä normalisoinnin kannalta hyödyllistä tarkastella onko saatu data lineaarista vaiko epälineaarista: Lineaarinen data: Epälineaarinen data: Signaalin intensiteetti ei vaikuta suhdelukuun Signaalin intensiteetti vaikuttaa suhdelukuun (esim. Cy3 ja Cy5 kanavien intensiteetit eivät käyttäydy lineaarisesti) Lineaarisuus nähdään esim. seuraavien mittojen scatter plottina (M ja A): M = log2(r/g) A = log2 (R*G), missä R ja G ovat fluoresenssi-intensiteettejä punaisella ja vihreällä kanavalla. Normalisointi M M 0 A A 9
Lineaarisuus: kontrollien avulla Siruanalyysissä käytetään usein ns. kontrolleja, joilla arvioidaan tulosten hyvyyttä Lineaarisuus saadaan seuraavalla ns. värinvaihdolla (dye swap) selville: Alkuperäinen data: testi merkataan Cy5:llä ja vertailu Cy3:lla Värinvaihto: Vaihdetaan testin ja vertailun väriä Nyt kun tarkastellaan suhdelukua X(Cy-5)/Y(Cy 5)/Y(Cy-3) = X(Cy-3)/Y(Cy 3)/Y(Cy-5) sen pitäisi lineaaritilanteessa olla vakio. Normalisoinnissa tämä suhdeluku yritetään saattaa samanarvoiseksi sirulta toiselle. Normalisointi: paikallinen vs. kattava Normalisointi voidaan tehdä joko paikallisesti tai kattavasti (=koko sirukuvalle kerrallaan). Kattava normalisointi tehdään esim. lineaarisella regressiolla Paikallinen normalisointi tehdään yleensä ns. liukuvalla prosessointi-ikkunalla, jossa kullekin ikkunan keskipisteelle lasketaan uusi arvo ikkunan muiden pisteiden avulla (esim. mediaani, keskiarvo tms.) 10
Suodattaminen Suodattamisella pyritään poistamaan epämääräinen, jatkoanalyysiä häiritsevä data. Mikrosirukuvissa on lähes aina eri syistä johtuvia virheitä : Liian matalia intensiteettiarvoja Liian korkeita intensiteettiarvoja Havaitun pisteen muoto epänormaali Kuvassa esiintyy ylimääräisiä (outlier) pisteitä jne.. ESIM1: Tarkastellaan intensiteettihistogrammia ja pyritään määrittämään liian matalat ja korkeat intensiteettiarvot. ESIM2: Käytetään keinotekoista pistetemplaattia vertaamaan onko kuvassa pisteen muoto (pyöreä) halutunlainen. ESIM3: Outlier pisteet huomattavasti kapeampia kuin varsinaiset datapisteet. Tilastollisia jatkoanalyysejä Normalisoinnin ja suodattamisen jälkeen vuorossa varsinainen data-analyysi Erilaisia menetelmiä: Visualisointi: Pääkomponenttianalyysi (PCA), Itsejärjestyvä kartta, Monidimensionaalinen skaalaus (esim. Sammonin kuvaus), Ryhmittely: K-means, Itsejärjestyvä kartta, puuryhmittelijät, Luokittelu: mikä tahansa soveltuva luokittelija Jne Tilastollisen analyysin työkalu on valittava aina ongelmalähtöisesti: paras menetelmä annettuun tehtävään 11
Ohjaamaton Ryhmittely Ohjattu Clustering methods hierarchical clustering calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate averages of most similar gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 12
Clustering methods hierarchical clustering calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate averages of most similar Dendrogram 1 2 3 4 gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 BRAF WT BRAF MUT 13
K-means klusterointi Alussa geenit jaetaan satunnaisesti k:hon samankokoiseen ryhmään Lasketaan ryhmien keskipisteet Geenit asetellaan ryhmiin uudestaan siten, että geenin uusi ryhmä on lähimmän keskipisteen ryhmä Lasketaan uusien ryhmien keskipisteet Prosessia iteroidaan (jatketaan), kunnes ryhmien kokoonpano konvergoituu (ei enää muutu) Clustering methods K-means assign random clusters calculate cluster centroids repeat until convergence cluster to closest centroid cluster to closest centroid calculate cluster centroids 14
SOM Itseorganisoiva kartta (Self-organizing map) Suosittu neuroverkko- ja vektorikvantisointi menetelmä, joka perustuu ohjaamattomaan oppimiseen Taipumus säilyttää topologia => tehokas moniulotteisen datan visualisointikeino SOM:n rakenne: Koostuu useista elementeistä (units) yleensä 2D-ruudukolla Jokaisella unitilla on prototyyppivektori m, jota päivitetään opetuksen aikana Iteratiivinen: SOM:n opetus 1. Verrataan yhtä näytevektoria x kerrallaan kaikkiin prototyyppivektoreihin m 2. Etsitään lähintä prototyyppivektoria vastaava unit (best matching unit, bmu) 3. Siirretään bmu:ta ja sen lähimpiä topologisia naapureita naapurusfunktion mukaan kohti näytevektoria m i (t+1) = m i (t) + a(t) h ci (r(t)) [x(t) - m i (t)], naapurusfunktio voi olla esim. gaussinen r c -r i 2 tarkoittaa etäisyyttä bmu:n ja protyyppivektori i:n välillä 15
SOM:n opetus Opetus tyypillisesti kahdessa vaiheessa: 1. Alussa muodostetaan karkeasti oikea kartta naapuruston vaikutus oltava laaja, jotta ei pääsisi syntymään topologisia virheitä 2. Lopussa kartan konvergoituminen opetusparametreja pienennetään, jotta mahdollistetaan yksityiskohtaisempi oppiminen Clustering methods self organising maps 16
Clustering methods self organising maps repeat for each gene repeat until convergence Pääkomponenttianalyysi Tunnetaan myös Karhunen-Loeve muunnoksena Lineaarinen projektiomenetelmä Tavoitteet: - Datan dimensionaalisuuden pinentäminen - Menettää projektiossa vähiten informaatiota - Datan tiivistäminen ja esittäminen (visualisointi) Pääkomponentit määritellään alkuperäisen datan maksimivarienssien suuntaan Ei välttämättä ollenkaan hyvä ryhmittelymenitelmä 17
PCA 18
19
20
Pattern Discovery Projects into a new space e.g. 2 dimensional or 3 dimensional Use linear combinations of variables/dimensions that retain a large component of the original variation. Gene B Gene A 21
Pattern Discovery The major source of variation may not be the variation of biological interest Gene B Gene A Pattern Discovery 22
Mikrosirujen data-analyysissä muistettava mikrosiru datassa useita varianssin lähteitä muun muassa näytteen valmistelu, koettimen valinta, hybridisointi yksittäisille siruille, signaalin mittaus => otettava huomioon koesuunnittelussa ja data-analyysissä mitataan mrna tasoa, joka riippuu myös transkription vauhdista ja mrna:n hajoamisesta mikrosirujen rajoituksia geeninsäätelyn tutkimiseen: translaatio, proteiinien kuljetus solussa, proteiinien laskostuminen aktiivisiksi käytetään mikrosirujen lisäksi proteomiikkaa yksittäisten proteniinien määrien ja modifikaatioiden tutkimiseen 2D elektroforeesi massaspektrometria Future Trends New data mining tools surfacing Probabilistic methods Bayesian approaches Bigger datasets becoming available Links between expression patterns and clusters and regulatory mechanisms and function Prediction of regulatory networks 23