DNA mikrosirutekniikka Monta nimeä: geenisiru, DNA mikrosiru, DNA siru, DNA lastu Mahdollistaa tutkia samanaikaisesti kymmenien tuhansien geenien ilmenemistasot solu- ja kudosnäytteissä Pystyy keräämään tietoa geenien toiminnasta koko genomin mittakaavassa Sovellusmahdollisuudet koskettavat lähes kaikkea biologista ja lääketieteellistä tutkimusta, lääkekehitystyötä ja diagnostiikka. Ei ole ollut kovin edullinen tekniikka, mutta kustannukset vähenevät kaiken aikaa Sirujen valmistus Sirut koostuvat mikroskooppilasille asetetuista tuhansista geenikoettimista Geenikoettimiin hybridisoidaan tutkimusnäytteen RNA:sta valmistettua komplementaarista DNA:ta (cdna) Sirujen valmistetaan eri tavoilla käyttäen lähtömateriaalina erilaisia DNA jaksoja tai klooneja. Yleensä sirut ostetaan hybridisaatiovalmiina Siruja ja niihin liittyviä reagensseja ja laitteita myyviä yrityksiä kymmeniä ONGELMA: Eri valmistajien siruilla saatuja tuloksia vaikea Oligonukleotidisirut Nykyisin suosittuja ns. oligonukleotideista (pituus 25-70 emästä) valmistetut sirut Oligonukleotidisirutekniikan kehitti Affymetrix yritys Palo Altossa Uusimmat Affymetrix sirut kattavat 33000 geeniä, jotka syntetisoitu kahdelle eri sirulle (jokaista geeniä edustaa noin 11-20 erillistä oligonukleotidiparia) Oligonukleotidien etu cdna klooneihin on se, että niillä on mahdollista tunnistaa yksittäinen geeni tai geenivariantti, jolloin pystytään tutkimaan esim. vaihtoehtoisen silmukoinnin ja polyadenylaation merkitystä. Oligonukleotidisirut toistaiseksi suhteellisen kalliita käyttää Oligonukleotidisirut Siruanalyysi Analyysi riippuu käytettävistä DNA siruista, näytteen leimauksesta ja lukijalaitteesta Tässä käsitellään mikroskooppilasille painettujen, cdna klooneista tai oligonukleotideista koostuvien sirujen analyysiä kahden merkkiaineen fluoresenssin avulla. Siruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. sairas ja terve kudos) 1. Testi- ja vertailunäytteestä eristetään lähetti-rna:t, jotka käännetään cdna:ksi (RNA:ta tarvitaan tyypillisesti 5-50 µg. 2. cdna leimataan kahdella fluoresoivalla väriaineella (esim. Cy3 ja Cy5) ja hybridisoidaan samanaikaisesti siruun 3. Onnistuneen hybridisaation jälkeen geenisiru luetaan laserpohjaisella mikroskoopilla -> saadaan kuvat sirun fluoresenssista kahdella eri aallonpituudella, jotka kuvaavat testi- ja vertailunäytteiden cdna jaksojen hybridisoitumista kussakin sirun testipisteessä. 1
Siruanalyysi Tavallisesti geenisirukuvat esitetään värillisinä: punainen testinäytteen fluoresenssi vihreä vertailunäytteen fluoresenssi RNA samples are fluorescently labeled to aid detection once bound to gene array + Green label + Red label Geenit, joiden ilmentyminen on lisääntynyt testinäytteessä, esiintyvät punaisina pisteinä Vastaavasti vihreän sävyisinä näkyvät geenit joita ilmentyy enempi vertailunäytteessä RNA sample 1 RNA sample 2 Geenit, joilla samanlainen ilmentymä sekä testi- että vertailunäytteissä, näkyvät keltaisina Slide RNA elements are bound by gene elements on the gene array Siruanalyysi Microarray experiment Potential Sources of Variation: Experimental Design Sample Handling Requirements Identical or comparable RNA Extraction RNA Quantity/Quality Labelling Array production Hybridisation Intensity-dependent bias Biological variation Matched Method Date randomised Comparable Matched Method Date Randomised Platform Matched Batch Matched Match Method Comparable time Comparable & Normalised Comparable or Matched Biological question Experimental design Platform Choice Sample Attributes Microarray experiment 16-bit TIFF Files Image analysis (Rspot, Rbkg), (Gspot, Gbkg) Normalization Data Mining Biological verification and interpretation Clustering Statistical Analysis Pattern Discovery Classification 2
Normalisointi Kuvankeräysvaiheen jälkeen sirujen fluoresenssitasot mitataan kussakin sirun testipisteessä Testipisteestä vähennetään taustafluoresenssi ja pisteen informaatio muutetaan lukuarvoksi. Testi- ja vertailunäytteen väliset intensiteettierot normalisoidaan ja kullekin geenille saadaan punaisen ja vihreän värin (kanavan) suhde Suhdeluku kertoo geenin ilmentymisen vilkkaudesta testinäytteessä suhteessa vertailunäytteeseen Yleensä tutkimuksessa analysoidaan kymmeniä näytteitä, joiden tuloksia verrataan vertailunäytteisiin -> Analyysin lähtökohtana suhdeluvut, jotka saatetaan yleensä samanarvoisiksi esim. keskiarvon tai hajonnan tai näiden molempien suhteen. Tilastollisen analyysin tekee haastavaksi ns. laiha data (suuri ulottuvuus, vähän näytteitä) Lineaarisuuden tarkastelu Lineaarisuuden tarkastelu Yleensä normalisoinnin kannalta hyödyllistä tarkastella onko saatu data lineaarista vaiko epälineaarista: Lineaarinen data: Epälineaarinen data: Signaalin intensiteetti ei vaikuta suhdelukuun Signaalin intensiteetti vaikuttaa suhdelukuun (esim. Cy3 ja Cy5 kanavien intensiteetit eivät käyttäydy lineaarisesti) Lineaarisuus nähdään esim. seuraavien mittojen scatter plottina (M ja A): M = log2(r/g) A = log2 (R*G), missä R ja G ovat fluoresenssi-intensiteettejä punaisella ja vihreällä kanavalla. Lineaarisuus: kontrollien avulla Siruanalyysissä käytetään usein ns. kontrolleja, joilla arvioidaan tulosten hyvyyttä Lineaarisuus saadaan seuraavalla ns. värinvaihdolla (dye swap) selville: Alkuperäinen data: testi merkataan Cy5:llä ja vertailu Cy3:lla Värinvaihto: Vaihdetaan testin ja vertailun väriä Nyt kun tarkastellaan suhdelukua X(Cy-5)/Y(Cy 5)/Y(Cy-3) = X(Cy-3)/Y(Cy 3)/Y(Cy-5) sen pitäisi lineaaritilanteessa olla vakio. Normalisoinnissa tämä suhdeluku yritetään saattaa samanarvoikseksi sirulta toiselle. Cy5 signal (log 2 ) Lineaarisuuden tarkastelu Cy3 signal (log 2 ) 3
Normalisointi: paikallinen vs. kattava Normalisointi voidaan tehdä joko paikallisesti tai kattavasti (=koko sirukuvalle kerrallaan). Kattava normalisointi tehdään esim. lineaarisella regressiolla Epälineaarinen normalisointi Paikallinen normalisointi tehdään yleensä ns. liukuvalla prosessointi-ikkunalla, jossa kullekin ikkunan keskipisteelle lasketaan uusi arvo ikkunan muiden pisteiden avulla (esim. mediaani, keskiarvo tms.) Suodattaminen Suodattamisella pyritään poistamaan epämääräinen, jatkoanalyysiä häiritsevä data. Mikrosirukuvissa on lähes aina eri syistä johtuvia virheitä : Liian matalia intensiteettiarvoja Liian korkeita intensiteettiarvoja Havaitun pisteen muoto epänormaali Kuvassa esiintyy ylimääräisiä (outlier) pisteitä jne.. Image analysis ESIM1: Tarkastellaan intensiteettihistogrammia ja pyritään määrittämään liian matalat ja korkeat intensiteettiarvot. ESIM2: Käytetään keinotekoista pistetemplaattia vertaamaan onko kuvassa pisteen muoto (pyöreä) halutunlainen. ESIM3: Outlier pisteet huomattavasti kapeampia kuin varsinaiset datapisteet. Image analysis 4
Keskiarvo ja hajonta Jatkoanalyysiä varten kullekin hyväksytylle pisteelle lasketaan intensiteettiarvojen keskiarvo ja varianssi pisteen alueella Image Analysis - Output Red Intensity R = (R spot R background ) Green Intensity G = (G spot G background ) Ratio = T = R G Log Ratio = log 2 (T) = log 2 R G Differential Expression Log Ratio Increased Expression 1 Equal Expression 0 Decreased Expression 1 Tilastollisia jatkoanalyysejä Ohjaamaton Ryhmittely Ohjattu Normalisoinnin ja suodattamisen jälkeen vuorossa varsinainen data-analyysi Erilaisia menetelmiä: Visualisointi: Pääkomponenttianalyysi (PCA), Itsejärjestyvä kartta, Monidimensionaalinen skaalaus (esim. Sammonin kuvaus), Ryhmittely: K-means, Itsejärjestyvä kartta, puuryhmittelijät, Luokittelu: mikä tahansa soveltuva luokittelija Jne Tilastollisen analyysin työkalu on valittava aina ongelmalähtöisesti: paras menetelmä annettuun tehtävään Clustering methods hierarchical clustering Clustering methods hierarchical clustering calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate averages of most similar calculate averages of most similar gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar Dendrogram 1 2 3 4 gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 5
K-means clustering Genes are initially divided into a user specified number (k) of equal-sized groups Centroids are calculated for each group as averages of the expression profiles Genes are reassigned to the group with the highest similarity between the expression profile for the gene and the group centroid Group centroids are then recalculated, and the process is iterated (=repeated) until the group compositions converge (=don t change any more) Clustering methods K-means assign random clusters calculate cluster centroids SOM I repeat until convergence cluster to closest centroid calculate cluster centroids cluster to closest centroid A rectangular (or other shape) grip of nodes (of userspecified size) is contructed in the space of gene expressions In a large number of iterations, data for each gene are successively examined, and node closets to that gene (in Euclidian distance of expression profile) in moved closer to that gene profile Other nodes within neighborhood distance are also moved closer. This maintains similarity in the SOM grid Clustering methods self organising maps SOM I By this process, the grid of nodes is stretched and wrapped to best represent the variability in the data, while still maintaining the similarity between adjacent grid nodes As the iteration proceeds, nodes are moved by smaller and smaller amount to produce convergence After the iteration, genes are assigned to the nearest grid node, and a display grid of gene expression graphs is shown corresponding to the final state of the grid 6
Clustering methods self organising maps Initial setup of SOM repeat for each gene repeat until convergence Consists a set of units i in a twodimension grid Each unit i is assigned a weight vector m i as the same dimension as the input data The initial weight vector is assigned random values Winner Selection Learning Process (Adaptation) Initially, pick up a random input vector x(t) Compute the unit c with the highest activity level (the winner c(t)) by Euclidean distance formula Guide the adaptation by a learning-rate α (tune weight vectors from the random initialization value towards the actual input space) Decrease neighborhood around the winner towards the currently presented input pattern (map input onto regions close to each other in the grid of output pattern, viewed as a neural network version of k-means clustering) Learning Process (Adaptation) Neighborhood Strategy Neighborhood-kernel h ci A guassian is used to define neighborhood-kernel r c -r i 2 denotes the distance between the winner node c and input vector i A time-varying parameter δ enable formation of large clusters in the beginning and fine-grained input discrimination towards the end of the learning process 7
Pääkomponenttianalyysi PCA Tunnetaan myös Karhunen-Loeve muunnoksena Lineaarinen projektiomenetelmä Tavoitteet: - Datan dimensionaalisuuden pinentäminen - Menettää projektiossa vähiten informaatiota - Datan tiivistäminen ja esittäminen (visualisointi) Pääkomponentit määritellään alkuperäisen datan maksimivarienssien suuntaan Ei välttämättä ollenkaan hyvä ryhmittelymenitelmä 8
Pattern Discovery Pattern Discovery Projects into a new space e.g. 2 dimensional or 3 dimensional The major source of variation may not be the variation of biological interest Use linear combinations of variables/dimensions that retain a large component of the original variation. Gene B Gene B Gene A Gene A Pattern Discovery Future Trends New data mining tools surfacing Probabilistic methods Bayesian approaches Bigger datasets becoming available Links between expression patterns and clusters and regulatory mechanisms and function Prediction of regulatory networks 9