DNA mikrosirutekniikka. Oligonukleotidisirut. Sirujen valmistus. Siruanalyysi. Oligonukleotidisirut



Samankaltaiset tiedostot
Mikrosirut ja niiden data-analyysi

7.4 Variability management

The CCR Model and Production Correspondence

Bounds on non-surjective cellular automata

Use of spatial data in the new production environment and in a data warehouse

Capacity Utilization

Alternative DEA Models

Laskennallisesti Älykkäät Järjestelmät. Sumean kmeans ja kmeans algoritmien vertailu

Other approaches to restrict multipliers

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Chapter 7. Motif finding (week 11) Chapter 8. Sequence binning (week 11)

Gap-filling methods for CH 4 data

Harha mallin arvioinnissa

Geeniekspressio: Mikrosirut. Geneettinen bioinformatiikka

Efficiency change over time

Esimerkkitehtäviä, A-osa

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

LYTH-CONS CONSISTENCY TRANSMITTER

16. Allocation Models

SIMULINK S-funktiot. SIMULINK S-funktiot

TM ETRS-TM35FIN-ETRS89 WTG

HARJOITUS- PAKETTI A

Statistical design. Tuomas Selander

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Plasmid Name: pmm290. Aliases: none known. Length: bp. Constructed by: Mike Moser/Cristina Swanson. Last updated: 17 August 2009

Metsälamminkankaan tuulivoimapuiston osayleiskaava

I. Principles of Pointer Year Analysis

TM ETRS-TM35FIN-ETRS89 WTG

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

KMTK lentoestetyöpaja - Osa 2

TM ETRS-TM35FIN-ETRS89 WTG

T Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen BLL Biokemia ja kehitysbiologia

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

Kvanttilaskenta - 1. tehtävät

MALE ADULT FIBROBLAST LINE (82-6hTERT)

Tietorakenteet ja algoritmit

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

TM ETRS-TM35FIN-ETRS89 WTG

S Sähkön jakelu ja markkinat S Electricity Distribution and Markets

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Smart specialisation for regions and international collaboration Smart Pilots Seminar

812336A C++ -kielen perusteet,

Tavaroiden ulkomaankauppatilastojen tulkinnan haasteet Timo Koskimäki

Missing data may bias your conclusions. Juha Karvanen Department of Mathematics and Statistics University of Jyväskylä

NAO- ja ENO-osaamisohjelmien loppuunsaattaminen ajatuksia ja visioita

( ,5 1 1,5 2 km

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

TUTKIMUSOPAS. SPSS-opas

TM ETRS-TM35FIN-ETRS89 WTG

Operatioanalyysi 2011, Harjoitus 2, viikko 38

Teknillinen tiedekunta, matematiikan jaos Numeeriset menetelmät

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

,0 Yes ,0 120, ,8

21~--~--~r--1~~--~--~~r--1~

FETAL FIBROBLASTS, PASSAGE 10

ELEMET- MOCASTRO. Effect of grain size on A 3 temperatures in C-Mn and low alloyed steels - Gleeble tests and predictions. Period

Rekisteröiminen - FAQ

KAVERI. Kaupan sijaintidynamikkaa tarkasteleva simulaatiomalli

Lataa Cognitive Function in Opioid Substitution Treated Patiens - Pekka Rapeli. Lataa

EKOSYSTEEMIPALVELUIDEN KARTOITTAMINEN EUROOPASSA: esimerkkinä ruuan tuotanto ja kysyntä

Bioinformatics in Laboratory of Computer and Information Science

Inferring Trichoderma reesei gene regulatory network

Tree map system in harvester

C++11 seminaari, kevät Johannes Koskinen

Supplementary information: Biocatalysis on the surface of Escherichia coli: melanin pigmentation of the cell. exterior

Results on the new polydrug use questions in the Finnish TDI data

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

2_1----~--~r--1.~--~--~--,.~~

EUROOPAN PARLAMENTTI

Ryhmät & uudet mahdollisuudet

( N117 x HH141 ( Honkajoki N117 x 9 x HH120 tv-alueet ( ( ( ( ( ( ( ( ( ( m. Honkajoki & Kankaanpää tuulivoimahankkeet

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

Geenisirutekniikka ja siihen liittyvä bioinformatiikka. Outi Monni, Sampsa Hautaniemi ja Olli Kallioniemi

Rakennukset Varjostus "real case" h/a 0,5 1,5

PRIMARY HPV TESTING IN ORGANIZED CERVICAL CANCER SCREENING

Choose Finland-Helsinki Valitse Finland-Helsinki

7. Product-line architectures

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

TM ETRS-TM35FIN-ETRS89 WTG

Metsien vertailutason määrittäminen taustat ja tilanne

Ajettavat luokat: SM: S1 (25 aika-ajon nopeinta)

Curriculum. Gym card

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

T : Max-flow / min-cut -ongelmat

Basic Optimization Methods

I. AES Rijndael. Rijndael - Internal Structure

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Stormwater filtration unit

Transkriptio:

DNA mikrosirutekniikka Monta nimeä: geenisiru, DNA mikrosiru, DNA siru, DNA lastu Mahdollistaa tutkia samanaikaisesti kymmenien tuhansien geenien ilmenemistasot solu- ja kudosnäytteissä Pystyy keräämään tietoa geenien toiminnasta koko genomin mittakaavassa Sovellusmahdollisuudet koskettavat lähes kaikkea biologista ja lääketieteellistä tutkimusta, lääkekehitystyötä ja diagnostiikka. Ei ole ollut kovin edullinen tekniikka, mutta kustannukset vähenevät kaiken aikaa Sirujen valmistus Sirut koostuvat mikroskooppilasille asetetuista tuhansista geenikoettimista Geenikoettimiin hybridisoidaan tutkimusnäytteen RNA:sta valmistettua komplementaarista DNA:ta (cdna) Sirujen valmistetaan eri tavoilla käyttäen lähtömateriaalina erilaisia DNA jaksoja tai klooneja. Yleensä sirut ostetaan hybridisaatiovalmiina Siruja ja niihin liittyviä reagensseja ja laitteita myyviä yrityksiä kymmeniä ONGELMA: Eri valmistajien siruilla saatuja tuloksia vaikea Oligonukleotidisirut Nykyisin suosittuja ns. oligonukleotideista (pituus 25-70 emästä) valmistetut sirut Oligonukleotidisirutekniikan kehitti Affymetrix yritys Palo Altossa Uusimmat Affymetrix sirut kattavat 33000 geeniä, jotka syntetisoitu kahdelle eri sirulle (jokaista geeniä edustaa noin 11-20 erillistä oligonukleotidiparia) Oligonukleotidien etu cdna klooneihin on se, että niillä on mahdollista tunnistaa yksittäinen geeni tai geenivariantti, jolloin pystytään tutkimaan esim. vaihtoehtoisen silmukoinnin ja polyadenylaation merkitystä. Oligonukleotidisirut toistaiseksi suhteellisen kalliita käyttää Oligonukleotidisirut Siruanalyysi Analyysi riippuu käytettävistä DNA siruista, näytteen leimauksesta ja lukijalaitteesta Tässä käsitellään mikroskooppilasille painettujen, cdna klooneista tai oligonukleotideista koostuvien sirujen analyysiä kahden merkkiaineen fluoresenssin avulla. Siruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. sairas ja terve kudos) 1. Testi- ja vertailunäytteestä eristetään lähetti-rna:t, jotka käännetään cdna:ksi (RNA:ta tarvitaan tyypillisesti 5-50 µg. 2. cdna leimataan kahdella fluoresoivalla väriaineella (esim. Cy3 ja Cy5) ja hybridisoidaan samanaikaisesti siruun 3. Onnistuneen hybridisaation jälkeen geenisiru luetaan laserpohjaisella mikroskoopilla -> saadaan kuvat sirun fluoresenssista kahdella eri aallonpituudella, jotka kuvaavat testi- ja vertailunäytteiden cdna jaksojen hybridisoitumista kussakin sirun testipisteessä. 1

Siruanalyysi Tavallisesti geenisirukuvat esitetään värillisinä: punainen testinäytteen fluoresenssi vihreä vertailunäytteen fluoresenssi RNA samples are fluorescently labeled to aid detection once bound to gene array + Green label + Red label Geenit, joiden ilmentyminen on lisääntynyt testinäytteessä, esiintyvät punaisina pisteinä Vastaavasti vihreän sävyisinä näkyvät geenit joita ilmentyy enempi vertailunäytteessä RNA sample 1 RNA sample 2 Geenit, joilla samanlainen ilmentymä sekä testi- että vertailunäytteissä, näkyvät keltaisina Slide RNA elements are bound by gene elements on the gene array Siruanalyysi Microarray experiment Potential Sources of Variation: Experimental Design Sample Handling Requirements Identical or comparable RNA Extraction RNA Quantity/Quality Labelling Array production Hybridisation Intensity-dependent bias Biological variation Matched Method Date randomised Comparable Matched Method Date Randomised Platform Matched Batch Matched Match Method Comparable time Comparable & Normalised Comparable or Matched Biological question Experimental design Platform Choice Sample Attributes Microarray experiment 16-bit TIFF Files Image analysis (Rspot, Rbkg), (Gspot, Gbkg) Normalization Data Mining Biological verification and interpretation Clustering Statistical Analysis Pattern Discovery Classification 2

Normalisointi Kuvankeräysvaiheen jälkeen sirujen fluoresenssitasot mitataan kussakin sirun testipisteessä Testipisteestä vähennetään taustafluoresenssi ja pisteen informaatio muutetaan lukuarvoksi. Testi- ja vertailunäytteen väliset intensiteettierot normalisoidaan ja kullekin geenille saadaan punaisen ja vihreän värin (kanavan) suhde Suhdeluku kertoo geenin ilmentymisen vilkkaudesta testinäytteessä suhteessa vertailunäytteeseen Yleensä tutkimuksessa analysoidaan kymmeniä näytteitä, joiden tuloksia verrataan vertailunäytteisiin -> Analyysin lähtökohtana suhdeluvut, jotka saatetaan yleensä samanarvoisiksi esim. keskiarvon tai hajonnan tai näiden molempien suhteen. Tilastollisen analyysin tekee haastavaksi ns. laiha data (suuri ulottuvuus, vähän näytteitä) Lineaarisuuden tarkastelu Lineaarisuuden tarkastelu Yleensä normalisoinnin kannalta hyödyllistä tarkastella onko saatu data lineaarista vaiko epälineaarista: Lineaarinen data: Epälineaarinen data: Signaalin intensiteetti ei vaikuta suhdelukuun Signaalin intensiteetti vaikuttaa suhdelukuun (esim. Cy3 ja Cy5 kanavien intensiteetit eivät käyttäydy lineaarisesti) Lineaarisuus nähdään esim. seuraavien mittojen scatter plottina (M ja A): M = log2(r/g) A = log2 (R*G), missä R ja G ovat fluoresenssi-intensiteettejä punaisella ja vihreällä kanavalla. Lineaarisuus: kontrollien avulla Siruanalyysissä käytetään usein ns. kontrolleja, joilla arvioidaan tulosten hyvyyttä Lineaarisuus saadaan seuraavalla ns. värinvaihdolla (dye swap) selville: Alkuperäinen data: testi merkataan Cy5:llä ja vertailu Cy3:lla Värinvaihto: Vaihdetaan testin ja vertailun väriä Nyt kun tarkastellaan suhdelukua X(Cy-5)/Y(Cy 5)/Y(Cy-3) = X(Cy-3)/Y(Cy 3)/Y(Cy-5) sen pitäisi lineaaritilanteessa olla vakio. Normalisoinnissa tämä suhdeluku yritetään saattaa samanarvoikseksi sirulta toiselle. Cy5 signal (log 2 ) Lineaarisuuden tarkastelu Cy3 signal (log 2 ) 3

Normalisointi: paikallinen vs. kattava Normalisointi voidaan tehdä joko paikallisesti tai kattavasti (=koko sirukuvalle kerrallaan). Kattava normalisointi tehdään esim. lineaarisella regressiolla Epälineaarinen normalisointi Paikallinen normalisointi tehdään yleensä ns. liukuvalla prosessointi-ikkunalla, jossa kullekin ikkunan keskipisteelle lasketaan uusi arvo ikkunan muiden pisteiden avulla (esim. mediaani, keskiarvo tms.) Suodattaminen Suodattamisella pyritään poistamaan epämääräinen, jatkoanalyysiä häiritsevä data. Mikrosirukuvissa on lähes aina eri syistä johtuvia virheitä : Liian matalia intensiteettiarvoja Liian korkeita intensiteettiarvoja Havaitun pisteen muoto epänormaali Kuvassa esiintyy ylimääräisiä (outlier) pisteitä jne.. Image analysis ESIM1: Tarkastellaan intensiteettihistogrammia ja pyritään määrittämään liian matalat ja korkeat intensiteettiarvot. ESIM2: Käytetään keinotekoista pistetemplaattia vertaamaan onko kuvassa pisteen muoto (pyöreä) halutunlainen. ESIM3: Outlier pisteet huomattavasti kapeampia kuin varsinaiset datapisteet. Image analysis 4

Keskiarvo ja hajonta Jatkoanalyysiä varten kullekin hyväksytylle pisteelle lasketaan intensiteettiarvojen keskiarvo ja varianssi pisteen alueella Image Analysis - Output Red Intensity R = (R spot R background ) Green Intensity G = (G spot G background ) Ratio = T = R G Log Ratio = log 2 (T) = log 2 R G Differential Expression Log Ratio Increased Expression 1 Equal Expression 0 Decreased Expression 1 Tilastollisia jatkoanalyysejä Ohjaamaton Ryhmittely Ohjattu Normalisoinnin ja suodattamisen jälkeen vuorossa varsinainen data-analyysi Erilaisia menetelmiä: Visualisointi: Pääkomponenttianalyysi (PCA), Itsejärjestyvä kartta, Monidimensionaalinen skaalaus (esim. Sammonin kuvaus), Ryhmittely: K-means, Itsejärjestyvä kartta, puuryhmittelijät, Luokittelu: mikä tahansa soveltuva luokittelija Jne Tilastollisen analyysin työkalu on valittava aina ongelmalähtöisesti: paras menetelmä annettuun tehtävään Clustering methods hierarchical clustering Clustering methods hierarchical clustering calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate averages of most similar calculate averages of most similar gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar Dendrogram 1 2 3 4 gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 5

K-means clustering Genes are initially divided into a user specified number (k) of equal-sized groups Centroids are calculated for each group as averages of the expression profiles Genes are reassigned to the group with the highest similarity between the expression profile for the gene and the group centroid Group centroids are then recalculated, and the process is iterated (=repeated) until the group compositions converge (=don t change any more) Clustering methods K-means assign random clusters calculate cluster centroids SOM I repeat until convergence cluster to closest centroid calculate cluster centroids cluster to closest centroid A rectangular (or other shape) grip of nodes (of userspecified size) is contructed in the space of gene expressions In a large number of iterations, data for each gene are successively examined, and node closets to that gene (in Euclidian distance of expression profile) in moved closer to that gene profile Other nodes within neighborhood distance are also moved closer. This maintains similarity in the SOM grid Clustering methods self organising maps SOM I By this process, the grid of nodes is stretched and wrapped to best represent the variability in the data, while still maintaining the similarity between adjacent grid nodes As the iteration proceeds, nodes are moved by smaller and smaller amount to produce convergence After the iteration, genes are assigned to the nearest grid node, and a display grid of gene expression graphs is shown corresponding to the final state of the grid 6

Clustering methods self organising maps Initial setup of SOM repeat for each gene repeat until convergence Consists a set of units i in a twodimension grid Each unit i is assigned a weight vector m i as the same dimension as the input data The initial weight vector is assigned random values Winner Selection Learning Process (Adaptation) Initially, pick up a random input vector x(t) Compute the unit c with the highest activity level (the winner c(t)) by Euclidean distance formula Guide the adaptation by a learning-rate α (tune weight vectors from the random initialization value towards the actual input space) Decrease neighborhood around the winner towards the currently presented input pattern (map input onto regions close to each other in the grid of output pattern, viewed as a neural network version of k-means clustering) Learning Process (Adaptation) Neighborhood Strategy Neighborhood-kernel h ci A guassian is used to define neighborhood-kernel r c -r i 2 denotes the distance between the winner node c and input vector i A time-varying parameter δ enable formation of large clusters in the beginning and fine-grained input discrimination towards the end of the learning process 7

Pääkomponenttianalyysi PCA Tunnetaan myös Karhunen-Loeve muunnoksena Lineaarinen projektiomenetelmä Tavoitteet: - Datan dimensionaalisuuden pinentäminen - Menettää projektiossa vähiten informaatiota - Datan tiivistäminen ja esittäminen (visualisointi) Pääkomponentit määritellään alkuperäisen datan maksimivarienssien suuntaan Ei välttämättä ollenkaan hyvä ryhmittelymenitelmä 8

Pattern Discovery Pattern Discovery Projects into a new space e.g. 2 dimensional or 3 dimensional The major source of variation may not be the variation of biological interest Use linear combinations of variables/dimensions that retain a large component of the original variation. Gene B Gene B Gene A Gene A Pattern Discovery Future Trends New data mining tools surfacing Probabilistic methods Bayesian approaches Bigger datasets becoming available Links between expression patterns and clusters and regulatory mechanisms and function Prediction of regulatory networks 9