Mikrosirut ja niiden data-analyysi



Samankaltaiset tiedostot
DNA mikrosirutekniikka. Oligonukleotidisirut. Sirujen valmistus. Siruanalyysi. Oligonukleotidisirut

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Geeniekspressio: Mikrosirut. Geneettinen bioinformatiikka

Bioteknologian perustyökaluja

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

T Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa

Harha mallin arvioinnissa

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Biopankit miksi ja millä ehdoilla?

T DATASTA TIETOON

Bioteknologian tutkinto-ohjelma Valintakoe Tehtävä 3 Pisteet / 30

Datanäytteiden piirteiden skaalaus/normalisointi (1)

DNA RNA proteiinit transkriptio prosessointi translaatio regulaatio

Hiirten ja rottien sydännäytteistä tuotetun mikrosirudatan analysointi

Inferring Trichoderma reesei gene regulatory network

805306A Johdatus monimuuttujamenetelmiin, 5 op

Ongelma(t): Miten digitaalista tietoa voidaan toisintaa ja visualisoida? Miten monimutkaista tietoa voidaan toisintaa ja visualisoida?

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.

Ekologiset ympäristöongelmat. 10. Geeniteknologia. BI5 II Geeniteknologia 4. Geenitekniikan perusmenetelmiä

Geenisirutekniikka ja siihen liittyvä bioinformatiikka. Outi Monni, Sampsa Hautaniemi ja Olli Kallioniemi

Kognitiivinen mallintaminen. Nelli Salminen

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

GMO analytiikka Annikki Welling Kemian tutkimusyksikkö Evira

805306A Johdatus monimuuttujamenetelmiin, 5 op

Genomi-ilmentyminen Genom expression (uttryckning) Nina Peitsaro, yliopistonlehtori, Medicum, Biokemia ja Kehitysbiologia

Laskennallinen data-analyysi II

DNA:n informaation kulku, koostumus

Paretoratkaisujen visualisointi

Chapter 7. Motif finding (week 11) Chapter 8. Sequence binning (week 11)

Ohjaamaton oppiminen. Marko Salmenkivi. Johdatus koneoppimiseen, syksy 2008

Peptidi ---- F K V R H A ---- A. Siirtäjä-RNA:n (trna:n) (3 ) AAG UUC CAC GCA GUG CGU (5 ) antikodonit

Kognitiivinen mallintaminen Neuraalimallinnus, luento 1

epiteeli endodermi Nisäkkään hampaan kehitys nisäkkään alkio:

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

10. lokakuuta 2011 Basics of Multivariate Methods 2011 Laskuharjoitus 4: Itseorganisoituva kartta (SOM) ja Sammon-kartta

7. Normaalijakauma ja standardipisteet

PCR - tekniikka elintarvikeanalytiikassa

Kehitysbiologiassa käytetään lukuisia viekkaita kuvantamismenetelmiä

805306A Johdatus monimuuttujamenetelmiin, 5 op

måndag 10 februari 14 Jaana Ohtonen Kielikoulu/Språkskolan Haparanda

Bioinformatics in Laboratory of Computer and Information Science

Simulointi. Varianssinhallintaa Esimerkki

Leo Lahti Vertaileva toiminnallinen genomianalyysi assosiatiivisella ryhmittelymenetelmällä

GEENITEKNIIKAN PERUSASIOITA

Johdatus tekoälyn taustalla olevaan matematiikkaan

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun

Successive approximation AD-muunnin

Kvantitatiivisen PCR:n käyttö mikrobivaurion toteamisessa

Synteettinen biologia Suomessa: Virukset synteettisen biologian työkaluina

1. Tilastollinen malli??

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Trichoderma reesein geenisäätelyverkoston ennustaminen Oskari Vinko

Oligonukleotidi-lääkevalmisteet ja niiden turvallisuuden tutkiminen - Sic!

Signaalien generointi

VIIKKI BIOCENTER University of Helsinki

Sovellusohjelmointi Matlab-ympäristössä: Vertaisverkon koneiden klusterointi

805306A Johdatus monimuuttujamenetelmiin, 5 op

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Datatähti 2019 loppu

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

pitkittäisaineistoissa

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

7.4 Variability management

ALGORITMIT & OPPIMINEN

naaraat < read.table(' head=t, sep=',')

Genomin ilmentyminen Liisa Kauppi, Genomibiologian tutkimusohjelma

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Sisältö. Työn lähtökohta ja tavoitteet Lyhyt kertaus prosessista Käytetyt menetelmät Työn kulku Tulokset Ongelmat ja jatkokehitys

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Potilasopas. 12 Mitä Genetiikan Laboratoriossa Tapahtuu?

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Tieteen ja tutkimusalan opintoihin hyväksyttävät opintojaksot ovat (taulukossa A= aineopinnot, S=syventävät opinnot, J = jatko-opinnot):

VASTAUS 1: Yhdistä oikein

DNA > RNA > Proteiinit

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Laskennallinen data-analyysi II

10. Esitys ja kuvaus

Yhtäläisyydet selkärankaisten aivoissa, osa II. Niko Lankinen

Diskriminanttianalyysi I

Tilastotieteen aihehakemisto

Geenitekniikan perusmenetelmät

Kuvaajien piirtäminen OriginPro9-ohjelmalla

Esimerkkitehtäviä, A-osa

Vastaa lyhyesti selkeällä käsialalla. Vain vastausruudun sisällä olevat tekstit, kuvat jne huomioidaan

Geeniekspressioiden klusterointi

Laskuharjoitus 9, tehtävä 6

Tilastotiede ottaa aivoon

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Paretoratkaisujen visualisointi. Optimointiopin seminaari / Kevät 2000 Esitelmä 11 Petteri Kekäläinen 45305L

ME-C2400 Vuorovaikutustekniikan studio

R intensiivisesti. Erkki Räsänen Ecitec Oy

JOHDATUS TEKOÄLYYN TEEMU ROOS

Ajalliset muunnokset eksploratiivisen paikkatietoanalyysin työkaluna. Salla Multimäki ProGIS Ry Paikkatietomarkkinat

S Laskennallinen systeemibiologia

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Transkriptio:

Mikrosirut ja niiden data-analyysi S-114.2510 Laskennallinen systeemibiologia 11. Luento: To 24.4.2008 Oppimistavoitteet Mikä on mikrosiru ja miten niitä tehdään Millaisia mikrosiruja on olemassa Kuinka mikrosiruista saatua dataa tarvittaessa normalisoidaan Kuinka geenejä klusteroidaan ja ryhmitellään erilaisilla menetelmillä 1

Motivointi Lähes kaikissa soluissa samat geenit Solujen ja kudosten erilaisuus johtuu geenien ilmentymisestä (ekspressiosta) eri tavalla eri soluissa ja kudoksissa ilmentymiseen vaikuttaa muun muassa: solusykli, kehitysvaihe, ympäristö, lämpötila, hormonit, sairaudet Geenijoukko, jonka ekspressio muuttuu samoissa olosuhteissa, jakaa todennäköisesti saman biologisen funktion tai säätelymekanismin DNA mikrosirutekniikka Mikrosirut mahdollistavat tuhansien geenien ekspressiotasojen samanaikaisen tarkkailun jokaisella geenillä oma paikkansa sirulla Siruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. sairas ja terve kudos) Sovellusmahdollisuudet koskettavat lähes kaikkea biologista ja lääketieteellistä tutkimusta, lääkekehitystyötä ja diagnostiikka. 2

Erilaisia mikrosiruja 2 yleisintä sirujen valmistustekniikkaa geenien ekspression tarkkailuun: cdna oligonukleotidisirut muita siruja: SNP: sekvenssin variaation tarkkailuun ChIP-on-chip: proteeinin ja DNA:n interaktioiden tutkimiseen 3

cdna sirujen valmistus Siruilla verrataan tavallisesti kahta tai useampaa näytettä (esim. sairas ja terve kudos) 1. Testi- ja vertailunäytteestä eristetään lähetti-rna:t, jotka käännetään cdna:ksi (RNA:ta tarvitaan tyypillisesti 5-50 µg). 2. cdna leimataan kahdella fluoresoivalla väriaineella (esim. Cy3 ja Cy5) ja hybridisoidaan samanaikaisesti siruun 3. Hybridisaation jälkeen geenisiru luetaan laserpohjaisella mikroskoopilla =>saadaan kuvat sirun fluoresenssista kahdella eri aallonpituudella, jotka kuvaavat testi- ja vertailunäytteiden cdna jaksojen hybridisoitumista kussakin sirun testipisteessä. Oligonukleotidisirut Nykyisin suosittuja ns. oligonukleotideista (tyypillinen pituus 25-70 emästä) valmistetut sirut Oligonukleotidi on lyhyt, synteettinen DNA-molekyyli, joka koostuu maksimissaan noin 150 nukleotidista. Oligonukleotideja kutsutaan myös oligoiksi, alukkeiksi, koettimiksi, primereiksi tai probeiksi. Sirut koostuvat mikroskooppilasille asetetuista tuhansista geenikoettimista Geenikoettimiin hybridisoidaan tutkimusnäytteen RNA:sta valmistettua komplementaarista DNA:ta (cdna), joka on leimattu biotiinillä Tarvitaan kaksi eri sirua testi- ja vertailunäytteelle Oligonukleotidisirutekniikan kehitti Affymetrix yritys Palo Altossa Uusimmat Affymetrix sirut kattavat 33000 geeniä, jotka syntetisoitu kahdelle eri sirulle (jokaista geeniä edustaa noin 11-20 erillistä oligonukleotidiparia) Oligonukleotidien etu cdna klooneihin on se, että niillä on mahdollista tunnistaa yksittäinen geeni tai geenivariantti, jolloin pystytään tutkimaan esim. vaihtoehtoisen silmukoinnin merkitystä. 4

Oligonukleotidisirut Siruanalyysi 5

Biological question Experimental design Platform Choice Sample Attributes Microarray experiment 16-bit TIFF Files Image analysis (Rspot, Rbkg), (Gspot, Gbkg) Normalization Data Mining Clustering Statistical Analysis Pattern Discovery Classification Biological verification and interpretation Kuva-analyysi Kuvankeräysvaiheen jälkeen sirujen fluoresenssitasot mitataan kussakin sirun testipisteessä Testipisteestä vähennetään taustafluoresenssi ja pisteen informaatio muutetaan lukuarvoksi. Testi- ja vertailunäytteen väliset intensiteettierot normalisoidaan ja kullekin geenille saadaan punaisen ja vihreän värin (kanavan) suhde Taustan erottaminen joskus iso ongelma, esim alla: 6

Image analysis 7

Kanavien suhde Punaisen ja vihreän värin (kanavan) suhde kertoo geenin ilmentymisen vilkkaudesta testinäytteessä suhteessa vertailunäytteeseen Yleensä tutkimuksessa analysoidaan kymmeniä näytteitä, joiden tuloksia verrataan vertailunäytteisiin -> Analyysin lähtökohtana suhdeluvut, jotka saatetaan yleensä samanarvoisiksi esim. keskiarvon tai hajonnan tai näiden molempien suhteen. Tilastollisen analyysin tekee haastavaksi ns. laiha data (suuri ulottuvuus, vähän näytteitä) Image Analysis - Output Red Intensity R= (R spot R background ) Green Intensity G= (G spot G background ) Ratio = T = R G Log Ratio = log 2 (T) = log 2 R G Differential Expression Increased Expression Equal Expression Decreased Expression Log Ratio 1 0 1 8

Lineaarisuuden tarkastelu Yleensä normalisoinnin kannalta hyödyllistä tarkastella onko saatu data lineaarista vaiko epälineaarista: Lineaarinen data: Epälineaarinen data: Signaalin intensiteetti ei vaikuta suhdelukuun Signaalin intensiteetti vaikuttaa suhdelukuun (esim. Cy3 ja Cy5 kanavien intensiteetit eivät käyttäydy lineaarisesti) Lineaarisuus nähdään esim. seuraavien mittojen scatter plottina (M ja A): M = log2(r/g) A = log2 (R*G), missä R ja G ovat fluoresenssi-intensiteettejä punaisella ja vihreällä kanavalla. Normalisointi M M 0 A A 9

Lineaarisuus: kontrollien avulla Siruanalyysissä käytetään usein ns. kontrolleja, joilla arvioidaan tulosten hyvyyttä Lineaarisuus saadaan seuraavalla ns. värinvaihdolla (dye swap) selville: Alkuperäinen data: testi merkataan Cy5:llä ja vertailu Cy3:lla Värinvaihto: Vaihdetaan testin ja vertailun väriä Nyt kun tarkastellaan suhdelukua X(Cy-5)/Y(Cy 5)/Y(Cy-3) = X(Cy-3)/Y(Cy 3)/Y(Cy-5) sen pitäisi lineaaritilanteessa olla vakio. Normalisoinnissa tämä suhdeluku yritetään saattaa samanarvoiseksi sirulta toiselle. Normalisointi: paikallinen vs. kattava Normalisointi voidaan tehdä joko paikallisesti tai kattavasti (=koko sirukuvalle kerrallaan). Kattava normalisointi tehdään esim. lineaarisella regressiolla Paikallinen normalisointi tehdään yleensä ns. liukuvalla prosessointi-ikkunalla, jossa kullekin ikkunan keskipisteelle lasketaan uusi arvo ikkunan muiden pisteiden avulla (esim. mediaani, keskiarvo tms.) 10

Suodattaminen Suodattamisella pyritään poistamaan epämääräinen, jatkoanalyysiä häiritsevä data. Mikrosirukuvissa on lähes aina eri syistä johtuvia virheitä : Liian matalia intensiteettiarvoja Liian korkeita intensiteettiarvoja Havaitun pisteen muoto epänormaali Kuvassa esiintyy ylimääräisiä (outlier) pisteitä jne.. ESIM1: Tarkastellaan intensiteettihistogrammia ja pyritään määrittämään liian matalat ja korkeat intensiteettiarvot. ESIM2: Käytetään keinotekoista pistetemplaattia vertaamaan onko kuvassa pisteen muoto (pyöreä) halutunlainen. ESIM3: Outlier pisteet huomattavasti kapeampia kuin varsinaiset datapisteet. Tilastollisia jatkoanalyysejä Normalisoinnin ja suodattamisen jälkeen vuorossa varsinainen data-analyysi Erilaisia menetelmiä: Visualisointi: Pääkomponenttianalyysi (PCA), Itsejärjestyvä kartta, Monidimensionaalinen skaalaus (esim. Sammonin kuvaus), Ryhmittely: K-means, Itsejärjestyvä kartta, puuryhmittelijät, Luokittelu: mikä tahansa soveltuva luokittelija Jne Tilastollisen analyysin työkalu on valittava aina ongelmalähtöisesti: paras menetelmä annettuun tehtävään 11

Ohjaamaton Ryhmittely Ohjattu Clustering methods hierarchical clustering calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate averages of most similar gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 12

Clustering methods hierarchical clustering calculate distance matrix gene 1 gene 2 gene 3 gene 4 gene 1 0 gene 2 2 0 gene 3 8 7 0 gene 4 10 12 4 0 calculate averages of most similar Dendrogram 1 2 3 4 gene 1,2 gene 3 gene 4 gene 1,2 0 gene 3 7.5 0 gene 4 11 4 0 calculate averages of most similar gene 1,2 gene 3,4 gene 1,2 0 gene 3,4 9.25 0 BRAF WT BRAF MUT 13

K-means klusterointi Alussa geenit jaetaan satunnaisesti k:hon samankokoiseen ryhmään Lasketaan ryhmien keskipisteet Geenit asetellaan ryhmiin uudestaan siten, että geenin uusi ryhmä on lähimmän keskipisteen ryhmä Lasketaan uusien ryhmien keskipisteet Prosessia iteroidaan (jatketaan), kunnes ryhmien kokoonpano konvergoituu (ei enää muutu) Clustering methods K-means assign random clusters calculate cluster centroids repeat until convergence cluster to closest centroid cluster to closest centroid calculate cluster centroids 14

SOM Itseorganisoiva kartta (Self-organizing map) Suosittu neuroverkko- ja vektorikvantisointi menetelmä, joka perustuu ohjaamattomaan oppimiseen Taipumus säilyttää topologia => tehokas moniulotteisen datan visualisointikeino SOM:n rakenne: Koostuu useista elementeistä (units) yleensä 2D-ruudukolla Jokaisella unitilla on prototyyppivektori m, jota päivitetään opetuksen aikana Iteratiivinen: SOM:n opetus 1. Verrataan yhtä näytevektoria x kerrallaan kaikkiin prototyyppivektoreihin m 2. Etsitään lähintä prototyyppivektoria vastaava unit (best matching unit, bmu) 3. Siirretään bmu:ta ja sen lähimpiä topologisia naapureita naapurusfunktion mukaan kohti näytevektoria m i (t+1) = m i (t) + a(t) h ci (r(t)) [x(t) - m i (t)], naapurusfunktio voi olla esim. gaussinen r c -r i 2 tarkoittaa etäisyyttä bmu:n ja protyyppivektori i:n välillä 15

SOM:n opetus Opetus tyypillisesti kahdessa vaiheessa: 1. Alussa muodostetaan karkeasti oikea kartta naapuruston vaikutus oltava laaja, jotta ei pääsisi syntymään topologisia virheitä 2. Lopussa kartan konvergoituminen opetusparametreja pienennetään, jotta mahdollistetaan yksityiskohtaisempi oppiminen Clustering methods self organising maps 16

Clustering methods self organising maps repeat for each gene repeat until convergence Pääkomponenttianalyysi Tunnetaan myös Karhunen-Loeve muunnoksena Lineaarinen projektiomenetelmä Tavoitteet: - Datan dimensionaalisuuden pinentäminen - Menettää projektiossa vähiten informaatiota - Datan tiivistäminen ja esittäminen (visualisointi) Pääkomponentit määritellään alkuperäisen datan maksimivarienssien suuntaan Ei välttämättä ollenkaan hyvä ryhmittelymenitelmä 17

PCA 18

19

20

Pattern Discovery Projects into a new space e.g. 2 dimensional or 3 dimensional Use linear combinations of variables/dimensions that retain a large component of the original variation. Gene B Gene A 21

Pattern Discovery The major source of variation may not be the variation of biological interest Gene B Gene A Pattern Discovery 22

Mikrosirujen data-analyysissä muistettava mikrosiru datassa useita varianssin lähteitä muun muassa näytteen valmistelu, koettimen valinta, hybridisointi yksittäisille siruille, signaalin mittaus => otettava huomioon koesuunnittelussa ja data-analyysissä mitataan mrna tasoa, joka riippuu myös transkription vauhdista ja mrna:n hajoamisesta mikrosirujen rajoituksia geeninsäätelyn tutkimiseen: translaatio, proteiinien kuljetus solussa, proteiinien laskostuminen aktiivisiksi käytetään mikrosirujen lisäksi proteomiikkaa yksittäisten proteniinien määrien ja modifikaatioiden tutkimiseen 2D elektroforeesi massaspektrometria Future Trends New data mining tools surfacing Probabilistic methods Bayesian approaches Bigger datasets becoming available Links between expression patterns and clusters and regulatory mechanisms and function Prediction of regulatory networks 23