Geeniekspressio: Mikrosirut Geneettinen bioinformatiikka
Microarray Microarray is a compact device containing a very large number of capture molecules (synthetic oligos, PCR products, proteins, antibodies etc) organized in an structured format. Probes are typically attached to a solid surface or to microscopic beads (helmisiru, Illumina) Today, captured molecules are typically labeled with a fluorescent dye Information on identity and amount of captured molecules can be detected Provides massive parallel information Can be used in many biological and medical research questions and diagnostics http://en.wikipedia.org/wiki/dna_microarray
Many kinds of microarrays DNA microarrays (RNA expression, DNA content by CGH, CNV, SNPs) MicroRNA microarrays Protein microarrays Tissue microarrays Cellular microarrays Chemical combound microarrays (small molecules etc)
for all organisms Pre-designed arrays available for most model organisms Pre-designed arrays for spesific targets Custome arrays for any species/ targets where related sequence information is available
Why we need microarrays Needs no prior hypothesis High through-put High efficiency (cost and time/ data point) High accuracy Comparable results (tested protocols and background information)
DNA-mikrosiruja eri käyttötarkoituksiin Gene expression analysis tissue samples from various diseases micro organisms grown in different environments Genotyping (SNP) Copy Number Variation analysis.
Different microarray methods Spotted microarrays for in-house array production (target printed on a glass) Commercial oligonucleotide arrays: - Printing of probes by synthesis - 1 channel (Affymetrix) or 2/3 channel (Agilent) systems - Illumina bead arrays (not discussed) http://www.btk.fi/fileadmin/page_files/genomics/microarray _documents/platformcomparison.pdf
Menetelmien vertailua Agilent glass arrays small density of features 60 mer probes Less expensive Affymetrix silicon arrays High density of features 25 mer probes 10 40 probes per gene Expensive manufacturing Illumina bead arrays High density of features Multiple probes per gene 50 mer probes
Miten siru toimii? Tutkittavista biol. näytteistä eristetään mrna-populaatio, joka käännetään cdna:ksi ja leimataan sopivalla väriaineella. Kaksivärimenetelmissä näyte ja kontrollinäyte leimataan eri väreillä, tyypillisesti Cy3- ja Cy5-molekyyleillä, jotka ovat fluoresoivia väriaineita (punainen ja vihreä). Viikissä käytössä myös kolmen värin yhdistelmä Kolme eri näytettä yhdellä sirulla Lasisirut (Glass Microarrays), Illumina helmisirut (bead arrays) Usein ei selvää näyte kontrolliparia Aikasarja Monta genotyyppiä / monta tautityyppiä
Sirun toiminnasta Kuva osoitteesta http://transcriptome.ens.fr/sgdb/presentation/principle.php 2-värikoeasetelma (lasisiru)
Miten siru toimii? Kaksivärimenetelmien yhteydessä saadaan kuvia, joilla on vihreitä, punaisia ja keltaisia täpliä sen mukaan kuinka paljon kys. geeniä oli kummassakin näytteessä Yhden värin kanssa mustavalkeita kirkkauksia Täplien intensiteetit (fluoresenssivoimakkuudet) sisältävät kuvat analysoidaan kuvankäsittelyohjelmalla, joka tunnistaa kuvassa olevat täplät, lukee niiden intensiteetit ja muuttaa tiedot lukuarvoiksi. Pseudo-värityksen käyttäytyminen B vahva B heikko A vahva keltainen punainen A heikko vihreä musta
Miten siru toimii? Yksivärimenetelmissä näytteet (ja kontrolli) leimataan yhdellä ja samalla fluoresoimattomalla värillä, koska ne hybridisoidaan eri DNA-siruille. Leimattujen cdna:iden annetaan reagoida DNA-sirujen kanssa, jolloin sirulla olevat koettimet sitovat vastinsekvenssinsä sisältävät cdna-molekyylit Affymetrix sirut
Sirun toiminnasta Affymetrix 1-väri-siru
Sirun toiminnasta Courtesy of Affymetrix
RNA-sekvensointi RNA-seq Sekvenoidaan mahdollisimman kattavasti lähetti-rna:t (sekvenssipaloja) Sekvenssipalat kasataan lähetti-rnasignaaleiksi + Voidaan selvittää Splice-variantit, muutoksia RNA:ssa + Analysoituja sekvenssejä ei tarvitse määrittää etukäteen - Yleisimmät sekvenssit tulvivat tuloksissa (jopa >80 %)
Onko mitään ongelmia?? Häiriöt näytteissä yksilöerot Häiriöt näytekäsittelyissä Häiriöt hybridisaatiossa Sirut joita ei voida käyttää lopullisessa analyysissä Eri RNA-sek:ien väliset vaihtelut sitoutumisessa Väärän RNA:n sitoutuminen toisen geenin täplään
Onko mitään ongelmia?? Eri sirujen tulosten keskinäinen normalisointi Säädeltymisen testaus usein (liian) pienillä toistomäärillä Suuret havaintomäärät => Väärien positiivisten tulosten riski Liian paljon dataa (säädeltyneitä geenejä)
Onko mitään ongelmia?? Huono koesuunnittelu Inhimilliset virheet Ohjelmien ja menetelmien virheellinen käyttö Analyysivaihtoehdot - Koesuunnittelu Tulosten järkevä evaluaatio (sen puute)
Sirudatan analyysi Erot lasisirujen ja affymetrix-sirujen välillä Esikäsittely Laadun tarkistus Säädeltyneitten geenien valinta
Tyypilliset työvaiheet Generate the GE data Generate the GE data Pre-processing (Normalization etc.) Pre-processing (Normalization etc.) Define Differentially Expressed genes Define Differentially Expressed genes Draw biological conclusions Find over-represented biological processes Cluster selected genes Draw biological conclusions
2-väri-sirujen analyysi Separate analysis for each spot (gene) Image Analysis Recognize spot region RED CHANNEL Spot area mean / median GREEN CHANNEL Spot area mean / median Background extraction Background extraction Take the ratio (R/G) Take a logarithm (or use a variance stabilizing function) These steps are done for each chip separately (if needed) Set the median / mean to zero Use lowess normalization (if needed)
Affymetrix-sirujen analyysi Separate analysis for each (gene).. From probe level to gene level Image Analysis Select probe region Perfect Match Probe signal mean / median Mismatch Probe signal mean / median (*) Background extraction Combine signals from different probes These steps are done for each chip separately (if needed) Take a logarithm (or use a variance stabilizing function) Use lowess normalization (if needed) *Many methods omit the mismatch probe signal
Aineiston esikäsittely Aluksi täplien intensiteeteistä vähennetään niiden ympäristön (taustan) intensiteettitaso Mahdollinen taustan kohinan häiriö poistetaan Lukuarvoista otetaan logaritmi Log-muunnos tasoittaa eroja pienien ja suurien lukuarvojen alueella tekee intensiteettisuhteiden jakaumasta enemmän normaalijakauman kaltaisen jakauma myös symmetrisoituu
Log-muunnos Intensiteetit Intensiteettisuhde
Aineiston esikäsittely: Normalisointi Eri sirujen ja värileimojen välillä eroja jotka esiintyvät joko kaikilla geeneillä tai osajoukolla geeneistä Suuri ongelma analyysille! Työvaihetta jossa nämä häiriöt poistetaan kutsutaan normalisoinniksi
Aineiston esikäsittely: Normalisointi Yksinkertainen menetelmä normalisointiin Keskiarvot / Mediaanit eri siruista säädetään samaan lukuarvoon Sirujen hajonnat säädetään samansuuruisiksi Kehittyneempiä ohjelmia normalisointiin: Loess, cyclic Loess, quantile normalization* * http://bioinformatics.oxfordjournals.org/content/20/16/2778 http://bioinformatics.oxfordjournals.org/content/19/2/185.full.pdf+html
Demo plot: Before /after normalization http://www.mas.ncl.ac.uk/~ngl9/topics/inotes/tutorialmicroarrayanalysis.pdf
A versus M: Laadun tarkastus: A vs. M Kuvaaja M = log 2 (intensiteettisuhde) A = log 2 (keskimääräinen intensiteetti) Informatiivinen aineiston visualisointitapa, jolla näkee tavanomaista hajontakuviota paljon paremmin mahdolliset vinoumat aineiston jakaumassa
M-A kuvaaja vs. tavallinen scatter plot
Upregulated genes Downregulate genes Low intensity measurements Low expr. levels High intensity measurements High expr. levels http://respiratory-research.com/content/6/1/53/figure/f6?highres=y
Hyvät, pahat, rumat BAD! BAD / Border GOOD! BAD! Most of the genes usually do not react to the treatment. Consistent shifts point to Errors and biases
Laadun tarkistuksia Edelliset M-A kuvaajat havainnollistivat vain millainen on aineiston hajonta Tärkein tieto kuitenkin on: Kuinka varmuudella säädeltyneet geenit käyttäytyvät? Kuinka varmuudella ei-säädeltyneet geenit (kontrollitäplät) käyttäytyvät Määritä varmasti säädeltyneet geenit Määritä kontrolligeenit tai kontrollipisteet
Laadun tarkistuksia Punainen kolmio: Positiivinen kontrollitäplä lasisirulta Vihreä tähti: negatiivinen kontrollitäplä lasisirulta Musta tähti: geeni jota yliekspressoidaan X-akselin esittämällä sirulla Vasen kuva: Ennen normalisointivaiheita Oikea kuva: Normalisointien jälkeen Toronen et al. unpublished
Laadun tarkistuksia Visualisoi aktiivisuus joukolle oletettuja positiivisia geenejä Viivat esittävät kuvaajassa yksittäisiä geenejä Jokaisessa sarakkeessa on tulos yhdeltä mikrosirulta Esimerkkitapauksessa näimme selkeän vastaavuuden aikaisemmassa tutkimuksessa raportoidun geenijoukon ja kyseisen aineiston välillä Numerot kuvaajassa ovat erottelemassa eri viivoja toisistaan
Data-analyysi Säädeltyneistä geenien haku Geeniryhmien vertailu Klusterointi Geeniontologioiden käyttö analyysissä Visualisaatio
Säädeltyneet geenit: Intensiteettisuhde Usein vertaillaan geenin signaalitason suhdetta kahden näyteryhmän välillä (disease vs. ctrl.) Tätä mitataan geenin intensiteettisuhteella Int.suhde = mean(disease) / mean(control) Yleensä intensiteettisuhteesta otetaan kaksikantainen logaritmi: Log 2 (intensiteettisuhde) = log 2 (disease/ctrl.) HUOMAA: Jos log on jo otettu datasta esikäsittelyssä voidaan ottaa erotus: log 2 (disease/control) = log 2 (disease) - log 2 (ctrl.)
Säädeltyneet geenit: T-testi Satunnaiset häiriöt geenien mittauksissa aiheuttavat eroja näyteryhmien (disease ctrl) keskiarvojen välillä Intensiteettisuhde ei kerro oliko havaittu ero ryhmien välillä merkittävä Tähän kysymykseen käytetään T-testiä G.expr. datan parissa suositaan muunnettuja T-testejä (LIMMA, IBMT *) http://bioconductor.org/packages/release/bioc/html/limma.html http://www.biomedcentral.com/1471-2105/7/538/
Data-analyysi Säädeltyneiden geenien vertailu eri käsittelyistä Venn diagrammit Up in treatment B Up in treatment A
Data-analyysi Varsin tyypillisesti suoritetaan ryhmittely l. klusterointianalyysi, jolla samaan tapaan ilmentyvät geenit sijoitetaan esim. puukaaviossa samaan haaraan Esim. geeniryhmät, jotka ekspressoituvat samoin tutkituissa syöpäsolutyypeissä Klusterointi tarjoaa hajoita ja hallitse ratkaisun suuren aineiston analyysissä Löydetyt ryhmät esittävät monesti jonkin säädellyn biologisen prosessin geenejä
Hierarkkinen ryhmittelyanalyysi Kaksi vaihetta: 1. Valitse etäisyysmitta (geenien välinen etäisyys) Euclidian Pearson / Spearman correlation 2. Valitse puunpiirtomenetelmä Single linkage Average linkage (UPGMA) Complete linkage Suositukset: average linkage ja pearson correlation
Hierarkkinen ryhmittelyanalyysi Figure originally presented in Toronen et al. Current Genomics, 2002 Figure originally presented in Cheok et al. Nature Genetics, 2002, supplementary data
Geeniontologian käyttö ekspressiodatan kanssa Analyysin lopputuloksena saadaan usein suuri joukko säädeltyneitä geenejä Tulosten tulkinta on usein vaikeaa Satunnaiset väärät positiiviset signaalit geeneillä Geenien vaihtoehtoiset toiminnot Aineisto pitäisi muuttaa biologiseksi ymmärrykseksi
Geeniontologian käyttö ekspressiodatan kanssa Ratkaisuna käytetään geenien luokitteluja toiminnallisiin luokkiin Geenien sijasta keskitytään tutkimaan geeniryhmiä jotka osallistuvat samaan toimintoon Joukko geenejä tarjoaa usein luotettavamman signaalin kuin 1 geeni Geeniontologia (GO) on tässä tarkoituksessa eniten käytetty luokittelu
Miten GO:ta sovelletaan? Otetaan tautinäytteessä aktivoitunut joukko geenejä Selvitetään mitä GO-luokkia (jos mitään) esiintyy poikkeuksellisen paljon kyseisessä joukossa Järjestetään GO-luokat merkittävyyden mukaan TAI Otetaan klusteroinnista saatu mielenkiintoinen joukko Tehdään sille sama selvitys kuin edellä
Two examples of sorted class lists functional class -log10(p) P size of the class obs. number o expected STD of exp mitochondrial organization 33.52572 0 303 88 23.64878 4.373248 respiration 9.47456 0 68 23 5.307317 2.181689 PROTEIN SYNTHESIS 6.225534 0.000001 299 47 23.33659 4.348312 ribosomal proteins 5.816049 0.000002 173 32 13.50244 3.402624 ENERGY 4.188443 0.000065 169 28 13.19024 3.365997 assembly of protein complexes 3.630167 0.000234 86 17 6.712195 2.44426 CELLULAR ORGANIZATION 2.494072 0.003206 1806 157 140.9561 5.879028 mrna processing (splicing) 1.933813 0.011646 66 11 5.15122 2.150264 regulation of phosphate utilization 1.70902 0.019543 8 3 0.62439 0.75764 functional class -log10(p) P size of the obs. numbeexpected STD of exp TRANSCRIPTION 57.94446 0 601 282 131.9268 8.822874 mrna transcrition 31.11666 0 444 196 97.46342 7.897141 nuclear organization 27.23162 0 648 245 142.2439 9.044816 mrna synthesis 22.65499 0 343 151 75.29268 7.1128 rrna transcription 16.981 0 98 60 21.5122 4.01593 transcriptional control 16.73279 0 271 118 59.48781 6.428959 rrna processing 11.33614 0 58 37 12.73171 3.115542 mrna processing (splicin 8.325967 0 66 36 14.48781 3.31793 rrna synthesis 6.903157 0 37 23 8.121951 2.499256 trna transcription 5.381251 0.000004 72 33 15.80488 3.461119 general transcription activ 4.479288 0.000033 59 27 12.95122 3.141631
Loppupointit Geeniekspressio-analyysi on tänään tärkeä osa bio-, lääke- ja ympäristötieteitä Tuotettu data usein hyvin kohinaista ja häiriöitä täynnä Häiriöitä poistetaan esikäsittelyllä ja normalisointimenetelmillä
Loppupointit Hanki kontakti bioinformaatikkoon aikaisessa vaiheessa tutkimusta Koesuunnittelu (!!!!!!!) Biologisia toistoja mielellään > 3 Julkaisujen minimi on usein 3 Kaikki mittausaineistot (bio)tieteissä sisältävät häiriöitä. Geeniekspressio vain vahvistaa säännön.