Geeniekspressio: Mikrosirut. Geneettinen bioinformatiikka

Samankaltaiset tiedostot
Functional Genomics & Proteomics

Mikrosirut ja niiden data-analyysi

Efficiency change over time

DNA mikrosirutekniikka. Oligonukleotidisirut. Sirujen valmistus. Siruanalyysi. Oligonukleotidisirut

Other approaches to restrict multipliers

T Digitaalinen signaalinkäsittely ja suodatus Tutkielma Signaalinkäsittely DNA-mikrosiruteknologiassa

Supplementary information: Biocatalysis on the surface of Escherichia coli: melanin pigmentation of the cell. exterior

Gap-filling methods for CH 4 data

State of the Union... Functional Genomics Research Stream. Molecular Biology. Genomics. Computational Biology

7.4 Variability management

FETAL FIBROBLASTS, PASSAGE 10

Information on preparing Presentation

Alternative DEA Models

MALE ADULT FIBROBLAST LINE (82-6hTERT)

LYTH-CONS CONSISTENCY TRANSMITTER

16. Allocation Models

RINNAKKAINEN OHJELMOINTI A,

Inferring Trichoderma reesei gene regulatory network

VIIKKI BIOCENTER University of Helsinki

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Capacity Utilization

PRIMARY HPV TESTING IN ORGANIZED CERVICAL CANCER SCREENING

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Statistical design. Tuomas Selander

Epigeneettinen säätely ja genomin leimautuminen. Tiina Immonen BLL Biokemia ja kehitysbiologia

Metal 3D. manufacturing. Kimmo K. Mäkelä Post doctoral researcher

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

GOOD WORK LONGER CAREER:

TERRASOLID Terrasolidin ratkaisut UAVkartoitussovelluksiin Kimmo Soukki

Metsien vertailutason määrittäminen taustat ja tilanne

RAIN RAKENTAMISEN INTEGRAATIOKYVYKKYYS

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

VIIKKI BIOCENTER University of Helsinki

4x4cup Rastikuvien tulkinta

Plasmid Name: pmm290. Aliases: none known. Length: bp. Constructed by: Mike Moser/Cristina Swanson. Last updated: 17 August 2009

Tork Paperipyyhe. etu. tuotteen ominaisuudet. kuvaus. Väri: Valkoinen Malli: Vetopyyhe

AYYE 9/ HOUSING POLICY

MEETING PEOPLE COMMUNICATIVE QUESTIONS

LX 70. Ominaisuuksien mittaustulokset 1-kerroksinen 2-kerroksinen. Fyysiset ominaisuudet, nimellisarvot. Kalvon ominaisuudet

Choose Finland-Helsinki Valitse Finland-Helsinki

1. Liikkuvat määreet

Tree map system in harvester

Collaborative & Co-Creative Design in the Semogen -projects

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

Stormwater filtration unit

Bounds on non-surjective cellular automata

FYSE301(Elektroniikka(1(A3osa,(kevät(2013(

Bioinformatiikan maisteriohjelman infotilaisuus Exactum D122

Capacity utilization

1 Vrms 2 Skewness 3 Kurtosis 4 Amax 5 Amin. 11 A4xbf 12 A7xbf 13 A14xbf 14 A1xrotf 15 A2xrotf. 16 A3xrotf 17 A4xrotf 18 A1to4xrotf 19 Vrms10to100

Use of spatial data in the new production environment and in a data warehouse

Bioinformatics in Laboratory of Computer and Information Science

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Basset: Learning the regulatory code of the accessible genome with deep convolutional neural networks. David R. Kelley

Indoor Environment

EU GMP Guide Part IV: Guideline on GMP spesific to ATMP. Pirjo Hänninen

Mobility Tool. Demo CIMO

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Toimintamallit happamuuden ennakoimiseksi ja riskien hallitsemiseksi turvetuotantoalueilla (Sulfa II)

4x4cup Rastikuvien tulkinta. 4x4cup Control point picture guidelines

HIRLAM diagnostics for operations and experiments

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Hiirten ja rottien sydännäytteistä tuotetun mikrosirudatan analysointi

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

tgg agg Supplementary Figure S1.

Genomin ilmentyminen Liisa Kauppi, Genomibiologian tutkimusohjelma

Lausuntopyyntöluettelo HUOM. Komiteoiden ja seurantaryhmien kokoonpanot on esitetty SESKOn komitealuettelossa

C++11 seminaari, kevät Johannes Koskinen

Mat Seminar on Optimization. Data Envelopment Analysis. Economies of Scope S ysteemianalyysin. Laboratorio. Teknillinen korkeakoulu

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Matemaatikot ja tilastotieteilijät

Perusnäkymä yksisuuntaiseen ANOVAaan

Reliable sensors for industrial internet

Sama mutta density-based (saadaan jakaumat): (tuli aavistuksen eri klusterointi)

Results on the new polydrug use questions in the Finnish TDI data

Tuberkuloosin diagnostiikka

Supporting information

Metsälamminkankaan tuulivoimapuiston osayleiskaava

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Voitelulaitteen kannessa olevalla säätöruuvilla voidaan ilmaan sekoittuvan öljyn määrä säätää helposti.

Avainsanojen poimiminen Eeva Ahonen

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

EPMAn tarjoamat analyysimahdollisuudet

Genome 373: Genomic Informatics. Professors Elhanan Borenstein and Jay Shendure

Land-Use Model for the Helsinki Metropolitan Area

Ekologiset ympäristöongelmat. 10. Geeniteknologia. BI5 II Geeniteknologia 4. Geenitekniikan perusmenetelmiä

Genomin ilmentyminen

Viral DNA as a model for coil to globule transition

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

The CCR Model and Production Correspondence

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Rekisteröiminen - FAQ

AFCEA PVTO2010 Taistelija / S4

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kahden laboratorion mittaustulosten vertailu

PRODUCT CATALOGUE - TUOTEKUVASTO 9/2015 BIRCH CRYSTALS - KOIVUKRISTALLIT

UUDET TEKNIIKAT SISÄYMPÄRISTÖN MIKROBIEN TOTEAMISESSA

Transkriptio:

Geeniekspressio: Mikrosirut Geneettinen bioinformatiikka

Microarray Microarray is a compact device containing a very large number of capture molecules (synthetic oligos, PCR products, proteins, antibodies etc) organized in an structured format. Probes are typically attached to a solid surface or to microscopic beads (helmisiru, Illumina) Today, captured molecules are typically labeled with a fluorescent dye Information on identity and amount of captured molecules can be detected Provides massive parallel information Can be used in many biological and medical research questions and diagnostics http://en.wikipedia.org/wiki/dna_microarray

Many kinds of microarrays DNA microarrays (RNA expression, DNA content by CGH, CNV, SNPs) MicroRNA microarrays Protein microarrays Tissue microarrays Cellular microarrays Chemical combound microarrays (small molecules etc)

for all organisms Pre-designed arrays available for most model organisms Pre-designed arrays for spesific targets Custome arrays for any species/ targets where related sequence information is available

Why we need microarrays Needs no prior hypothesis High through-put High efficiency (cost and time/ data point) High accuracy Comparable results (tested protocols and background information)

DNA-mikrosiruja eri käyttötarkoituksiin Gene expression analysis tissue samples from various diseases micro organisms grown in different environments Genotyping (SNP) Copy Number Variation analysis.

Different microarray methods Spotted microarrays for in-house array production (target printed on a glass) Commercial oligonucleotide arrays: - Printing of probes by synthesis - 1 channel (Affymetrix) or 2/3 channel (Agilent) systems - Illumina bead arrays (not discussed) http://www.btk.fi/fileadmin/page_files/genomics/microarray _documents/platformcomparison.pdf

Menetelmien vertailua Agilent glass arrays small density of features 60 mer probes Less expensive Affymetrix silicon arrays High density of features 25 mer probes 10 40 probes per gene Expensive manufacturing Illumina bead arrays High density of features Multiple probes per gene 50 mer probes

Miten siru toimii? Tutkittavista biol. näytteistä eristetään mrna-populaatio, joka käännetään cdna:ksi ja leimataan sopivalla väriaineella. Kaksivärimenetelmissä näyte ja kontrollinäyte leimataan eri väreillä, tyypillisesti Cy3- ja Cy5-molekyyleillä, jotka ovat fluoresoivia väriaineita (punainen ja vihreä). Viikissä käytössä myös kolmen värin yhdistelmä Kolme eri näytettä yhdellä sirulla Lasisirut (Glass Microarrays), Illumina helmisirut (bead arrays) Usein ei selvää näyte kontrolliparia Aikasarja Monta genotyyppiä / monta tautityyppiä

Sirun toiminnasta Kuva osoitteesta http://transcriptome.ens.fr/sgdb/presentation/principle.php 2-värikoeasetelma (lasisiru)

Miten siru toimii? Kaksivärimenetelmien yhteydessä saadaan kuvia, joilla on vihreitä, punaisia ja keltaisia täpliä sen mukaan kuinka paljon kys. geeniä oli kummassakin näytteessä Yhden värin kanssa mustavalkeita kirkkauksia Täplien intensiteetit (fluoresenssivoimakkuudet) sisältävät kuvat analysoidaan kuvankäsittelyohjelmalla, joka tunnistaa kuvassa olevat täplät, lukee niiden intensiteetit ja muuttaa tiedot lukuarvoiksi. Pseudo-värityksen käyttäytyminen B vahva B heikko A vahva keltainen punainen A heikko vihreä musta

Miten siru toimii? Yksivärimenetelmissä näytteet (ja kontrolli) leimataan yhdellä ja samalla fluoresoimattomalla värillä, koska ne hybridisoidaan eri DNA-siruille. Leimattujen cdna:iden annetaan reagoida DNA-sirujen kanssa, jolloin sirulla olevat koettimet sitovat vastinsekvenssinsä sisältävät cdna-molekyylit Affymetrix sirut

Sirun toiminnasta Affymetrix 1-väri-siru

Sirun toiminnasta Courtesy of Affymetrix

RNA-sekvensointi RNA-seq Sekvenoidaan mahdollisimman kattavasti lähetti-rna:t (sekvenssipaloja) Sekvenssipalat kasataan lähetti-rnasignaaleiksi + Voidaan selvittää Splice-variantit, muutoksia RNA:ssa + Analysoituja sekvenssejä ei tarvitse määrittää etukäteen - Yleisimmät sekvenssit tulvivat tuloksissa (jopa >80 %)

Onko mitään ongelmia?? Häiriöt näytteissä yksilöerot Häiriöt näytekäsittelyissä Häiriöt hybridisaatiossa Sirut joita ei voida käyttää lopullisessa analyysissä Eri RNA-sek:ien väliset vaihtelut sitoutumisessa Väärän RNA:n sitoutuminen toisen geenin täplään

Onko mitään ongelmia?? Eri sirujen tulosten keskinäinen normalisointi Säädeltymisen testaus usein (liian) pienillä toistomäärillä Suuret havaintomäärät => Väärien positiivisten tulosten riski Liian paljon dataa (säädeltyneitä geenejä)

Onko mitään ongelmia?? Huono koesuunnittelu Inhimilliset virheet Ohjelmien ja menetelmien virheellinen käyttö Analyysivaihtoehdot - Koesuunnittelu Tulosten järkevä evaluaatio (sen puute)

Sirudatan analyysi Erot lasisirujen ja affymetrix-sirujen välillä Esikäsittely Laadun tarkistus Säädeltyneitten geenien valinta

Tyypilliset työvaiheet Generate the GE data Generate the GE data Pre-processing (Normalization etc.) Pre-processing (Normalization etc.) Define Differentially Expressed genes Define Differentially Expressed genes Draw biological conclusions Find over-represented biological processes Cluster selected genes Draw biological conclusions

2-väri-sirujen analyysi Separate analysis for each spot (gene) Image Analysis Recognize spot region RED CHANNEL Spot area mean / median GREEN CHANNEL Spot area mean / median Background extraction Background extraction Take the ratio (R/G) Take a logarithm (or use a variance stabilizing function) These steps are done for each chip separately (if needed) Set the median / mean to zero Use lowess normalization (if needed)

Affymetrix-sirujen analyysi Separate analysis for each (gene).. From probe level to gene level Image Analysis Select probe region Perfect Match Probe signal mean / median Mismatch Probe signal mean / median (*) Background extraction Combine signals from different probes These steps are done for each chip separately (if needed) Take a logarithm (or use a variance stabilizing function) Use lowess normalization (if needed) *Many methods omit the mismatch probe signal

Aineiston esikäsittely Aluksi täplien intensiteeteistä vähennetään niiden ympäristön (taustan) intensiteettitaso Mahdollinen taustan kohinan häiriö poistetaan Lukuarvoista otetaan logaritmi Log-muunnos tasoittaa eroja pienien ja suurien lukuarvojen alueella tekee intensiteettisuhteiden jakaumasta enemmän normaalijakauman kaltaisen jakauma myös symmetrisoituu

Log-muunnos Intensiteetit Intensiteettisuhde

Aineiston esikäsittely: Normalisointi Eri sirujen ja värileimojen välillä eroja jotka esiintyvät joko kaikilla geeneillä tai osajoukolla geeneistä Suuri ongelma analyysille! Työvaihetta jossa nämä häiriöt poistetaan kutsutaan normalisoinniksi

Aineiston esikäsittely: Normalisointi Yksinkertainen menetelmä normalisointiin Keskiarvot / Mediaanit eri siruista säädetään samaan lukuarvoon Sirujen hajonnat säädetään samansuuruisiksi Kehittyneempiä ohjelmia normalisointiin: Loess, cyclic Loess, quantile normalization* * http://bioinformatics.oxfordjournals.org/content/20/16/2778 http://bioinformatics.oxfordjournals.org/content/19/2/185.full.pdf+html

Demo plot: Before /after normalization http://www.mas.ncl.ac.uk/~ngl9/topics/inotes/tutorialmicroarrayanalysis.pdf

A versus M: Laadun tarkastus: A vs. M Kuvaaja M = log 2 (intensiteettisuhde) A = log 2 (keskimääräinen intensiteetti) Informatiivinen aineiston visualisointitapa, jolla näkee tavanomaista hajontakuviota paljon paremmin mahdolliset vinoumat aineiston jakaumassa

M-A kuvaaja vs. tavallinen scatter plot

Upregulated genes Downregulate genes Low intensity measurements Low expr. levels High intensity measurements High expr. levels http://respiratory-research.com/content/6/1/53/figure/f6?highres=y

Hyvät, pahat, rumat BAD! BAD / Border GOOD! BAD! Most of the genes usually do not react to the treatment. Consistent shifts point to Errors and biases

Laadun tarkistuksia Edelliset M-A kuvaajat havainnollistivat vain millainen on aineiston hajonta Tärkein tieto kuitenkin on: Kuinka varmuudella säädeltyneet geenit käyttäytyvät? Kuinka varmuudella ei-säädeltyneet geenit (kontrollitäplät) käyttäytyvät Määritä varmasti säädeltyneet geenit Määritä kontrolligeenit tai kontrollipisteet

Laadun tarkistuksia Punainen kolmio: Positiivinen kontrollitäplä lasisirulta Vihreä tähti: negatiivinen kontrollitäplä lasisirulta Musta tähti: geeni jota yliekspressoidaan X-akselin esittämällä sirulla Vasen kuva: Ennen normalisointivaiheita Oikea kuva: Normalisointien jälkeen Toronen et al. unpublished

Laadun tarkistuksia Visualisoi aktiivisuus joukolle oletettuja positiivisia geenejä Viivat esittävät kuvaajassa yksittäisiä geenejä Jokaisessa sarakkeessa on tulos yhdeltä mikrosirulta Esimerkkitapauksessa näimme selkeän vastaavuuden aikaisemmassa tutkimuksessa raportoidun geenijoukon ja kyseisen aineiston välillä Numerot kuvaajassa ovat erottelemassa eri viivoja toisistaan

Data-analyysi Säädeltyneistä geenien haku Geeniryhmien vertailu Klusterointi Geeniontologioiden käyttö analyysissä Visualisaatio

Säädeltyneet geenit: Intensiteettisuhde Usein vertaillaan geenin signaalitason suhdetta kahden näyteryhmän välillä (disease vs. ctrl.) Tätä mitataan geenin intensiteettisuhteella Int.suhde = mean(disease) / mean(control) Yleensä intensiteettisuhteesta otetaan kaksikantainen logaritmi: Log 2 (intensiteettisuhde) = log 2 (disease/ctrl.) HUOMAA: Jos log on jo otettu datasta esikäsittelyssä voidaan ottaa erotus: log 2 (disease/control) = log 2 (disease) - log 2 (ctrl.)

Säädeltyneet geenit: T-testi Satunnaiset häiriöt geenien mittauksissa aiheuttavat eroja näyteryhmien (disease ctrl) keskiarvojen välillä Intensiteettisuhde ei kerro oliko havaittu ero ryhmien välillä merkittävä Tähän kysymykseen käytetään T-testiä G.expr. datan parissa suositaan muunnettuja T-testejä (LIMMA, IBMT *) http://bioconductor.org/packages/release/bioc/html/limma.html http://www.biomedcentral.com/1471-2105/7/538/

Data-analyysi Säädeltyneiden geenien vertailu eri käsittelyistä Venn diagrammit Up in treatment B Up in treatment A

Data-analyysi Varsin tyypillisesti suoritetaan ryhmittely l. klusterointianalyysi, jolla samaan tapaan ilmentyvät geenit sijoitetaan esim. puukaaviossa samaan haaraan Esim. geeniryhmät, jotka ekspressoituvat samoin tutkituissa syöpäsolutyypeissä Klusterointi tarjoaa hajoita ja hallitse ratkaisun suuren aineiston analyysissä Löydetyt ryhmät esittävät monesti jonkin säädellyn biologisen prosessin geenejä

Hierarkkinen ryhmittelyanalyysi Kaksi vaihetta: 1. Valitse etäisyysmitta (geenien välinen etäisyys) Euclidian Pearson / Spearman correlation 2. Valitse puunpiirtomenetelmä Single linkage Average linkage (UPGMA) Complete linkage Suositukset: average linkage ja pearson correlation

Hierarkkinen ryhmittelyanalyysi Figure originally presented in Toronen et al. Current Genomics, 2002 Figure originally presented in Cheok et al. Nature Genetics, 2002, supplementary data

Geeniontologian käyttö ekspressiodatan kanssa Analyysin lopputuloksena saadaan usein suuri joukko säädeltyneitä geenejä Tulosten tulkinta on usein vaikeaa Satunnaiset väärät positiiviset signaalit geeneillä Geenien vaihtoehtoiset toiminnot Aineisto pitäisi muuttaa biologiseksi ymmärrykseksi

Geeniontologian käyttö ekspressiodatan kanssa Ratkaisuna käytetään geenien luokitteluja toiminnallisiin luokkiin Geenien sijasta keskitytään tutkimaan geeniryhmiä jotka osallistuvat samaan toimintoon Joukko geenejä tarjoaa usein luotettavamman signaalin kuin 1 geeni Geeniontologia (GO) on tässä tarkoituksessa eniten käytetty luokittelu

Miten GO:ta sovelletaan? Otetaan tautinäytteessä aktivoitunut joukko geenejä Selvitetään mitä GO-luokkia (jos mitään) esiintyy poikkeuksellisen paljon kyseisessä joukossa Järjestetään GO-luokat merkittävyyden mukaan TAI Otetaan klusteroinnista saatu mielenkiintoinen joukko Tehdään sille sama selvitys kuin edellä

Two examples of sorted class lists functional class -log10(p) P size of the class obs. number o expected STD of exp mitochondrial organization 33.52572 0 303 88 23.64878 4.373248 respiration 9.47456 0 68 23 5.307317 2.181689 PROTEIN SYNTHESIS 6.225534 0.000001 299 47 23.33659 4.348312 ribosomal proteins 5.816049 0.000002 173 32 13.50244 3.402624 ENERGY 4.188443 0.000065 169 28 13.19024 3.365997 assembly of protein complexes 3.630167 0.000234 86 17 6.712195 2.44426 CELLULAR ORGANIZATION 2.494072 0.003206 1806 157 140.9561 5.879028 mrna processing (splicing) 1.933813 0.011646 66 11 5.15122 2.150264 regulation of phosphate utilization 1.70902 0.019543 8 3 0.62439 0.75764 functional class -log10(p) P size of the obs. numbeexpected STD of exp TRANSCRIPTION 57.94446 0 601 282 131.9268 8.822874 mrna transcrition 31.11666 0 444 196 97.46342 7.897141 nuclear organization 27.23162 0 648 245 142.2439 9.044816 mrna synthesis 22.65499 0 343 151 75.29268 7.1128 rrna transcription 16.981 0 98 60 21.5122 4.01593 transcriptional control 16.73279 0 271 118 59.48781 6.428959 rrna processing 11.33614 0 58 37 12.73171 3.115542 mrna processing (splicin 8.325967 0 66 36 14.48781 3.31793 rrna synthesis 6.903157 0 37 23 8.121951 2.499256 trna transcription 5.381251 0.000004 72 33 15.80488 3.461119 general transcription activ 4.479288 0.000033 59 27 12.95122 3.141631

Loppupointit Geeniekspressio-analyysi on tänään tärkeä osa bio-, lääke- ja ympäristötieteitä Tuotettu data usein hyvin kohinaista ja häiriöitä täynnä Häiriöitä poistetaan esikäsittelyllä ja normalisointimenetelmillä

Loppupointit Hanki kontakti bioinformaatikkoon aikaisessa vaiheessa tutkimusta Koesuunnittelu (!!!!!!!) Biologisia toistoja mielellään > 3 Julkaisujen minimi on usein 3 Kaikki mittausaineistot (bio)tieteissä sisältävät häiriöitä. Geeniekspressio vain vahvistaa säännön.