Biopankit ja Big Data terveydenhuollossa: onko open science magic bullet?, LT, tutkimusprofessori Terveyden ja hyvinvoinnin laitos Terveys - osasto Genomiikka ja biomarkkerit - yksikkö markus.perola@thl.fi
NetApp
Mistä Big Data tulee? biobanks glycome transcriptome phenome genome metabolome epigenome
Yhteistä datan käyttöä tänään: Genomiassosiaatio-konsortiot Kymmenien tutkimusryhmien, satojen tutkijoiden yhteistyöprojekteja, joilla haetaan tauteihin ja ominaisuuksiin liittyviä geenialueita perimästä. GIANT/pituus 250.000 GIANT/BMI 340.000 Skitsofrenia 150.000 (37K tapauksia) Sepelvaltimotauti 80.000 (22K tapauksia)
Consor&a, consor&a, consor&a ENGAGE, Gene*c predic*on for type 2 diabetes (T2DM) ENGAGE, genotyping flagship project, Large- scale genotyping of selected causal variants (BMI, HDL, LDL, CHOL, TG, DBP, SBP) CHARGE, FTO/MC4R, Diet and Obesity (dietary intakes, BMI) GIANT, bodyshape GWAS (Weight, Height, BMI, WHR, waist, hip) GIANT, body fat percentage (BFP) GIANT BSA* CHARGE, Diet Score, GIANT SNPs, and BMI, WHR (Dietary intakes, BMI, WHR) CHARGE, GWAS for Fish intake, (Fish and EDA + DHA intakes) GIANT, interac*on between genome- wide snp data and physical ac*vity (physical ac*vity) GIANT(?), GWAS of Lep*n & Lep*n- to- Adiponec*n Ra*o (Lep*n, adiponec*n) ICBP (Interna*onal Consor*um for Blood Pressure),Replica*on and Fine Mapping Experiments for Blood Pressure Traits (SBP, DBP) CARDIoGRAMPlus, Replica*on of SNPs from the Discovery Studies (MI, CAD) GIANT, Replica*on of GIANT GWA findings with MORGAM metabochip genotype data (BMI, WC, WHR, HEIGHT, WEIGHT, extreme obesity) ADIPOGen, GWAS of adiponec*n, (apidonec*n) CHARGE, Drug- Gene GWAS Consor*um, UAZ CERT- Classified, QT- Prolonging Drug- Gene Interac*ons and QT (QT- interval, medica*on) CHARGE, PharmacoGene*cs Workgroup, PhGx QT interval Diure*cs use (QT- interval, medica*on) SUMMIT, diabe*c complica*ons, (T1DM, T2DM) CARDIoGRAMPlus, Gene- smoking intearc*ons in CAD risk (smoking, CAD) Heart Rate Consor*um: pulssi MAGIC gender specific: fas*ng insulin + glucose MAGIC gene- BMI interac*on: fas*ng insulin + glucose + homa- ir + homa- b ENGAGE telomere flagship project: telomere length CHARGE urate: serum urate 30/01/18 LR2014 GWAS results / 5
Published Genome- Wide Associa&ons through 07/2012 Published GWA at p 5X10-8 for 18 trait categories NHGRI GWA Catalog www.genome.gov/gwastudies www.ebi.ac.uk/fgpt/gwas/
Kuinka iso on ihmisen genomi? 1. 3 miljardia kirjainta x 2, muutettuna biteiksi ~715Mb 2. Sekvensaattorilta tulee ~200Gb/per 30x genomi Rinnakkaissekvensointi (FASTQ) Esim 1000Genomes download >200Tb 3. Pelkät eroavaisuudet (.vcf) ~125Mb Huom! Tässä käsitellään vain A, T, G, C. Oikeasti genomi on paljon monimutkaisempi (rakenteellinen variaatio, kolmiuloitteisuus, epigenomiikka )
High-throughput sequencers globally http://omicsmaps.com/
Tulevaisuus Million genomes project http://www.research.va.gov/mvp/ Billion genomes project http://billiongenome.com/ 200Gb x 7 miljardia = 1,4 Zb giga-tera-peta-eksa-tsetta, tsetta= tuhat triljoonaa CERN tallennustila 2015: 45 Pb (0,000045 Zb).vcf n 1 Eb (1000 Pb) Kaikki maailman painetut kirjat 0,4Pb 1 Zb n. 34 miljardia iphonea DNA säilytystilana?
Kuka tämän kaiken analysoi? En minä! Professori istuu pakkasen päällä ja päättää kuka tekee mitä vanhakantaista ajattelua Data kerätty julkisin varoin julkisten toimijoiden toimesta Datan vapauttaminen on ainoa tapa saada terveystiedot hyötykäyttöön Terveystieto todennäköisesti vaikea vapauttaa kuten joku karttatieto tms IT ratkaisut? Federointi?
Analyysit interaktiot? Number of Tests Pointwise 1,000,000 tests Equivalent Numbers Number of letters in a 500 page book Time at 1/sec Time at 1,000,000/ sec. 12 Days 1 Second Two-way interactions 5 x 10 11 Three-way interactions 1.67 x 10 17 Four-way interactions 4.2 x 10 22 Number of proteins ever produced by all life forms Number of galaxies in the universe Area in square inches of the Earth Grains of sand on a beach 0.07 Moles Cups of water in all the oceans Stars in the universe 16,000 Years 6 Days 5,281,332,125 Years (roughly the age of the universe since the Big Bang) 1.3 x 10 15 Years (250,000 times the age of the universe) Thanks to Joe Terwilliger 5,281 Years 1,320,329,070 Years (roughly 5,000 times longer than the time to the MRCA of all humans)
Thanks to Joe Terwilliger and Tero Hiekkalinna