Biopankit ja Big Data terveydenhuollossa: onko open science magic bullet?, LT, tutkimusprofessori Terveyden ja hyvinvoinnin laitos Terveys - osasto Genomiikka ja biomarkkerit - yksikkö markus.perola@thl.fi
NetApp
Mistä Big Data tulee? biobanks glycome transcriptome phenome genome metabolome epigenome
Yhteistä datan käyttöä tänään: Genomiassosiaatio-konsortiot Kymmenien tutkimusryhmien, satojen tutkijoiden yhteistyöprojekteja, joilla haetaan tauteihin ja ominaisuuksiin liittyviä geenialueita perimästä. GIANT/pituus 250.000 GIANT/BMI 340.000 Skitsofrenia 150.000 (37K tapauksia) Sepelvaltimotauti 80.000 (22K tapauksia)
Consortia, consortia, consortia ENGAGE, Genetic prediction for type 2 diabetes (T2DM) ENGAGE, genotyping flagship project, Large-scale genotyping of selected causal variants (BMI, HDL, LDL, CHOL, TG, DBP, SBP) CHARGE, FTO/MC4R, Diet and Obesity (dietary intakes, BMI) GIANT, bodyshape GWAS (Weight, Height, BMI, WHR, waist, hip) GIANT, body fat percentage (BFP) GIANT BSA* CHARGE, Diet Score, GIANT SNPs, and BMI, WHR (Dietary intakes, BMI, WHR) CHARGE, GWAS for Fish intake, (Fish and EDA + DHA intakes) GIANT, interaction between genome-wide snp data and physical activity (physical activity) GIANT(?), GWAS of Leptin & Leptin-to-Adiponectin Ratio (Leptin, adiponectin) ICBP (International Consortium for Blood Pressure),Replication and Fine Mapping Experiments for Blood Pressure Traits (SBP, DBP) CARDIoGRAMPlus, Replication of SNPs from the Discovery Studies (MI, CAD) GIANT, Replication of GIANT GWA findings with MORGAM metabochip genotype data (BMI, WC, WHR, HEIGHT, WEIGHT, extreme obesity) ADIPOGen, GWAS of adiponectin, (apidonectin) CHARGE, Drug-Gene GWAS Consortium, UAZ CERT-Classified, QT-Prolonging Drug-Gene Interactions and QT (QT-interval, medication) CHARGE, PharmacoGenetics Workgroup, PhGx QT interval Diuretics use (QT-interval, medication) SUMMIT, diabetic complications, (T1DM, T2DM) CARDIoGRAMPlus, Gene-smoking intearctions in CAD risk (smoking, CAD) Heart Rate Consortium: pulssi MAGIC gender specific: fasting insulin + glucose MAGIC gene-bmi interaction: fasting insulin + glucose + homa-ir + homa-b ENGAGE telomere flagship project: telomere length CHARGE urate: serum urate 3/16/2018 LR2014 GWAS results / 5
Published Genome-Wide Associations through 07/2012 Published GWA at p 5X10-8 for 18 trait categories NHGRI GWA Catalog www.genome.gov/gwastudies www.ebi.ac.uk/fgpt/gwas/
Kuinka iso on ihmisen genomi? 1. 3 miljardia kirjainta x 2, muutettuna biteiksi ~715Mb 2. Sekvensaattorilta tulee ~200Gb/per 30x genomi Rinnakkaissekvensointi (FASTQ) Esim 1000Genomes download >200Tb 3. Pelkät eroavaisuudet (.vcf) ~125Mb Huom! Tässä käsitellään vain A, T, G, C. Oikeasti genomi on paljon monimutkaisempi (rakenteellinen variaatio, kolmiuloitteisuus, epigenomiikka )
High-throughput sequencers globally http://omicsmaps.com/
Tulevaisuus MEGA project (EU) Million genomes project http://www.research.va.gov/mvp/ Billion genomes project http://billiongenome.com/ 200Gb x 7 miljardia = 1,4 Zb giga-tera-peta-eksa-tsetta, tsetta= tuhat triljoonaa CERN tallennustila 2015: 45 Pb (0,000045 Zb).vcf n 1 Eb (1000 Pb) Kaikki maailman painetut kirjat 0,4Pb 1 Zb n. 34 miljardia iphonea DNA säilytystilana?
Kuka tämän kaiken analysoi? En minä! Professori istuu pakkasen päällä ja päättää kuka tekee mitä vanhakantaista ajattelua Data kerätty julkisin varoin julkisten toimijoiden toimesta Datan vapauttaminen on ainoa tapa saada terveystiedot hyötykäyttöön Terveystieto todennäköisesti vaikeampi vapauttaa kiunjoku karttatieto tms IT ratkaisut? Federointi?
Analyysit interaktiot? Number of Tests Equivalent Numbers Time at 1/sec Time at 1,000,000/sec. Pointwise 1,000,000 tests Number of letters in a 500 page book 12 Days 1 Second Two-way interactions 5 x 10 11 Number of proteins ever produced by all life forms 16,000 Years 6 Days Number of galaxies in the universe Three-way interactions Area in square inches of the Earth 5,281,332,125 Years 5,281 Years 1.67 x 10 17 Grains of sand on a beach (roughly the age of the universe since the Big Bang) Four-way interactions 4.2 x 10 22 0.07 Moles Cups of water in all the oceans Stars in the universe 1.3 x 10 15 Years (250,000 times the age of the universe) Thanks to Joe Terwilliger 1,320,329,070 Years (roughly 5,000 times longer than the time to the MRCA of all humans)
Thanks to Joe Terwilliger and Tero Hiekkalinna