Suurten genomisten tietomassojen hallinta ja analyysi tutkimuksessa ja yksilöidyssä hoidossa



Samankaltaiset tiedostot
Tietojärjestelmä tuotantoympäristössä. Sovellusohjelmat Helsingin ammattikorkeakoulu Stadia / Tekniikka ja liikenne Vesa Ollikainen

Liikkuvien työkoneiden etäseuranta

Facta palvelimien uusiminen Helsingin kaupunki

KTL:n väestöaineistojen käyttöön liittyviä haasteita

ZENworks Application Virtualization 11

TUTKI OMAT TIETOTURVA-AUKKOSI. ENNEN KUIN JOKU MUU TEKEE SEN PUOLESTASI. F-Secure Radar Ville Korhonen

Lausunto Tulisiko laissa määritellä tarkemmin genomitieto, jota sääntely koskee? Jos tulisi, millainen määritelmä olisi hyvä?

LAKI SOTE- TIETOJEN TOISSIJAISESTA KÄYTÖSTÄ

Tietoa ja tuloksia tutkittavalle: miten ja miksi?

Genomikeskuksen valmistelu ja genomilaki Suunnittelija Petra Ruuska, STM Lääketieteellisen tutkimusetiikan seminaari

Sustainable well-being

LAUSUNTO LUONNOKSESTA HALLITUKSEN ESITYKSESTÄ GENOMILAIKSI

Miten voin selvittää säästömahdollisuuteni ja pääsen hyötymään niistä?

LABVANTAGE Medical Suite LIMS Digitaalisen Patologian Tukena Jani Aho Myynti ja Markkinointipäällikkö

Web-seminaari

Avoimet standardit ja integraatio

Kansallinen Genomistrategia - missä mennään? Espoo

Älykästä. kulunvalvontaa. toimii asiakkaan omassa tietoverkossa

Uusia mahdollisuuksia FoundationOne

Sopimusten ja tärkeiden asiakirjojen arkistointi vaivattomasti palveluna

10:30 Tauko. 12:00 Lopetus. Yhteistyössä:

Tietojärjestelmien yhteensovittaminen turvallisesti älykkäisiin koneisiin

Genomisessa eläinmallissa käytetään sekä genotyypitettyjen että genotyypittämättömien eläinten tietoja

Sosiaalinen media tietolähteenä:

KanTa-palvelut sähköinen resepti ja potilastiedon arkisto Vakuutusyhtiöpäivä Henna Koli, Kela

Terveyskylä, Virtuaalisairaala HETA KOLANEN, KEHITTÄMISPÄÄLLIKKÖ HUS TIETOHALLINTO JA VIRTUAALISAIRAALA 2.0 -HANKE

Etiikka tutkimuksen ja tuotekehityksen rajalla - oikeudellinen näkökulma patentit. Sandra Liede Erityisasiantuntija Sosiaali- ja terveysministeriö

Tutkimusdatan hallinnan kansalliset välineet IDA, Etsin, AVAA. Stina Westman, ATT-hanke, CSC

ANVIA PILVI. kotimaisia pilvipalveluita yrityksille 24/7

Kiinteistöjen turvallisuuden paras suojakeino. EcoStruxure Security Expert. se.com/fi/ecostruxure-security-expert

Hans Aalto/Neste Jacobs Oy

AMOlla tiedot lähelle

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Kansanterveyslaitoksen bioteknologiastrategia Väestöaineistojen

Taltioni kansallinen ehealth palvelujen ekosysteemi

Kommentit Genomikeskus-muistioon /Katriina Aalto-Setälä

Suomalainen genomitieto ja yksilöllistetty terveydenhuolto Olli Kallioniemi October 9, 2013

Suomen terveysdataympäristö

Terveystiedon kirjaamisen ja hyödyntämisen tulevaisuus

ANVIA PILVI. kotimaisia pilvipalveluita yrityksille 24/7

TIETOALLAS AVOIMEN LÄHDEKOODIN RATKAISUNA

Älykäs verkottuminen ja käyttäjänhallinta. Pekka Töytäri TeliaSonera Finland

Tutkimusaineiston hallinta. Annaleena Okuloff Terveystieteiden tieteenala-asiantuntija

Yhteisöllinen mallintaminen ja hajautetut mallit Ari Jolma Aalto-yliopisto. Mallinnusseminaari 2011 Lahti. Ari Jolma 1

Järjestelmäarkkitehtuuri (TK081702) Web Services. Web Services

Teollinen Internet. Tatu Lund

TTA palvelukokonaisuuden esittely Korkeakoulujen IT-päivät

Alfa-ohjelmat, verkkoasennus, asennusohje 2006 syyskuu. Alfa-ohjelmat ASENNUSOHJE. Verkkoasennus-CD, versio Kielioppi & kirjallisuus

Geneettisen tutkimustiedon

Palomuurit. Palomuuri. Teoriaa. Pakettitason palomuuri. Sovellustason palomuuri

Lääketeollisuuden tekemän tutkimuksen merkitys yhteiskunnalle. Tero Ylisaukko-oja, FT, toimitusjohtaja MedEngine Oy

Käyttövaltuushallinnan hyödyt tehokkaasti käyttöön. Johanna Lampikoski, RM5 Software Juha Arjonranta, TeliaSonera Finland

Sairauksien ennustemallit tarkentuvat laskennallisten menetelmien ansiosta

KODAK EIM & RIM VIParchive Ratkaisut

Paikkatietorajapinnat IT arkkitehtuurin näkökulmasta

Customer Intelligence ja Big Data. Digile D2I Kimmo Valtonen

Tieliikenteen tilannekuva Valtakunnalliset tiesääpäivät Michaela Koistinen

Sote-lait ja datan toissijainen käyttö: miten kustannusvaikuttavuus näkyy?

Datan hallinnan nykykäytännöt ja tulevaisuuden suunnitelmat Ville Tenhunen Helsingin yliopisto / Tietotekniikkakeskus

Digitalisaatio Konecranesin liiketoiminnassa

Itä-Suomen Biopankki

Tuotantoeläinten jalostus ja geenitekniikka

Tekoäly lääkärin päätöksenteon tukena. Arho Virkki, DI, FT Lääketieteellisen matematiikan dosentti, TY Auria tietopalvelun johtaja, TYKS

Hybrid Cloud -ratkaisulla pilvipalvelun hyödyt nopeasti käyttöön, Case Haarla Oy:n M-Filesdokumenttienhallintajärjestelmän käyttöönotto

Pertti Pennanen DOKUMENTTI 1 (5) EDUPOLI ICTPro

NGS:n haasteet diagnostiikassa Soili Kytölä, dos. sairaalageneetikko HUSLAB, genetiikan laboratorio

TALTIONI BIOPANKKITALLETTAJAN VERKKOPANKKI

YHDISTYKSEN DIGITAALINEN VIESTINTÄ

Poweria analytiikkaan

HUS Terveyskylä & Virtuaalisairaala 2.0 -hanke ESAVI, HYVINVOINTIKLINIKKA HETA KOLANEN

Tietojenkäsittelytieteilijöiden kokemuksia. Ella Bingham, tutkimuskoordinaattori, HIIT, Aalto

Centria tutkimus ja kehitys

SOTE-MAKU arkkitehtuuri Jari Porrasmaa, STM/OHO/DITI

Mistä on kyse ja mitä hyötyä ne tuovat?

potilastietojärjestelmä Tutkitusti paras suomalaiseen terveydenhuoltoon.

Talotekniikan palvelualusta varmistaa tuottavan ja viihtyisän kiinteistön

Teknologiatuetun kotona asumisen malli: tietojärjestelmät ja toimintamalli

Etäkäyttö ja avaamisen haasteet

Jarmo Saarti Kirjastojuridiikan ajankohtaispäivä Kirjastot ja datamining, tutkijan ja kirjaston näkökulmat

Biopankit miksi ja millä ehdoilla?

Kuinka helpottaa suurten projektien tuskaa pilvipalveluilla?

Vianovan Tuotteet Roadmap Ville Herva Novapoint Käyttäjäpäivät, Vantaa

Lakeja yms. Tässä luennossa. Millaista tietoa? Tietoon perustuva suostumus siirretäänkö vastuu tutkittavalle?

Tietoliikenteen harjoitustyö, ohjeistus

Tomi Huttunen Kuava Oy Kuopio

METSÄTIEDOT KOHTI 2020-LUKUA Janne Uuttera UPM

Tiede- ja tutkimusstrategia 2020

Uudistuvat lääkehuollon tietojärjestelmät. Marjo Uusitalo Projektipäällikkö YTM, erikoisfarmaseutti

Terveydenhuollon Atk-päivät 2009

Pilvipalveluiden arvioinnin haasteet

Ennakointi johtamisen perustana

Yhteentoimivuus ja tiedonhallintalaki

Cisco Unified Computing System -ratkaisun hyödyt EMC- ja VMwareympäristöissä

VAPA. Sähköisen säilyttämisen palvelu [ESITYSAINEISTO]

Kysymykset ja vastaukset:

Tämän teoksen käyttöoikeutta koskee Creative Commons Nimeä-JaaSamoin 3.0 Muokkaamaton -lisenssi.

Autodesk Lisenssitiedosto Autodesk, Inc.

SMART BUSINESS ARCHITECTURE

Novapoint Lisensiointi. Copyright 2006, ViaNova IT AS. All rights reserved 1

Verkottunut suunnittelu

Transkriptio:

Suurten genomisten tietomassojen hallinta ja analyysi tutkimuksessa ja yksilöidyssä hoidossa Timo Kanninen, Biocomputing Platforms Oy 2012 all rights reserved

BC Platforms genomisen datan hallintaa Geneettisen tutkimuksen tiedonhallinnan ja analyysin pioneeri Yhteistyössä maailman johtavien tutkimusryhmien kanssa vuodesta 1997 Asiakkaina akateemiset tutkimusryhmät, tutkimuskonsortiot, biotech-yritykset sekä lääkeyhtiöt IBM partneri, Illumina ja Affymetrix ohjelmistopartneri

Asiakaskaupungit ja myyntitoimistot

Asiakasreferenssejä

Suuria asiakasprojekteja EU FP7 / IMI projektit CELL-O-MATIC emerge (Electronic Medical Record and Genomics Network), USA NUgene BioVU

Genomisen datan hallinta ja analyysi tutkimuksessa 2012 all rights reserved

Biologisen datan määrä kasvaa kolmessa ulottuvuudessa Geneettisen variaation määrä / yksilö Sekvensoinnin kustannukset putoavat jatkuvasti Genotyyppidatalle yhä paremmat imputointireferenssit Tutkimukseen osallistuvien yksilöiden määrä Biopankit ja kohortit Kansainväliset yhteistyöprojektit Erilaisen omiikka datan määrä RNA-sekvensointi Metabolomiikka, proteomiikka, glykomiikka Metylaatio Yms

Haaste 1: Suuren datamäärän hallinta Geneettisen tiedon määrä kasvaa nopeammin kuin tietokoneiden kehitystä kuvaava Mooren laki Tarve käsitellä erityyppisiä ja eri paikoissa olevia (potilas)datoja yhdessä datan integraatio Tehokas tiedon käsittely

Kuinka paljon on paljon esimerkki suurehkosta tutkimusprojektista 2013 Genotyyppidataa 20 000 potilasta Imputoitua genotyyppidataa: 30 miljoonaa SNP / potilas, 3 lukuarvoa / SNP 20 000 * 30 000 000 * 3 = 1 800 000 000 000 = 1 800 miljardia lukuarvoa Sekvenssidataa 1 000 potilasta Koko genomi (3 miljardia emäsparia) 40 kertaisella kattavuudella, emäs ja laatutieto 1 000 * 3 000 000 000 * 40 = 120 000 000 000 000 = 120 000 miljardia datapistettä Muuta omiikkadataa Kymmeniä tuhansia (RNA-seq, metylaatio yms) mittaustuloksia yli 10 000:lta potilaalta Laskentakapasiteettia 500 CPU

Haaste 2: Tiedon turvallinen jakaminen Biopankit ja kohortit Tiukat säännöt potilasdatan käytölle ja jakamiselle Kopiota datasta ei saa luovuttaa kolmannelle osapuolelle Pääsy tietoon need-to-know periaatteella Datan analyysi Pääsy yksilötason dataan tarvitaan Tarve ajaa omia ohjelmia kuinka voidaan kontrolloida ettei ohjelma kopioi dataa Jäljitettävyys ja toistettavuus Onko dataa muutettu, miten ja kenen toimesta? Millaisia analyysejä on tehty, millä datalla ja kenen toimesta? Miten julkaistu analyysi voidaan toistaa? Mitä tietoja on siirretty omalle työasemalle?

Haaste 3: Datan analysointi Suurta datamäärää on vaikea siirtää kauas analysoitavaksi Datan siirtokapasiteetti pullonkaulana => Datan on oltava lähellä laskentakapasiteettia Tarve erittäin suureen laskentakapasiteettiin Sekvenointidatan linjaaminen ja variaatioiden etsintä Imputointi Variaatioiden yhteisvaikutukset (epistaasi) -omiikka datojen käyttö fenotyyppeinä => Laskentatyö voitava jakaa usealle eri palvelimelle Suuri määrä erilaisia analyysimenetelmiä Monia erilaisia menetelmiä kehitetty yliopistoissa pitkän ajan kuluessa Useimmissa erilaiset tiedostoformaatit => Tehokkaat, massiiviset datakonversiot

BC GENOME ohjelmistoalusta 2012 all rights reserved

BC GENOME tietojärjestelmä Tutkijat datan analysointi ja tulosten visualisointi datan hallinta ja jakaminen Laboratoriolaitteet genotyyppidata sekvenssidata -omiikka data muu data Datan analysointi dataformaattikonversiot rinnakkainen datan analysointi linux serverit instituutin laskentaklusteri pilvi Potilasdata datan keräys verkon yli integrointi muihin tietojärjestelmiin Tietokantapalvelin turvallinen, skaalautuva tietokanta paikallinen tai SaaS asennus Näytteidenhallinta näytteiden sijainti ja käsittely yhdistettävissä potilasdataan viivakoodit

Skaalautuva, turvallinen tietojärjestelmä Skaalautuva monen käyttäjän järjestelmä Tietokanta voidaan jakaa usealle palvelimelle tiedon määrän kasvaessa Tuki (dataformaattikonversio, käyttöliittymä) yli 30:lle akateemiselle analyysiohjelmalle, uusia ohjelmia voidaan lisätä helposti Analyysit voidaan segmentoida ja ajaa rinnakkain tietokoneklusterissa tai pilvessä Tietoturvallinen datan ja analyysitulosten jakaminen Käyttäjäkohtaiset rajoitukset datan tarkasteluun Datan analysointi tarvitsematta kopioida dataa ulos järjestelmästä Täydelliset lokitiedot (audit trail, data trail, edit trail, data access yms) Tietoturvallinen tapa omien ohjelmien ja komentorivi analyysien suorittamiseen

Case Vanderbilt University, USA BioVU Biopankki Jatkuva käyttötuki Käyttökoulutus Tutkijat Tieteellinen tuki Uudet menetelmät Bioinformatics core Tutkijan oma muu data Biopankkidata Annotaatiot, referenssit BC GENOME Analyysiohjelmat Prosessorit (200 kpl) Tallennustila (0.2 PT) Tietojärjestelmä

Genomisen datan hallinta ja analyysi yksilöidyssä hoidossa 2012 all rights reserved

Yksilöity hoito - ennustemallit Pelkkä genominen data ei useinkaan riitä Elintavat, liikunta, muut ympäristötekijät Kliininen tieto, laboratorioarvot, lääkitys Erilaiset biomarkkerit Tarvittava tieto hajallaan - tarve yhdistellä dataa eri lähteistä Potilastietojärjestelmä(t) Kyselylomakkeet, kotimittaukset (verensokeri yms) Genominen tieto Mallien kehittäminen kallista, tarve päivityksiin Akateemiset ryhmät/konsortiot, yritykset Miten mallin kehittäjä voisi saada korvauksen?

Geenidatan tuottaminen 1: Koko genomi kerralla vai sairausspesifiset geenitestit Nyt käytössä sairausspesifisiä geenitestejä (vain pieni osa genomia luetaan) Näytteen otto ja käsittely muodostaa suuren osan kustannuksista Hintojen edelleen pudotessa, koko genomin lukemisesta kerralla tulee kustannustehokkain vaihtoehto *) SoMe 23andMe: koko genomin genotyyppaus $99 (+postikulut) Data olisi hyödynnettävissä sekä tutkimuksessa että yksilöidyssä hoidossa *) *) FDA tasoinen diagnostiikka koko genomin datasta ei ole toistaiseksi mahdollista

Geenidatan määrä Geenidatan tuottaminen 2: SoMe data (23andMe yms) Terveystiedot SoMe data (23andMe yms) Tutkija Tutkija Terveystiedot Tutkija Nyt Lähitulevaisuudessa Tulevaisuudessa Lähde: Beyond the genome 2012 meeting, Harvard Medical School

Genomitiedon hyödyntäminen yksilöidyssä hoidossa Terveystiedot Potilastietojärjestelmä Älypuhelin tms Sensori 1 Sensori 2 Sovellukset (ennustemallit) - Akateemiset ja kaupalliset tahot - Ansaintamalli - Sertifioidut sovellukset - Tietoturvallinen rajapinta - Potilaan sovelluskohtainen suostumus genomidatansa käyttöön Keskitetty genomitietokanta - Genotyypit, sekvenssi - Muu omiikka data Genominen tieto

The End 2012 all rights reserved