Avoin data ja sen hyödyntäminen tähtitieteessä Juhani Huovelin Fysiikan laitos Helsingin yliopisto Avoin data avain uuteen, 1.11.2011
Tiedesatelliittien datat tallennettu julkisiin arkistoihin jo kymmeniä vuosia Nykyisin myös maanpäällisten observatorioiden datat arkistoidaan systemaattisesti julkisiin tietokantoihin Yleinen periaate: datat havaitsijan omaisuutta vain vuoden, minkä jälkeen ne ovat vapaata riistaa
Tähtitieteellisen datan määrä avoimissa arkistoissa 2001: 15 Teratavua
Tähtitieteellisen datan määrä avoimissa arkistoissa 2004: 60 Teratavua
Tähtitieteellisen datan määrä avoimissa arkistoissa 2007: 250 Teratavua
Tähtitieteellisen datan määrä avoimissa arkistoissa 2010: 1000 Teratavua = 1 Petatavu
Tähtitieteellisen datan määrä avoimissa arkistoissa 2013: 4 Petatavua
Tähtitieteellisen datan määrä avoimissa arkistoissa 2016: 16 Petatavua
Tähtitieteellisen datan määrä avoimissa arkistoissa 2019: 60 Petatavua ~ 60 000 000 000 000 000 tavua
Tilannekuva ja haasteet Maanpäällisten observatorioiden ja satelliittien havaintoaineistot hajallaan ympäri maailmaa sijoitetuissa data-arkistoissa Aineistot heterogeenisia ja työläitä hyödyntää ilman havaintolaitteisiin ja dataformaatteihin liittyvää erikoisosaamista Perinteisillä menetelmillä ei ehditä käsittelemään kattavasti lähes räjähdysmäisesti kasvavaa datamäärää Datojen kopioiminen ja analysointijärjestelmien asentaminen hyödyntäjien omiin järjestelmiin aiheuttaa valtavasti (turhaa) työtä ja datansiirtoa
Ratkaisun avaimet? VIRTUAALIOBSERVATORIOT Tietojärjestelmiä joiden avulla periaatteessa kuka tahansa voi internetin kautta kerätä, visualisoida, vertailla, yhdistellä ja muuttaa yhteiseen VOformaattiin tähtitieteen datoja haluamistaan kohteista tai taivaan alueista, sekä hakea kohteisiin liittyviä tutkimusjulkaisuja. Kehitteillä olevia ominaisuuksia Analysointimenetelmien verkkokäyttö Tiedonlouhinta (data mining) Näitä tukevia teknologioita Pilvilaskenta (cloud computing) GRID
International Virtual Observatory Alliance (IVOA) Virtuaaliobservatorioiden kattojärjestö Perustettiin vuonna 2002 ja jäseninä nykyään 20 Virtuaaliobservatorio-ohjelmaa Missiona kehittää yhtenäisiä maailmanlaajuisia standardeja ja edesauttaa niiden käyttöönottoa koko maailman tähtitieteilijöitä hyödyntävällä tavalla
European Virtual Observatory (EURO-VO) Bibliografinen tietokanta, jossa 5.400.000 kohdetta, 258.000 julkaisua, ja 8.300.000 sitaatiota Hakupalvelu, jossa 9409 katalogia, mm. 45 satelliitin mittaukset, kohteiden fysikaalisia parametreja, perusfysiikan taulukoita yms. Aladín Interaktiivinen taivaan-atlas digitaalisten tähtitaivaan kuvien katseluun GRID-teknologian hyödyntämiseen perustuva virtuaaliobservatorion tutkimus- ja kehitysprojekti
Missä meillä mennään? Yleisesti, suomalaiset tähtitieteilijät hyödyntävät nykyisin aktiivisesti ja monipuolisesti julkisia data-arkistoja ja niiden palveluita Suomalaiset osallistuvat myös VO-palveluiden ja erityisesti suurten datamassojen louhintaan soveltuvien teknologioiden kehittämiseen Esimerkkejä ESO Reflex: Euroopan Eteläisen Observatorion uuden sukupolven data-analyysiympäristö, joka suunniteltiin CSC:n ja HY:n yhteistyönä Pohjoisen tähtitaivaan UKIDSS (UKIRT Infrared Deep Sky Survey) tietokannan systemaattinen tiedonlouhinta uusien tähtiklustereiden löytämiseksi ESA:n johtama röntgensatelliittien ristikalibrointihanke, International Astronomical Consortium for High Energy Calibration (IACHEC)
Tähtijoukkojen etsintää julkisesta pohjoisen tähtitaivaan infrapunadatasta tiedonlouhinnan menetelmillä (O. Solin et al. 2011) ~750 000 kohdetta neliöasteen alueella (ja ~200 000 mittausvirhettä) EM algoritmilla löydetty tähtijoukko jonka pinta-ala on ~1/100000 neliöastetta
Julkisia satelliittihavaintoja hyödyntävä röntgensatelliittien ristikalibrointi (International Astronomical Consortium for High Energy Calibration IACHEC, jäsenenä J. Nevalainen) Galaksijoukot ovat osoittautuneet hyviksi standardikynttilöiksi, kuvassa Ophiuchus-klusteri Missiot: XMM-Newton, Chandra, Suzaku, Swift, RossiXTE, INTEGRAL, BeppoSAX Tuloksia: mm. XMM-Newton satelliitin kalibroinnin korjaus (Nevalainen et al. 2010)
Tulevaisuus Valmisteilla uusia hankkeita, joissa hyödynnetään tähtitieteen avointa dataa ja sen menetelmiä - ESO Reflex-tyyppinen data-analyysijärjestelmä hajautettuun laskentaan (pilvilaskentasovellus) - XNAV: ESA:n hanke jossa etsitään röntgenpulsareita majakoiksi uuteen avaruuden navigointijärjestelmään Lisäksi, käynnissä jo myös monialaista hyödyntämistä - uutisaiheiden etsintä sosiaalisesta mediasta - tilannekuvajärjestelmät