Tutkimuksen Tietoaineistot hanke TTA Pirjo-Leena Forsström, CSC
TTA-hankkeen seminaarin ohjelma 16.3.2012 Aamupäivän ohjelma on avoin, iltapäivä valmistelee hankkeen työryhmien käynnistämistä. 10.00 Seminaarin avaus: Annu Jylhä-Pyykönen 10.15 TUTA-hankkeen perintö: Ilkka Niiniluoto 10.45 Avoin tieto avain korkeatasoiseen kansainväliseen tutkimukseen: Markku Kulmala 11.30 TTA-hankkeen esittely ja keskustelua: Pirjo-Leena Forsström 12.00 Lounas iltapäivän osuuteen kutsutuille 13.00 Työryhmien puheenjohtajien aloituspuheenvuorot 14.30 Seminaarin päätös
TTA-hanke OKM on käynnistänyt Tutkimuksen tietoaineistot -hankkeen (TTA) vuosille 2011 2013. Hanke panostaa: tutkimuksen tietoaineistojen hyödyntämiseen liittyvän tahtotilan vahvistamiseen kansallisen tietopolitiikan luomiseen sekä tutkimuksen tietoinfrastruktuurin rakentamiseen. Hankkeen aikana mm. rakennetaan yhteinen tutkimusaineistojen tallennuspalveluratkaisu, tuetaan metatiedon tuottamista ja yhdenmukaistetaan tutkimusaineistojen tuottamiseen ja ylläpitämiseen liittyviä prosesseja sekä selvitetään KDK:n kanssa yhteinen pitkäaikaistallennusratkaisu.
Hankkeen tavoitteet TTA-hanke edistää tietoaineistojen kuvausten ja määritysten yhtenäistämistä, harmonisointia ja käyttöä tutkimuksen tietojärjestelmissä. 1. Tutkimuksen tietoaineistoprosessien toimintalähtöinen kehittäminen 2. Tutkimuksen kohdealueen yhteentoimivuuden lisääminen tietoaineistojen kuvailun ja tunnistamisen edistäminen tietoaineistojen saatavuuden ja käytön edistäminen tietoaineistojen pitkäaikaissäilytyksen edistäminen Perustaksi tarvitaan metatietojen tuotantoprosesseja, jakamista, ylläpitoa, kehittämistä ja jatkuvaa käyttöä edistävä toimintamalli sekä ratkaisut sisältöjen ja palvelujen toteuttamiseksi.
Tutkimusprosessi
Avoin tiede: Tutkimuksen tuottamat tietoaineistot käytettävissä Avoin pääsy tutkimuksen tuottamiin julkaisuihin Mahdollisuus käyttää tutkimusmenetelmiä joilla aineisto tuotettu Avoin infrastruktuuri jatkokäyttöä varten
Tutkimustiedon infrastruktuuri
Tutkimustiedon infrastruktuurin täytyy tukea: koko tutkimusprosessia tietoaineistojen siirtoa tieteenalojen välillä avoimen datan tuottoa työvuopohjaista toimintaa julkaisujen ja tietoaineistojen linkitystä tiedepolitiikan kehikkoa
Scientific Data e-infrastructure: need for coordination at European level Governance (rules for access and preservation) e-infrastructure of Data Information (Human and Machine) Services Manag. of Databases/Repository Discoverability/Provenance (Metadata, DOIs, DAIs, ) e-infrastructure for Data Processing, Computation Connectivity/Storage infrastructure Adapted from e-scidr study
Kyvykkyydet datahallintaan 14 kategoriaa
The spectrum of reproducibility. R D Peng Science 2011;334:1226-1227 Published by AAAS
The validation of omics research for use in medicine and public health requires fulfilling multiple steps J P A Ioannidis, M J Khoury Science 2011;334:1230-1232 Published by AAAS
Summary of Research Councils UK - Common Principles on Data Policy Public good: Publicly funded research data are produced in the public interest should be made openly available with few restrictions Planning for preservation: Institutional and project specific data management policies and plans needed to ensure valued data remains usable Discovery: Metadata should be available and discoverable; Published results should indicate how to access supporting data Confidentiality: Research organisation policies and practices to ensure legal, ethical and commercial constraints assessed; research process not damaged by inappropriate release First use: Provision for a period of exclusive use, to enable research teams to publish results Recognition: Data users should acknowledge data sources and terms & conditions of access Public funding: Investment is appropriate and must be efficient and cost-effective.
Tulokset 2012-2013 Tutkimusaineistojen hallinnan prosessikartta, palveluiden määrittely, tietokokonaisuudet tunnistettu Metatietomalli tutkimusaineistojen hallinnalle Yhteinen datakatalogi/hakupalvelu tutkimustiedolle Tallennuspalvelu tutkimusaineistoille Tutkimusinfrastruktuurin datanhallinnan pipeline - prototyyppi
Hankkeen resursointi CSC hankkii tallennuskapasiteettia kansallisen suurteholaskennan ja datakeskustoiminnan kehittäminen -kokonaisuudessa. Osa tilausvaltuudesta käytetään tallennuskapasiteetin kehittämiseen (ns. Data-11 -kokonaisuus). Hankinta tehdään puitejärjestelynä. Data-11:n kokonaisbudjetti on 5,5 M, mistä merkittävä osa käytetään TTA-hankkeen tallennuspalveluratkaisun toteuttamiseen. TTA-hankkeen käyttöön tarvitaan yhteenlaskettuna arviolta vähintään 2 + 2 PB (petatavua, 10^15 tavua) tallennustilaa sekä aineistojen metatietojen keruuseen datakatalogipalvelu. TTA-hanke vaatii toteutukseen alustavan arvion mukaan yhteensä 17 henkilötyövuotta CSC:ltä. TTA-hankkeen kustannukset katetaan OKM:ltä vuosiksi 2011-2013 saaduilla valtionavustuksilla.
Liitynnät Tutkimuksen kohdealueen kokonaisarkkitehtuurityö: Varmistetaan ristiriidattomuus ja edistetään yhteensopivuutta ja yhteisiä ratkaisuja. KDK: varmistetaan kokonaisarkkitehtuurin ja yhteisten palveluiden yhteensopivuus tutkimuksen tietoaineistojen palveluiden kanssa. Varmistetaan palveluarkkitehtuurin toimivuus Pitkäaikaissäilytyksen näkökulmasta, edistetään yhteisen PAS-palvelun mahdollisuutta. Selvitetään Tutkimusaineistojen pitkäaikaissäilytyksen kustannukset ja hyödyt. Julkisen hallinnon kokonaisarkkitehtuuri: toimitaan mukana työryhmissä (mm. standardisalkku, metatietorekisteri) ja varmistetaan ristiriidattomuus. Varmistetaan tietoaineistoasian huomioiminen korkeakoulujen tietohallinnon kehittämisessä, TUTKI-työssä sekä Julkaisurekisteripalveluiden kanssa. Tutkimusinfrastruktuurit: Varmistetaan palveluiden/prosessien toimivuus (erityisesti dataintensiivisille infroille kuten Biokeskus Suomi/Biolääketieteen kokonaisuus, CLARIN, ICOS, Paikkatiedon infrastruktuuri, FSD:n TA15) ja toimitaan yhteistyöss Suomen Akatemian tutkimusinfrastruktuuritoimikunnan kanssa. Open Access: yhteistyö Linked Open Data hankkeen kanssa, selvitetään mahdollisuuden datakatalogipalveluiden yhtenäistämiseen. TURE-työryhmä: huomioidaan osana tietoinfrastruktuurikokonaisuutta.
Korkeakoulut Sektoritutkimuslaitokset Sidosryhmät Tutkimusinfrastruktuurit (erit. ESFRI) Ulkomaiset korkeakoulut, tutkimusinfrastruktuurit, tutkimuslaitokset ja verkostot Julkisen sektorin tiedontuottajat (mm. perusrekisterit) ja palveluorganisaatiot Rahoittajat (Suomen Akatemia, Tekes ja EU-rahoitusinstrumentit) SHOKit
Tietoaineistojen hallinnan kehikko A goal without a plan is just a wish." Antoine de Saint-Exupery (1900-1944) TTA-palvelukokonaisuus edistää tutkimuksen tietoaineistojen kansallista, eurooppalaista ja kansainvälistä yhteentoimivuutta. Tietoinfrastruktuurin palveluiden kautta käyttäjät saavat mahdollisimman helposti käyttöön yhteiset sanastot, ontologiat, metatietomääritykset, koodistot, luokitukset ja tunnisteet. Näiden perustana tulee pääsääntöisesti olla kansainväliset ja yleiset standardit. LINJAUKSET JA YHTEISTYÖ INFRASTRUKTUURI JA PALVELUT METADATAN HALLINTA
LINJAUKSET JA YHTEISTYÖ Koordinaatioryhmä päättää, ohjausryhmä ehdottaa: käyttöpolitiikka palveluille (myös väliaikaiset) Tutkimuksen tietoinfrastruktuurin palvelujen tavoitteet sekä käytänteet sille kuinka julkisrahoitteisessa tutkimuksessa tietoaineistoja käsitellään ja jaetaan tutkimusaineistojen saatavuuden ja käytettävyyden edellytysten parantaminen lainsäädännölliset ja hallinnolliset kehittämistarpeet ehdotuksina asianomaisille tahoille tutkimusaineistojen pitkäaikaissäilytyksen hyöty- ja kustannuselementit tsuunnitelma tutkimuksen tietoinfrastruktuurin palveluista metatietomalli tutkimusaineistojen ja niihin liittyvien palveluiden semanttisen yhteentoimivuuden edistämiseen
INFRASTRUKTUURI JA PALVELUT Työryhmät määrittävät, CSC ja muut toimijat roolinsa mukaan toteuttavat: tutkimuksen tietoaineistojen prosessikartta tietoinfrastruktuurin palvelujen määrittely yhteinen datakatalogi/hakupalvelu tutkimusaineistoille tallennuspalvelu tutkimuksen tietoaineistoille Datanhallinnan pilotti laitteistoasennukset palvelun toiminnallisuuksien kehitys (mm. käyttöliittymä, käyttäjähallinta ja -valtuutus) metatietomallin implementointi tallennuspalveluun ja datakatalogiin rajapinta määrittelyiden laatiminen opaskirja ja koulutus tietoinfrastruktuurien palveluista
METATIEDON HALLINTA Metatietotyöryhmä määrittää: tietokokonaisuuksien tunnistaminen (inventointi) Standardisalkun laatiminen Metatietomalli tutkimusaineistojen hallinnalle, näkökulmina hajautetun tiedon hallinta, tiedon uudelleenkäyttö, pitkäaikaissäilyttäminen ja työvuopohjainen hyödyntäminen.
TTA-hankkeen rakenne Koordinaatioryhmä Ohjausryhmä Metatietoryhmä Tietoinfrastruktuuri -ryhmä PAS-selvitys TUTKIMUS-IDA DATAKATALOGI DATANHALLINNA N PILOTTI
Ohjausryhmä Puheenjohtaja Pirjo-Leena Forsström Annikki Roos, Helsingin yliopiston kirjasto Antti Auer, Jyväskylän yliopisto Antti Syväjärvi, Lapin yliopisto Eero Hyvönen, Aalto ja Linked Data Finland hanke Esa-Pekka Keskitalo, Kansalliskirjasto Jarmo Kohonen, Geologian tutkimuskeskus Juha Haataja, OKM Jukka Uusitalo, valtiovarainministeriö Jussi Nuorteva, Kansallisarkisto Kari Raivio, Helsingin yliopisto Kristiina Hormia, Kansalliskirjasto Leena Storgårds, Tilastokeskus Mari Kleemola, Yhteiskuntatieteellinen tietoarkisto Minna Karvonen (opetus- ja kulttuuriministeriö, KDK) Riitta Rissanen, Savonia AMK Saara Hassinen, Salwe Oy Sirpa Thessler, LYNET Teo Kirkinen, Helsingin yliopisto Kansallinen tutkimusinfrastruktuurien asiantuntijaryhmän edustus THL:n/SOTERKOn edustaja Maanmittauslaitoksen edustaja
Työryhmät Metatietotyöryhmän puheenjohtaja Mari Kleemola, Yhteiskuntatieteellinen tietoarkisto Tietoinfrastruktuurityö ryhmän puheenjohtaja Esa-Pekka Keskitalo Kansalliskirjasto
Alustava työohjelma
Hankkeen periaatteet Toimintalähtöinen kehittäminen Keino: Kokonaisarkkitehtuuri ja sidosryhmätyö Yhteentoimivuuden edistäminen Keino: Integrointiperiaatteet ja -palvelut Monitieteisyyden ja yhteiskäyttöisyyden edistäminen Keino: datakatalogi, kokoelmat, metatietotyö Kustannustehokkuuden ja läpinäkyyvyyden lisääminen Keino: Kustannus/hyötyanalyysi Tietoaineistojen kuvailun ja tunnistamisen edistäminen Keino: standardoinnin ja tiedon vakioinnin lisääminen, metatietotyö Tutkimusaineistojen säilyttäminen: Keino: Tallennuspalvelu, pitkäaikaissäilytyksen edistäminen
etieteen ekosysteemi
e-infrastructures for Data (adapted from Prof. Sulston Presentation in the European Parliament on October 2011) Distributed and participatory architectures; robust networks with hubs Discoverability, Access and Interoperability of Data Access to Storage and Computing Resources High-speed Connectivity to enable international collaborations Node: Domain Specific hub National Hub University hub
"Eivät ihmiset vuoriin kompastu, vaan kiviin."
TTA-hankkeen lähtökohdat 1. Korkeakoulujen rakenteellisen kehittämisen ohjelma: Suomessa nykyistä vahvempi ja laadukkaampi korkeakoululaitos, maailmanluokan tutkimusinfrastruktuureja ja tutkimusympäristöjä sekä korkeatasoinen tutkijankoulutus ja tutkijakunta. 2. Hallituksen periaatepäätös 3.3. ja pääministeri Kataisen hallitusohjelma: Tavoitteena on julkisen sektorin hallinnoimien digitaalisten tietoaineistojen saattaminen helposti uudelleenkäytettävässä muodossa tietoverkkojen kautta kansalaisten, yritysten ja yhteisöjen, viranomaisten, tutkimuksen ja koulutuksen hyödynnettäväksi. 3. Julkisen hallinnon tietohallinnon ohjaus: Valtio on kehittämässä julkisen hallinnon tietojärjestelmiä tietohallintolain määräämällä tavalla tiedon yhteismitallisuuden ja yhteentoimivuuden varmistamiseksi. Korkeakoulut ovat pääsääntöisesti tietohallintolain ulkopuolella. Tietohallintolaki koskee kuitenkin kaikkia viranomaisia ja opetus- ja kulttuuriministeriön tehtäväksi on kaavailtu yhteentoimivuuden koordinointi julkisen sektorin kokonaisarkkitehtuurin koulutuksen, tutkimuksen ja kulttuurin kohdealueella. Kohdealueelle kuuluvat muun muassa merkittävät tieteen rahoittajat SuomenAkatemia ja Tekes, sektoritutkimuslaitoksia ja opiskelijavalinnoissa keskeisessä roolissa toimiva Opetushallitus. 4. Tutkimus- ja innovaatiopoliittinen linjaus 2011 2015: Tutkimustiedon hyödyntäjistä ja TI-organisaatioiden edustajista muodostuva toimielin valmistelee riittävin valtuuksin poliittista päätöksentekoa vaativat asiakokonaisuudet... Työhön osallistuvat ministeriöt, asiantuntija- ja rahoittajaorganisaatiot ja käyttäjät. Kehittäminen edellyttää nykyisten infrastruktuurien käytön tehostamista organisaatioiden ja sektorien yhteistyönä sekä yhteisinvestointeja uusiin tarpeisiin. Infrastruktuurien suunnitelmallinen, koottu kehittäminen ja rahoituksen hallinta edellyttävät omaa budjettimomenttia. Infrastruktuuripolitiikkaa, sen organisointia jarahoitusta seurataan ja arvioidaan säännöllisesti. 5. Tutkimuksen tietoaineistot hankkeen ehdotukset
TTA-hankkeen rakenne Koordinaatioryhmä Ohjausryhmä Metatietoryhmä Tietoinfrastruktuuri -ryhmä PAS-selvitys TUTKIMUS-IDA DATAKATALOGI DATANHALLINNA N PILOTTI
Koordinaatioryhmä määritellä tutkimuksen tietoinfrastruktuurin palvelujen tavoitteet sekä käytänteet sille kuinka julkisrahoitteisessa tutkimuksessa tietoaineistoja käsitellään ja jaetaan tutkimusaineistojen saatavuuden ja käytettävyyden edellytysten parantaminen määritellä lainsäädännölliset ja hallinnolliset kehittämistarpeet ja tehdä ehdotukset asianomaisille tahoille tarvittavien työryhmien asettaminen luoda tarvittavat pysyvät hallinnointirakenteet sekä määritellä mitä toimenpiteitä aineistojen saatavuus ja käytettävyys edellyttää vuoden 2013 jälkeen.
Ohjausryhmä Ohjausryhmä (organisaatiotaso, yliopistojen ja tutkimuslaitosten edustajat), jonka tehtävänä on: Laatia tulevaisuuden tiekartta tutkimuksen tietoinfrastruktuurille Saatavuutta ja käytettävyyttä edistävien rakenteiden ja palveluiden kehittäminen Tutkimuksen tietoarkkitehtuurityön edistäminen Tietoaineistotuotannon laadun parantaminen Pitkäaikaissäilytyksen kustannus-hyötyanalyysin ohjaaminen Periaatteiden, politiikkojen ja hyvien käytäntöjen kokoaminen
Alustava työohjelma
Ohjausryhmä Puheenjohtaja Pirjo-Leena Forsström Annikki Roos, Helsingin yliopiston kirjasto Antti Auer, Jyväskylän yliopisto Antti Syväjärvi, Lapin yliopisto Eero Hyvönen, Aalto ja Linked Data Finland hanke Esa-Pekka Keskitalo, Kansalliskirjasto Jarmo Kohonen, Geologian tutkimuskeskus Juha Haataja, OKM Jukka Uusitalo, valtiovarainministeriö Jussi Nuorteva, Kansallisarkisto Kari Raivio, Helsingin yliopisto Kristiina Hormia, Kansalliskirjasto Leena Storgårds, Tilastokeskus Mari Kleemola, Yhteiskuntatieteellinen tietoarkisto Minna Karvonen (opetus- ja kulttuuriministeriö, KDK) Riitta Rissanen, Savonia AMK Saara Hassinen, Salwe Oy Sirpa Thessler, LYNET Teo Kirkinen, Helsingin yliopisto Kansallinen tutkimusinfrastruktuurien asiantuntijaryhmän edustus THL:n/SOTERKOn edustaja Maanmittauslaitoksen edustaja
Työryhmät Metatietotyöryhmän puheenjohtaja Mari Kleemola, Yhteiskuntatieteellinen tietoarkisto Tietoinfrastruktuurityö ryhmän puheenjohtaja Esa-Pekka Keskitalo Kansalliskirjasto
Alustava aikataulutus Helmikuu Maaliskuu Huhtikuu Toukokuu Kesäkuu Koordinaatioryh mä 28.2. Seminaari 16.3. Muut työryhmät aloittavat Metatieto- ja tietoinfrastruktu urityö-ryhmät Ohjausryhmä Metatieto- ja tietoinfrastruktu urityö-ryhmät Koordinaatioryh mä Metatieto- ja tietoinfrastruktuu rityö-ryhmät Elokuu Syyskuu Lokakuu Marraskuu Joulukuu Ohjausryhmä Metatieto- ja tietoinfrastruktuurityöryhmät Seminaari Metatieto- ja tietoinfrastruktuurityöryhmät Ohjausryhmä Metatieto- ja tietoinfrastruktuurityöryhmät Koordinaatioryhmä Metatieto- ja tietoinfrastruktuurityöryhmät Metatieto- ja tietoinfrastruktuurityöryhmät Ohjausryhmä Koordinaatioryhmä
Hankkeen yhteistoiminta KESKUSTELUT Tiedon jakamisen periaatteet eduuni: yhteistyöalusta Yhteistyöfoorumit Yhteisseminaarit Teemaseminaarit
Tietoinfrastruktuuriryhmä Tietoinfrastruktuuriryhmä, jonka tehtävänä on: Laatia rakenteet tietovarantojen ja tietojen yhteentoimivuuden kehittämiselle ja edistää siten tietoaineistojen hallintaa ja sähköisiä palveluja Voimakas yhteistyö Tutkimusinfrastruktuuritoimikunnan kanssa. Tavoitteena löytää rakenne, jota voi hyödyntää tutkimusinfrastuktuurien prosessien ja palveluiden koostamisessa (datakatalogit, tietokannat, tallennus, pysyvät tunnisteet, käyttäjävaltuutukset yms).