FAIR-datan yhteentoimivuuden tukeminen Webinaari 16.4.2019 / Heidi Laine, CSC / Juuso Marttila, Jyväskylän yliopisto
Webinaarin sisältö 1. FAIR-periaatteet ja yhteentoimivuus: yleisesittely, koordinaattori Heidi Laine, CSC 2. FAIR-periaatteet ja yhteentoimivuus: yliopistonäkökulma, projektipäällikkö Juuso Marttila, Jyväskylän yliopisto 3. Kysymyksiä ja keskustelua
FAIR-periaatteet: kuka, missä, milloin? Saivat alkunsa Jointly Designing a Data FAIRport -työpajasta tammikuussa 2014 o Towards a Modular Blueprint Floor-plan of a Safe and Fair Data Stewardship, Trading and Routing Environment [ ] A Public Private Partnership to Ensure Long Term Solutions for Data in the escience Era. Julkaistu Scientific Data -lehdessä 2016 (Wilkinson et al.): https://www.nature.com/articles/sdata201618 Sittemmin levinneet laajalle 3
FAIR-periaatteet: F ja A Findable F1. Metadata (Meta)data are are assigned a a globally unique and persistent identifier F2. Data are described with rich metadata (defined by R1 below) F3. Metadata clearly and explicitly include the identifier of the data they describe F4. (Meta)data Metadata are are registered or or indexed in in a a searchable resource Accessible A1. (Meta)data Metadata are are retrievable by by their identifier using a standardised communications protocol A1.1 The protocol is open, free, and universally implementable A1.2 The protocol allows for an authentication and authorisation procedure, where necessary A2. Metadata are accessible, even when the data are no longer available 4
FAIR-periaatteet: I ja R Interoperable Reusable I1. (Meta)data Metadata use use a a formal, accessible, R1. Metadata Meta(data) are are richly described with a shared, and broadly applicable language a plurality of of accurate and and relevant for language knowledge for knowledge representation. attributes representation. R1.1. Metadata (Meta)data are are released with a a clear and I2. (Meta)data use vocabularies that and accessible accessible data data usage usage license license follow I2. Metadata FAIR principles use vocabularies that R1.2. Metadata are associated with detailed I3. follow (Meta)data FAIR principles include qualified provenance references I3. Metadata to include other (meta)data qualified R1.3. Metadata (Meta)data meet domain-relevant references to other metadata community standards R1.2. (Meta)data are associated with detailed 5
6 TUTKIMUSDATA F LÖYDETTÄVÄ A SAAVUTETTAVA I YHTEENTOIMIVA R UUDELLEEN- KÄYTETTÄVÄ Kuvattu tarkoituksenmukaisessa katalogissa riittävän yksityiskohtaisesti Kuvailusivu (landing page) ja (pysyvä) tunniste Saavutettavissa internetin kautta Versiointi ja elinkaaren dokumentointi Muistosivu jos data tuhotaan Yleiset, dokumentoidut ja avoimet formaatit ja standardit Hyvin dokumentoitu ja ymmärrettävä Oikeudet ilmoitettu selkeästi
FAIRin puute: pitkäaikaissäilytys ja -saatavuus Mukana rivien välissä mutta ei suoraan: FAIR-periaatteiden mukaisen datanhallinnan arvo kyseenalainen, jos pitkäaikaissäilytys ei toteudu 7
8 Mihin tarvitaan yhteentoimivuutta? 1/2
Mihin tarvitaan yhteentoimivuutta? 2/2 [D]ata scientists spend around 80% of their time on preparing and managing data for analysis. Gil Press (2016): Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says, https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-surveysays/#7b34677e6f63 9
Mitä on datan yhteentoimivuus? FAIR-periaatteissa on suurelta osin kyse datan koneluettavasta semanttisesta yhteentoimivuudesta, eli siitä että kone pystyy tietämään jonkin data-aineiston datapisteiden olemuksen sekä suhteen muihin datapisteisiin ja toimimaan tiedon pohjalta 10 Kuva: René Magritte, https://en.wikipedia.org/wiki/file:magrittepipe.j pg
FAIR-dataobjekti Ceci n'est pas une pipe Lähde: Turning FAIR into Reality -raportti https://publications.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-998201aa75ed71a1/language-en/format-pdf/source-80611283 11
Kuinka tuottaa (riittävän) FAIR-dataa? 1. Suunnittelemalla aineistonhallinnan tutkimuksen elinkaaren alussa ja päivittämällä aineistonhallintasuunnitelmaa tarpeen mukaan 2. Huomioimalla FAIR-periaatteet aineistonhallinnan suunnittelussa alusta alkaen 3. Käyttämällä yleisiä tiedostomuotoja 4. Dokumentoimalla datan, eli tuottamalla metadataa 5. Tukeutumalla metadatastandardeihin 6. Tallentamalla datan data-arkistoon (data repository) 7. Liittämällä dataan (pysyvän) tunnisteen (data-arkiston avulla) 8. Lisensoimalla datan (se ei ole uudelleenkäytettävää ilman lisenssiä!) 9. Viittaamalla dataan, sekä omaan että muiden 12
Miten valita FAIR-yhteensopivat palvelut ja resurssit Vakiintuneisuus Pysyvyys Koneluettavuus Avoimuus 13
Tunnisteet ja viittaaminen Tärkeää paitsi tunnustuksen antamiseksi (vrt. kirjallisuusviittaukset) myös datan löydettävyyden parantamiseksi Edellytys pysyvä tunniste eli PID o verkkoympäristössä käytettävä tunniste, jolla voidaan tunnistaa digitaalinen teos. Pysyvä tunniste on elektroninen vastine perinteisille bibliografisille tunnuksille, kuten ISBN ja ISSN. https://fi.wikipedia.org/wiki/pysyv%c3%a4_tunniste Kansallinen dataviittausohje 14 ohttp://urn.fi/urn:nbn:fi-fe201804106446 osuosittaa URNin tai DOIn käyttöä omyös tutkijan oma tunniste ORCID tärkeä
Edistyneemmille: datan semanttinen yhteentoimivuus Yhteentoimiva käsitteiden käyttö ontologioiden eli sanastojen kautta oschema.org ainoa Googlen datahaun tunnistama sanasto otieteenalakohtaisia sanastoja otieteen termipankki tuottaa suomenkielistä sanastoa RDF on World Wide Web Frameworkin (W3C) standardoima malli tiedon vaihtoon sovellusten välillä erityisesti web-ympäristössä, perustuu kolmikkoihin subjekti predikaatti objekti taivas on väriltään sininen Datan semanttisen rakenteen mallinnus osana datan hallinnan suunnittelua 15
Lähde: Mark Wilkinson https://indico.neic.no/event/56/sessions/90/attachments/40/63/3.2._day_3_am_late_- _Wilkinson_Ontological_Frameworks_Storage_Get_started.pdf 16
Miten arvioida datan FAIR-pitoisuus? How FAIR are your data tarkistuslista: https://zenodo.org/record/1065991 Edistyneemmille FAIR data maturity assessment: https://terazus.github.io/fair- Maturity-FrontEnd/#!/ 17
Metadata flows in IDA Technical file metadata (frozen data) METAX API Describe and publish Research datasets QVAIN Describe and publish research datasets METAX DATA CATALOGS FOR DIFFERENT METADATA Metadata SOURCES CRIS DATA ETSIN Browse and search research dataset metadata DOI FAIRDATA PAS 18 The research data hub
19 FAIR-periaatteet: yliopistonäkökulma
Miksi FAIR on yliopistoille tärkeää? Tutkijat tarvitsevat apua FAIR-vaatimukset täyttävän datan tuottamisessa Useimpien FAIR-ratkaisuiden tulee olla institutionaalisia Avoin Tiede meritoi tutkijoiden lisäksi instituutioita Rahoittajien vaatimukset 20
Nykytilanne 1/2 Aineistopolitiikat alkavat olla kunnossa okysymys omistajuudesta ja oikeuksista on vaikea ja aiheuttaa yhä hämmennystä sekä yliopistoille että tutkijoille Haasteena politiikan siirtäminen käytäntöön Aineistojen hallinta on monenkirjavaa ja usein suunnittelematonta Metatietojen hallinnasta on saatavilla vain vähän tietoa, sillä yliopistoteivät kerää systemaattisesti tietoja aineistoistaan 21
Nykytilanne 2/2 FAIR-vaatimuksetaiheuttavathämmennystä ja kipuilua sekä tutkijoille että yliopistoille okaikki aineisto ei voi edes olla FAIR, mutta sitä vaaditaan herkästi kaikelta oristiriita GDPR:n kanssa ja huono ajoitus sen suhteen Epäselvyyttä, mitä kukin tekee, mitä tehdään kansallisesti ja mitä kansainvälisesti 22
Välittömät toimenpiteet FAIR-asteen kohottamiseksi Infrastuktuuri kuntoon: ometatietojenkerääminen mahdolliseksi oaineistolle asianmukaiset säilytyskäytänteet otunnisteiden järjestäminenaineistoille ja metatiedoille Metatietojen julkaisuun prosessi ja järjestelmä (paikallinen ja/tai ETSIN/METAX) Tukea ja koulutusta tutkijoille, jotta aineistotsuunnitellaan FAIR-periaatteiden mukaisesti alusta alkaen okoulutusta myös olemassaolevienaineistojenlöytämiseenja käyttöön 23
Pitkän aikavälin tavoitteet ja toimenpiteet Mahdollisuudet koota, säilyttää ja julkaista data rdf-pohjaisina tietokantoina Automatisoituja parsereita datan kuratointiin Aineistoasiantuntijoita laitoksille ja tutkimusryhmiin huolehtimaan FAIR-työstä 24
Priorisointi Eri toimenpiteillä on huomattavan erilainen impakti FAIRin toteutumiseen ometatietoihin liittyvät toimenpiteet tärkeimpiä Itse aineistojenosalta kannattaa keskittyä suuriin kvantitatiivisiin aineistoihin, joidenmuuttaminen RDFmuotoon on selkeintä 25
Haasteet Resurssit: kaikki edellä esitetty maksaa Epäselvyys siitä, mitä FAIRilla nyt oikeasti vaaditaan, kun se vaatimuksena monessa paikoin esitetään. Puhdas FAIR on kuitenkin liki mahdoton toteuttaa, mutta mikä on se taso, jota rahoittajat esimerkiksiperäänkuuluttavat. Avoimena kysymyksenä, miten tämä pitäisi organisoida: laitoksiin, tiedekuntiin, IT-tukeen, kirjastoihin? 26
Kulttuurin muuttaminen ja vastuut Muutosta tarvitsevat sekä yhteisön arvottamis- ja meritointiperiaatteet sekä tutkimuksen työnkulku Nykyinen malli Kerää data Analysoi ja valmistele datasetti Tulokset Käytännössä kokonaan tutkijanvastuulla Tulokset käytännössä vain julkaisuja 27
FAIR-aineistojen työnkulku Analysoi ja valmistele datasetti TULOKSET Kerää data Määrittele semanttinen malli Tee datasta linkitettyä Määritä lisenssi Julkaise FAIR - kanavassa Pidä yllä metatietoja läpi prosessin Datatukea tarjoava taho mukana käytännössä läpi prosessin Yliopiston pystyttävä mahdollistamaan ja tukemaan 28
29 KYSYMYKSIÄ JA KESKUSTELUA
KIITOS! Lisää materiaaleja FAIR data koulutksen materiaalit: https://indico.neic.no/event/56/ FAIR data: an introduction (Sarah Jones, DCC): https://library.ust.hk/wpcontent/uploads/2019/03/fair-data.pdf facebook.com/cscfi twitter.com/cscfi youtube.com/cscfi linkedin.com/company/csc---it-center-for-science github.com/cscfi Kuvat CSC:n arkisto, Adobe Stock ja Thinkstock