FAIR-datan yhteentoimivuuden tukeminen. Webinaari / Heidi Laine, CSC / Juuso Marttila, Jyväskylän yliopisto

Samankaltaiset tiedostot
FAIRDATA-PALVELUT. CSC Suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

Tunnisteet ja viittaukset sähköisessä tutkimusympäristössä. Jessica Parland-von Essen Informaatiotutkimuksen päivät

Tutkimusaineistopalvelut IDA & Etsin. Jessica Parland-von Essen

Datapalveluja, infrastuktuureja, ekosysteemejä tutkimuksen hyväksi

FAIRDATA-PALVELUT. CSC Suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus. Anssi Kainulainen / CSC

Tietoarkisto on FAIR. Avoimen tieteen kevätpäivät 2019 Tampere Hannele Keckman-Koivuniemi tietopalvelupäällikkö

Tutkimuksen pitkäaikaissaatavuuden palvelukokonaisuus

TUTKIMUSDATAN KUVAILU. Kuvailun tiedotuspäivä Tieteenala-asiantuntija, FT Katja Fält

H e t. p i and Ho. c s. H e

Tukea pysyvien tunnisteiden hyödyntämiseen CSC:n PID-palvelut

Tutkimusdatan hallinnan kansalliset välineet IDA, Etsin, AVAA. Stina Westman, ATT-hanke, CSC

Tutkimusrahoittajien ja tiedejulkaisujen vaatimukset aineistonhallinnalle

Miten avoin tiede ja tutkimus näkyy palveluiden kehityksessä? Pirjo-Leena Forsström

Tutkimustietovaranto julkaisujen näkökulmasta

FAIRDATA-PALVELUKOKONAISUUS Anssi Kainulainen. CSC Suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

AVOIN TIEDE JA TUTKIMUKSEN NÄKYVYYS

Infrastruktuurin aineistonhallinta ja käytön avoimuus

Pysyvät tunnukset ja niiden hyödyntäminen

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Avoin data Avoin kirjasto Kuvailupäivät

Tietoarkiston palvelut. Arja Kuula-Luumi (Tietoarkisto) Tieteelliset lehdet ja tutkimusdata seminaari Tieteiden talo, Helsinki

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Data Management Plan Hyvä datanhallinta alkaa suunnittelusta. Minna Ahokas CSC

Avointen aineistojen julkaisualusta. Tanja Kantola, AVAA-projekti, CSC,

Avoin tiede ja tutkimus ATT Hankkeiden esittely

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

Pitkäaikaissäilytys osana yhteentoimivaa ja vaikuttavaa kulttuuriperintöä

Avoin tiede ja tutkimus TURUN YLIOPISTON DATAPOLITIIKKA

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Open Access & Open Data & Tulosten suojaus Horisontti ohjelmassa. Liisa Ewart Lakimies Sopimus- ja kustannusasioiden NCP VTT 27.3.

Avoin tiede ja tutkimus (ATT-hanke)

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

Taideyliopiston tutkimusaineistopolitiikka Toteuttamissuunnitelma

Luento 12: XML ja metatieto

Tudatupa tutkimusdatan tutkijapalvelut

HELSINGIN YLIOPISTON TUTKIMUSDATAN TUTKIJAPALVELUT. Mari Elisa Kuusniemi, Tutkimuksen palvelut, Helsingin yliopiston kirjasto, Helsingin Yliopisto

Kirjastoverkkopäivät Marja-Liisa Seppälä Kansalliskirjasto

AVOIN DATA AVAIN UUTEEN Seminaarin avaus Kansleri Ilkka Niiniluoto Helsingin yliopisto

Avoin tieto ja World Wide Web tietoyhteiskunnan palveluksessa. Open Data and the World Wide Web in Service for the Informaton Society

Tutkimusdatan pitkäaikaissäilytys ATT-hankkeessa.

Tutkimuksen tietoaineistojen saatavuuden. kokonaisarkkitehtuuri

Julkaisujen avoimen saatavuuden tukeminen

Julkaisuarkistojen yhteentoimivuus

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

W3C-teknologiat ja yhteensopivuus

Datanhallinnan oppaan esittely mitä ovat IDA, AVAA, KATA, PAS, REMS? Johanna Blomqvist, CSC - Tieteen tietotekniikan keskus

Tutkimustietohallinnon tietovirrat ja tutkimustietovaranto ohjausryhmäkokous Pirjo-Leena Forsström

Hallinnon tietoympäristön muuttuminen ja sähköinen säilyttäminen

Juha Haataja.

DATAVIITTAUSTEN MERKITYS AVOIMEN TIETEEN EDISTÄMISESSÄ

ATT-hankkeen tavoitteet vuonna Johtaja Riitta Maijala, OKM ATT työryhmäseminaari Tieteiden talo,

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Paikkatiedot ja Web-standardit

Tutkimuksen rahoittajien ja julkaisijoiden sekä tutkimusorganisaatioiden politiikkasuositukset. Yleiskatsaus nykytilanteeseen.

Heikki Helin Metatiedot ja tiedostomuodot

AVOIN DIGITAALINEN KULTTUURIPE RINTÖ JA OPISKELIJAT (5OP, HELSINGIN YLIOPISTO) MAIJA PAAVOLAINEN HELSINGIN YLIOPISTON KIRJASTO

Fairdata PAS-palvelu

Ohje arkaluonteisia henkilötietoja sisältävän tutkimuksen datanhallinnan suunnitteluun

Avoin tiede ja tutkimus TURUN YLIOPISTON JULKAISUPOLITIIKKA

Tutkimuksen tietoaineistot

Avoimuutta tukemassa

Ontologiat ja semanttinen web sisällön tuotannon näkökulmasta Luetteloinnin tiedotuspäivä Juha Hakala Kansalliskirjasto.

Dataintensiivinen tutkimus ja osaamistarpeet tutkimuslaitoksissa

CC0-lisenssi: case Finna

TTA, PAS ja julkishallinnon standardisointi

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

Katsaus ammattikorkeakoulujen avoimeen tki-toimintaan

PALVELUITA AINEISTOJEN HALLINTAAN

Valtion uudet yhteentoimivuuspalvelut: dataportaali, palvelutietovaranto ja yhteentoimivuus.fi v.2

Fairdata-palvelut. Säilytä, kuvaile, hae, pitkäaikaissäilytä

FinnONTO-infrastruktuurin esittely

Avoimen datan liiketoimintamallit. Matti Rossi, Aalto University School of Business

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Metadata ja hyvät käytännöt

PAS-palveluiden ja sidonnaisten palveluiden käyttötarkoitukset

Sisällönhallinnan menetelmiä

TTA palvelukokonaisuuden esittely Korkeakoulujen IT-päivät

F-SECURE TOTAL. Pysy turvassa verkossa. Suojaa yksityisyytesi. Tietoturva ja VPN kaikille laitteille. f-secure.com/total

Aineistonhallinta pähkinänkuoressa METODIFESTARIT TAMPEREEN YLIOPISTO ARJA KUULA-LUUMI

ISNI-järjestelmä. Sähköisten sisältöjen aamupäivä Maarit Huttunen. KANSALLISKIRJASTO - Tutkimuskirjasto

Sisällys. Valtion tietotekniikan rajapintasuosituksia. XML:n rooleja sähköisen asioinnin tavoitearkkitehtuurissa. dbroker - asiointialusta

Datanhallinta, laskennan resurssit ja osaaminen

KDK: Finna ja pitkäaikaissäilytys

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Kirjasto yliopiston tutkimusaineistopolitiikan toteuttajana. Pekka Olsbo Julkaisukoordinaattori Jyväskylän yliopiston kirjasto

Kokoelmien arviointi

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Oletko mukana tutkimuksen muutoksessa? Lue tästä, miten voit hyödyntää avoimen tieteen ja tutkimuksen mahdollisuudet!

Humanististen alojen aineistojen erityispiirteet ja aineistonhallinta METODIFESTIVAALI

HY TUTKIMUSDATA POLITIIKKA

TTA-hankkeen esittely. Pirjo-Leena Forsström TTA-hankkeen pääsihteeri

Pitkäaikaissäilytyksen toteutuksen erityispiirteet. TTA:n pitkäaikaissäilytyksen keskustelutilaisuus Kimmo Koivunen

HL7 Clinical Document Architecture. Seminaari: Tiedonhallinta terveydenhuollossa Riku Niittymäki

Kansallinen radio- ja televisioarkisto. Tietoisku Radioinsinööriseuran senioreille

PALVELUT KATA/AVAA/IDA. Tuija Raaska, CSC,

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Kansalliskirjaston ATThankkeet

Digitaalisen maailman mahdollisuudet OKM:n kirjastopäivät Minna Karvonen

Transkriptio:

FAIR-datan yhteentoimivuuden tukeminen Webinaari 16.4.2019 / Heidi Laine, CSC / Juuso Marttila, Jyväskylän yliopisto

Webinaarin sisältö 1. FAIR-periaatteet ja yhteentoimivuus: yleisesittely, koordinaattori Heidi Laine, CSC 2. FAIR-periaatteet ja yhteentoimivuus: yliopistonäkökulma, projektipäällikkö Juuso Marttila, Jyväskylän yliopisto 3. Kysymyksiä ja keskustelua

FAIR-periaatteet: kuka, missä, milloin? Saivat alkunsa Jointly Designing a Data FAIRport -työpajasta tammikuussa 2014 o Towards a Modular Blueprint Floor-plan of a Safe and Fair Data Stewardship, Trading and Routing Environment [ ] A Public Private Partnership to Ensure Long Term Solutions for Data in the escience Era. Julkaistu Scientific Data -lehdessä 2016 (Wilkinson et al.): https://www.nature.com/articles/sdata201618 Sittemmin levinneet laajalle 3

FAIR-periaatteet: F ja A Findable F1. Metadata (Meta)data are are assigned a a globally unique and persistent identifier F2. Data are described with rich metadata (defined by R1 below) F3. Metadata clearly and explicitly include the identifier of the data they describe F4. (Meta)data Metadata are are registered or or indexed in in a a searchable resource Accessible A1. (Meta)data Metadata are are retrievable by by their identifier using a standardised communications protocol A1.1 The protocol is open, free, and universally implementable A1.2 The protocol allows for an authentication and authorisation procedure, where necessary A2. Metadata are accessible, even when the data are no longer available 4

FAIR-periaatteet: I ja R Interoperable Reusable I1. (Meta)data Metadata use use a a formal, accessible, R1. Metadata Meta(data) are are richly described with a shared, and broadly applicable language a plurality of of accurate and and relevant for language knowledge for knowledge representation. attributes representation. R1.1. Metadata (Meta)data are are released with a a clear and I2. (Meta)data use vocabularies that and accessible accessible data data usage usage license license follow I2. Metadata FAIR principles use vocabularies that R1.2. Metadata are associated with detailed I3. follow (Meta)data FAIR principles include qualified provenance references I3. Metadata to include other (meta)data qualified R1.3. Metadata (Meta)data meet domain-relevant references to other metadata community standards R1.2. (Meta)data are associated with detailed 5

6 TUTKIMUSDATA F LÖYDETTÄVÄ A SAAVUTETTAVA I YHTEENTOIMIVA R UUDELLEEN- KÄYTETTÄVÄ Kuvattu tarkoituksenmukaisessa katalogissa riittävän yksityiskohtaisesti Kuvailusivu (landing page) ja (pysyvä) tunniste Saavutettavissa internetin kautta Versiointi ja elinkaaren dokumentointi Muistosivu jos data tuhotaan Yleiset, dokumentoidut ja avoimet formaatit ja standardit Hyvin dokumentoitu ja ymmärrettävä Oikeudet ilmoitettu selkeästi

FAIRin puute: pitkäaikaissäilytys ja -saatavuus Mukana rivien välissä mutta ei suoraan: FAIR-periaatteiden mukaisen datanhallinnan arvo kyseenalainen, jos pitkäaikaissäilytys ei toteudu 7

8 Mihin tarvitaan yhteentoimivuutta? 1/2

Mihin tarvitaan yhteentoimivuutta? 2/2 [D]ata scientists spend around 80% of their time on preparing and managing data for analysis. Gil Press (2016): Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says, https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-surveysays/#7b34677e6f63 9

Mitä on datan yhteentoimivuus? FAIR-periaatteissa on suurelta osin kyse datan koneluettavasta semanttisesta yhteentoimivuudesta, eli siitä että kone pystyy tietämään jonkin data-aineiston datapisteiden olemuksen sekä suhteen muihin datapisteisiin ja toimimaan tiedon pohjalta 10 Kuva: René Magritte, https://en.wikipedia.org/wiki/file:magrittepipe.j pg

FAIR-dataobjekti Ceci n'est pas une pipe Lähde: Turning FAIR into Reality -raportti https://publications.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-998201aa75ed71a1/language-en/format-pdf/source-80611283 11

Kuinka tuottaa (riittävän) FAIR-dataa? 1. Suunnittelemalla aineistonhallinnan tutkimuksen elinkaaren alussa ja päivittämällä aineistonhallintasuunnitelmaa tarpeen mukaan 2. Huomioimalla FAIR-periaatteet aineistonhallinnan suunnittelussa alusta alkaen 3. Käyttämällä yleisiä tiedostomuotoja 4. Dokumentoimalla datan, eli tuottamalla metadataa 5. Tukeutumalla metadatastandardeihin 6. Tallentamalla datan data-arkistoon (data repository) 7. Liittämällä dataan (pysyvän) tunnisteen (data-arkiston avulla) 8. Lisensoimalla datan (se ei ole uudelleenkäytettävää ilman lisenssiä!) 9. Viittaamalla dataan, sekä omaan että muiden 12

Miten valita FAIR-yhteensopivat palvelut ja resurssit Vakiintuneisuus Pysyvyys Koneluettavuus Avoimuus 13

Tunnisteet ja viittaaminen Tärkeää paitsi tunnustuksen antamiseksi (vrt. kirjallisuusviittaukset) myös datan löydettävyyden parantamiseksi Edellytys pysyvä tunniste eli PID o verkkoympäristössä käytettävä tunniste, jolla voidaan tunnistaa digitaalinen teos. Pysyvä tunniste on elektroninen vastine perinteisille bibliografisille tunnuksille, kuten ISBN ja ISSN. https://fi.wikipedia.org/wiki/pysyv%c3%a4_tunniste Kansallinen dataviittausohje 14 ohttp://urn.fi/urn:nbn:fi-fe201804106446 osuosittaa URNin tai DOIn käyttöä omyös tutkijan oma tunniste ORCID tärkeä

Edistyneemmille: datan semanttinen yhteentoimivuus Yhteentoimiva käsitteiden käyttö ontologioiden eli sanastojen kautta oschema.org ainoa Googlen datahaun tunnistama sanasto otieteenalakohtaisia sanastoja otieteen termipankki tuottaa suomenkielistä sanastoa RDF on World Wide Web Frameworkin (W3C) standardoima malli tiedon vaihtoon sovellusten välillä erityisesti web-ympäristössä, perustuu kolmikkoihin subjekti predikaatti objekti taivas on väriltään sininen Datan semanttisen rakenteen mallinnus osana datan hallinnan suunnittelua 15

Lähde: Mark Wilkinson https://indico.neic.no/event/56/sessions/90/attachments/40/63/3.2._day_3_am_late_- _Wilkinson_Ontological_Frameworks_Storage_Get_started.pdf 16

Miten arvioida datan FAIR-pitoisuus? How FAIR are your data tarkistuslista: https://zenodo.org/record/1065991 Edistyneemmille FAIR data maturity assessment: https://terazus.github.io/fair- Maturity-FrontEnd/#!/ 17

Metadata flows in IDA Technical file metadata (frozen data) METAX API Describe and publish Research datasets QVAIN Describe and publish research datasets METAX DATA CATALOGS FOR DIFFERENT METADATA Metadata SOURCES CRIS DATA ETSIN Browse and search research dataset metadata DOI FAIRDATA PAS 18 The research data hub

19 FAIR-periaatteet: yliopistonäkökulma

Miksi FAIR on yliopistoille tärkeää? Tutkijat tarvitsevat apua FAIR-vaatimukset täyttävän datan tuottamisessa Useimpien FAIR-ratkaisuiden tulee olla institutionaalisia Avoin Tiede meritoi tutkijoiden lisäksi instituutioita Rahoittajien vaatimukset 20

Nykytilanne 1/2 Aineistopolitiikat alkavat olla kunnossa okysymys omistajuudesta ja oikeuksista on vaikea ja aiheuttaa yhä hämmennystä sekä yliopistoille että tutkijoille Haasteena politiikan siirtäminen käytäntöön Aineistojen hallinta on monenkirjavaa ja usein suunnittelematonta Metatietojen hallinnasta on saatavilla vain vähän tietoa, sillä yliopistoteivät kerää systemaattisesti tietoja aineistoistaan 21

Nykytilanne 2/2 FAIR-vaatimuksetaiheuttavathämmennystä ja kipuilua sekä tutkijoille että yliopistoille okaikki aineisto ei voi edes olla FAIR, mutta sitä vaaditaan herkästi kaikelta oristiriita GDPR:n kanssa ja huono ajoitus sen suhteen Epäselvyyttä, mitä kukin tekee, mitä tehdään kansallisesti ja mitä kansainvälisesti 22

Välittömät toimenpiteet FAIR-asteen kohottamiseksi Infrastuktuuri kuntoon: ometatietojenkerääminen mahdolliseksi oaineistolle asianmukaiset säilytyskäytänteet otunnisteiden järjestäminenaineistoille ja metatiedoille Metatietojen julkaisuun prosessi ja järjestelmä (paikallinen ja/tai ETSIN/METAX) Tukea ja koulutusta tutkijoille, jotta aineistotsuunnitellaan FAIR-periaatteiden mukaisesti alusta alkaen okoulutusta myös olemassaolevienaineistojenlöytämiseenja käyttöön 23

Pitkän aikavälin tavoitteet ja toimenpiteet Mahdollisuudet koota, säilyttää ja julkaista data rdf-pohjaisina tietokantoina Automatisoituja parsereita datan kuratointiin Aineistoasiantuntijoita laitoksille ja tutkimusryhmiin huolehtimaan FAIR-työstä 24

Priorisointi Eri toimenpiteillä on huomattavan erilainen impakti FAIRin toteutumiseen ometatietoihin liittyvät toimenpiteet tärkeimpiä Itse aineistojenosalta kannattaa keskittyä suuriin kvantitatiivisiin aineistoihin, joidenmuuttaminen RDFmuotoon on selkeintä 25

Haasteet Resurssit: kaikki edellä esitetty maksaa Epäselvyys siitä, mitä FAIRilla nyt oikeasti vaaditaan, kun se vaatimuksena monessa paikoin esitetään. Puhdas FAIR on kuitenkin liki mahdoton toteuttaa, mutta mikä on se taso, jota rahoittajat esimerkiksiperäänkuuluttavat. Avoimena kysymyksenä, miten tämä pitäisi organisoida: laitoksiin, tiedekuntiin, IT-tukeen, kirjastoihin? 26

Kulttuurin muuttaminen ja vastuut Muutosta tarvitsevat sekä yhteisön arvottamis- ja meritointiperiaatteet sekä tutkimuksen työnkulku Nykyinen malli Kerää data Analysoi ja valmistele datasetti Tulokset Käytännössä kokonaan tutkijanvastuulla Tulokset käytännössä vain julkaisuja 27

FAIR-aineistojen työnkulku Analysoi ja valmistele datasetti TULOKSET Kerää data Määrittele semanttinen malli Tee datasta linkitettyä Määritä lisenssi Julkaise FAIR - kanavassa Pidä yllä metatietoja läpi prosessin Datatukea tarjoava taho mukana käytännössä läpi prosessin Yliopiston pystyttävä mahdollistamaan ja tukemaan 28

29 KYSYMYKSIÄ JA KESKUSTELUA

KIITOS! Lisää materiaaleja FAIR data koulutksen materiaalit: https://indico.neic.no/event/56/ FAIR data: an introduction (Sarah Jones, DCC): https://library.ust.hk/wpcontent/uploads/2019/03/fair-data.pdf facebook.com/cscfi twitter.com/cscfi youtube.com/cscfi linkedin.com/company/csc---it-center-for-science github.com/cscfi Kuvat CSC:n arkisto, Adobe Stock ja Thinkstock