TUTKIJOIDEN KÄYTTÄMÄT DATAREPOSITORIOT

Samankaltaiset tiedostot
Tutkimusrahoittajien ja tiedejulkaisujen vaatimukset aineistonhallinnalle

Aineistonhallinta pähkinänkuoressa METODIFESTARIT TAMPEREEN YLIOPISTO ARJA KUULA-LUUMI

Miksi tutkimusaineistoja halutaan avattavan? Jyrki Hakapää, Suomen Akatemia

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

MILDRED JA DATANHALLINNAN TUKI HELSINGIN YLIOPISTOSSA

Results on the new polydrug use questions in the Finnish TDI data

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Infrastruktuurin aineistonhallinta ja käytön avoimuus

FSD3221. Tampereen yliopiston avoin tiede -kysely Koodikirja

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Humanististen alojen aineistojen erityispiirteet ja aineistonhallinta METODIFESTIVAALI

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

Avoimen tieteen palvelujen kehittäminen Tampereen yliopiston kirjastossa. Tampereen kirjastopäivät

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

Open Access & Open Data & Tulosten suojaus Horisontti ohjelmassa. Liisa Ewart Lakimies Sopimus- ja kustannusasioiden NCP VTT 27.3.

HELSINGIN YLIOPISTON TUTKIMUSDATAN TUTKIJAPALVELUT. Mari Elisa Kuusniemi, Tutkimuksen palvelut, Helsingin yliopiston kirjasto, Helsingin Yliopisto

Tudatupa tutkimusdatan tutkijapalvelut

Plasmid Name: pmm290. Aliases: none known. Length: bp. Constructed by: Mike Moser/Cristina Swanson. Last updated: 17 August 2009

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

Helsinki Region Infoshare 2013

koiran omistajille ja kasvattajille 2013 for dog owners and breeders in 2013

FSD1232 Alkoholijuomien tilastoimaton kulutus Suomessa 1996

AVOIN TIEDE JA TUTKIMUKSEN NÄKYVYYS

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Open access julkaiseminen Helsingin yliopistossa

JYX yliopiston palvelujen keskiössä. Pekka Olsbo Julkaisukoordinaattori Jyväskylän yliopiston kirjasto

Ohje arkaluonteisia henkilötietoja sisältävän tutkimuksen datanhallinnan suunnitteluun

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

perustamishankkeeseen ja päämajan sijoittamiseen Suomeen

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

White Rose Research Online & National Fairground Archive

Tiedon analysoinnista pitkäaikaissäilytykseen

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

Tietojenkäsittelytieteilijöiden kokemuksia. Ella Bingham, tutkimuskoordinaattori, HIIT, Aalto

FSD2072 Tampereen yliopistossa vuonna 1997 jatkotutkinnon suorittaneiden työelämään

Liikenneverkot-tietotuote

HUMAN RESOURCE DEVELOPMENT PROJECT AT THE UNIVERSITY OF NAMIBIA LIBRARY

Kiintolevyjen tuhoaminen HDD Destruction. DIN EADMS Luokat/Classes

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Security server v6 installation requirements

Tukea projekteille: IT-järjestelmät ja -työkalut

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

Security server v6 installation requirements

Supplementary information: Biocatalysis on the surface of Escherichia coli: melanin pigmentation of the cell. exterior

Kirjasto yliopiston tutkimusaineistopolitiikan toteuttajana. Pekka Olsbo Julkaisukoordinaattori Jyväskylän yliopiston kirjasto

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Väite Argument "Yhteiskunnan velvollisuus on tarjota virkistysalueita ja -palveluita." "Recreation sites and service

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

Pitkäaikaistallennus. CSC - Tieteen tietotekniikan keskus IT2008 Ari Lukkarinen

Julkaisun laji Opinnäytetyö. Sivumäärä 43

RINNAKKAISTALLENTAMISEN KANSALLISET OHJEET

Julkaisuarkisto avoimen julkaisemisen infrastruktuuri

API:Hack Tournee 2014

TTY:n tutkimustietojärjestelmän käyttöönotto Tampereen kirjastopäivä 2015, Poliisiammattikorkeakoulu

Tutkimuksen rahoittajien ja julkaisijoiden sekä tutkimusorganisaatioiden politiikkasuositukset. Yleiskatsaus nykytilanteeseen.

Business Opening. Arvoisa Herra Presidentti Very formal, recipient has a special title that must be used in place of their name

Tutkijan identifiointi

Information on preparing Presentation

Avoimuutta tukemassa

Multi-drug use, polydrug use and problematic polydrug use in Finland in the light of the TDI data

EU DIGITAL EUROPE MITEN SAAMME NOPEUTETTUA TAVOITELTUA MUUTOSTA? CSC Markku Markkula COR RAPPORTEUR ON DIGITAL EUROPE

Kyselylomaketta hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

Rinnakkaistallentamisen oikeutuksesta

Datan hallinnan nykykäytännöt ja tulevaisuuden suunnitelmat Ville Tenhunen Helsingin yliopisto / Tietotekniikkakeskus

TIETEEN PÄIVÄT OULUSSA

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Basset: Learning the regulatory code of the accessible genome with deep convolutional neural networks. David R. Kelley

Tutkimusdatan hallinnan kansalliset välineet IDA, Etsin, AVAA. Stina Westman, ATT-hanke, CSC

Capacity Utilization

FSD2535 Lähiliikuntapaikkojen arviointi 2005: lapset ja nuoret

Mitä on Julkaisuarkisto

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Kyselylomaketta hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

KYSELYLOMAKE: FSD3189 TIEDON JA YHTEISKUNNALLISEN PÄÄTÖKSENTEON VUORO- VAIKUTUS 2017

Tehosta toimintaasi oikealla tiedonhallinnalla Helsinki, TIVIAn tapahtuma Jussi Salmi

AVOIMEN JULKAISEMISEN TUKEMINEN - HELSINGIN YLIOPISTON KIRJASTON KUULUMISIA

Julkaisujen raportointi tuo rahaa tutkimukseen ja opetukseen

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

DIGIKYSELY 2017 KUMPULA OPETUKSEN AAMUPÄIVÄSSÄ

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

Lakimies PDF. ==>Download: Lakimies PDF ebook

Juha Haataja.

NAO- ja ENO-osaamisohjelmien loppuunsaattaminen ajatuksia ja visioita

FSD1231 Alkoholijuomien tilastoimaton kulutus Suomessa 1995

Älykkäämpi päätelaitteiden hallinta Juha Tujula, CTO, Enfo Oyj IBM Corporation

BOARD PROGRAM Hallitusohjelma

Varmista oma paikkasi tulevaisuuden digitaalisilla markkinoilla. IPR-aamiaisseminaari, Ravintola Pörssi,

Ubicom tulosseminaari

Kyselylomaketta hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

KYSELYLOMAKE: FSD3101 KANSALAISKESKUSTELU RUOTSIN KIELESTÄ: KONTROLLI- KYSELY 2014

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

Efficiency change over time

Osallistujaraportit Erasmus+ ammatillinen koulutus

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Olet vastuussa osaamisestasi

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

digi.kansalliskirjasto.fi

Julkaisuarkistot ja rinnakkaisjulkaiseminen

Transkriptio:

TUTKIJOIDEN KÄYTTÄMÄT DATAREPOSITORIOT MILDRED projektin kyselytutkimus Helsingin yliopiston tutkijoille kesällä 2016 Alkuperäinen taustakuva: Roche DG, Lanfear R, Binning SA, Haff TM, Schwanz LE, et al. (2014) [CC BY 4.0 ] Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 1

ESISELVITYS TUTKIJOIDEN KÄYTTÄMISTÄ DATATIETOKANNOISTA Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 2

TOTEUTUS Selvitys tehtiin tutkimusdatainfrastruktuurin kehittämishanke MILDRED:n, osaprojektin 3: Julkaisu- ja metadatapalvelut tarpeisiin Selvityksen toteutti harjoittelija Anna Salmi informaatikko Mari Elisa Kuusniemen ja kirjastonhoitaja Mikko Ojasen ohjauksessa Selvitys sisälsi kolme vaihetta Tutkijoiden käyttämät datarepositoriot Anna Salm i &Mari Elisa Kuusniemi me02/11/2016 3

VAIHE 1: DATAINVENTAARIO Kesäkuussa 2016 inventoitiin 250 avoimesti verkossa saatavilla olevan, 2015 2016 ilmestyneen tutkimusartikkelin data. Pääotanta PLOS-julkaisusta, mukana myös Nature-julkaisu. PLOS-julkaisu edellyttää kirjoittajilta selvityksen tutkimusdatan sijoittamisesta ja avoimuudesta. Tuloksia tarkasteltaessa on hyvä huomata, että PLOSin kohdalla Figshare-datatietokanta on erityisasemassa, sillä kustantaja suosittelee sitä julkaisun dataliitteiden pilvijulkaisualustaksi. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 4

VAIHE 2: TUTKIMUSDATAKYSELY Kysely suunnattiin sähköpostitse koko Helsingin yliopiston tutkimushenkilökunnalle kesäkuussa 2016 258 vastausta 62 % elämätieteistä, 21 % humanistisista ja yhteiskuntatieteistä sekä 17 % luonnontieteistä Kysely sisälsi monivalintataulukot eri tietokannoista ja vaihtoehtoisista datan säilytyspaikoista ja -laitteista sekä vapaan vastauskentän omia perusteluja varten. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 5

MONIVALINNAN DATAREPOSITORIOT ArrayExpress Dryad European Nucleotide Archive Figshare FIN-CLARIN Finnish Social Science Data Archive dbgap Gene Expression Omnibus GenBank GitHub Sequence Read Archive UK Data Archive Worldwide Protein Data Bank Other Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 6

MUUN TALLENNUKSEN VAIHTOEHDOT University of Helsinki network hard drive CSC s platforms Commercial cloud services (Dropbox, SugarSync etc) Personal computer hard drive External hard drives USB memory device Other repositories or devices Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 7

KYSELYN TULOKSIA 44 % vastaajista käytti yhtä tai useampaa tietokantaa 21 % käytti kahta tai useampaa, 10 % kolmea tai useampaa 56 % ei käyttänyt mitään tietokantaa 15 % käytti jotain muuta kuin monivalinnan tietokantoja Yleisimpiä olivat GenBank (16,7 %), GitHub (14 %), Sequence Read Archive (6,6 %) ja Gene Expression Omnibus (5 %) Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 8

MIKSEI REPOSITORIOITA KÄYTETTY? 29 % vastaajista ei tiennyt datan sijoittamismahdollisuuksista tarpeeksi 11 %: data oli luonteeltaan sensitiivistä 54 % säilytti dataa HY:n verkkolevyllä 68 % käytti henkilökohtaista tallennustilaa 58 % käytti ulkoisia kovalevyjä 50 % käytti USB-tikkua 37 % piti dataa kaupallisissa pilvipalveluissa Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 9

MIKSEI TARVETTA DATAN SIJOITTAMISEEN? 11 %: kysymys epärelevantti omien aineistojen ja tieteenalan kannalta 8,5 %: ei tarvetta tarkemmin määrittelemättömästä syystä 7,7 %: dataa syntyi vain vähän 4,6 %: nykyiset tallennustilat ja -palvelut olivat riittäviä. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 10

POIMINTOJA VASTAUKSISTA I do not know or trust them [repositories] enough. I do not have such big data that it would be a problem to store it otherways. I would need a system that is reliable, easy to use and access and permanent solution. The [research] results are fully covered by the published articles. Unclear benefits with respect to effort. It was sufficient until this moment to store the data within University infrastructure, although convenient data sharing between collaborators is still lacking. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 11

METADATASELVITYS Presentation Name / Firstname Lastname 02/11/2016 12

JATKOSELVITYS METADATASTA Esiselvityksen ja kyselyn tuloksena kartoitettiin 48 tietokantaa, joissa on HY:n dataa. Näille etsittiin Re3data-tietokantarekisteristä tietokannan tunniste ja sen avulla tietokannan API:n kautta haettiin tietokantakohtaiset tiedot: datatyyppi, avoimuus, ohjelmiston nimi, siteerausohjeistus, laatukontrolli, mahdollinen metadatastandardi jne. Kustakin tietokannasta haettiin metadatakentän kuvaus. Sitten tietokantojen hakuominaisuuksia testattiin hakemalla henkilön nimellä (tietokantaan tallentamisesta ilmoittanut tutkija) ja organisaation nimellä (HY). Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 13

HENKILÖ- JA ORGANISAATIOTIEDOT Henkilön nimellä pystyi hakemaan 21/48 tietokannassa. Nimellä ei tullut tuloksia 22/48 tietokannassa. 4/48 tietokannoista jäi epäselviksi, sillä metadatan kuvausta ei löytynyt eikä testihaku tuottanut luotettavaa tulosta. Organisaation nimellä pystyi hakemaan 9/48 tietokannassa. Organisaation nimellä ei voinut hakea 36/48 tietokannassa. 3/48 tietokannoista jäi epäselviksi, sillä metadatatietoja ei löytynyt eikä testihaku tuottanut luotettavaa tulosta. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 14

REPOSITORIOT, JOISSA MAHDOLLISTA HAKEA ORGANISAATIOLLA Database of Genomes and Phenomes (dbgap) GitHub Global Biodiversity Information Facility Inspire-HEP Kielipankki MG-RAST (Metagenomics analysis server) Tietoarkisto Zenodo Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 15

YHTEENVETO Monet tutkijat (44 % kyselyyn vastanneista) käyttävät kansallisia ja kansainvälisiä datatietokantoja. Toisaalta monilla tutkijoilla ei ole riittävästi tietoa asiasta. Lisää palveluja ja neuvontaa tarvitaan. Tiedämme tällä hetkellä 48 tietokantaa, joissa on Helsingin yliopiston tutkijoiden dataa. Voimme kuitenkin erottaa Helsingin yliopiston datan muusta datasta vain 9/48 tapauksessa. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 16

YHTEENVETO (2) Jatkossa MILDRED-hankkeen painopisteitä datapalvelujen kehittämisessä ovat 1) tallennus- ja säilytyspalvelujen kehittäminen 2) datan rikastamisen mahdollistaminen analyysi- ja visualisointivälineiden avulla 3) datan jakamisen ja julkaisemisen mahdollistavat palvelut. Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me 02/11/2016 17

LÄHTEET Pitkänen, Timo (2016). Storing, sharing and visualizing. Project MILDRED: Development Project of the Research Data Infrastructure at the University of Helsinki [Haettu 27.10.2016]. http://blogs.helsinki.fi/mildred/2016/09/21/storing-sharing-and-visualizing/ Salmi, Anna (2016). Project MILDRED data inventory [unpublished dataset]. University of Helsinki. Salmi, Anna, Ojanen, Mikko & Kuusniemi, Mari Elisa (2016). Project MILDRED Research Data Repository Survey, University of Helsinki. University of Helsinki. Figshare. DOI: https://figshare.com/articles/project_mildred_research_data_survey/3806394 Salmi, Anna & Pitkänen, Timo (2016). Project MILDRED metadata inventory [unpublished dataset]. University of Helsinki. Presentation Name / Firstname Lastname 02/11/2016 18

KIITOS! Alkuperäinen taustakuva: Roche DG, Lanfear R, Binning SA, Haff TM, Schwanz LE, et al. (2014) [CC BY 4.0 ] Tutkijoiden käyttämät datarepositoriot Anna Salmi & Mari Elisa Kuusniemi me02/11/2016 19