URN ja muut PID-tunnukset

Samankaltaiset tiedostot
Pysyvät tunnukset ja niiden hyödyntäminen

SISÄLTÖ JOHDANTO... 2 TAUSTA ja TAVOITTEET... 2 MÄÄRITELMÄT... 3 PYSYVÄT TUNNISTEET... 4 ESIMERKIT, SKENAARIOT, CASET?... 6 TYÖRYHMÄN SUOSITUKSET...

Asiakirjojen yksilöinti, löytäminen ja siirrettävyys

TTA, PAS ja julkishallinnon standardisointi

Kysely pysyvistä ja ainutlaatuisista tunnisteista

Eurooppalaiset lainsäädännön ja oikeuskäytännön standardit. Aki Hietanen, oikeusministeriö

Ontologiat ja semanttinen web sisällön tuotannon näkökulmasta Luetteloinnin tiedotuspäivä Juha Hakala Kansalliskirjasto.

The OWL-S are not what they seem

Tieto matkaa maailmalle

Sisällys. Valtion tietotekniikan rajapintasuosituksia. XML:n rooleja sähköisen asioinnin tavoitearkkitehtuurissa. dbroker - asiointialusta

Tunnisteet ja viittaukset sähköisessä tutkimusympäristössä. Jessica Parland-von Essen Informaatiotutkimuksen päivät

Kansalliskirjaston julkaisuarkistopalvelut. Jyrki Ilva Erikoiskirjastojen neuvosto,

10 Nykyaikainen WWW-arkkitehtuuri

Avoin data Avoin kirjasto Kuvailupäivät

Hyödynnetään avointa, omaa ja yhteistä tietoa

OpenSearch-, RSS- ja ATOM-feedit Kansalliskirjaston julkaisuarkistoissa

Inspire-kohdetunnisteet

Semanttinen Finlex Arttu Oksanen ( )

Käyttöoikeuksien metatieto

Vaatimusmäärittely julkaisujen tuelle Theseuksessa

Kirjastoverkkopäivät Marja-Liisa Seppälä Kansalliskirjasto

PAS-tilanne ja julkaistujen opinnäytteiden pitkäaikaissäilytykseen liittyvä prosessi ja edellytykset

Kotilava Hemvett Rahoituspilotti käyntiin Ajankohtaista julkaisemisesta Tieteiden talo (Kirkkokatu 6, Helsinki)

DRM ja julkaisujärjestelmät Jyväskylän yliopistossa Jyväskylän yliopiston kirjasto Julkaisuyksikkö Tie Vie, Jyväskylä

Hyödynnetään avointa, omaa ja yhteistä tietoa

ISNI-järjestelmä. Sähköisten sisältöjen aamupäivä Maarit Huttunen. KANSALLISKIRJASTO - Tutkimuskirjasto

Mitä PAS-järjestelmä tarkoittaa museoille?

Sanastot ja niiden teknisen infrastruktuurin ylläpito Juha Hakala Kansalliskirjasto

OpenSearch-, RSS- ja ATOM-feedit Kansalliskirjaston julkaisuarkistoissa

W3C-teknologiat ja yhteensopivuus

JHS 193 Paikkatiedon yksilöivät tunnukset Liite 1. URI:n muodostamisen prosessi

Alkuraportti. LAPPEENRANNAN TEKNILLINEN YLIOPISTO TIETOJENKÄSITTELYN LAITOS Ti Kandidaatintyö ja seminaari

Kokoelmahallintajärjestelmän

Komission asetus latauspalveluista Jani Kylmäaho Inspire-sihteeristö

Hyödynnetään avointa, omaa ja yhteistä tietoa #mikäpid

Julkaisutiedonkeruun avoin saatavuus -tieto

Security server v6 installation requirements

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Open access Suomessa 2013? Avoin tiede -keskustelutilaisuus, Jyrki Ilva

Juha Henriksson. Digitointiprojektin hallinta ja ulkoistaminen Dr. Juha Henriksson Finnish Jazz & Pop Archive

Katselupalvelujen INSPIRE-yhteensopivuuden testaus

Avoin tiede ja tutkimus ATT Hankkeiden esittely

Miten Linked Data aineistoja tuotetaan ja. Semanttisen laskennan tutkimusryhmä SeCo Aalto-yliopisto

Tutkimusdatan pitkäaikaissäilytys ATT-hankkeessa.

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Lync Online. Järjestelmänvalvojan perusopas

RAIN RAKENTAMISEN INTEGRAATIOKYVYKKYYS

URI:n muodostamisen prosessi (suositusluonnoksen liite 1)

Lainsäädäntö avoimena datana Semanttinen Finlex-palvelussa data.finlex.fi. Aki Hietanen, oikeusministeriö

Pitkäaikaistallennus. CSC - Tieteen tietotekniikan keskus IT2008 Ari Lukkarinen

Kansalliskirjaston palvelut digitoijalle

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

Avoimen lähdekoodin kehitysmallit

Talonmiehen tuokio klo KANSALLISKIRJASTO

SENAATTILA uudistuu keväällä 2015

Suomalaisten julkaisujen avoimuus - mittarit ja prioriteetit

Alkuraportti. LAPPEENRANNAN TEKNILLINEN YLIOPISTO TIETOJENKÄSITTELYN LAITOS CT10A Kandidaatintyö ja seminaari

Security server v6 installation requirements

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

W3C ja Web-teknologiat

XML prosessori. XML prosessointi. XML:n kirjoittaminen. Validoiva jäsennin. Tapahtumaohjattu käsittely. Tapahtumaohjattu käsittely.

Nimiauktoriteetit Nimien tunnisteet. Kuvailun tiedotuspäivä Maarit Huttunen

Journal.fi-palvelu. Antti-Jussi Nygård Tieteellisten seurain valtuuskunta

YTI selvitys: Pysyvät tunnisteet julkisessa hallinnossa. Mikael Vakkari

Yhteisten palvelujen ohjauksen uudistaminen. Annu Jauhiainen

Koodistoeditorin toteutuksen lähtökohtia: KaPA-koodistopalvelu ja REST-rajapinnat

Julkaisuarkisto avoimen julkaisemisen infrastruktuuri

KODAK EIM & RIM VIParchive Ratkaisut

Kotilava Hemvett. Kotimaiset tieteelliset lehdet avoimiksi ja vaikuttamaan

Dublin Core metadataformaatin suomalainen versio. Kansalliskirjasto

INSPIRE-latauspalvelut. Velvoitteet ja toteutustavat Jani Kylmäaho Inspire-sihteeristö

UUSI ARKKITEHTUURI PAREMMAT PALVELUT. Järjestelmäarkkitehtuurihankkeet

Internet Protocol version 6. IPv6

Paikkatiedon yksilöivät tunnukset. Kai Koistinen Inspire-sihteeristön verkkoseminaari

DOI-tunnisteet ja Crossref lehden kokemuksia

Asiakirjojen sailytysvaatimukset, toimitusjohtaja Antero Ensio, Ensitieto Oy

CC0-lisenssi: case Finna

Viestintäviraston EPP-rajapinta

Tietokantasovellus (4 op) - Web-sovellukset ja niiden toteutus

MichaelPlus. Hankkeen esittely Mikael Vakkari Suunnittelija MichaelPlus hanke

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Uudet kuvailusäännöt (RDA) tulevat. Erikoiskirjastojen neuvoston kokous Marja-Liisa Seppälä

Sisäänrakennettu tietosuoja ja ohjelmistokehitys

THL:N NÄKÖKULMIA TUTKIMUSAINEISTOJEN SÄILYTTÄMISEEN

Theseus avoimen julkaisutoiminnan edistämisen välineenä ammattikorkeakouluissa

Julkaisuarkistopalveluiden tilannekatsaus

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Olet vastuussa osaamisestasi

Profium. Smart Information Router (SIR) Janne Saarela Profium Oy. Profium perustettu Pioneeri sisällönhallinnan ratkaisujen kehityksessä

Varmennepalvelu Rajapintakuvaus Kansallisen tulorekisterin perustamishanke

Network Services Location Manager. Verkon ylläpitäjän opas

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Kansalliskirjaston ATThankkeet

Kuvailusäännöt, formaatti ja kirjastojärjestelmä

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

KDK:n ajankohtaiset kuulumiset

RESURSSIEN IDENTIFIOINTI DIGITAALISESSA OIKEUKSIEN HALLINNASSA

Transkriptio:

URN ja muut PID-tunnukset Juha Hakala Kansalliskirjasto 2017-03-28

Käsitteitä Identifier / tunnus unique string or pointer that permanently establishes the identity of a resource, institution or person; alone or in combination with other elements Persistent identifier / pysyvä tunnus, PID identifier which may be resolved. Resolution services available depend on the identified resource, resolvers, and digital asset management systems used. Services may also change over time. Resolution / resoluutio the act of supplying services related to the identified resource, institution or person such as translating the identifier into one or more current locators for the resource, or delivering metadata about the resource or institution or person in an appropriate format. 27.3.2017 URN-tunnisteista 2

Käsitteitä (2) URN, Uniform resource name Resurssin pysyvä nimi, jonka tulee olla tekniikkariippumaton ja riippumaton resurssin sijainnista URL, Uniform resource locator Resurssin sijainti verkossa (tai verkkoarkistossa) URI Uniform resource identifier Mikä tahansa resurssin nimi tai sijainti URI:n isä on Tim Berners-Lee, jonka mielestä URN-tunnusten tarvitsema resoluutio on tarpeeton lisävaihe ja että Webissä sijaintitiedot voivat olla tunnuksia, kunhan niitä ei muuteta URLs don t change, people change them, ja todellakin, käytännön kokemusten ja tutkimusten perusteella URL:t ovat epäluotettavia 27.3.2017 URN-tunnisteista 3

PID on siis Resurssin, organisaation tai henkilön (tai henkilön julkisen identiteetin kuten taiteilijanimen) uniikki ja pysyvä tunnus, joka voidaan muuttaa resurssin tai jonkin siihen liittyvän objektin verkko-osoitteeksi resoluutioksi kutsutun prosessin avulla PID-tunnusjärjestelmiä ovat: Archival Resource Key (ARK) Digital Object Identifier (DOI) Handle Persistent URL (PURL) Uniform Resource Name (URN URI, joka ei edellytä resoluutiota, ei ole PID, vaan esim. cool URI tai permalink 27.3.2017 URN-tunnisteista 4

PID-järjestelmien luotettavuudesta PID-järjestelmien luotettavuuden kannalta keskeisiä tekijöitä on ainakin kolme: standardoinnin ja teknisen dokumentaation taso, resoluutio-ohjelmistojen saatavuus, ylläpitoorganisaation luotettavuus URN on Internet-standardi, DOI ISO-standardi; muita järjestelmiä ei ole standardoitu Teknisen dokumentaation taso vaihtelee; esimerkiksi Handle on tässä suhteessa ongelmallinen Handlea voi soveltaa ns. väärin, koska tekninen dokumentaatio on liian väljä PID-tunnuksessa ei esim. pitäisi käyttää koko Unicodemerkkivalikoimaa vaan vain tulostettavissa olevia ASCIImerkkejä sekaannusten välttämiseksi 27.3.2017 URN-tunnisteista 5

PID-ohjelmistot Handlen ja DOI:n suosion yksi perusta on avoimen lähdekoodin Handle server ohjelmisto ARK:illa ja PURL-tunnuksella on myös valmis ohjelmistoalusta URN:lle ei ole yhteistä ohjelmistoalustaa, vaan eri tahot ovat kehittäneet omia järjestelmiään Suomessa käytössä Kansalliskirjaston kehittämä resolveri; Saksassa, Sveitsissä ja Itävallassa käytetään Saksan kansalliskirjaston ohjelmistoa Vaikka ohjelmiston saatavuus on merkittävä tekijä, PIDjärjestelmää ei kuitenkaan pitäisi valita etupäässä sen perusteella 27.3.2017 URN-tunnisteista 6

PID-vastuut Koska PID-järjestelmät on tarkoitettu pysyviksi, myös niiden määrityksiä on pidettävä yllä tekniikan kehittyessä Jos näin ei tehdä, syntyy ongelmia Handlen määritykset ovat osittain ristiriidassa URI syntax määrityksen kanssa, mikä on johtanut yhteismitattomiin ratkaisuihin Ohjelmistojen vanhentuminen tai keskitetyn palvelun romahtaminen voi kriisiyttää PID-järjestelmän nopeastikin PURL-järjestelmän toiminnassa oli ongelmia kuukausikaupalla vuonna 2016, kunnes järjestelmän vastuu siirtyi Internet Archivelle ja ohjelmistot päivitettiin 27.3.2017 URN-tunnisteista 7

Resoluutiosta URN:t ja muut PID-tunnukset esitetään yleensä HTTP URI muodossa siten, että resolverin osoite lisätään tunnukseen http://urn.fi/urn:nbn:fi:hulib-201703131422 Osoite ei ole osa tunnusta, ja tavoitteena on ettei sitä ennen pitkää enää tarvita Global Resolver Discovery Service - palvelu, jonka avulla oikea resolveri voidaan löytää verkosta, on tarkoitus rakentaa joskus tulevaisuudessa PID-tunnuksessa pitää olla vinkki jonka avulla resolverin voi löytää; yllä olevassa esimerkissä se on nbn:fi: -> resolveri löytyy Suomesta, KK:n ylläpitämänä 27.3.2017 URN-tunnisteista 8

Resoluutiosta (2) Jos halutaan tarjota eri toimijoiden ylläpitämiä palveluja, tarvitaan samalle resurssille useampia PIDejä Kansalliskirjasto käyttää URN-tunnusta, kustantaja DOI:ta ja yliopiston julkaisuarkisto Handlea samalle julkaisulle Eri toimijoilla ei ole ollut intressiä luoda yhteisiä järjestelmiä eikä tilanne näytä jatkossa muuttuvan Eri järjestelmien edustajat ovat keskustelleet teknisestä yhteismitallisuudesta, jolloin palvelujen ja niiden parametrien kutsut toteutettaisiin yhteismitallisesti -> helpompi rakentaa resolvereita, jotka tukevat kahta tai useampaa PIDiä Kansalliskirjaston URN-palvelut: https://www.kiwi.fi/display/urn 27.3.2017 URN-tunnisteista 9

URN ja muut PID-järjestelmät tunnisteina URN rakentuu olemassa olevien tunnusjärjestelmien varaan Tunnusjärjestelmälle määritellään nimiavaruus (name space) jossa noudatetaan kyseisen järjestelmän pelisääntöjä sen suhteen, mitä voidaan identifioida ja millä tavoin URN:ISBN -> ISBN-standardin pelisäännöt voimassa Tarjottavat resoluutiopalvelut riippuvat nimiavaruudesta sekä järjestelmistä, joita e-aineistojen hallinnoinnissa käytetään Muut PID-järjestelmät sallivat käyttäjän kehittää omia tunnusjärjestelmiä ja identifioida mitä ja miten tarvitaan DOI = digitaalinen objektien tunnus, ei digitaalisten objektien tunnus, eli sitä voi soveltaa mihin vain Tunnuksen antajalla on vastuu siitä, että nimeämiskäytännöt ovat asianmukaisia ja resoluutio toimii 27.3.2017 URN-tunnisteista 10

URN-tunnusten ja muiden PIDien käytöstä Handle, DOI ja URN ovat selvästi suosituimmat järjestelmät URN: useat kansalliskirjastot ja niiden yhteistyökumppanit sekä URN-nimialueita rekisteröineet tahot DOI: esim. tieteelliset kustantajat, data-arkistot Handle: esim. yliopistot, DSpace-julkaisuarkiston käyttäjät, useat muut tahot Koko Webin mittakaavassa vain murto-osalla dokumenteista on PID, useimmilla on vain URL-osoite joka ei ole pysyvä Tieteellisten artikkeleiden viittauksissa olevat URL-osoitteet rapautuvat hälyttävän nopeasti Link rot: aineistoa ei enää löydy Content drift: linkin takaa löytyvä dokumentti on muuttunut 27.3.2017 URN-tunnisteista 11

URN-standardit: nykytilanne Nykyiset RFC:t ovat vuosien takaa; osin 90-luvulta RFC 1737 Functional Requirements for URNs RFC 2141 URN Syntax RFC 2483 URI Resolution Services Necessary for URN Resolution RFC 3401 Dynamic Delegation Discovery System (DDDS). Part One: The Comprehensive DDDS RFC3402-3405 DDDS:n tekniset määritykset RFC 3406 URN Namespace Definition Mechanisms Vain RFC 2141 on oikea Internet-standardi, muut ovat Informational, Experimental tai Best current practice 27.3.2017 URN-tunnisteista 12

Vanhojen URN-standardien ongelmia URN-syntaksin epäajantasaisuss URI-syntaksin (RFC 3986) uusia piirteitä ei voi käyttää Palvelujen määrittelymekanismi on kömpelö Yhdenkin resoluutiopalvelun lisääminen vaatii uuden RFC:n RFC 2483 -palveluihin ei liity parametreja, joten esimerkiksi metadataa pyydettäessä ei voi määritellä formaattia URN-nimialueiden rekisteröinti on hankalaa Vaatii erillisen RFC-julkaisun -> korkeahko kynnys, mutta URNnimialueita silti yli 40 Yksikään URN-resolveri ei tue palvelupyyntöjen välittämistä RFC-julkaisuissa 3401-3405 määritellyllä, DNS-pohjaisella kokeellisella tekniikalla 27.3.2017 URN-tunnisteista 13

URN-standardien päivittäminen URN-syntaksin uudistaminen Työ valmistui helmikuussa 2017, kuusi vuotta kestettyään Uusi RFC julkaistaan lähitulevaisuudessa URI-syntaksin fragment ja query otettu huomioon Nimialuiden rekisteröintikäytäntöjen uudistaminen RFC2141bis kuvaa aiempaa kevyemmän menettelytavan Resoluutiopalvelut ja niiden parametrit määritellään jatkossa IANA:n ylläpitämässä rekisterissä URN-nimialueiden tapaan - > uusien palvelujen lisääminen helppoa Uuden URN-syntaksin mukaan palvelupyynnöt voidaan liittää URN-tunnukseen ja ne voidaan suunnata joko resolverille tai suoraan kohdejärjestelmään 27.3.2017 URN-tunnisteista 14

Uusittu URN-syntaksi URN-tunnus rakentuu edelleen kolmesta osasta: Merkkijonosta urn: Nimiavaruuden tunnuksesta eli NID:stä (esim. ISBN: ) Varsinaisesta tunnuksesta eli NSS:stä (Namespace specific string), joka voi olla esim. ISBN-tunnus Uutta: tunnukseen voidaan lisätä f-, r- tai q-komponentti; f- komponentti vastaa URI-fragmenttia ja q-komponentti querya, mutta niillä ei ole roolia identifioinnissa r-komponentti on URN-syntaksin erikoisuus; sen avulla voidaan suunnata pyyntö resolverille Muissa PID-järjestelmissä on vain rajalliset mahdollisuudet lisätä tunnukseen resoluutiota koskevia pyyntöjä 27.3.2017 URN-tunnisteista 15

Esimerkkejä ISBN- ja NBN-nimialueiden URN-tunnukset: http://urn.fi/urn:isbn:978-951-51-2899-7 http://urn.fi/urn:nbn:fi:hulib-201703081380 URN ja f-komponentti http://urn.fi/urn:isbn:978-951-51-2899-7#luku2 Voi käyttää vain tietyillä nimialueilla (ei esim. ISSN:ssä) ja jos tiedostoformaatti sen sallii URN ja r-komponentti (Dublin Core-tietue) http://urn.fi/urn:isbn:978-951-51-2899-7?=s=urc&p=dc R-komponentin syntaksia ei ole vielä sovittu, yllä on vain esimerkki siitä millaiselta se voisi näyttää kun halutaan julkaisun kuvaileva metatieto Dublin Core muodossa 27.3.2017 URN-tunnisteista 16

PID-resolvereista Nykyiset resolverit ovat tyhmiä ; ne kykenevät yleensä vain linkittämään yhden PID:in yhteen URL-osoitteeseen Ainoa (mutta merkittävä) etu käyttäjille on PIDin ja sen avulla muodostetun linkin pysyvyys Resolvereista halutaan älykkäämpiä, koska silloin käyttäjä (ihminen tai sovellus) voi pyytää erilaisia asioita, ja resolveri tietää minne ja miten linkitetään Resoluutiopalvelujen pitää kehittyä samassa tahdissa kuin e- aineistojen hallintasovellustenkin Silloin e-julkaisun asemesta voidaan tarjota esim. siihen liittyvä oikeuksien hallinnan metadata tai tekninen metadata Semanttisesta Webistä voidaan saada luotettavampi ja fiksumpi 27.3.2017 URN-tunnisteista 17

URN ja DOI - vertailu DOI on maksullinen (mutta varsin halpa), URN maksuton URN-nimialueiden hallinnointi vaihtelee, DOI:ssa taso on sama riippumatta siitä kuka tunnuksen on antanut URN-nimialueiden palvelut ja luotettavuus voivat vaihdella, DOI:ssa periaatteessa aina samat DOI:ssa alkuperäistä tunnusta voidaan muokata, URN:ssä se säilyy paitsi jos URI-syntaksi siihen pakottaa ISBN-A (DOI): http://doi.org/10.978.12345/99990 URN http://urn.fi/urn:isbn:978-1-2345-9999-0 Alkuperäinen ISBN: 978-1-2345-9999-0 URN-tunnukseen voidaan lisätä resoluutiota ohjaavaa lisäinformaatiota, DOI:ssa se ei toistaiseksi ole mahdollista 27.3.2017 URN-tunnisteista 18

URN ja Handle - vertailu Molemmat tunnukset ovat maksuttomia Sekä URN-tunnuksen nimialueiden että Handle-prefixien hallinnoinnin tasot vaihtelevat Kummallakaan PID-järjestelmällä ei ole keskitettyä valvontaa Molemmissa järjestelmissä tunnukseen voidaan lisätä resoluutiota ohjaavaa lisäinformaatiota URN-tunnuksessa lisäys noudattaa URI syntax määritystä, Handlessa ei Handle-järjestelmässä tunnusjärjestelmän ja sen käyttösäännöt voi keksiä itse, URN-järjestelmässä kullakin nimialueella on omat, sen taustalla olevasta standardista tulevat pelisäännöt 27.3.2017 URN-tunnisteista 19

Lopuksi URL-osoitteet ovat tutkitusti epäluotettava yleinen perusta esimerkiksi linkitetylle datalle URL-osoitteita voi käyttää rajatuissa ympäristöissä (ns. siilot), jos aineistoa ei tarvitse siirtää niistä pois PID-tunnuksilla voi rakentaa pitkäikäisiä linkkejä, mutta linkin toimivuus on myös hallinnollinen, ei vain tekninen asia Eri PID-järjestelmien valvonnan tasot vaihtelevat Onko PID:istä mitään hyötyä jos itse dokumentti katoaa? Mahdolliset korvaavat palvelut, kuten uudet versiot dokumentista PID-tunnuksia käyttävät lähinnä tahot, joilla on kokemusta julkaisutoiminnasta ja / tai pysyvän säilyttämisen velvoite Pitääkö PID-käyttäjäkuntaa laajentaa, ja jos, niin miten? 27.3.2017 URN-tunnisteista 20

Linkkejä ARK https://en.wikipedia.org/wiki/archival_resource_key DOI http://www.doi.org/ Handle http://www.handle.net/ PURL https://archive.org/services/purl/help URN https://datatracker.ietf.org/wg/urnbis/about/ http://openscience.fi/ri-pid 27.3.2017 URN-tunnisteista 21