Julkaisuarkiston OAI-yhteensopivuus Rita Voigt Teknillisen korkeakoulun kirjasto Avoimet julkaisuarkistot seminaari Dipoli, Espoo 14.1.2005
OAI Open Archives Initiative Historiaa: Juuret 1999/2000-vaihteessa Alunperin eprint-arkistojen kehittämiseen (esim. arxiv, RePEc...) Miten saadaan tiedot julkaisuista paremmin näkyville ja parannettua niiden löytyvyyttä Tutkimustieto tallennettu eri arkistoihin, joilla kaikilla oma hakuliittymä ja toiminta loppukäyttäjälle hankala, haluttiin yksi yhteinen käyttöliittymä Haku vai keruu? Haku hajautetuista arkistoista (esim. Z39.50) hankalaa, kun arkistoja on paljon Siispä metadatan keruu eri arkistoista yhteiseen tietokantaan Määriteltiin tapa, miten tämä tehdään OAI-protokolla
jatkuu... 26.2.2001 OAI Open Day in Europe, Berliini Julkistettiin OAI-protokollan versio 1.0 Euroopassa Nykyinen versio 2.0 käytössä kesäkuusta 2002 lähtien Stabiili, vain hyvin pieniä muutoksia Koordinointi: Carl Lagoze ja Herbert Van de Sompel
Erilaiset toimijat OAI-mallissa Data Provider tiedontuottaja Service Provider palveluntuottaja (palveluntarjoaja) Aggregator tiedon kokoaja/välittäjä
Aggregators Data providers Aggregator Service providers OAI Workshop - 24.05.2003 Uwe Müller, Heinrich Stamerjohanns
OAI-PMH OAI Protocol for Metadata Harvesting Protokolla, standardi Kerätään metadataa, ei dataa. Kokoteksteistä linkki alkuperäiseen sijaintipaikkaan. Menetelmä metatietojen keruuseen, ei hakuun Tavoite: helppo, ei liian monimutkainen, matala kynnys käyttöönotolle Kohteet laajassa mielessä digitaalisia objekteja (ei rajoitu enää e-printteihin)
jatkuu... Kyselyt: HTTP GET/POST Vastaukset: hyvinmääriteltyjä (= skeeman mukaisia) XML-tietueita, merkistö: UTF-8 (Unicode) Metadataformaatti: (ainakin) unqualified Dublin Core Palveluntuottaja jalostaa kerätyt tietueet sopivaksi katsomallaan tavalla
The Open Archives Initiative (OAI) Basic functioning Service Metadata Harvester Request (based on HTTP) Metadata (encoded in XML) Repository Metadata (Documents) Service Provider Data Provider OAI Workshop - 24.05.2003 Uwe Müller, Heinrich Stamerjohanns
Protokollan osat 6 kyselytyyppiä Identify ListMetadataFormats ListSets ListIdentifiers ListRecords GetRecord Lisäksi: virheenkäsittely, aikaleimat, tunnisteet, tietovirran kontrolli, (tiedon tiivistys)
Data Provider Data Provider Repository Images e-print Data Provider Identify OPAC e-print Data Provider Requests: e-prints e-print Museum Data Provider OAI-PMH: Structure Model Archive e-print ListMetadataformats ListSets ListIdentifiers ListRecords Repository GetRecord Service Provider Harvester Repository Data Provider Responses: General information Metadata formats Repository e-print Set structure Record identifier Metadata Repository OAI Workshop - 24.05.2003 Uwe Müller, Heinrich Stamerjohanns
Minkälainen on palveluntuottaja? Kerää kiinnostavista OAI-tietovarastoista tietueet (kaikki tai osan) omaan tietokantaan. Ei välttämättä aivan yksinkertaista (tuplakontrolli, ajoitukset, validointi, yhdenmukaistaminen yms.) Tarjoaa hakuliittymän tuohon tietokantaan Esittää haun tuloksena saadut tietueet miellyttävässä muodossa (yksinkertaisimmillaan tekee XSLtyylitiedoston kerätyille XML-muotoisille tietueille). Keräilyohjelma + tietokanta + hakuliittymä + XSL
Keskustelukysymys: Onko Suomessa tarvetta luoda OAI Service Provider (tai Aggregator), jonne kerätään yhteen eri organisaatioiden julkaisutuotantoa? Hmm...
DP/SP yhteistyötarpeita DC-metadatan semantiikka/yhteensopivuus Set-rakenteen käyttökelpoisuus, yhteensopivuus Rikkaammat metadataformaatit (suositellaan) Ala-/yhteisökohtaiset metadataformaatit (suositellaan) Aineistokohtaiset metadataformaatit (suositellaan) Tietojen mappaus DC-muotoon ei ole yksiselitteistä ja yleensä hävittää jotain tietoa. Lopputulos on siksi usein vain pienin yhteinen nimittäjä.
Julkaisuarkiston perustaminen Miettikää, mitä aineistoa haluatte tarjota? Onko jotain tiettyjä palvelutarjoajia, joille haluatte tarjota aineistoanne? Onko syytä luokittaa aineisto setteihin? Mitä metadataformaatteja käytätte? Onko teillä aineisto jo valmiiksi jossain julkaisurekisterissä? Saisiko sen suoraviivaisesti OAI-yhteensopivaksi? Vai haluatteko aloittaa puhtaalta pöydältä?
Vaihtoehtoisia tapoja Meillä on/tulee olemaan käyttökelpoinen julkaisutietokanta Kirjoita siihen OAI-liittymä. Käytä olemassa olevia työkaluja hyväksesi, muokkaa niitä tarvittaessa. Asenna joku tarjolla olevista avoimen koodin pakettiratkaisuista. Muokkaa tarvittaessa. Syötä/siirrä julkaisujen metadata ohjelmiston tietokantaan. Osta lisenssi jostakin tarjolla olevista kaupallisista pakettiratkaisuista. Jos tulee muutostarpeita, ota osaa myyjäyrityksen määrittelemään parannusehdotusprosessiin. Syötä/siirrä julkaisujen metadata ohjelmiston tietokantaan.
Julkaisuarkiston minimitavoite Julkaisuarkisto, jonka sisältö vapaasti ja helposti saatavilla. Tarvitaan siis julkaisurekisteri / -tietokanta (tai XML-tiedosto) jonne on tallennettu elektronisten julkaisujen metadataa jossakin laajuudessa mm. linkki julkaisun kokotekstiin (mieluiten pysyvä) ja tähän tietokantaan OAI-liittymä Rekisteröi julkaisuarkistosi sopiviin paikkoihin!
Lisätarpeita? Julkaisujärjestelmä Työkaluja kirjoittajille (esim. tyylipohjia) Julkaisemisen työkaluja (konvertoinnit, versiointi, julkaisun kulku järjestelmän läpi, esim. väitöskirjan tarkastusvaiheet...) Kytkennät työnkulkuun. Työprosessien ja työnkulun uudelleenorganisointi Tarvepainatus Alkuperäisen datan uusiokäyttö Metadatan tietovirrat muihin järjestelmiin Metadata-standardit, yhteensopivuus Pitkäaikaissäilytys Eheys Pysyvä identifikaatiotunnus (URN, joku muu?) Arkistointikysymykset
Valmiin IR-ohjelmiston käyttö Tarjolla vasta vähän aikaa (n. 2 v.) Eivät ole valmiita, kehittyvät jatkuvasti, vaativat ylläpitoa Voi ottaa käyttöön ilman syvällistä OAI-protokollan tuntemusta Alunperin luotu tietyn organisaation tiettyyn tarpeeseen, siitä laajentuneet yleiskäyttöisiksi, isoja paketteja Huomioitavaa: järjestelmävaatimukset, koodauskieli, hakuominaisuudet, tiedostomuodot, metadataformaatit, yhteensopivuudet... + merkistövaihtoehdot, monikielisyys Archimede, ARNO, CDSware, DSpace, Eprints, Fedora, i-tor, MPG edoc, MyCoRe, OPUS, (ETD-db) DiVA
OAI:n implementointi on helppoa, mutta... Tarjolla olevat työkalut/ohjelmat 1. olettavat, että kyselyt tehdään relaatiotietokantaan, joka ymmärtää SQL:ää 2. edellyttävät web-palvelimen, jossa voidaan ajaa CGIskriptejä TKK:n kirjasto ei saa asentaa skriptejä korkeakoulun web-palvelimelle TKK:n kirjastolla on valmiiksi käytössä TRIPjärjestelmä. TRIP ei ole relationaalinen tkhj eikä se ole SQL-yhteensopiva
TKK OAI-tiedontuottajana Implementaatio-skripti perustuu PHP OAI Data Provider työkaluun (Univ. Oldenburg) Suurimmat muutokset: kokonaan uusi tietokantaliittymä, tehty kuitenkin vain hyvin ohut rajapinta TRIP-järjestelmään Metadataa on runsaasti: yli 160 kenttää Metadataformaatit: unqualified Dublin Core, DCQ, Marc21, tarvittaessa muunlaisia (esim. xhtml-dc )... Sets: pub-types, doc-types, subjects, departments > 450 väitöskirjaa, jonkun verran muuta materiaalia, laajenemassa Julkaisuilla pysyvä identifikaatiotunnus (urn:nbn:fi:tkk-...) Kaikki julkaisuarkiston dokumentit vapaasti luettavissa ja tulostettavissa Avoin julkaisuarkisto (institutional repository)
Reuse of original data TKKdoc (internal format) Web-based input form (or internal input format TRIP tform) OAI Data provider - Dublin Core (simple + DCQ...) - Marc21, others on request... Marc record Web pages - Front page (XHTML with DC meta tags) - Lists: current dissertations etc. - Browsing: by year / department / name... - Search interface PDF documents - Press release - UMI registration form Other export formats URN resolving Templates - Front + back matter of the fulltext document - (Fulltext) Word, LaTeX... Emails Service providers Union Catalog etc. Library catalog
Kiitos! Lista hyödyllisistä linkeistä tulee verkkoon tämän esityksen yhteyteen. http://lib.hut.fi/oai/linkit.html rita.voigt@tkk.fi