Fennican RDF-konversio. Osma Suominen

Samankaltaiset tiedostot
Fennica linkitettynä datana tilannekatsaus. Osma Suominen Tietomalliryhmän kokous

Teokset Fennicassa. Osma Suominen

Fennican RDF-konversio ja teosten eristäminen. Osma Suominen

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Open > Link > GO Avointa linkitettyä dataa kirjastomaailmassa

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Juha Hakala Kansalliskirjasto

Avoin data, avoimet rajapinnat ja tietojen linkitys. Osma Suominen Suomi.fi

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

The CCR Model and Production Correspondence

Results on the new polydrug use questions in the Finnish TDI data

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Hankintailmoitus: Pohjois-Savon sairaanhoitopiirin kuntayhtymä/kiinteistöyksikkö : Puijon sairaalan Pääaula-alueen uudistus, Sähköurakka

Use of spatial data in the new production environment and in a data warehouse

Kuvailutiedon tietomalleja ja konversiotyökaluja. Osma Suominen

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Uusi Ajatus Löytyy Luonnosta 3 (Finnish Edition)

7.4 Variability management

Alternative DEA Models

Capacity Utilization

Efficiency change over time

Lakimies PDF. ==>Download: Lakimies PDF ebook

Avoin data Avoin kirjasto Kuvailupäivät

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

16. Allocation Models

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

Finto-tilannekatsaus. Osma Suominen Kansalliskirjaston asiantuntijaseminaari

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

Collaborative & Co-Creative Design in the Semogen -projects

Ontologiat ja semanttinen web sisällön tuotannon näkökulmasta Luetteloinnin tiedotuspäivä Juha Hakala Kansalliskirjasto.

Choose Finland-Helsinki Valitse Finland-Helsinki

Curriculum. Gym card

Katselupalvelujen INSPIRE-yhteensopivuuden testaus

Suomen Talonpoikaiss Dyn Keskustelup Yt Kirjat, Issue 1... (Finnish Edition) Click here if your download doesn"t start automatically

TIETEEN PÄIVÄT OULUSSA

Gap-filling methods for CH 4 data

Other approaches to restrict multipliers

Asteri-auktoriteettitietokannan esittely. Minttu Hurme / KVP, tietojärjestelmät Kuvailun tiedotuspäivät

Miten Linked Data aineistoja tuotetaan ja. Semanttisen laskennan tutkimusryhmä SeCo Aalto-yliopisto

Business Opening. Arvoisa Herra Presidentti Very formal, recipient has a special title that must be used in place of their name

Lakikielen Sanakirja, Englanti-Suomi / English-Finnish Law Dictionary By Matti Joutsen

Lataa SETI Revisited - Risto Isomäki. Lataa

Bibframe, ISO TC 46/SC 4 & julkishallinnon metatietopalvelu. Metatietoverkoston infotilaisuus Juha Hakala KIRJASTOVERKKOPALVELUT

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

MEETING PEOPLE COMMUNICATIVE QUESTIONS

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Julkistustilaisuus , SKS, Juhlasali, Helsinki

Digitalisoituminen, verkottuminen ja koulutuksen tulevaisuus. Teemu Leinonen Medialaboratorio Taideteollinen korkeakoulu

Kansallinen yhteisluettelo kirjastojen luettelointiyhteistyön tukena. Pori Nina Hyvönen

Lataa Ajan lyhyt historia - Stephen Hawking. Lataa

Opintomatkat PDF. ==>Download: Opintomatkat PDF ebook By Risto Antikainen

RDA (Resource Description and Access) & FRBR-käsitemalli

FAIRDATA-PALVELUT. CSC Suomalainen tutkimuksen, koulutuksen, kulttuurin ja julkishallinnon ICT-osaamiskeskus

SPARQL-workshop. Sini Pessala Kirjastoverkkopäivät KANSALLISKIRJASTO - Kirjastoverkkopalvelut

Lataa Legislating the blind spot - Nikolas Sellheim. Lataa

Uusi käsitemalli IFLA LRM

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

Security server v6 installation requirements

Kirjastoverkkopäivät Marja-Liisa Seppälä Kansalliskirjasto

ONKI: sanastojen ja avoimen linkitetyn datan tekninen infrastruktuuri Juha Hakala Kansalliskirjasto

Lataa Maailmankaikkeus pähkinänkuoressa - Stephen Hawking. Lataa

SKOS. Osma Suominen ONKI-hankkeen laajennettu projektiryhmä

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Oma sininen meresi (Finnish Edition)

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Helsinki, Turku and WMT

Miksi Suomi on Suomi (Finnish Edition)

TP1: Metatietovaranto-konsepti muuttuvassa ympäristössä

ETELÄESPLANADI HELSINKI

Security server v6 installation requirements

Increase of opioid use in Finland when is there enough key indicator data to state a trend?

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Pojan Sydan: Loytoretki Isan Rakkauteen (Finnish Edition)

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

Sivuston tiedotqbooksupportpho nenumber.com

BIBFRAME-hankkeen tilannekatsaus

E-lehtien siirtäminen SFX:stä Voyager-tietokantaan

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Kuvailusäännöt, formaatti ja kirjastojärjestelmä

Autoilijan Tiekartta, Suomi Ja Pohjoiskalotti: 1989 (Finnish Edition) By Finland

Salasanan vaihto uuteen / How to change password

Expression of interest

Get Instant Access to ebook Kasvuyritys PDF at Our Huge Library KASVUYRITYS PDF. ==> Download: KASVUYRITYS PDF

Lataa Mustat aukot - BBC:n Reith-luennot - Stephen Hawking. Lataa

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Kansallinen hankintailmoitus: Mikkelin ammattikorkeakoulu Oy : Palvelimet ja kytkin

YSAn auktorisointi - Helka-tietokanta. Ville Huhtala, Helsingin yliopiston kirjasto Sisällönkuvailupäivä

Installation instruction PEM

Väite Argument "Yhteiskunnan velvollisuus on tarjota virkistysalueita ja -palveluita." "Recreation sites and service

Rotarypiiri 1420 Piiriapurahoista myönnettävät stipendit

Kokoelmien arviointi

TÄYTTÖAUTOMAATIT TÄYTTÖAUTOMAATIT COMPUTER INFLATORS

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Transkriptio:

Fennican RDF-konversio Osma Suominen 31.10.2016

Linkitetyn kirjastodatan tietomalleja

Original image by Doc Searls. CC By 2.0 https://www.flickr.com/photos/docsearls/5500714140

Flat / Record-based Family forest of bibliographic data models, conversion tools and data sets MARC MODS MODS RDF marcmods2rdf Catmandu Dublin Core DC-RDF BIBO DC-NDL AP NDL BNB AP BNB DNB AP DNB Metafacture Swissbib AP Swiss bib schema.org + bib.extensions World Cat don t have Works have Works BNF AP LD4L marc2bibframe LD4P ontology LD4L ontology BIBFRAME 1.0 BNF BIBFRAME 2.0 pybibframe bibfra.me (Zepheira) Entity-based MARiMbA Conversion tool BNE ontology FaBiO RDA Vocabulary FRBRer Non-RDF data model RDF data model LibHub FRBR Legend FRBRoo BNE Application profile ALIADA efrbroo Artium Data set

Webbish Libraryish - used for producing and maintaining (meta)data lossless conversion to/from legacy formats (MARC) modelling of abstractions (records, authorities) housekeeping metadata (status, timestamps) favor self-contained modelling over reuse of other data models - used for publishing data for others to reuse interoperability with other (non-library) data models modelling of Real World Objects (books, people, places, organizations...) favour simplicity over exhaustive detail Authority data Bibliographic data BIBO MODS RDF Dublin Core RDF LD4L ontology BIBFRAME schema.org + bib.extensions LD4P ontology Wikidata properties RDA Vocabulary MADS/RDF SKOS FOAF

BIBLIOGRAPHIC DATA MODELS https://xkcd.com/927/

Choosing a data model 1. Want to have Works, or just records? 2. Libraryish or Webbish?

Fennica RDF:nä

My assignment NATIONAL BIBLIOGRAPHY with apologies to Scott Adams

Not very Linked to start with Only some of our bibliographic records are in WorldCat...and we don t know their OCLC numbers Our bibliographic records don t have explicit links to authority records...but we re working on it! Our person authority records are not in VIAF or ISNI Our corporate name authority isn t linked anywhere either Our main subject headings (YSA) are linked via YSO to LCSH

Targeting schema.org schema.org + bibliographic extensions allows surprisingly rich descriptions modelling of Works is possible, similar to BIBFRAME [1] forces to think about the data from a web user s point of view: We have these 1M bibliographic records The National Library maintains this amazing collection of literary works! We have these editions of those works in our collection. They are available free of charge for reading/borrowing from this library building (Unioninkatu 36, 00170 Helsinki, Finland) which is open Mon-Fri 10-17, except Wed 10-20. The electronic versions are available online from these URLs. [1] Godby, Carol Jean, and Ray Denenberg. 2015. Common Ground: Exploring Compatibilities Between the Linked Data Models of the Library of Congress and OCLC. Dublin, Ohio: Library of Congress and OCLC Research. http://www.oclc.org/content/dam/research/publications/2015/oclcresearch-loc-linked-data-2015.pdf

Fennica-dataa schema.org:illa # This represents the original English language work # This is the manifestation (FRBR/RDA) / instance (BIBFRAME) fennica:000215259work9 a schema:creativework ; fennica:000215259instance29 a schema:book, schema:creativework ; schema:author fennica:000215259person15 ; schema:creator schema:inlanguage "eng" ; schema:datepublished "2000" ; schema:name schema:exampleofwork fennica:000215259 ; "The illustrated A brief history of time". fennica:000215259person10 ; schema:isbn "9510248215", "9789510248218" ; # This is the Finnish translation work (expression in FRBR/RDA) schema:name "Ajan lyhyt historia" ; fennica:000215259 a schema:creativework ; schema:numberofpages "248, 6 s. :" ; schema:about "maailmankaikkeuden synty", "kvarkit", "mustat aukot", "maailmankaikkeus", "aika", "suhteellisuusteoria" ; schema:contributor fennica:000215259person11 ; schema:creator fennica:000215259person10 ; schema:inlanguage "fin" ; schema:name "The illustrated A brief history of time" ; schema:translationofwork fennica:000215259work9 ; schema:workexample schema:publisher [a schema:organization ; schema:name "WSOY" ]. # The original author fennica:000215259person10 a schema:person ; schema:name "Hawking, Stephen.". fennica:000215259instance29. # The original author again - should be merged with above fennica:000215259person15 a schema:person ; schema:name "Hawking, Stephen.". # The translator fennica:000215259person11 a schema:person ; schema:name "Varteva, Risto".

Konversiotyökaluista Catmandu: liian rajoittunut RDF-konversioon, sopii MARC-esikäsittelyyn ALIADA: paperilla hieno, käytännössä vaikea asentaa ja buginen pybibframe: sidoksissa Zepheiran omaan bibfra.me-versioon, hidas marc2bibframe: kömpelö mutta toimiva, paljon tiivistettyä MARC-tietoutta tehty LoC:n esimerkkikoodin pohjalta marc2bibframe-wrapper wrapperin avulla voi tehokkaasti käsitellä 10000 tietueen eriä kerrallaan, konversionopeus >200 tietuetta/sekunti (4 CPU) tulossa myös uusia BIBFRAME-muuntimia: LoC on ilmeisesti tehnyt Index Datan kanssa sopimuksen BIBFRAME 2.0 -muuntimen kehityksestä; ei vielä mustaa valkoisella LD4P-projekti on tekemässä oman muuntimen, jonka kohdemalli on LD4P-ontologia: a new, robust, efficient, well-documented, well-tested, open-source MARC to BIBFRAME converter to support the revised BIBFRAME ontology

Fennican BIBFRAME-muunnosketju (alustava) 30M tripleä, ~1.5 GB 1M tietuetta, 2,5 GB Alephbibdumppi txt 2,5 GB paloittelu 300 osaan (max 10000/osa) txt 1,5 min txt 4 GB Suodatus, tuplapoisto, Catmandukonversio, 240$l -fix 11 min 9 GB mrcx nt rdf BIBFRAMEkonversio mrcx Schema.org konversio nt rdf 75 min 30 min teosten yhdistely txt mrcx nt rdf Teosavainten luominen 35 min Lisäksi pitäisi vielä huomioida auktoriteetit (henkilöt, yhteisöt, asiasanat): - pitäisi esittää RDF:nä (enää henkilöt puuttuu) - pitäisi muuttaa BIBFRAME-datassa esiintyvät irralliset auktoriteettitiedot viittauksiksi auktoriteettien tunnisteisiin - bib-auth-linkkaus jo Melindassa helpottaisi Kehikko rakenteilla: https://github.com/natlibfi/bib-rdf-pipeline nt nt teosyhdistelymäppäyksen luominen 2min julkaistava RDF

Tämän hetken haasteita rikkinäiset URLit MARC-tietueissa [Tähän kirjaston linkki] http://urn.fi/urn:isbn: 978-951-53-3352-0 http://urn.fi/urn:isbn:978-951-784-608-0 (PDF) http:// www.maailmalle.net http://ethesis.helsinki.fi/julkaisut/maa/skemi/vk/mentula/ base target=_blank http://www.etk.fi/binary.aspx?section=44857&item=64774 z Linkki verkkoaineistoon (PDF) http://helda.helsinki.fi/bitstream/handle/10138/15810/tutkimuksia108.pdf?sequence=1 y Linkki q PDF http://formin.finland.fi/public/download.aspx?id=96845&guid={e3c53f54-3fa3-4a33-ba1e-c55f5ca16703} jne., yhteensä reilut 100 kpl virheellisiä URLeja jotka aiheuttavat syntaksivirheitä RDF-konversion jälkeisessä käsittelyssä teosten eristäminen: alustava toteutus olemassa replikointidirektiivien FENNI<KEEP> ja FENNI<DROP> huomiointi pitää vielä yhdistää samaa teosta koskevat tiedot älykkäästi haluamme varmaankin julkaista Fennica-tietueet Fennican mukaisina, ei sellaisina kuin ne ovat Melindassa? linkitys YSAan/YSOon, henkilö- ja yhteisöauktoriteetteihin

Julkaisu RDF:nä Testattu Apache Marmottaa RDF-tietokanta on varsin hidas kehityksen tilanne vaikuttaa epäilyttävältä ei jatkoon HDT-tiedostomuoto ja Linked Data Fragments vaikuttaa lupaavalta koko Fennica RDF:n voisi julkaista noin 1GB HDT-tiedostona HDT:n pystyy helposti tarjoilemaan linkitettynä datana ja SPARQL-rajapintana

Kiitos! osma.suominen@helsinki.fi