Kulttuurisampo. Eetu Mäkelä. Semantic Computing Research Group UNIVERSITY OF HELSINKI HELSINKI UNIVERSITY OF TECHNOLOGY

Samankaltaiset tiedostot
Media- ja kulttuuripalvelut. Eetu Mäkelä

URN: NBN:fi-fe

Miten Linked Data aineistoja tuotetaan ja. Semanttisen laskennan tutkimusryhmä SeCo Aalto-yliopisto

Johdanto: Semanttinen Kalevala projekti

ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

Kulttuurisampo. Joeli Takala. Semanttisen laskennan tutkimusryhmä Teknillinen korkeakoulu

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Tapahtumakalenteri ja terveyspalveluhakemisto

MITÄ KUULUU KIRJASAMPO? TAMPEREEN KAUPUNGINKIRJASTO /KAISA HYPÉN

Visuaaliset aineistot ja Finna

Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla

Uusi raporttityökalu emolehmätarkkailuun Petri Saarinen

JWT 2016 luento 11. to klo Aulikki Hyrskykari. PinniB Aulikki Hyrskykari

Ohjelmoinnin peruskurssi Y1

Verkkotietopiste.fi. Palvelun käyttöohjeet tiedon hakijalle

Semanttinen Finlex Visio ja sen toteutus

Asiakashallinta. TaikaTapahtumat -käyttöohje

Hyperlinkin tekeminen artikkeliin

TKHJ:ssä on yleensä komento create index, jolla taululle voidaan luoda hakemisto

Algoritmit 2. Luento 3 Ti Timo Männikkö

Algoritmit 2. Luento 3 Ti Timo Männikkö

Yhteenveto siitä, millaisia asioita halutaan kehittää

WINHIT OMAVALVONTA. Omavalvonnan käyttöliittymän ja seurantalokin ohjekirja

Ontologiakirjasto ONKI-Paikka

Päänäkymä Opiskelijan ohjeet Kurssin suorittaminen Opettajan ohjeet kurssin teko

T Tietojenkäsittelyopin ohjelmatyö. Testiraportti, vaihe T1. Tietokonegrafiikka-algoritmien visualisointi. Testiraportti, vaihe T1

Julkisen rajapinnan testausohje Swaggerin kautta

Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi?

Kirjastoverkkopäivät 2017 Erkki Tolonen

Yksilöivät tunnisteet Tampereen kaupungilla. Marko Kauppi Paikkatietomarkkinat

Kalevalainen tutkimus ja web? Lauri Harvilahti

KIRJASAMPO. Jyväskylä

Luento 2: Tiedostot ja tiedon varastointi

Nippupelipassi. Nippupelipassien rakentaminen

Yhteisrakentamisverkoston uutiskirje 02/2018

TUTKINNON REKISTERÖINTI

Tekninen alusta. Tavoitteet ja näkökulmia maankäyttöpäätöksiin Jani Kylmäaho, osahankepäällikkö Maanmittauslaitos

ELM GROUP 04. Teemu Laakso Henrik Talarmo

Pikaohje KTJ -selaintietopalveluun

Palomuurit. Palomuuri. Teoriaa. Pakettitason palomuuri. Sovellustason palomuuri

standardit (W3C, ISO) Semanttisen laskennan tutkimusryhmä Teknillinen korkeakoulu

Haaga-Helia/IltaTiko ict2tcd005: Ohjelmiston suunnittelutaito 1/7 Anne Benson. Tällä opintojaksolla käytämme VS:n kolmen kokonaisuuden luomiseen:

Terveys- ja yrityspalvelutyöpajan tutkimus Eero Hyvönen, Mikko Salonoja, Reetta Sinkkilä, Osma Suominen, Antti Tani

6Aika: EAKR-haun sisällöt. Viestintäsuunnitelma. Infotilaisuus Turku Oulu Tampere Espoo

Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa

Algoritmit 1. Luento 7 Ti Timo Männikkö

SPARQL-workshop. Sini Pessala Kirjastoverkkopäivät KANSALLISKIRJASTO - Kirjastoverkkopalvelut

JÄRJESTELMÄTYÖKALUT SEKÄ SOVELLUSTEN POISTAMINEN

Iloa tuottava tila - Lahden pääkirjaston uudistaminen. Salla Palmi-Felin

Tekninen suunnitelma - StatbeatMOBILE

TTER Teekkaritoiminnan edistämisrahasto. Yhdistyskoulutus Samu Nurmi

Käyttäjähallintapalvelun REST-rajapinnat

Suvi Junes/Pauliina Munter Tietohallinto/Opetusteknologiapalvelut 2014

Testaussuunnitelma PULSU. Syksy 2008 Ohjelmistotuotantoprojekti. HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Avoin tieto ja World Wide Web tietoyhteiskunnan palveluksessa. Open Data and the World Wide Web in Service for the Informaton Society

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

Algoritmit 1. Luento 5 Ti Timo Männikkö

Lions Clubs International MD 107 Finland

Matopeli C#:lla. Aram Abdulla Hassan. Ammattiopisto Tavastia. Opinnäytetyö

Esimerkki uudelleenohjauksen teknisestä toteutuksesta

Reitityksen ja realiaikatiedon virheelliset tilanteet

GDAL ja WFS: suora muunnos ogr2ogr-ohjelmalla

Sisällys. 18. Abstraktit tietotyypit. Johdanto. Johdanto

CIRI Ontologiaperustainen tiedonhakuliittymä

Horizon 2020 Hyvällä hakemuksella menestykseen. Arvioitsijan näkökulma Heikki Mäkilä Elinkeinojohtaja Heinolan kaupunki

RADAR - RANDOM DATA GENERATOR

CUDA. Moniydinohjelmointi Mikko Honkonen

YTPA Tiedon hyödyntäminen

Juuli-julkaisutietoportaali

KULUTTAJIEN MUUTTUNUT OSTOKÄYTTÄYTYMINEN

Finna ja korkeakoulukirjastojen e-aineistot käyttäjätutkimusten tuloksia

CLASSIC WINTIME - TOIMITTAJAN ENNAKKOPERINTÄREKISTERIPÄIVÄ

Finna ja ontologiat tms.

Stallings, Luku 8.1. KJ-I I S2004 / Tiina Niklander; kalvot Auvo Häkkinen 8-1

Kuinka aloitat Instagramin käytön?

Yksittäisen tapahtumakategorian hakeminen... 3 Parametrit... 4 Vastausesimerkki... 4 Tapahtumien hakeminen hakukriteerin avulla...

TIEDONHAKU INTERNETISTÄ

Semanttinen Finlex Arttu Oksanen ( )

Media- ja kulttuuripalvelut

Paikannimirekisteri linkitettynä tietona

KADA (Drupal 7) migraatio uuteen (versioon) webiin

Älykäs, palveleva kunta

Sosiaalinen teknologia mullistaa työryhmätyöskentelyn pilvessä. Aki Antman / Sulava Oy

Informaatiotekniikan kehitysyksikkö

Ohjelmoinnin perusteet Y Python

Opintojakso TT00AA11 Ohjelmoinnin jatko (Java): 3 op. Tietorakenneluokkia 2: HashMap, TreeMap

Uusi kirjastojärjestelmä UKJ

Skosmos 0.6 esittely. Osma Suominen ONKI-projektin laajennetun projektiryhmän kokous

Pikaohje seurakäyttäjälle (Huom! Maksuturvasopimus tulee olla ensiksi tehtynä tehtynä, maksuturvasopimuksen ohje tämän tiedoston lopussa)

Tulevaisuuden ratkaisu datan yhdistämiseen ja jakeluun. Forest Big Data Tulosseminaari, Miika Rajala, Risto Ritala TTY

18. Abstraktit tietotyypit 18.1

815338A Ohjelmointikielten periaatteet Harjoitus 6 Vastaukset

HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE

Osallistuva budjetointi

add_action( wordcamp_jkl, johdatus_filttereihin );

ANSIOMERKKIEN HAKEMINEN

Asiakastietojen tuominen toisesta tietokannasta etaika-ohjelmistoon. Kuinka yhdistän tietoja eri asiakastietokantojen välillä

Käyttötapaus HY-aineisto, myrkkypäästö JHS XXX Paikkatiedon yksilöivät tunnisteet JUHTA - Julkisen hallinnon tietohallinnon neuvottelukunta

Transkriptio:

Kulttuurisampo Eetu Mäkelä Semantic Computing Research Group http://www.seco.tkk.fi/ UNIVERSITY OF HELSINKI

Sisältö Kulttuurisammon hakukoneet Hae ja jäsennä Yleisempää tehtävää

Kulttuurisammon hakukoneet LOD-skaalautuva päättelevä kolmikkokanta DBPedia(en,fi,sv) +YAGO+UMBEL+OpenCyc+WordNet+Linke dgeodata(openstreetmap)+gns+kulsa 49,058,604 resurssia, 374,768,838 kolmikkoa->10,223,633,586 pääteltyä kolmikkoa joista 6,240,293,648 uniikkia Osaa kertoa mistä alkuperäisestä kolmikosta hakuun osuva kolmikko on päätelty Tehokkaat teksti-, koordinaatti- ja aikahaut Toimii myös Jena-mallina (SPARQL-patternit hakevat pääteltyjä kolmikoita mutta palauttavat alkuperäiset)

Kulttuurisammon hakukoneet IdURIIndex Globaali indeksi joka muuttaa URIt numeroiksi ja takaisin (BerkeleyDB+MMapIO) ID->URI map vie tilaa 1,6G, URI->ID BDB 3,9G Primääri hakuindeksi Kolmikoiden osat MMapIO-listoissa integereinä Haku Lucenella (päätellyt kolmikoiden osat vain täällä) LOD-kolmikot vievät tilaa 4,1G, hakuindeksi 10G

Kulttuurisammon hakukoneet LiteralIdIndex Sama literaaleille kuin IdURIIndex URI:lle LOD: 2,4G id->lit, 8,4G lit->id LabelSearchIndex Lucene-indeksi literaali- ja resurssien tekstihakuun Kulsan tekstihaku kohdistuu ensin tänne, täältä löytyvät vasteet ajetaan hakuin primääri-indeksiin LOD: 16G

Kulttuurisammon hakukoneet LocationIndex Lucene 2.9 Trie-indeksi josta resurssien haku koordinaatein on tehokasta LOD: 1.5G TemporalEntityIndex Lucene 2.9 Trie-indeksi aikahakuun LOD: 16M (ymmärtää tällä hetkellä vain Kulsa-ajat) LabelIndex BDB-indeksi resurssien labeleiden tehokkaaseen hakuun (hakutuloslistat, itemsivut)

Kulttuurisammon hakukoneet TypeIndex BDB-indeksit tyyppitiedon nopeaan hakuun (hakutuloslistat) ja transitiiveseen päättelyyn LOD: 1,1G HierarchyIndex BDB-indeksit nopeaan yleiseen transitiiviseen päättelyyn + nearest common ancestor jne LOD: 231M LOD: Kaikki indeksit ja data yhteensä 51G (vrt alkuperäiset lähdetiedostot itsessään 46G)

Hae ja jäsennä (moninäkymähaku) Haun välikerros käyttää yleisiä indeksejä dynaamisten puunäkymien luontiin Voidaan generoida dynaamisesti esim. javascriptistä suoraan class/property/domainparametrein, sallien literaalit tahi ei Käytetään myös instaonki - toiminnallisuudessa http://demo.seco.tkk.fi/kulsa/dynamicvbs.shtm Hae ja jäsennässä idea tarjota työkaluja tietokokonaisuuden jäsentämiseen TODOa riittää vielä liiaksi suhteessa siihen etten ehdi tehdä sille mitään https://nipo.seco.hut.fi/trac/seco/wiki/kulsajas

Moninäkymähaku & Kulsa Kulsassa suurin ongelma data. Propertyjen arvoina on mitä sattuu. (myös propertyhierarkia yhä sekaisin) Tästä seuraa nykyisessä arkkitehtuurissa myös skaalautumisongelmia. Kulsa teki yhdessä testissä pahimmillaan n. 4 miljoonaa hakua yhden moninäkymäsivun näyttämiseen (tosin sekin tuli sekunneissa) Ratkaisu: 1) propertyhierarkia tarkistetaan vielä kerran osaavin käsin 2) joku määrittelee eri näkymille järkevät domainrajoitteet (ylijääneet propertyjen arvot voidaan halutessa koota/piilottaa muut -luokkaan)

Muita ongelmia Kulttuurisampo 2.0- julkaisun suhteen Suosittelut yhä huonoja, osin menneet rikkikin datamuutoksissa, puuttuvat uusilta aineistoilta Päättelevän SPARQL:n avulla näitä voisi yksinkertaistaa + olen luonut joitakin yleissääntöjä jotka tuntuvat toimivan useita alkuperäisiä suositteluja paremmin. Kokoava suosittelu ei tällä hetkellä skaalaudu varsinkaan pääteltyyn malliin (resurssien tietoja haetaan liian aikaisin) Ongelma myös Kirjasampo-rajapinnassa Useat muutkin toiminnallisuudet luultavasti menneet rikki rempassa, tarvittaisiin uusi kattava testauskierros