Kulttuurisampo Eetu Mäkelä Semantic Computing Research Group http://www.seco.tkk.fi/ UNIVERSITY OF HELSINKI
Sisältö Kulttuurisammon hakukoneet Hae ja jäsennä Yleisempää tehtävää
Kulttuurisammon hakukoneet LOD-skaalautuva päättelevä kolmikkokanta DBPedia(en,fi,sv) +YAGO+UMBEL+OpenCyc+WordNet+Linke dgeodata(openstreetmap)+gns+kulsa 49,058,604 resurssia, 374,768,838 kolmikkoa->10,223,633,586 pääteltyä kolmikkoa joista 6,240,293,648 uniikkia Osaa kertoa mistä alkuperäisestä kolmikosta hakuun osuva kolmikko on päätelty Tehokkaat teksti-, koordinaatti- ja aikahaut Toimii myös Jena-mallina (SPARQL-patternit hakevat pääteltyjä kolmikoita mutta palauttavat alkuperäiset)
Kulttuurisammon hakukoneet IdURIIndex Globaali indeksi joka muuttaa URIt numeroiksi ja takaisin (BerkeleyDB+MMapIO) ID->URI map vie tilaa 1,6G, URI->ID BDB 3,9G Primääri hakuindeksi Kolmikoiden osat MMapIO-listoissa integereinä Haku Lucenella (päätellyt kolmikoiden osat vain täällä) LOD-kolmikot vievät tilaa 4,1G, hakuindeksi 10G
Kulttuurisammon hakukoneet LiteralIdIndex Sama literaaleille kuin IdURIIndex URI:lle LOD: 2,4G id->lit, 8,4G lit->id LabelSearchIndex Lucene-indeksi literaali- ja resurssien tekstihakuun Kulsan tekstihaku kohdistuu ensin tänne, täältä löytyvät vasteet ajetaan hakuin primääri-indeksiin LOD: 16G
Kulttuurisammon hakukoneet LocationIndex Lucene 2.9 Trie-indeksi josta resurssien haku koordinaatein on tehokasta LOD: 1.5G TemporalEntityIndex Lucene 2.9 Trie-indeksi aikahakuun LOD: 16M (ymmärtää tällä hetkellä vain Kulsa-ajat) LabelIndex BDB-indeksi resurssien labeleiden tehokkaaseen hakuun (hakutuloslistat, itemsivut)
Kulttuurisammon hakukoneet TypeIndex BDB-indeksit tyyppitiedon nopeaan hakuun (hakutuloslistat) ja transitiiveseen päättelyyn LOD: 1,1G HierarchyIndex BDB-indeksit nopeaan yleiseen transitiiviseen päättelyyn + nearest common ancestor jne LOD: 231M LOD: Kaikki indeksit ja data yhteensä 51G (vrt alkuperäiset lähdetiedostot itsessään 46G)
Hae ja jäsennä (moninäkymähaku) Haun välikerros käyttää yleisiä indeksejä dynaamisten puunäkymien luontiin Voidaan generoida dynaamisesti esim. javascriptistä suoraan class/property/domainparametrein, sallien literaalit tahi ei Käytetään myös instaonki - toiminnallisuudessa http://demo.seco.tkk.fi/kulsa/dynamicvbs.shtm Hae ja jäsennässä idea tarjota työkaluja tietokokonaisuuden jäsentämiseen TODOa riittää vielä liiaksi suhteessa siihen etten ehdi tehdä sille mitään https://nipo.seco.hut.fi/trac/seco/wiki/kulsajas
Moninäkymähaku & Kulsa Kulsassa suurin ongelma data. Propertyjen arvoina on mitä sattuu. (myös propertyhierarkia yhä sekaisin) Tästä seuraa nykyisessä arkkitehtuurissa myös skaalautumisongelmia. Kulsa teki yhdessä testissä pahimmillaan n. 4 miljoonaa hakua yhden moninäkymäsivun näyttämiseen (tosin sekin tuli sekunneissa) Ratkaisu: 1) propertyhierarkia tarkistetaan vielä kerran osaavin käsin 2) joku määrittelee eri näkymille järkevät domainrajoitteet (ylijääneet propertyjen arvot voidaan halutessa koota/piilottaa muut -luokkaan)
Muita ongelmia Kulttuurisampo 2.0- julkaisun suhteen Suosittelut yhä huonoja, osin menneet rikkikin datamuutoksissa, puuttuvat uusilta aineistoilta Päättelevän SPARQL:n avulla näitä voisi yksinkertaistaa + olen luonut joitakin yleissääntöjä jotka tuntuvat toimivan useita alkuperäisiä suositteluja paremmin. Kokoava suosittelu ei tällä hetkellä skaalaudu varsinkaan pääteltyyn malliin (resurssien tietoja haetaan liian aikaisin) Ongelma myös Kirjasampo-rajapinnassa Useat muutkin toiminnallisuudet luultavasti menneet rikki rempassa, tarvittaisiin uusi kattava testauskierros