Media- ja kulttuuripalvelut Eetu Mäkelä Harri Hämäläinen, Joonas Laitio, Aleksi Lindblad, Katariina Nyberg, Tuomas Palonen, Ville Piiparinen, Reetta Sinkkilä, Osma Suominen
Tutkimussuunnitelmassa asetetut teemat / tavoitteet Media/kulttuurialan sanasto- ja skeemainfrastruktuurin yhdistäminen ja tuotanto FinnONTO:oon Kulttuuripalveluiden hyödyntäminen matkailualalla ja mobiilisti --Kulttuurisampo semanttisena palvelualustana Linked Datan ja Wikipedian kaltaisen yhteisöllisten avointen aineistojen hyödyntäminen yritysten ja julkisten organisaatioiden palveluissa Caset: Kirjasampo, KOMEA, CultureGuide (SUBI) Muut teemat ja tavoitteet: elämäkerrat, MarcXML-muunnin, semanttinen tapahtumakalenteri
Media/kulttuurialan sanasto- ja skeemainfrastruktuuri Valmiita: Aikakausilehtisanasto Kaunokirjallisuuden sisällönkuvailuontologia KAUNO Kulttuurintutkimuksen ontologiat KTO/KITU/KULA Suomen ajallinen paikkaontologia SAPO Paikka/POI-tyyppiontologia Elämäkertaontologia, skeema ja aineistoja (Tuomas, Katariina) Kulttuurialueen skeemat (Harri, Eero) Paikkarekisteri Toimijatyyppiontologia Toimijarekisteri
Kulttuurisampo semanttisena palvelualustana Tehty & tuotannossa Kirjasampo&SUBI-caseissa: LOD-selailurajapinta SPARQL-rajapinta ONKI-WS-rajapinta teksti/moninäkymähaku-rajapinta Leijukerajapinta georajapinta Hakurajapintojen kehitys Kirjasampo&SUBI-casejen tarpeiden mukaan (Eetu)
Linked Datan ja Wikipedian kaltaisten yhteisöllisten avointen aineistojen hyödyntäminen Tehty: Aineisto (300 miljoonaa kohdetta, 4 miljardia tietoalkiota) ladattu & käytössä Kirjasampo & SUBI-caseissa (erityisesti paikka- ja toimija-aineisto) Aineiston analyysi ja erotus sekä lisäaineiston muunto SUBI&KOMEAcasejen tarpeisiin (Harri) EMO/SAHA-kytkentä, SAHA validointi- ja korjausvälineenä (Joonas) Väline, joilla viitekäsitteissä esiintyviä ongelmia (samasta käsitteestä monta versiota, monta käsitettä virheellisesti yhdistetty, puuttuvat viitekäsitteet) voidaan annotoinnin yhteydessä ratkoa
Case Kirjasampo Tehty: Tietomalli Sisällön syöttö Selailurajapinta Ensimmäinen versio hakurajapinnasta (Eetu) Kansikuvatallennuksien uudelleentoteutus (Eetu) Aineistoon tehtävät korjausajot (Eetu, Mysema) Hakurajapinnan viilaus (Eetu) BTJ-sisällöntuotantoputken integrointi (Eetu) [demo]
Case KOMEA Tehty: Relevantin aineiston haravointi LOD-aineistosta, uuden liittyvän aineiston haalinta (RKY, muinaismuistorekisteri) (Harri) Skeemojen viimeistely SAHA-projektin pystyttäminen
Case CultureGuide (SUBI) Tehty: Aineistojen haalinta Käyttöliittymien ja toiminnallisuuksien suunnittelu Päivittyvien tapahtuma-aineistojen päivitys- ja rikastusputki ja raportointi (Osma) Integrointi-, käyttöliittymä- ja algoritmityö (Eetu, Aleksi) Lisätuki aineiston integrointiin Laadukkaiden skeemojen viimeistely ja laadukkaan esimerkkiaineiston syöttö käsin
Elämäkerrat Tehty: Annotoidaan esimerkkitapahtumia (Tuomas ja Katariina) Mietitään ihmisen elämän olennaiset tapahtumatyypit (syntymä, naimisiinmeno, koulutus, palkinnot ja tunnustukset, ) ja kehitetään tästä tyyppiontologia Mietitään tapahtumien olennaiset tekijät (paikka, aika, muut yhteydet...) ja kehitetään tästä skeema Yritetään päätellä tapahtumia automaattisesti tekstistä (kansallisbiografia,...)
SKS:n 6000 biografiassa 100 useiten esiintyvää verbiä
Semanttinen tapahtumakalenteri Tehty: Aineistonlouhintaohjelmat Tapahtumaskeema Automaattinen sisällönkuvailu (Joonas, Reetta, Osma) Aineistojen päivitysinfrastruktuuri & raportointi (Osma) EvenemaX-aineiston tarkempi käsittely, erityisesti eri kieliversioiden suhteen
MarcXML-muunnin Tehty: MarcXML->RDF muunnin HelMet-aineistojen muunnos Arto- ja Helka-aineistojen muunnos (Ville) Muuntimen viimeistely ja muunnoksen analyysi
MarcXML-muunos aineistoista Helmet Pääkaupunkiseudun kirjastojen aineistotietokanta ~1,9Gb ~681 000 tietuetta ~200 käytössä olevaa kenttää Arto Kotimainen artikkeliviitetietokanta ~0,7Gb ~250 000 tietuetta ~100 käytössä olevaa kenttää Helka Helsingin yliopiston kirjaston aineistotietokanta ~1,0Gb ~360 000 tietuetta ~150 käytössä olevaa kenttää
MarcXML-muunos ongelmista Ongelmia kaikissa aineistoissa Helkassa vähiten, Helmetissä eniten Sulkeet ja pilkut nimissä yms. <datafield tag="260" ind1=" " ind2=" "> <subfield code="a">helsinki :</subfield> <subfield code="b">kuva ja sana,</subfield> <subfield code="c">2000</subfield> <subfield code="e">(saarijärvi :</subfield> <subfield code="f">saarijärven offset)</subfield> </datafield> Kenttien väärinkäyttö Esim. kentät 321 ja 310 kertovat nykyisestä ja aikaisemmasta julkaisutiheydestä. Alikentän a pitäisi sisältää julkaisutiheys ja alikentän b kertoa milloin julkaisutiheys on ollut voimassa Kuitenkin aineistoissa kentässä 310a on esim. kaksi kertaa vuodessa ; 1992- kerran vuodessa. Alikenttää b käytetty vain Helkassa, ja sielläkin vain kuusi kertaa
Bonus: YLE Elävän Arkiston asiasanat Testattu asiasanojen automaattista peilausta SeCon ontologia- ja LOD-käsitteistöihin 16661:sta asiasanasta 11153 löysi vähintään yhden vastineen (67%). Vastineettomista suuri osa nimiä ja ruotsinkielisiä asiasanoja Vastineet: KOKO 8200 vastinetta (arkkitehdit, globalisaatio, hanuristit, asbesti, arvonimi, ruoho, haaparousku, haikara, hankiralli) DBPedia 12878 vastinetta (Che Guevara, Amos Andersonin taidemuseo, Amorphis, Anni Swan, Ardennien taistelu, globalisaatio, asbesti, arvonimi, haikara, hankiralli, asana) SUO 1092 vastinetta SAPO 315 vastinetta Geonames 2900 vastinetta Ei vastineita: Hannu Taanila, Hannu Taanilan sävelradio, handsfree, handdocka, handarbete, grädde, glada sångballong, Gin Long Drink, funktionalismi