Kulttuurisampo.fi Suomalainen kulttuuri ja semanttinen web mitä, miksi ja miten? 2.4.2009 Eetu Mäkelä Semantic Computing Research Group (SeCo) Helsinki University of Technology (TKK), Department of Media Technology and University of Helsinki, Department of Computer Science http://www.seco.tkk.fi 1
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on? 2
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on? 3
Miksi semanttinen web? Jos semanttisesta webistä tulee totta, seuraavat asiat muuttuvat halvemmiksi toteuttaa: Älykkäämmät ja siten käyttökelpoisemmat webpalvelut Sisällöntuotannon tehostaminen» Sisällön uusiokäyttö» Sisällöntuotannon hajauttaminen» Eri toimijoiden tuottamien sisältöjen yhdistäminen Kieli- ja kulttuurirajojen ylittäminen palveluissa Yhteentoimivat eri toimijoiden ohjelmistojärjestelmät Ohjelmistopalvelujen uudelleenkäyttö ja jakaminen eri toimijoiden välillä Web 2.0-ideologiassakin pääosassa yhteisöllisyys ja tietojen ja palvelujen yhdistäminen. Semanttinen web tarjoaa seuraavan sukupolven teknologia-alustan web 2.0-ideologialle Web 3.0 4
Mikä semanttinen web? Hyvin lyhyesti: semanttinen web on teknologia, jossa tieto ja ymmärrys koodataan niin että tyhmä konekin sen ymmärtää Kansainvälinen konteksti: Yksi keskeinen sovellusalue on World Wide Webin (WWW) seuraava sukupolvi Tunnetuin puolestapuhuja webin isä prof. Tim Berners-Lee Teknologian kypsyys: Standardit W3C:n ylimmässä standardiluokassa Oracle 10.2 tukee semanttisen webin teknologioita Adoben tuotteiden metadatan tallennus kauttaaltaan SWpohjaista Euroopan digitaalisen kirjastoportaalin Europeanan kehittyneempi versio rakennetaan SW-teknologialle 5
Suomalainen konteksti: FinnONTOprojekti Tekes-tutkimushanke, tutkimusosapuolina TKK, Helsingin yliopisto ja Tampereen yliopisto Ydintavoite: luoda Suomelle yhteinen kansallinen semanttisen webin infrastruktuuri, joka mahdollistaa teknologian hyödyntämisen mahdollisimman halvalla Käytännössä: Loppukäyttäjille suunnattuja palvelukonsepteja ja työkaluja niiden toteuttamiseen (Kulttuurisampo, TerveSuomi.fi, Opintie,...) Apuvälineitä tiedon tuotantoon ja yhdistämiseen Pääpaino organisaatioiden yhteistoiminnassa (yksilöt mukaan 2009) Käynnistyi vuonna 2003 2003-2004: 14 rahoittajaa 2004-2005: 16 rahoittajaa 2005-2006: 30 rahoittajaa 2006-2007: 37 rahoittajaa 2008-2009: 38 rahoittajaa 2009-2010: uusi haku, tervetuloa mukaan! 6
FinnONTO-projektin rahoittajat 20082009 AAC Global Oy Antikvaria-ryhmä CelAmanzi Oy Connexor Oy Coronaria Oy Eduskunta Ego Beta Oy Elisa Oy Espoon kaupunginmuseo Geol. tutkimusk. GTK Hgin kaupunginkirjasto Hgin yliopiston Viikin tiedekirjasto Kansallisarkisto Kansalliskirjasto Kansanterveyslaitos Koulutuskeskus Dipoli Maa- ja metsätalousministeriö Maanmittauslaitos M-Cult Merenkulkulaitos Museovirasto Mysema Oy Osuuspankkikeskus OSK PKT-Säätiö Profium Oy Rautaruukki Oyj Sanastokeskus TSK Sininen Meteoriitti Oy Stakes Suomen Asiakastieto Oy Suomalaisen kirjallisuuden seura SKS Suomen valokuvataiteen museo Taideteollisen korkeakoulun kirjasto Terveyden edistämisen keskus (Tekry) TietoEnator Oyj Valtion taidemuseo Valtiovarainministeriö / ValtIT Wärtsilä Oyj Pilotointialueet 2008-2009: kulttuuri, terveydenhuolto, yrityspalvelut, asiakirjanhallinta 7
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on? 8
Kulttuurisampo.fi Mistä on kyse? Kulttuurisampo on keskitetty web-portaali, joka esittelee semanttisen webin teknologioista saatavaa lisäarvoa monimuotoisten ja monilähteisten kulttuurisisältöjen yhteisöllisessä julkaisussa 1) Museoesineet (Espoon kaupunginmuseo, Lahden kaupunginmuseo, Kansallismuseo, Pohjois-Karjalan museo, Suomen maatalousmuseo Sarka) 2) Maalaukset, veistokset, piirustukset ja muu esittävä ja abstrakti taide (Valtion taidemuseo) 3) Kaunokirjallisuus (Helsingin kaupunginkirjasto) 4) WWW-tietosivut (Wikipedia) 5) Runot (ml. Kalevala) (Suomen kansan vanhat runot, SKS) 6) Kalevalan paikat ja henkilöt 7) Kansansävelmät (Jyväskylän yliopiston musiikin laitos ja SKS) 8) Valokuvat (Kuopion kulttuurihistoriallinen museo, Kansallismuseo) 9) Ilmavalokuvat (Veljekset Karhumäki Oy) 10)Henkilöt ja organisaatiot (Getty Union List of Artist Names) 11)Biografiat (Kansallisbiografia, SKS) 12)Historialliset tapahtumat (Agricola Suomen historiaverkko) 13)Taidot (Taideteollisen korkeakoulun kirjasto, Suomen maatalousmuseo Sarka) 14)Videot (Espoon kaupunginmuseo) 15)Rakennetut kohteet (Espoon kaupunginmuseo) 16)Muinaismuistokohteet (Museovirasto)
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi Moniaineistoselailun ja suosittelun Kalevalan tekstistä kuvien kautta maalarin elämänkertaan Paremmat hakutoiminnot Historialliset paikat, Ontologinen tekstihaku Yhteyksien löytämisen ja visualisoinnin Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? Aineiston jäsentelyn ja esitysten muodostamisen Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Hyötyä myös koneille: Kulttuurisammon Web 2.0-arkkitehtuuri Kulttuurisammon sekä toiminnallisuus että käyttöliittymät on rakennettu yleisistä, uudelleenkäytettävistä palikoista Tästä johtuen lähes kaikki Kulttuurisammon toiminnallisuus on kenen tahansa omaan palveluun liitettävissä http://www.seco.tkk.fi/applications/kulttuurisampo/ Tulevia käyttäjiä: Yleisten kirjastojen kaunokirjallisuusportaali Kirjasampo SmartMuseum EU-hanke 43
44
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on? 45
Tesauruksista ja luokituksista ontologioihin Semanttinen web perustuu pitkälti ontologoihin, jotka ovat tesaurusten ja luokitusten sukulaisia. Mikseivät tesaurukset ja luokitukset sitten riitä? Tesaurukset ja luokitukset suunnitellaan yleisesti ihmiskäyttäjää varten. Kone on tyhmempi, ja tarvitsee tarkemmin määriteltyä tietoa Ontologiat määrittelevät käsitteiden suhteet formaalisti ja tarkasti niin että sekä ihmiset että koneet voivat niitä käyttää Lisähyötynä keskittymällä formaaleihin käsitemalleihin päästään eroon kieli- ja kulttuuririippuvasta ajattelusta. Neutraaleille käsitteille voidaan sitten antaa nimi/kirjoittaa kuvaus kaikilla halutuilla kielillä. 46
Esimerkki ongelmasta: Suomen Museot OnLine -formaatti Myös kentät jotka ovat aikaisemmin olleet vain vapaatekstiä pitää saattaa yhdenmukaisiksi Päivämäärät/vuodet» 1768, jälk.» 1300-luku, keskiaika» 1870-1960, 1870-n.1960», n. 1965 - talvi 1976-77 Henkilöt» "K. E. Ståhlberg"» "Ståhlberg, K. E." Paikat», Suomi, Karjala, Viipurin pitäjä, Hanhijoki, asuinrakennus» Marokko, Sus (Sous)» Lappi -> Koneluettavuus kärsii, käsittelyyn tarvitaan käsityötä (n. 90% ohjelmakoodista aineiston korjailuun) 47
Esimerkkejä ontologisoinnista: YSA->YSO Aurinkokunta LT Ovatko komeetat aurinkokuntia vai niiden osia? Onko Halleyn komeetta yksilö vai luokka? Komeetta LT Halleyn komeetta Ontologiatyössä:» Yksilöt erotetaan luokista» Luokat asetetaan taksonomiseen hierarkiaan» Asioiden väliset suhteet erotellaan» Suhteiden merkitys kirjataan formaalisti Aurinkokunta Taivaankappale partof Komeetta subclassof type Halleyn komeetta 48
Esimerkkejä käsitteiden ja yksilöiden merkitysten erottelusta Ontologiatyössä:» Sanojen eri merkitykset erotellaan» Jokaiselle käsitteelle ja yksilölle annetaan oma globaali yksilötunnisteensa (URI) perheenjäsenet ikäryhmät sosioekonomiseen ryhmään liittyvä rooli lapset (perheenjäsenet) lapset (ikäryhmät) lapset (rooli) tyttäret ainoat lapset vauvat tytöt kasvatti- katulapset lapset Nokia yrityksenä <-> Nokia kaupunkina Suomen 49 Pyhäjärvi-nimistä paikkaa 49
Sisältö Semanttisen webin hyödyt Suomalainen konteksti: FinnONTO 2.0-projekti Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut Miten tämä toimii? Tesauruksista ja sanastoista ontologioihin Miten pääsen mukaan? Mitä apuja on? 50
Apuvälineitä tiedon tuotantoon ja yhdistämiseen KOKO -ontologiainfrastruktuuri: yhteinen yläontologia YSO, tusina erikoisalalontologiaa Palveluja ontologoiden hajautettuun kehittämiseen ja käyttöön tiedon kuvailussa ja haussa Standardoitavia toiminta- ja kuvailutapoja Työkaluja valmiiden tietovarantojen muuttamiseen semanttisen webin muotoon 51
KOKO -ontologiainfrastruktuuri Yläontologia YSO (fi,sv,en) liittää yhteen erikoisalaontologiat, mm. Museoalan ontologia MAO (fi) Kansallinen yläontologia YSO Paikkaontologia SUO (fi,sv,saamet,en) (20-25 000 käsitettä) Ajallinen paikkaontologia SAPO (fi) Museoalan Toimijaontologia TOIMO (monikielinen) ontologia Agriforest... Taideteollisen alan ontologia TAO (fi) MAO Ontologia (7000) Valokuvausontologia VALO (fi) AFO (10 000) Agriforest maa- ja metsätalousontologia AFO (fi,en)... Muiden luokittelujärjestelmien liittäminen YKL + HKLJ + YSO, Kaunokki + YSO, ICONCLASS + YSO Kansainväliset kytkökset: AAT, ULAN, TGN, WordNet, DBPedia,... Paljonko ontologiatyö vaatii aikaa ja rahaa? Ennen YSOa: MASA MAO ~30 käsitettä/päivä YSO:n jälkeen: Agriforest AFO ~50-100 käsitettä/päivä Demo: http://www.yso.fi/onki/koko/?c=http://www.yso.fi/onto/koko/p35193&q=kala 52
53
54
ONKI-ontologiakirjastopalvelin Ei pelkästään keskitettyjä sanastoja, vaan myös jaettua toiminnallisuutta Ontologioiden ja sanastojen selaus ja käsite/asiasanavalinta» Sekä indeksoinnin että haun tarpeisiin» Myös upotettuna omiin indeksointi- ja hakujärjestelmiin Oma SKOS-muodossa oleva sanasto käden käänteessä palvelimelle Demo Indeksointi: http://www.yso.fi/onki/yso/app/annotation/ Haku: http://www.yso.fi/onki/yso/app/annotation/lusto-demo.html, http://www-db.helsinki.fi/eviikki/eviikkihaku.html Pysyvää infrastuktuuria Kansalliskirjasto korvaa kuukauden sisällä VESA-sanastopalvelunsa ONKISKOS-YSA-palvelimella ja selvittää projektin kanssa pysyviä ylläpitokuvioita» Uusi ONKI-YSA, ONKI-ympäristön sanastot ja ontologiat sekä ONKI itsessään ovat tärkeitä kansallisia palveluita, joiden jatkuva kehittäminen on turvattava Tunnistettu myös Kansallinen digitaalinen kirjasto -hankkeessa välttämättömäksi kansalliseksi palveluksi Käytössä edellämainittujen lisäksi myös Kysy kirjastonhoitajalta-palvelussa 55
56
57
58
59
60
61
62
SAHA annotaatioeditori Organisaatioille joilla ei ole omaa sisällönhallinta/indeksointijärjestelmää tai mahdollisuutta kytkeä ONKI:n SW-toiminnallisuuksia järjestelmänsä osaksi tarjoamme myös kokonaisen sisällönhallintaeditorin Käytössä mm. Kirjasampo-hankkeessa Demo: http://demo.seco.tkk.fi/smetana/frameset.shtml?model=kaunokki_sa 63
64
Työkaluja valmiiden tietovarantojen muuttamiseen: Kulttuurisammon tiedontuotantoputki Suomen Museot Online -museoesineet, Muusa-taideteokset, Getty-ULAN -henkilötiedot: XML HelMet-teostiedot: Excel Karhumäen veljesten ilmavalokuvat, Latvavesiltä-kirjailijatiedot: SQL-kanta Museot.fi-näyttelytietokanta: CSV Kalevala, Opintie, Historialliset tapahtumat: RDF Ehdottomasti suurin työ on saada aineisto RDF-muotoon. Tämän jälkeen loppu voidaan tehdä vähitellen tarkoitusta varten rakennetuilla standardityökaluilla 65
Kiitos Kulttuurisampo osoitteessa http://www.kulttuurisampo.fi/ Lisätietoja osoitteesta http://www.seco.tkk.fi/ Oma sähköpostiosoitteeni: eetu.makela@tkk.fi 66