Ontologiat: semanttisen webin ydinteknologia Prof. Eero Hyvönen Helsingin yliopisto ja Tietotekniikan tutkimuslaitos HIIT Semantic Computing Research Group http://cs.helsinki.fi/group/seco/ Sisältö WWW:n tulevaisuus? Näkökulmat ontologiaan filosofinen, kielellinen, tietotekninen Tietotekninen välineistö Kieliä, standardeja, työkaluja Sovelluksia ja tutkimusta Webin kehityssuuntia WWW:n tulevaisuus? Kriittiset teknologiat? Dynaamisuus Web-palvelut (Web Services) UDDI, WSDL, SOAP WWW (Nykyinen web) Älykkäät web-palvelut (Intelligent Web Services) DAML-S, WSMF Semanttinen Web (Semantic Web) URI, HTML, HTTP RDF, RDFS, OWL Sisällöllisyys (Mukaeltu Dieter Fenselin kaaviosta) Molempien kehityssuuntien edellytys Konesemantiikka! Koneiden on ymmärrettävä WWW:n sisältöjä Tietoja, toimintoja, tavoitteita, Nyky-WWW edellyttää kuitenkin ihmislukijaa Sisältöjen esittämisessä käytettävä käsitteistö on konesemantiikan ensimmäinen edellytys Esim. Tiedon haku: asiasanoitus, metadata, E-Business: UNSPSC, RosettaNet, Ratkaisu: ontologiatekniikat Ontology: perspectives
Perspectives of ontology : philosophy Study of the essence of Being apart for the particular existing things Plato s world of ideals: metaphysics Artistotle s (384-322 B.C.) 10 Categories Aristotles 10 categories Substance A cat Quality The cat is black Qantity The cat is 50cm high Relation The cat is half the size of Where The cat is in the house When The cat came out yesterday Position The cat sat Having The cat has a rat Action The cat is running Having The cat has a rat Action The cat is running Passion The cat desires fish Hierarchical categories: Tree of Porphyry of Aristotle s Substance Medieval logicians: first semantic net Ontology as a discipline R. Göckel, J. Lorhard, 1613 Kant (1787), Peirce, Husserl, Whitehead, Heidegger, Formal ontology Foundational categories (time, wholes, etc.) behind everything Logic generic descriptions Perspectives of ontology : linguistics Peter Mark Roget s Thesaurus 1852- Tool for analysis and classification of ideas that helps human communication Terminology: dictionaries & vocabularies Concept analysis Thesauri Indexing/classifying/retrieving data Language translation Semantic thesauri WordNet, EDR (Electronic Dictionary Research), IEEE SUO, Terminology concept analysis: Extended Odgen-Richards triangel Object Concept tall plant with hard selfsupporting trunck and Definition tree Baum arbre puu Terms
Concepts Concept systems Relations between concepts Generic (hyponyny) Partitive (meronymy) Associative (function, et.) Generic relation (hyponymy) Concepts share characteristics but one Concept hierarchy: Super/subordinate tree Problem: several possibilities Anatomy: coniferous vs. broad leaf Requirements: light-demanding vs. tolerant Abscission: evergreen vs. deciduous coniferous tree broadleaf tree pine spruce birch maple Partitive relation (meronymy) Different meronymy relations Part-whole relation Examples: Atoms in a molecule Legs of a chair Optional, single, and multiple parts tree part / whole member / set piece / whole material / object phase /process place / region branch/tree tree/forest piece-of-cake/cake aluminium/airplane childhood/growing-up Helsinki/Finland root trunk branch Also along different dimensions Tree -> permanent vs. non-permanent organs (C. Fellbaum, 1998) Associative relations Associative relations Arrow notation for associations Problem: semantics of associative relations? tree pulping origin / material process / material wood cause/effect producer/product activity/actor activity /location object /location object /activity tool/function material/product etc spring/leafs in trees magpie/nest nesting/bird nesting/tree nest/tree apple tree/fruit gathering paper machine/paper making wood/paper etc
Terminology vs. ontologies Terminology provides tools for concept analysis and definition Normative goal for human usage Analyze, select, harmonize, and define a concise set of terms to be used in human communications Does not provide formal enough descriptive representations for machine usage Classic thesauri Semantically arranged terminologies/dictionaries Terms may be a mixture of words and concepts Based traditionally on the following relations BT Broader term NT Narrower term RT Related term USE See UF Used for; reverse of USE SN Scope note E.g. in Finland: Yleinen Suomalainen Asiasanasto, MASA, MUSA, Allers, Limitations Used especially for Indexing information content (keywords) Information retrieval Keyword search Term expansion: tree -> pine, birch, Widely used, lots on indexed data E.g. libraries, museums, Meaning of relations? BT/NT for sub/superordinate, part-of etc. RT has lots of different interpretations Cause/effect, tool/product, Cf. associative relation in terminology Not formal enough for machines E.g. delimiting characteristics implicit Semantics vague Ontologian käsite tietotekniikassa Ontology Computer Science Perspective Ontologia on formaali, eksplisiittinen määrittely yhteisestä käsitteistöstä (Gruber, 1993) Formaali: jämpti Eksplisiittinen: jopa konekin voi ymmärtää Yhteinen: kommunikaatio mahdollista Ontologia kuvaa sovellusmaailmassa olevat käsitteet/oliot ja niistä käytettävän sanaston
Example: Cyc ontology Komponentit Käsitteiden määrittely: koneen ymmärtämällä tavalla Terminologia: ihmisten ymmärtämällä tavalla Edellytys sille, että ihmiset ja koneet voivat ymmärtää toisiaan Difficulties How to define individuals, classes & properties? E.g. hyponymy, meronymy, associative relations GeorgeBush < < Process Scaling problems: 1.000.000 facts in Cyc Different needs in different applications How to reuse and share knowledge? Ontology management Collaborate creating, alignment, versioning etc. Defining classes: property-concept-relations Modify instances old man = the person is old Property modifies directly the object (class instance) Modify classes nuclear physicist = the person isn t nuclear Property modifies the class Modify relations former president = the person is not former, but was the president modifies the relation Example Sibelius is a good musician.. good(sibelius) & musician(sibelius) and a bad cook bad(sibelius) & cook(sibelius) => Is Sibelius is a bad musician? -> Yes! The problem: good/bad modify class musician/cook musician/cook modify instance Sibelius Ontology reuse & sharing (Warren, Pereira, 1982) Special ontologies for specific microworld applications E.g. River < Line but for a ship also river depth matters! How share ontologies in different applications? More generic KB framework is needed
Ontology alignment Wissen = Savoir (knowing-that) River (size = big) Fleuve (river running into sea) Know Kennen = Connaitre BigRiviere Riviere (river or stream running into another river) Stream (size = small) Ontology in computer science: what is needed? Formal expressive ontology language for defining concepts and terms, their mutual relations, and inferences Ontological theories represented in it E.g. Cyc Applications making use of (interpreting) the ontological theories Procedural semantics Ontology management systems Mediate, align, merge, re-use, version, (Sowa, 2001) Semantic Web: Technology push Trust level Digital signature, annotations,... Logic and proof level KIF, RuleML,... Ontology level DAML+OIL, RosettaNet,... OWL, WordNet, Metadata level RDF, RDFS, Topic Maps,... Structure level XML, XML DTD/ Schema, XSL,... Internet level Unicode, URI,... Planning CPR, SPAR, PDDL, Processes BPML, WPDL, PSL, Services UDDI, WSDL, DAML-S, Transactions XML/EDI, KQML, Communication TCP/IP, HTTP, SOAP,... Laajennettu Tim Berners-Leen (W3C) teknologiakakku Semantic metadata Simple semantic descriptions on the Web Like bibliographical metadata in the libraries Metadata about WWW resources Logical definitions of the terminology Most prominent Semantic Web -standards W3C: RDF(S) ISO: Topic Map, XTM RDF(S) RDF Resource Description Framework (1999) General framework for describing web resources Specification: Model & syntax Relational model, not a syntax like XML RDF Schema (2000) For defining RDF-vocabularies Object-oriented descriptions for WWW languages Class hierarchies, inheritance, constraints (Class/subClass/type/domain/range) Using RDFS Two usages Minimal ontology language For defining vocabularies for RDF applications Metalanguage for defining other ontologylanguages XML XML Schema vs. RDF - RDF Schema
OIL: An extension of RDF(S) Defining the ontology/vocabulary Eero (Maedche, Hyvönen2002) class-def animal class-def plant subclass-of NOT animal class-def tree subclass-of plant class-def branch slot-constraint is-part-of has-value tree class-def leaf slot-constraint is-part-of has-value branch class-def defined carnivore subclass-of animal slot-constraint eats value-type animal class-def defined herbivore subclass-of animal slot-constraint eats value-type plant OR (slot-constraint is-part-of has-value plant) class-def herbivore subclass-of NOT carnivore class-def giraffe subclass-of animal slot-constraint eats value-type leaf class-def lion subclass-of animal slot-constraint eats value-type herbivore class-def tasty-plant subclass-of plant slot-constraint eaten-by has-value herbivore, carnivore EXAMPLE OF AN OIL ONTOLOGY (human syntax) OWL Web Ontology Language W3C Recommendation under development Based directly on OIL and DAML Why OWL? Specific procedural semantics -> general declarative semantics Generic tools for cross-domain applications Open standard SUMMARY: WHAT IS NEW? PROGRAMMING Object-oriented modeling XML-syntax, e.g., RDF(S) ARTIFICIAL INTELLIGENCE Description logic semantics Ontologiat: sovellusalueita Yhteentoimivuus (interoperability) Informaation haku (information retrieval) Tietämyksen hallinta (knowledge management) Sähköinen liiketoiminta, Web Services Profilointi ja kustomointi WWW-TECHNOLOGIES
Open Directory Project: Koko WWW RDF(S) ontologiana! FINNISH MUSEUMS ON-LINE: INTEROPERABILITY Ontology RDF(S) OWL The User Finnish Museums On-Line Navigator Semantic interoperability Semantic validator editor RDF instances Web crawler Common collection XML Schema Syntactic interoperability Museum 1 Museum 2 Museum 3 Heterogeneous Collection Data Bases Helsingin yliopiston museo: promootiokuvatietokanta Haku monen näkymän kautta Assosiatiiviset linkit Suomalainen semanttinen web (Tekes-hankeaie) Suomalaiset WWW-sovellukset edellyttävät suomenkieleen liitettyjä laajoja ontologioita Sellaisia ei kuitenkaan ole käytettävissä Asiasana-tesauruksista, WordNetistä ym. voitaisiin lähteä liikkeelle Pitäisi voida yhdistää eri alojen ontologioita Kuten yleis- ja alakohtaisia erityiskäsitteitä Kehittäminen ja ylläpito olisi hajautettava eri tahoille WWW:n välityksellä Kukaan ei yksin hallitse kaikkea Systeemistä pitäisi luoda jatkuva kansallinen prosessi Kenelle ontologioiden kehitysvastuu Suomessa kuuluu?
Ansaintalogiikan ongelma Ontologia olisi hyödyllinen yrityksille ja organisaatioille, mutta sitä ei voida/kannata tehdä itse Vrt. YSA, MASA ym. kansalliset tesaurukset Toisaalta olisi hölmöä olisi tehdä tuplatyötä peruskäsitteistöistä Idea Luodaan työvälineet ja prosessit ontologioiden hajautettuun collaboratiiviseen kehittämiseen WWW:n välityksellä Ontologiat julkaistaan open source Mukana suunnittelussa HY/HIIT, Kansalliskirjasto, Museovirasto, Valtion taidemuseo, Almamedia, Kaikki tervetulleita keskustelemaan Yhteenveto Miksi ontologioita tarvitaan? Jotta koneet ja ihmiset ymmärtäisivät toisiaan Jotta koneet ymmärtäisivät toisiaan Edellytys Web Services ja Semantic Web -visioille Tärkeä ala jatkossa monessa mielessä Teollinen intressi Tekninen mahdollisuus Tieteellinen haaste Kansallinen intressi Yhteyshenkilö Eero Hyvönen Lisätietoja W3C:n Semantic Web/Web Services Activity www.w3.org Tutkimusmaailman portaali www.semanticweb.org EU:n yhteistyöverkosto www.ontoweb.org Suomalaisia aktiviteetteja Suomen semantic web aktiviteetteja: www.cs.helsinki.fi/u/eahyvone/stes/semanticweb Semantic Web Kick-Off in Finland 2001 Towards the Semantic Web and Web Services 2002