Johdanto Rough Sets "The central problem of our age is how to act decisively in the absence of certainty" B Russel, 1940 Rough sets on 1980-luvun alussa Puolassa (Z Pawlak) kehitetty epävarmuutta ja epämääräisyyttä kuvaava matemaattinen työkalu sovelluskohteita:päätösanalyysi, koneoppiminen,asiantuntijajärjestelmät, tiedonhankinta... Rough Set -teoria on erityisen käyttökelpoinen ongelmissa, jotka liittyvät informaation supistamiseen (liiallisen datan eliminointiin), riippuvuuksien löytämiseen, informaation luokitteluun, yhtäläisyyksien ja erojen löytämiseen jne. Rough Set -teorialla on samankaltaisuutta monien muiden epämääräisyyttä ja -varmuutta mittaavien työkalujen kanssa Teorian tärkeimpänä etuna on, ettei käsiteltävänä olevasta aineistosta tarvita etukäteis- tai lisäinformaatiota kuten todennäköisyysjakaumia, perustodennäköisyysoletuksia (Dempster- Schafer) jäsenyysastetta (Sumea logiikka) Peruskäsitteitä Rough set -lähestymistavassa alkuperäinen reaalimaailman informaatio on esitetty informaatiotaulukkona Taulukon pystyriveinä ovat objektit (objects, entities, agents ) sekä vaakariveinä näiden objektien tila- sekä päätösattribuutit (condition, decision attributes) Intuitiivisesti rough set tarkoittaa sellaisten objektien joukkoa joita ei voi tarkasti erottaa toisistaan attribuuttien arvojen perusteella rough set-teorian keskeinen käsite on erottamattomuusrelaatio (indiscernibility relation) 1
Esimerkki:sairauden toteaminen Seuraavassa informaatiotaulukossa objekteina ovat potilaat (e1..e6), tilaattribuutteina oireet (päänsärky, lihaskipu, ruumiinlämpö), sekä päätösattribuuttina potilaan tila (terve/sairas) päänsärky lihaskipu lämpötila Tila e1 Y Y normaali terve e2 Y Y korkea sairas e3 Y Y hyvin korkeasairas e4 N Y normaali terve e5 N N korkea terve e6 N Y hyvin korkeasairas T1:Informaatiotaulukko Tarkasteltaessa attribuuttien "päänsärky" ja "lihaskipu" joukkoa havaitaan, että attribuuteilla on sama arvo (=kyllä) objektien e1,e2 ja e3 kohdalla, tällöin ko. objekteja ei voi erottaa toisistaan attribuuttien arvon perusteella ja objektien sanotaan olevan erottamattomia (indiscernible) keskenään erottamattomat objektit muodostavat perusjoukon (elementary set) Attribuutit "päänsärky ja lihaskipu" määrittelevät täten seuraavat perusjoukot:{e1,e2,e3}, {e4,e6},{e5} erottamattomuusrelaation käsite mahdollistaa tarpeettomien attribuuttien löytämisen jos attribuuttien joukko ja sen ylijoukko ( kaikki attribuutit sisältävä joukko) määrittelevät samat erottamattomuusrelaatiot ts. niiden perusjoukot ovat samat, ylijoukkoon kuuluva joukon ulkopuolinen joukko on redundantti tarkastellaan attribuuttijoukkoa{päänsärky, lämpötila} sekä sen ylijoukkoa {päänsärky, lihaskipu, lämpötila} Havaitaan, että molempien perusjoukot ovat samat (muodostuvat yksittäisistä alkioista {e1},{e2},{e3},{e4},{e5},{e6}) joukkoon kuulumaton attribuutti "lihaskipu" on siis redundantti poistetaan redundantti attribuutti ja jatkataan edelleen tarkastelua joukoilla{päänsärky}ja {lämpötila} sekä ylijoukolla{päänsärky, lämpötila} 2
Havaitaan, ettei kumpikaan jäljelläolevista attribuuteista ole redundantti joukkoa, jossa ei ole redundanttia attribuuttia kutsutaan minimijoukoksi (minimal, independent set) ja esimerkin joukkoa {päänsärky, lämpötila} alkuperäisen attribuuttijoukon {päänsärky, lihaskipu, lämpötilaa}supistetuksi (reduct) joukoksi Tarkastellaan seuraavaksi esimerkin päätösattribuutia päätöksiin liittyviä samat arvot sisältäviä perusjoukkoja kutsutaan konsepteiksi (concepts) esimerkin päätösattribuutin konseptit määrittelevät terveiden ja sairaiden potilaiden joukot ja ovat siis {e1,e4,e5} ja{e2,e3,e6} päänsärky lämpötila Tila e1 Y normaali terve e2 Y korkea sairas e3 Y hyvin korkeasairas e4 N normaali terve e5 N korkea terve e6 N hyvin korkeasairas T2:Supistettu informaatiotaulukko Supistetusta informaatiotaulukosta nähdään suoraan attribuuttien väliset riippuvuussäännöt: 1.(lämpötila, normaali) =>(tila, terve) 2.(päänsärky, ei)ja(lämpötila, korkea)=>(tila, terve) 3.((päänsärky, kyllä)ja(lämpötila, korkea)=> (tila, sairas) 4.(lämpötila, hyvin korkea)=>(tila, sairas) Lisätään seuraavaksi supistettuun informaatiotaulukkoon vielä kaksi objektia e7 ja e8, jolloin saadaan seuraavanlainen informaatiotaulukko päänsärky lämpötila Tila e1 Y normaali terve e2 Y korkea sairas e3 Y hyvin korkeasairas e4 N normaali terve e5 N korkea terve e6 N hyvin korkeasairas e7 N korkea sairas e8 N hyvin korkeaterve T3: Epäkonsistentti informaatiotaulukko 3
Perusjoukot attribuuteille "päänsärky" ja "lämpötila" ovat nyt {e1},{e2},{e3},{e4} {e5,e7}ja{e6,e8} sekä konseptit päätösattribuutille {e1,e4,e5,e8} ja {e2,e3,e6,e7} Taulukosta havaitaan, että päätösattribuutti ei riipu tila-attribuuteista, sillä perusjoukot {e5,e7} sekä {e6,e8} eivät ole konseptien osajoukkoja Taulukon sanotaan olevan epäkonsistentti(inconsistent), koska objektit e5 ja e7 sekä e6 ja e8 ovat ristiriidassa keskenään rough set-teoria tarjoaa mahdollisuuden epäkonsistenttien tilanteiden käsittelemiseen Kullekin konseptille määritetään ala- ja yläapproksimaatio (lower, upper approximation) konseptin ala-approksimaatioon kuuluvat ne perusjoukot, jotka ovat sen osajoukkoja, konseptin "sairas" ala-approksimaatio on siis {e2,e3} konseptin yläapproksimaatioon kuuluvat kaikki alkiot niistä tila-attribuuttien perusjoukoista, joiden joku alkio kuuluu konseptiin, konseptille "sairas" saadaan siis yläapproksimaatio {e2,e3,e5,e6,e7,e8} ala-approksimaatiosta johdettuja sääntöjä kutsutaan varmoiksi säännöiksi sekä yläapproksimaatiosta johdettuja mahdollisiksi säännöiksi Esimerkin tapauksessa saadaan varmat säännöt 1.(lämpötila, normaali) =>(tila, terve) 2.(päänsärky, kyllä)ja(lämpötila, korkea)=> (tila, sairas) 3..(päänsärky, kyllä)ja(lämpötila, hyvin korkea)=>(tila, sairas) sekä mahdolliset säännöt: 1.(päänsärky, ei) =>(tila, terve) 2.(lämpötila,normaali)=>(tila, terve) 3. (lämpötila,korkea)=>(tila, sairas) 4. (lämpötila, hyvin korkea)=>(tila, sairas) 4
Epävarmuuden mittaaminen Ala-approksimaation laatu :alaapproksimaatiojoukon alkioiden määrän ja kaikkien objektien määrän suhde Yläapproksimaation laatu: yläapproksimaatiojoukon alkioiden määrän ja kaikkien objektien määrän suhde (vrt. Dempster-Shaferin uskomusfunktio) esimerkin ala- approksimaation laatu on siis 0.25 ja yläapproksimaation laatu 0.75 Rough set-teoria päätöksenteossa Usean attribuutin luokitteluongelma (multiattribute sorting) multi-attribute multi-sorting problem multi-attribute description of decision situations päätöksen seurausten riippuvuuksien havaitseminen Esimerkki konfliktianalyysista (multi-attribute description) :Lähi-idän tilanne(1994) Objekteina Lähi-idän valtiot: 1.Israel,2.Egypti,3.Palestiinalaiset, 4.Jordania, 5.Syyria, 6.Saudi-Arabia Attribuutit: a.itsenäinen Palestiinalaisvaltio Länsirannalla ja Gazan alueella b.israelin sotilastukikohdat Jordan-joen varrella c.itä-jerusalem Israelin hallussa d.israelin sotilastukikohdat Golanin kukkuloilla e. Arabivaltioiden takaama kansalaisuus alueillaan oleville palestiinalaisille Informaatiotaulukko Seuraava informaatiotaulukko kuvaa kyseisten valtioiden asennetta kuhunkin kysymykseen arvo -1tarkoittaa kielteistä, 1 myönteistä sekä 0 neutraalia suhtautumista kysymykseen a b c d e Israel -1 1 1 1 1 Egypti 1 0-1 -1-1 Palestiina 1-1 -1-1 0 Jordania 0-1 -1 0-1 Syyria 1-1 -1-1 -1 SaudiArabia 0 1-1 0 1 T4: Informaatiotaulukko Lähi-idän tilanteesta 5
Havaitaan, että alkuperäisen attribuuttijoukon supistetut joukot ovat {a,b,e} ja{b,d,e}, attribuutit e ja b ovat tärkeimmät a ja d ovat toisilleen päinvastaiset, joten kumpi tahansa voidaan ottaa mukaan supistettuun informaatiotauluun: a b e Israel -1 1 1 Egypti 1 0-1 Palestiina 1-1 0 Jordania 0-1 -1 Syyria 1-1 -1 SaudiArabia 0 1 1 T4: Supistettu Informaatiotaulukko Eri valtioiden välisten konfliktien astetta voidaan analysoida kertomalla objektien attribuuttiarvot (-1,0,1) keskenään sekä jakamalla tämä attribuuttien määrällä Seuraavassa taulukossa on kaikkien valtioiden välisten konfliktien asteet, arvot väliltä -1..1, jossa -1 vastaa täydellistä konfliktia, 0 neutraalia tilannetta ja 1 täydellistä yksimielisyyttä Israel Egypti Palestiina Jordania Syyria SaudiArabia Israel Egypti -0,8 Palestiina -0,8 0,6 Jordania -0,6 0,4 0,4 Syyria -1 0,8 0,8 0,6 SaudiArabia 0,2 0 0 0,2 0,2 T6: Lähi-idän välisten valtioiden konfliktien asteet Kotitehtävä Esimerkissä on kuvattu Lähi-idän tilannetta vuonna -94, PLO:n ja Israelin välisen rauhansopimuksen solmimisen aikoihin Mieti, millainen on tilanne tänä päivänä, ovatko kaikki taulukko T4:n attribuutit ja niiden arvot paikkansapitäviä tai relevantteja nykyisin? Pitäisikö taulukkoon lisätä muita attribuutteja tai objekteja? 6