Johdanto. Rough Sets. Peruskäsitteitä



Samankaltaiset tiedostot

How to Support Decision Analysis with Software Case Förbifart Stockholm

3. Käsiteanalyysi ja käsitekaavio

Joukot. Georg Cantor ( )

Lause 5. (s. 50). Olkoot A ja B joukkoja. Tällöin seuraavat ehdot ovat

Sovellettu todennäköisyyslaskenta B

Y ja

INTERVALLIPÄÄTÖSPUUT JANNE GUSTAFSSON 45433E. Mat Optimointiopin seminaari Referaatti

Otanta ilman takaisinpanoa

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

FI Euroopan unionin virallinen lehti C 214/5

Preference Programming viitekehys: epätäydellisen preferenssi-informaation elisitointi ja mallintaminen, dominanssi

Osapuolten ilmoitusten perusteella laadituissa taulukoissa eritellään seuraavaa:

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Visualisointi käyttöliittymäsuunnittelussa (syksy 2012), muistiinpanot esityksestä Jussi Kurki: Suurten verkkojen visualisointi.

811120P Diskreetit rakenteet

LUKU II HOMOLOGIA-ALGEBRAA. 1. Joukko-oppia

Tehtäväsarja I Seuraavissa tehtävissä harjoitellaan erilaisia todistustekniikoita. Luentokalvoista 11, sekä voi olla apua.

Logiikka 1/5 Sisältö ESITIEDOT:

Diskreetin matematiikan perusteet Laskuharjoitus 1 / vko 8

Simplex-algoritmi. T Informaatiotekniikan seminaari , Susanna Moisala

HELIA 1 (17) Outi Virkki Tiedonhallinta

Tilastollinen aineisto Luottamusväli

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

3 Suorat ja tasot. 3.1 Suora. Tässä luvussa käsitellään avaruuksien R 2 ja R 3 suoria ja tasoja vektoreiden näkökulmasta.

Karteesinen tulo. Olkoot A = {1, 2, 3, 5} ja B = {a, b, c}. Näiden karteesista tuloa A B voidaan havainnollistaa kuvalla 1 / 21

Sosiaalisten verkostojen data

Alkioiden x ja y muodostama järjestetty pari on jono (x, y), jossa x on ensimmäisenä ja y toisena jäsenenä.

Mat Tilastollisen analyysin perusteet, kevät 2007

1.1 Funktion määritelmä

Todistusmenetelmiä Miksi pitää todistaa?

Helsingin yliopisto/tktl DO Tietokantojen perusteet, s 2000 Relaatiomallin peruskäsitteet Harri Laine 1. Relaatiotietokannat DONOTP

Tauon jälkeen tutkijaksi. Informaatikko Marja Kokko

Lähi-itä murroksessa jo 4000 vuotta

Esimerkkejä kauden varapelaajasäännön soveltamisesta / Markus Sipilä

Oppijan saama palaute määrää oppimisen tyypin

MS-A0402 Diskreetin matematiikan perusteet

Kansainvälisen tilausliikenteen matkustajat 2018

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 8. syyskuuta 2016

1. Tilastollinen malli??

1. Logiikan ja joukko-opin alkeet

pitkittäisaineistoissa

DXL Library ja DXL-kielen olemus. Pekka Mäkinen SoftQA Oy http/

Harjoitustehtävien ratkaisut. Joukko-opin harjoituksia. MAB1: Luvut ja lukujoukot 2

JOHDANTO KURSSIN AIHEPIIRIIN

Relaatiotietokantojen perusteista. Harri Laine Helsingin yliopisto

B. Siten A B, jos ja vain jos x A x

Sosiaalisten verkostojen tutkimusmenetelmät - historiallisia ja teoreettisia perusteita sekä peruskäsitteitä

Projektisuunnitelma ja johdanto AS Automaatio- ja systeemitekniikan projektityöt Paula Sirén

8.2. Permutaatiot. Esim. 1 Kirjaimet K, L ja M asetetaan jonoon. Kuinka monta erilaista järjes-tettyä jonoa näin saadaan?

HELIA 1 (17) Outi Virkki Tiedonhallinta

Johdatus matemaattiseen päättelyyn

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

Psykoosisairauksien tuomat neuropsykologiset haasteet

Strathclyde-prosessi

TIEDONHALLINTA - SYKSY Luento 7. Pasi Ranne /10/17 Helsinki Metropolia University of Applied Sciences

Testejä suhdeasteikollisille muuttujille

pitkittäisaineistoissa

Yhteistyötä sisältämätön peliteoria jatkuu

Osa 2: Otokset, otosjakaumat ja estimointi

Euroopan unionin neuvosto Bryssel, 3. maaliskuuta 2017 (OR. en)

LU-hajotelma. Esimerkki 1 Matriisi on yläkolmiomatriisi ja matriisi. on alakolmiomatriisi. 3 / 24

1. Ulkoasiainneuvosto hyväksyi istunnossaan liitteenä olevat neuvoston päätelmät Lähi-idän rauhanprosessista.

CS-A1150 Tietokannat CS-A1150 Tietokannat / 43

Aihe-entiteettien ominaisuuksien ja suhteiden merkitseminen. RDA-koulutus Marja-Liisa Seppälä marja-liisa.seppala[ät]helsinki.

MATEMATIIKKA. Matematiikkaa pintakäsittelijöille. Ongelmanratkaisu. Isto Jokinen 2017

4.1 Kaksi pistettä määrää suoran

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin Yliopisto Harjoitus 1, ratkaisuehdotukset

Venäläisten ulkomaanmatkailu 2013, maaliskuu 2014

Ilkka Mellin Todennäköisyyslaskenta Liite 1: Joukko-oppi

S Laskennallinen systeemibiologia

Yhtenäisyydestä. Johdanto. Lähipisteavaruus. Tuomas Korppi

2. Arvon ja hyödyn mittaaminen

Matematiikan johdantokurssi, syksy 2016 Harjoitus 11, ratkaisuista

Tulevaisuuden ratkaisu datan yhdistämiseen ja jakeluun. Forest Big Data Tulosseminaari, Miika Rajala, Risto Ritala TTY

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

EUROOPAN PARLAMENTTI

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0402 Diskreetin matematiikan perusteet

Tietomallit. Näkökulmat tietoon. Näkökulmat tietoon. Mitä malleja olisi tarjolla? Abstraktiotasot tiedon käsittelyssä

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Mat Lineaarinen ohjelmointi

Koodausteoria, Kesä 2014

4 Matemaattinen induktio

YHTEISTYÖN KÄYTÄNNÖT UUDEN TIEDON LUOMISESSA

Talousmatematiikan perusteet: Luento 9. Matriisien peruskäsitteet Yksinkertaiset laskutoimitukset Transponointi Matriisitulo

Seurantojen otoskoon arviointi RKTL:ssä

Ohjelmistojen mallintaminen luokkamallin lisäpiirteitä

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

Virheen kasautumislaki

Kuvio 1 Matematiikan kansalliset suorituspistemäärät

Jarkko Peltomäki. Aliryhmän sentralisaattori ja normalisaattori

Kokeellinen yhteiskuntatiede

Tietokantojen perusteet k2004helsingin yliopisto/tktl Tietokantojen perusteet, s 2005 relaatiomalli Harri Laine 1.

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

Taloudellinen päätöksenteko julkishallinnossa ongelmat ja rajoitteet

EUROOPAN PARLAMENTTI

Asia Euroopan komission tulkintaohje Israelin vuoden 1967 jälkeen miehittämillä alueilla tuotettujen tuotteiden alkuperän merkitsemisestä

Langan taipuman mittausjärjestelmä Tiivistelmä

Transkriptio:

Johdanto Rough Sets "The central problem of our age is how to act decisively in the absence of certainty" B Russel, 1940 Rough sets on 1980-luvun alussa Puolassa (Z Pawlak) kehitetty epävarmuutta ja epämääräisyyttä kuvaava matemaattinen työkalu sovelluskohteita:päätösanalyysi, koneoppiminen,asiantuntijajärjestelmät, tiedonhankinta... Rough Set -teoria on erityisen käyttökelpoinen ongelmissa, jotka liittyvät informaation supistamiseen (liiallisen datan eliminointiin), riippuvuuksien löytämiseen, informaation luokitteluun, yhtäläisyyksien ja erojen löytämiseen jne. Rough Set -teorialla on samankaltaisuutta monien muiden epämääräisyyttä ja -varmuutta mittaavien työkalujen kanssa Teorian tärkeimpänä etuna on, ettei käsiteltävänä olevasta aineistosta tarvita etukäteis- tai lisäinformaatiota kuten todennäköisyysjakaumia, perustodennäköisyysoletuksia (Dempster- Schafer) jäsenyysastetta (Sumea logiikka) Peruskäsitteitä Rough set -lähestymistavassa alkuperäinen reaalimaailman informaatio on esitetty informaatiotaulukkona Taulukon pystyriveinä ovat objektit (objects, entities, agents ) sekä vaakariveinä näiden objektien tila- sekä päätösattribuutit (condition, decision attributes) Intuitiivisesti rough set tarkoittaa sellaisten objektien joukkoa joita ei voi tarkasti erottaa toisistaan attribuuttien arvojen perusteella rough set-teorian keskeinen käsite on erottamattomuusrelaatio (indiscernibility relation) 1

Esimerkki:sairauden toteaminen Seuraavassa informaatiotaulukossa objekteina ovat potilaat (e1..e6), tilaattribuutteina oireet (päänsärky, lihaskipu, ruumiinlämpö), sekä päätösattribuuttina potilaan tila (terve/sairas) päänsärky lihaskipu lämpötila Tila e1 Y Y normaali terve e2 Y Y korkea sairas e3 Y Y hyvin korkeasairas e4 N Y normaali terve e5 N N korkea terve e6 N Y hyvin korkeasairas T1:Informaatiotaulukko Tarkasteltaessa attribuuttien "päänsärky" ja "lihaskipu" joukkoa havaitaan, että attribuuteilla on sama arvo (=kyllä) objektien e1,e2 ja e3 kohdalla, tällöin ko. objekteja ei voi erottaa toisistaan attribuuttien arvon perusteella ja objektien sanotaan olevan erottamattomia (indiscernible) keskenään erottamattomat objektit muodostavat perusjoukon (elementary set) Attribuutit "päänsärky ja lihaskipu" määrittelevät täten seuraavat perusjoukot:{e1,e2,e3}, {e4,e6},{e5} erottamattomuusrelaation käsite mahdollistaa tarpeettomien attribuuttien löytämisen jos attribuuttien joukko ja sen ylijoukko ( kaikki attribuutit sisältävä joukko) määrittelevät samat erottamattomuusrelaatiot ts. niiden perusjoukot ovat samat, ylijoukkoon kuuluva joukon ulkopuolinen joukko on redundantti tarkastellaan attribuuttijoukkoa{päänsärky, lämpötila} sekä sen ylijoukkoa {päänsärky, lihaskipu, lämpötila} Havaitaan, että molempien perusjoukot ovat samat (muodostuvat yksittäisistä alkioista {e1},{e2},{e3},{e4},{e5},{e6}) joukkoon kuulumaton attribuutti "lihaskipu" on siis redundantti poistetaan redundantti attribuutti ja jatkataan edelleen tarkastelua joukoilla{päänsärky}ja {lämpötila} sekä ylijoukolla{päänsärky, lämpötila} 2

Havaitaan, ettei kumpikaan jäljelläolevista attribuuteista ole redundantti joukkoa, jossa ei ole redundanttia attribuuttia kutsutaan minimijoukoksi (minimal, independent set) ja esimerkin joukkoa {päänsärky, lämpötila} alkuperäisen attribuuttijoukon {päänsärky, lihaskipu, lämpötilaa}supistetuksi (reduct) joukoksi Tarkastellaan seuraavaksi esimerkin päätösattribuutia päätöksiin liittyviä samat arvot sisältäviä perusjoukkoja kutsutaan konsepteiksi (concepts) esimerkin päätösattribuutin konseptit määrittelevät terveiden ja sairaiden potilaiden joukot ja ovat siis {e1,e4,e5} ja{e2,e3,e6} päänsärky lämpötila Tila e1 Y normaali terve e2 Y korkea sairas e3 Y hyvin korkeasairas e4 N normaali terve e5 N korkea terve e6 N hyvin korkeasairas T2:Supistettu informaatiotaulukko Supistetusta informaatiotaulukosta nähdään suoraan attribuuttien väliset riippuvuussäännöt: 1.(lämpötila, normaali) =>(tila, terve) 2.(päänsärky, ei)ja(lämpötila, korkea)=>(tila, terve) 3.((päänsärky, kyllä)ja(lämpötila, korkea)=> (tila, sairas) 4.(lämpötila, hyvin korkea)=>(tila, sairas) Lisätään seuraavaksi supistettuun informaatiotaulukkoon vielä kaksi objektia e7 ja e8, jolloin saadaan seuraavanlainen informaatiotaulukko päänsärky lämpötila Tila e1 Y normaali terve e2 Y korkea sairas e3 Y hyvin korkeasairas e4 N normaali terve e5 N korkea terve e6 N hyvin korkeasairas e7 N korkea sairas e8 N hyvin korkeaterve T3: Epäkonsistentti informaatiotaulukko 3

Perusjoukot attribuuteille "päänsärky" ja "lämpötila" ovat nyt {e1},{e2},{e3},{e4} {e5,e7}ja{e6,e8} sekä konseptit päätösattribuutille {e1,e4,e5,e8} ja {e2,e3,e6,e7} Taulukosta havaitaan, että päätösattribuutti ei riipu tila-attribuuteista, sillä perusjoukot {e5,e7} sekä {e6,e8} eivät ole konseptien osajoukkoja Taulukon sanotaan olevan epäkonsistentti(inconsistent), koska objektit e5 ja e7 sekä e6 ja e8 ovat ristiriidassa keskenään rough set-teoria tarjoaa mahdollisuuden epäkonsistenttien tilanteiden käsittelemiseen Kullekin konseptille määritetään ala- ja yläapproksimaatio (lower, upper approximation) konseptin ala-approksimaatioon kuuluvat ne perusjoukot, jotka ovat sen osajoukkoja, konseptin "sairas" ala-approksimaatio on siis {e2,e3} konseptin yläapproksimaatioon kuuluvat kaikki alkiot niistä tila-attribuuttien perusjoukoista, joiden joku alkio kuuluu konseptiin, konseptille "sairas" saadaan siis yläapproksimaatio {e2,e3,e5,e6,e7,e8} ala-approksimaatiosta johdettuja sääntöjä kutsutaan varmoiksi säännöiksi sekä yläapproksimaatiosta johdettuja mahdollisiksi säännöiksi Esimerkin tapauksessa saadaan varmat säännöt 1.(lämpötila, normaali) =>(tila, terve) 2.(päänsärky, kyllä)ja(lämpötila, korkea)=> (tila, sairas) 3..(päänsärky, kyllä)ja(lämpötila, hyvin korkea)=>(tila, sairas) sekä mahdolliset säännöt: 1.(päänsärky, ei) =>(tila, terve) 2.(lämpötila,normaali)=>(tila, terve) 3. (lämpötila,korkea)=>(tila, sairas) 4. (lämpötila, hyvin korkea)=>(tila, sairas) 4

Epävarmuuden mittaaminen Ala-approksimaation laatu :alaapproksimaatiojoukon alkioiden määrän ja kaikkien objektien määrän suhde Yläapproksimaation laatu: yläapproksimaatiojoukon alkioiden määrän ja kaikkien objektien määrän suhde (vrt. Dempster-Shaferin uskomusfunktio) esimerkin ala- approksimaation laatu on siis 0.25 ja yläapproksimaation laatu 0.75 Rough set-teoria päätöksenteossa Usean attribuutin luokitteluongelma (multiattribute sorting) multi-attribute multi-sorting problem multi-attribute description of decision situations päätöksen seurausten riippuvuuksien havaitseminen Esimerkki konfliktianalyysista (multi-attribute description) :Lähi-idän tilanne(1994) Objekteina Lähi-idän valtiot: 1.Israel,2.Egypti,3.Palestiinalaiset, 4.Jordania, 5.Syyria, 6.Saudi-Arabia Attribuutit: a.itsenäinen Palestiinalaisvaltio Länsirannalla ja Gazan alueella b.israelin sotilastukikohdat Jordan-joen varrella c.itä-jerusalem Israelin hallussa d.israelin sotilastukikohdat Golanin kukkuloilla e. Arabivaltioiden takaama kansalaisuus alueillaan oleville palestiinalaisille Informaatiotaulukko Seuraava informaatiotaulukko kuvaa kyseisten valtioiden asennetta kuhunkin kysymykseen arvo -1tarkoittaa kielteistä, 1 myönteistä sekä 0 neutraalia suhtautumista kysymykseen a b c d e Israel -1 1 1 1 1 Egypti 1 0-1 -1-1 Palestiina 1-1 -1-1 0 Jordania 0-1 -1 0-1 Syyria 1-1 -1-1 -1 SaudiArabia 0 1-1 0 1 T4: Informaatiotaulukko Lähi-idän tilanteesta 5

Havaitaan, että alkuperäisen attribuuttijoukon supistetut joukot ovat {a,b,e} ja{b,d,e}, attribuutit e ja b ovat tärkeimmät a ja d ovat toisilleen päinvastaiset, joten kumpi tahansa voidaan ottaa mukaan supistettuun informaatiotauluun: a b e Israel -1 1 1 Egypti 1 0-1 Palestiina 1-1 0 Jordania 0-1 -1 Syyria 1-1 -1 SaudiArabia 0 1 1 T4: Supistettu Informaatiotaulukko Eri valtioiden välisten konfliktien astetta voidaan analysoida kertomalla objektien attribuuttiarvot (-1,0,1) keskenään sekä jakamalla tämä attribuuttien määrällä Seuraavassa taulukossa on kaikkien valtioiden välisten konfliktien asteet, arvot väliltä -1..1, jossa -1 vastaa täydellistä konfliktia, 0 neutraalia tilannetta ja 1 täydellistä yksimielisyyttä Israel Egypti Palestiina Jordania Syyria SaudiArabia Israel Egypti -0,8 Palestiina -0,8 0,6 Jordania -0,6 0,4 0,4 Syyria -1 0,8 0,8 0,6 SaudiArabia 0,2 0 0 0,2 0,2 T6: Lähi-idän välisten valtioiden konfliktien asteet Kotitehtävä Esimerkissä on kuvattu Lähi-idän tilannetta vuonna -94, PLO:n ja Israelin välisen rauhansopimuksen solmimisen aikoihin Mieti, millainen on tilanne tänä päivänä, ovatko kaikki taulukko T4:n attribuutit ja niiden arvot paikkansapitäviä tai relevantteja nykyisin? Pitäisikö taulukkoon lisätä muita attribuutteja tai objekteja? 6