Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Samankaltaiset tiedostot
CIRI Ontologiaperustainen tiedonhakuliittymä

Sisällönhallinnan menetelmiä

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Visio tulevaisuuden Webistä. Semantic Web - kohti uutta merkitysten Internetiä. Ratkaisumalli 1: Älykkäämmät sovellukset. Vision este Webissä

Avoin data Avoin kirjasto Kuvailupäivät

8 Tiedonhaun apuvälineet

Tiedonlouhinta ja sen mahdollisuudet

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Metatiedot organisaatioiden sisällönhallinnassa

Kielitieteellisten aineistojen käsittely

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Jarmo Saarti Kirjastojuridiikan ajankohtaispäivä Kirjastot ja datamining, tutkijan ja kirjaston näkökulmat

Luento 12: XML ja metatieto

ARVO - verkkomateriaalien arviointiin

Semanttisen webin käyttöliittymäratkaisut. Tiedonhallinta semanttisessa webissä Osma Suominen

XML Finland seminaari : Office 2007 XML dokumenttituotannossa

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

R intensiivisesti. Erkki Räsänen Ecitec Oy

Miten Finna muuttaa sisällönkuvailua vai muuttaako?

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

Johdatus rakenteisiin dokumentteihin

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

Poikkeavuuksien havainnointi (palvelinlokeista)

Sivuston tiedotemreemir.com

W3C-teknologiat ja yhteensopivuus

Finna ja ontologiat tms.

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Sivuston tiedotqbooksupportpho nenumber.com

W3C ja Web-teknologiat

Paikkatietotuotteen määrittely

Sivuston tiedottools.seo-zona.ru

Metatietojen merkitys tiedonhallinnassa

Sisällönanalyysi. Sisältö

Sivuston tiedotgoogle.com

Datanhallinnan oppaan esittely mitä ovat IDA, AVAA, KATA, PAS, REMS? Johanna Blomqvist, CSC - Tieteen tietotekniikan keskus

Digitaalisen median tekniikat xhtml - jatkuu Harri Laine 1

Sivuston tiedotwindowsrepublic.com.au

Metatietojen merkitys tiedonhallinnassa

Sivuston tiedotaskgeek.io

Työkalu ontologioiden editointiin ja ontologiapohjaiseen tiedonhakuun

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

Semanttisen tietämyksenhallinnan mahdollisuudet sosiaalityön tiedonmuodostuksessa

AJAX-konsepti AJAX. Asynkronisuus. Nykyisten web-ohjelmien ongelmia. Asynchronous JavaScript And XML

Sivuston tiedotskillers.tech

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

Digitaalisen median tekniikat. Esteettömyys ja käytettävyys

Sivuston tiedottools.seo-zona.ru

Sivuston tiedotwixaccounting.com

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Digitaalisen median tekniikat. Esteettömyys ja käytettävyys Harri Laine 1

Tutkitaan sitten HTML-dokumenttien anatomiaa, jotta päästään käsiksi rakenteisten dokumenttien käsitteistöön esimerkkien kautta.

Web of ScienceTM Core Collection (1987-present)

Testausraportti. Orava. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Sivuston tiedotpechaticentr.ru

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Tutkijan informaatiolukutaito

Sivuston tiedotle-vintage.fr

Sivuston tiedotmysiteworthcheck.com

Tekoäly ja tietoturva Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

Proseduraalinen dokumentti: sisältö, rakenne ja ulkoasu yhdessä, esim. worddokumentti

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

WWW-ohjelmoinnin kokonaisuus. WWW-OHJELMOINTI 1 Merkkauskielet. Merkkauskielten idea. Merkkauskielet (markup languages) Merkkauskielten merkitys

Sivuston tiedotwebstatinfo.com

Tietokantajärjestelmien tulevaisuuden haasteet. Jan Lindström

Vaasan yliopiston toimintaa tukevat informaatiopalvelut ovat käytettävissä WWW:n kautta.

Analytiikan teknologiset trendit ja uudet mahdollisuudet HR:lle. Heikki Penttinen, OlapCon Oy

Datan analysointi ja visualisointi Teollisen internetin työpaja

Metatiedot lainsäädäntötiedon hallinnassa

PIKAOHJE Web of Science tietokantojen käyttöön

Vaatimusdokumentti. Orava. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Heikki Helin Metatiedot ja tiedostomuodot

Ensi askeleet semanttiseen webiin: tuotantoprojektin kokemuksia

digitaalinen media sitteitä tietosisäll ilytys digitalisoituminen

Kaksi kehittäjäädynaamiset

Sivuston tiedotsiteoptimer.com

Rakenteisten dokumenttien jatkokurssi, syksy 2006

Tietokantojen suunnittelu, relaatiokantojen perusteita

Sivuston tiedotreviewproducts.org

Sivuston tiedotdigitalagency.hyp ersaiyan.com

Automaattinen semanttinen annotointi

Sivuston tiedotmp3list.pro

W3C: teknologia ja (tieto)yhteiskunta

W3C ja Web-teknologiat

Talonmiehen tuokio klo KANSALLISKIRJASTO

W3C ja Web-teknologiat

Järjestelmäarkkitehtuuri (TK081702)

Sivuston tiedotakcp-sensor.de

Työskentelyosuuksien tulokset Kuntapilotti-projektin 2. työpajaseminaari

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

ARVOA PALVELUPROSESSIEN ANALYSOINNILLA

Sivuston tiedotakcpshop.de.websiteoutlook.com

Sivuston tiedotqbsupportcustom erservice.com

Sivuston tiedotmarking.seoonline.xyz

Transkriptio:

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Miika Nurminen (minurmin@jyu.fi) Jyväskylän yliopisto Tietotekniikan laitos Kalvot ja seminaarityö verkossa: http://users.jyu.fi/~minurmin/gradusem/ Jyväskylän Yliopisto 0 Tietotekniikan laitos

Tiedonlouhinta (Data Mining) Hand et al: Suurten, tiettyä tarkoitusta varten kerättyjen tietojoukkojen analyysiä, jonka tarkoituksena on löytää odottamattomia suhteita ja tiivistää dataa uusilla tavoilla, jotka ovat sekä ymmärrettäviä että käyttökelpoisia. Monitieteistä toimintaa: lähialueita ovat tilastotiede, tietokannat, koneoppiminen, hahmontunnistus, tekoäly ja visualisointi. Kehittyvä tieteenala: teoreettinen perusta on vielä muotoutumassa, mutta tiettyjen menetelmien ja algoritmien katsotaan kuuluvan tiedonlouhinnan osaksi. Maailma hukkuu tietoon Tulevaisuudessa yhä tärkeämpi tutkimuskohde. Jyväskylän Yliopisto 1 Tietotekniikan laitos

Tietämyksen muodostaminen tietokannoista (Knowledge Discovery in Databases) Data Valinta Esikäsittely Muunnos Tiedon louhinta Tulkinta Tietämys Tiedonlouhinta osana tietämyksen muodostamista Jyväskylän Yliopisto 2 Tietotekniikan laitos

Louhintatieteiden perhe Tiedonlouhinnan kohteena on perinteisesti ollut numeerisista ja luetelluista arvoista koostuva matriisi ( relaatiotietokannan taulu). Tarvitaan uusia tutkimusaloja monimuotoisen tiedon louhintaan. Tekstitiedon louhinta (Text mining, luonnollisen kielen käsittelyä) Web-louhinta (Web mining, WWW:n sisällön, rakenteen ja käytön analysointi.) Relaatiotiedon louhinta (Multirelational Data Mining, tutkii erilaisilla suhteilla toisiinsa liittyviä tietojoukkoja) Uusia tutkimusalueita odotettavissa kaupallisiin ohjelmistoihin markkinointitarkoituksessa keksittyjen termien myötä... Jyväskylän Yliopisto 3 Tietotekniikan laitos

Louhintamenetelmistä Klusterointi (samanlaisten alkioiden ryhmittely) Sisältää mm. hierarkkiset, osittavat (K-Means...), ruudukkoon ja keskinäiseen esiintymiseen perustuvat menetelmät. Samanlaisuus määritellään etäisyysmitan avulla. Luokittelu (tietoalkio pyritään sovittamaan johonkin ennalta määrätyistä luokista) Regressioanalyysi (tietoalkiolle määritetään numeerinen arvo) Assosiaatioiden ja peräkkäisten toimintojen etsintä (yhdessä esiintyviä tietueita) Jyväskylän Yliopisto 4 Tietotekniikan laitos

Tekstitiedon louhinta Tiedonlouhinnan ja luonnollisen kielen käsittelyn (Natural Language Processing) soveltamista tekstiin. Teksti rakenteetonta tai puolirakenteista tekstiä sisältävä dokumenttikokoelma. Hyödyntää ja laajentaa tiedonhaun (Information Retrieval) ja tiedonkeruun (Information Extraction) tekniikoita. Sovellusalueita: tiedonhaun tehostus klusteroinnilla, lyhennelmien muodostaminen, metatiedon generointi (digitaaliset kirjastot, semanttinen web) Jyväskylän Yliopisto 5 Tietotekniikan laitos

Tekstitiedon louhinta: Sovellusesimerkki CiteSeer-kirjasto (http://citeseer.nj.nec.com/cs). Jyväskylän Yliopisto 6 Tietotekniikan laitos

Rakenteisista dokumenteista Rakenteisuus (rajoittuen XML-muotoon) helpottaa tiedon louhintaa: Dokumentti voi kuvata sisältönsä merkityksiä rakenteellaan (Käyttäjän haun kannalta oleelliset elementit voidaan erotella). Pelkän tekstidatan lisäksi voidaan tutkia myös sivujen rakenteellisia yhtäläisyyksiä. Linkkejä analysoimalla voidaan arvioida dokumentin luotettavuutta tai linkitettyjen dokumenttien samanlaisuutta. Metatiedon avulla dokumenteista voidaan ilmaista lisätietoa yhtenäisellä kielellä (joilllakin sovellusalueilla myös yhtenäisellä käsitteistöllä ontologiat). Jyväskylän Yliopisto 7 Tietotekniikan laitos

Empiirinen osuus XML-dokumenttien klusterointisovellus (suunnitteilla). Ryhmittelee tietyn DTD:n mukaisen XML-dokumenttikokoelman sisällöltään läheisiin klustereihin ja visualisoi ne esim. itseorganisoituvalla karttalla (SOM). Dokumenttifragmentteihin perustuva hakutoiminto. Konfigurointi eri dokumenttityypeille (esim. määritellään etukäteen prosessointitapoja, joita asetetaan dokumenttityypin soveltuville elementeille). Klusterointialgoritmi ja dokumenttien etäisyysmitta ovat vielä työn alla (mahdollisia menetelmiä hyvin runsaasti...). Jyväskylän Yliopisto 8 Tietotekniikan laitos

Käyttöliittymä Tavoitteena visuaalinen näkymä dokumenttien esiintymistiheyksiin ja avainsanoihin KartOO-hakukoneen tyyliin. KartOO-hakukone (http://www.kartoo.com/). Jyväskylän Yliopisto 9 Tietotekniikan laitos

Elementtien prosessointitapoja Elementtityyppejä sovellettuna XHTML-tyyliseen dokumenttityyppiin. Otsikko (h1,h2) Sisältö (p,span,b,i,img-elementin alt-attribuutti) Linkki (a, href-attribuutit) Rakenteen kuvaus (body,div,table,ul,li) Ei-sisältö (script, kommentit) Metatieto (RDF-kuvaukset) Jyväskylän Yliopisto 10 Tietotekniikan laitos