4. Dokumenttien indeksointi

Samankaltaiset tiedostot
1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

PIKAOHJE Web of Science tietokantojen käyttöön

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Web of ScienceTM Core Collection (1987-present)

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

CIRI Ontologiaperustainen tiedonhakuliittymä

Algoritmit 1. Luento 9 Ti Timo Männikkö

XML-tutkimus Jyväskylän yliopistossa

AKKREDITOITU TESTAUSLABORATORIO ACCREDITED TESTING LABORATORY VERKOTAN OY VERKOTAN LTD.

RAIN RAKENTAMISEN INTEGRAATIOKYVYKKYYS

ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

KV-järjestelmät suomelle

Simulation model to compare opportunistic maintenance policies

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Additions, deletions and changes to courses for the academic year Mitä vanhoja kursseja uusi korvaa / kommentit

Knowledge Management (KM) eli. tiedon/tietämyksen hallinta

Avainsanojen poimiminen Eeva Ahonen

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

Case: Ydinvoimalan käyttöautomaation allianssi

Tohtorixi. Pasi Tyrväinen , Päivitetty Prof. Digital media

LUONNOS RT EN AGREEMENT ON BUILDING WORKS 1 THE PARTIES. May (10)

SSTY:n EMC-seminaari. EMC ja sähköisten lääkintälaitteiden standardit. Ari Honkala SESKO ry

Collaborative & Co-Creative Design in the Semogen -projects

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

Rajoittamattomat kieliopit (Unrestricted Grammars)

Joonas Haapala Ohjaaja: DI Heikki Puustinen Valvoja: Prof. Kai Virtanen

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

OP1. PreDP StudyPlan

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Hakuohjeet Haku Tiedonhaun tulokset

6. Hyperteksti ja tiedonhaku. Hypertekstissä solmu on vahva, riittävä peruskäsite.

Automaattinen semanttinen annotointi

Harjoitus 1 ( )

Tutkinnonuudistus ja uudet DI-ohjelmat / Teknillinen fysiikka ja matematiikka. Infotilaisuus

Aalto-yliopiston sähkötekniikan korkeakoulu Korvaavuusluettelo

MUSEOT KULTTUURIPALVELUINA

Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.

Tarvitsetko kansainvälisiä tutkimuksia yhteiskuntatieteiden aloilta? klo 9:00-10:00 Maarit Putous & Tuula Rissanen

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

Page 1 of 9. Ryhmä/group: L = luento, lecture H = harjoitus, exercises A, ATK = atk-harjoitukset, computer exercises

Tiedonhaku ja varaaminen

pitkittäisaineistoissa

pitkittäisaineistoissa

Sivuston tiedotemreemir.com

Sisällys. Ratkaisumallien historia. Ratkaisumalli. Ratkaisumalli [2] Esimerkki: Composite [2] Esimerkki: Composite. Jaakko Vuolasto 25.1.

KODAK EIM & RIM VIParchive Ratkaisut

Virtuaalitiimit ja Luottamuksen merkitys virtuaaliorganisaatioissa. Mari Mykkänen Hallman-Yhtiöt

Tutkijan informaatiolukutaito

A-venäjän ylioppilaskokeen kehittämishanke

FYSE301(Elektroniikka(1(A3osa,(kevät(2013(

Informaatioteknologia vaikuttaa ihmisten käyttäytymiseen ja asenteisiin

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Sektoritutkimusohjelman ilmastoskenaariot SETUKLIM

Sivuston tiedotmysiteworthcheck.com

AKKREDITOITU TESTAUSLABORATORIO ACCREDITED TESTING LABORATORY

Ovid Medline käyttöohjeita (10/2010)

HITSAUKSEN TUOTTAVUUSRATKAISUT

Lukumummit ja -vaarit Sanavaraston kartuttamista kaunokirjallisuuden avulla

Copyright by Haikala. Ohjelmistotuotannon osa-alueet

Sähkötekniikan tutkintoohjelma. DI-tutkinto ja uranäkymät

Tietorakenteet ja algoritmit

Tutkinnonuudistus ja uudet DI-ohjelmat Master s Programme in Information Networks

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Tyyppiluokat II konstruktoriluokat, funktionaaliset riippuvuudet. TIES341 Funktio-ohjelmointi 2 Kevät 2006

Aihe: Kannattaako korkeaa verenpainetta hoitaa ace-estäjillä? Löytyykö aiheesta näyttöön perustuvia tutkimuksia (EBM)?

Esimerkkejä vaativuusluokista

HOIDOKKI hoitotieteellinen asiasanasto. Kristiina Junttila sanastotyöryhmän jäsen / SHKS kehittämispäällikkö / HUS

KÄYTTÄJÄKOKEMUS & KÄYTTÖLIITTYMÄSUUNNITTELU. CSE- C3800, Aalto , Eeva Raita

Digitalisaation rakenteellisista jännitteistä. Tero Vartiainen tieto- ja tietoliikennetekniikan yksikkö

Teollinen markkinointi ja kansainvälinen liiketoiminta. Pääaineen esittely

Sivuston tiedotakcpshop.de.websiteoutlook.com

Virheiden vaikutus konekäännöksen laatuun

Sähköpostin arkistointi

Algoritmit 1. Luento 1 Ti Timo Männikkö

SESKO ry LAUSUNTOPYYNTÖ 7/08 LIITE Toimisto (5) HUOM. Komiteoiden ja seurantaryhmien kokoonpanot on esitetty SESKOn komitealuettelossa

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Aalto-yliopiston sähkötekniikan korkeakoulu Korvaavuusluettelo

Kuvailulehti. Korkotuki, kannattavuus. Päivämäärä Tekijä(t) Rautiainen, Joonas. Julkaisun laji Opinnäytetyö. Julkaisun kieli Suomi

Making use of BIM in energy management

SCM Tuloskortti. Toimitusketjun hallinnan itsearviointi. Pekka Aaltonen Logistiikan Koulutuskeskus ECL Oy Ab alkaen LOGY Competence Oy

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

Tesauruksen rooli vapaatekstihaussa

Sukupolvien välistä vuorovaikutusta

Algoritmit 2. Luento 13 Ti Timo Männikkö

Digital Admap Native. Campaign: Kesko supermarket

Käytettävyyslaatumallin rakentaminen web-sivustolle. Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -suunnitelma Timo Laapotti 28.9.

HAVAITUT JA ODOTETUT FREKVENSSIT

Sisällönkuvailun tulevaisuus: YSA vai YSO?

Skannaaminen RightFaxiin. Pääkäyttäjän opas

Yksilöllistä, puhuroi, suorita - Mitä käyttöliittymien termien taakse kätkeytyy?

Kurssin koodi ja nimi Ryhmä Päivä Aika Sali Viikot Henkilöt Course code and name Group Day Time Lecture room Weeks Course staff

Rekisteröiminen - FAQ

Nordea Bank Abp. Nordea Bank Abp

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Elektroniikan, tietoliikenteen ja automaation tiedekunta Korvaavuusluettelo S-38 Tietoverkkotekniikka

CINAHL(EBSCO) käyttöohjeita (10/2010)

IEC Sähköisten/eletronisten/ohjelmoitavien elektronisten turvallisuuteen liittyvien järjestelmien toiminnallinen turvallisuus

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Auta asiakkaita löytämään kauppaasi! Terhi Aho/

Transkriptio:

Tiedonhakumenetelmät, k.01 1 Luku 4. Dokumenttien indeksointi 4. Dokumenttien indeksointi = sisällön kuvaus kyselyjä varten - content descriptor, profile (surrogate) - myös dokumenttien suhteet selvenevät Tähän asti: - käänteistiedosto voi olla täydellinen indeksi termin tai jopa termin esiintymä(kohda)n tarkkuudella - kaikki termit eivät ole tiedonhaun kannalta yhtä hyviä, yhtä kuvaavia termin paino: esiintymiskertojen lkm (likiarvo...) Millainen olisi hyvä indeksointi? - semantiikka, toteutus Indeksoinnin päävaihtoehdot: manuaalinen - asiantuntija tekee aihe (semantiikka vaikuttaa) indeksoinnin tekniikka - kirjoittaja itse, informaatikko - työläs - yhtenäinen vain, jos kiinteä asiasanasto (jos silloinkaan) automaattinen - tilastolliset menetelmät - lingvistiset menetelmät Tiedonhakumenetelmät, k.01 2 Luku 4. Dokumenttien indeksointi Nykyiset volyymit vaativat automatisointia. - riittävän hyvä tulos (hakutulokset!) - semantiikan approksimointi esim. sanojen frekvensseillä (~) Yleisiä näkökohtia / tavoitteita: kyselyjen tuki, ei itsetarkoitus objektiiviset kuvaukset - tekijä, julkaisija, aika, sarja, media, - sanojen esiintymiin perustuvat ei-objektiiviset kuvaukset - sisältö: teksti, informaatio yksittäinen termi / termi jossain kontekstissa - todellinen yhteys usein monimutkainen esim. sisällöllinen fraasi / (muuten) peräkkäin esiintyminen rajoitettu / vapaa sanasto vrt. ACM:n asiasanat tietokannan luonne: onko koko teksti vai vain kuvaavat metatiedot (viitetietokanta, abstraktitietokanta) Tiedonhakumenetelmät, k.01 3 Luku 4. Dokumenttien indeksointi ACM Classification system: General terms: algorithms, design, documentation, economics, experimentation, human factors, languages, legal aspects, management, measurement, performance, reliability, security, standardization, theory, verification. - yleisiä; käytetäänkö kyselyissä? Subject descriptors alaluokasta Contents analysis and indexing : abstracting methods, dictionaries, indexing methods, linguistic processing, thesauruses - aihekohtaisia, kuvaavia (Additional) keywords and phrases eli kirjoittajan itse valitsemat lienevät kuvaavimpia. Näiden valinta on epätriviaali ongelma: yksilöllisyys / yhteinen kieli! (vrt. otsikon valinta...) Tiedonhakumenetelmät, k.01 4 Luku 4. Dokumenttien indeksointi 4.1 Indeksoinnin semantiikka 1 termien riippuvuudet synonyymit: täydellinen osittainen riippuvuus [0,1] teoriassa, määrittely vaikeaa esim. lemmikki(eläin), koira, kissa vuodenaika, kesä, heinäkuu, 12.7.2000 muut yhteydet: antonyymit (~vastakohdat), homonyymit (hankalia) is-a - ja part-of -suhteet jne, yleisesti käsiteverkot (semanttiset verkot) yhteyksien perinteinen ilmaisumuoto: thesaurus (asiasanaluettelo) perustermi + siihen yhdistyvät termit (+ termin käyttötapoja ) NT narrower term BT broader term RT related term TT top term UF used for CL classification L-SP Spanish L-FR French

Tiedonhakumenetelmät, k.01 5 Luku 4. Dokumenttien indeksointi temperature BT climate RT pressure NT Celsius, Kelvin, absolute zero CL physics absolute temperature scale (fraasi) BT temperature scale RT Celsius temperature scale Kelvin temperature (vai BT, TT?) NT absolute zero point Muita apuneuvoja: selityssanasto (sanoille, lyhenteille) ATM Automated Teller Machine Asychronous Transfer Mode Anti Tank Missile - ei yhteistä semantiikkaa - tarpeen erityisesti homonyymeille Tiedonhakumenetelmät, k.01 6 Luku 4. Dokumenttien indeksointi 2 Sananmuotojen huomiointi lauserakenteet substantiivit vs. muut muotojen yhtenäistäminen (stemming) 1 päätteiden poisto -ing, -ed, -ly engineering, engineered! engineer 2 yleinen vartalon muodostus - kieliopillinen vartalo - pituuden huomiointi päätteet pois, mahdollinen katkaisu - erilaisia menetelmiä - kielisidonnaista, erityisesti suomi (?) user, users, used, using, usage! us vyö, vöitä!? marina, marinade, marine, marital! mari?? equipment, equivalence, equilateral!? Porterin algoritmi lienee tunnetuin (periaate esim. BYRN, Appendix: http://www.sims.berkeley.edu/~hearst/irbook/porter.html) Tiedonhakumenetelmät, k.01 7 Luku 4. Dokumenttien indeksointi 3 Fraasit - yksinkertainen lähtökohta: termi = sana - kieli > sanojen joukko! merkitys ilmaistaan usein monen sanan (termin) muodostamalla fraasilla computer science computer performance computer programming desktop computer Fraasien automaattinen muodostus: - kielen analysointi - termien ryhmittely - riippuvuuksien analysointi (tilastollisesti) Kielen analysointi - syntaktisia sääntöjä esim. (adjektiivi, substantiivi) (substantiivi, substantiivi) kielestä riippuvia vierekkäisyys / lähekkäisyys Tiedonhakumenetelmät, k.01 8 Luku 4. Dokumenttien indeksointi - automaattiset menetelmät tuottavat myös virheellisiä fraaseja käytännön tilanteesta: fraasi asian esiintymiä: high frequence transistor oscillator - mitkä kombinaatiot mielekkäitä fraaseja? text analysis system system analyzes the text text is analyzed by the system system carries out text analysis text is subjected to analysis by the system - entä synonyymit: text: document, information item analysis: processing, transformation system: program, process (lisää fraaseista erotteluarvon yhteydessä) information retrieval = retrieval of information - retrieval of most important information

Tiedonhakumenetelmät, k.01 9 Luku 4. Dokumenttien indeksointi 4.2 Indeksoinnin prosesseista Perusalgoritmi: 1. etsi kaikki eri sanat ja laske niiden frekvenssit 2. poista hukkasanat (stoplist) 3. poista sanoista päätteet (stemming) 4. laske sanojen (termien) Tj frekvenssit tfij jokaisessa dokumentissa Di 5. valitse indeksitermeiksi kynnysarvon ylittävät sanat tfij > k Hukkasanat? liian yleiset, merkityksettömät kontekstisidonnainen: yleinen teksti, aihekohtaiset lkm vaihtelee: 8, 200, 350, Tiedonhakumenetelmät, k.01 10 Luku 4. Dokumenttien indeksointi Hukkasanalistat ORBIT Search Service: - vain 8 sanaa! an and by from of the with Brown corpus: - from a broad range of literature in English - 425 sanaa: a about above across after again against all almost alone along already also although always among an and another any anybody... area case... face fact goods group interest member work - täytesanoja ei aina poisteta ollenkaan (erikseen) (suuri frekvenssi! jäävät pois sen takia) Tiedonhakumenetelmät, k.01 11 Luku 4. Dokumenttien indeksointi Termien painotus termillä dokumentissa suuri frekvenssi oikeita dokumentteja tulee mukaan (saanti kasvaa) termin frekvenssi suuri useissa dokumenteissa tarkkuus vähenee computer tietokonealan dokumenteissa / yleensä Hyvä indeksitermi: esiintyy usein hyvissä dokumenteissa esiintyy harvoin muualla => tf ij:n tilalle tulee löytää parempi valintakriteeri: lasketaan frekvenssi kokoelmassa (dfj) ja yksittäisissä dokumenteissa (tf i j) dfj = termin Tj dokumenttifrekvenssi N dokumentin joukossa ( kuinka monessa esiintyy ) idf = inverse document frequency = log(n/dfj ) wi j = termin Tj paino dokumentille Di = tfi j * log (N/dfj) algoritmi: kynnysarvo wi j:lle... Tiedonhakumenetelmät, k.01 12 Luku 4. Dokumenttien indeksointi Toinen perusta termin painolle: termin erotteluarvo dvj (discrimination value) dokumenttijoukon tiheys pieni <=> dokumentit kaukana toisistaan suuri <=> dokumentit lähellä toisiaan termin paino sen mukaan, lisääkö se dokumenttien etäisyyttä vai ei ( erotteleeko ) w i j = tf i j dv j Merkitään: Q = dokumenttijoukon tiheys Qj = joukon tiheys, kun on lisätty termi Tj Tällöin termin Tj erotteluarvo dvj = Q - Qj dv j = 0 dv j > 0 dv j < 0 pieni keskisuuri suuri dokumenttifrekvenssi tesaurusmuunnos

Tiedonhakumenetelmät, k.01 13 Luku 4. Dokumenttien indeksointi Tiheyden määritys? 1 dokumenttiparien similariteettien (samanlaisuusarvojen) keskiarvo: Q j = (1/N(N-1)) Σ Σ sim(d i, D k) i k i - samanlaisuusarvo? dokumenttien vektoriesityksestä: di = (di1, di2,..., dit) dij = 1 tai 0 (termin esiintyminen) Tiedonhakumenetelmät, k.01 14 Luku 4. Dokumenttien indeksointi Erotteluarvon suhde frekvenssiin? pieni frekvenssi: dvj 0 suuri frekvenssi: dv j < 0 keskimääräinen frekvenssi: dvj > 0 Erotteluarvo & indeksointi: tesaurusyhteydet lisäävät harvinaisen termin dokumenttifrekvenssiä fraasi vähentää liian yleisen termin dokumenttifrekvenssiä tavoitteena hyvä erotteluarvo - yleistys: termien painotus 2 dokumentin etäisyys joukon keskipisteestä (sentroidista) C = (c1, c2,..., ct) cj = (1/N) Σ dkj k Q = (1/N) Σ sim(c, Dk) Tiedonhakumenetelmät, k.01 15 Luku 4. Dokumenttien indeksointi 3 termien ryhmittely yhdistetään useimmin yhdessä esiintyvät termit (co-occurrence) termi/dokumentti - matriisi T 1 T 2... T 3 D 1 d 11 d 12... d 1t D2 d21 d22... d2t : : : : D n d n1 d n2... d nt dij = termin Tj merkitys dokumentille Di 1) sarakkeiden vertailu => yhdistetään läheiset termit 2) rivien vertailu => yhdistetään dokumentit ryhmiksi, sitten ryhmää kuvaavat termit = termien ryvästäminen single link / complete link: heikkoja / vahvoja Ongelmia: co-occurrence merkitysyhteys kohta 2: yhteyden pätevyys dokumenttiryhmän ulkopuolella? Tiedonhakumenetelmät, k.01 16 Luku 4. Dokumenttien indeksointi 4.3 Fraasien muodostaminen - tekstin perusteella, erotteluarvo termin frekvenssi suuri dv j pieni fraasin dvj suurempi - automaattisesti: 1 valitaan fraasin kahva (phrase head) - riittävä frekvenssi 2 liitetään kahvaan komponentteja - pieni frekvenssi - esiintyvät kahvan lähellä (3 hukkasanat jätetään pois) Effective retrieval systems are essential for people in need of information. kahvoja: systems, people, information vierekkäisyys (2 ): retrieval systems* systems essential essential people people need need information*

Tiedonhakumenetelmät, k.01 17 Luku 4. Dokumenttien indeksointi yhdessä esiintyminen (lisäksi): effective systems effective information* systems need retrieval information* effective people essential information* retrieval people (fraasien laatu?) - täydennetään menetelmää: 4 syntaktiset muodot, esim. (adj, subst) (subst, subst) retrieval systems* people need need information* 5 lauserakenne subjektifraasi, verbifraasi, objektifraasi effective retrieval systems are essential people in need of information Tiedonhakumenetelmät, k.01 18 Luku 4. Dokumenttien indeksointi 4.4 Tesaurusten muodostaminen - oikeat tesaurukset vaativat termien merkityksen tunnistamisen apuvälineitä; esim. konkordanssilistan muodostus - erilaiset esiintymät voivat paljastaa termin käytön eri merkityksissä - termien yhteyksiä voidaan päätellä myös niiden dokumenttiesiintymistä; tämä tieto voidaan kirjata tesauruksen muotoon termien tj ja tk samanlaisuutta voidaan mitata termi/dokumenttimatriisista sisätulolla: sim(t j, t k) = d ij d n i= 1 (vastaavasti esim. kosinikerroin) ik termit ryvästetään termiparien samanlaisuuksiin perustuen - single link / complete link: heikko / vahva yhteys Huom. tesauruksen käyttä vain tiedonhaussa, ei merkitystä ilmaisemassa - pätevyys riippuu silti vahvasti dokumenttijoukosta - menetelmän yhdistäminen olemassa oleviin termiluokkiin mahdollista Tiedonhakumenetelmät, k.01 19 Luku 4. Dokumenttien indeksointi - pseudoluokittelu: käytetään hyväksi tunnettujen dokumenttien ja kyselyjen (otosten) relevanssitietoja kyselyssä ja siihen nähden relevanteissa dokumenteissa esiintyminen lisää termien samanlaisuutta ja vie ne samaan tesaurusluokkaan - otosten tulee olla edustavia