4. Tekstikokoelmien analysointi ja tiedonhaku

Samankaltaiset tiedostot
Kevät 2004 Timo Honkela ja Kris- ta Lagus

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela)

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Laskennallinen data-analyysi II

Ohjelmoinnin peruskurssi Y1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Avainsanojen poimiminen Eeva Ahonen

Tiedonhakumenetelmät Tiedonhakumenetelmät, Helsingin yliopisto, tktk, k2014. H.Laine 1. Tiedonhaku Boolen haku Indeksit. Tiedonhaku?

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Laskennallinen data-analyysi II

Text Mining. Käyttöopas

Lumme-verkkokirjaston tiedonhaun opas Pieksämäen kaupunginkirjasto

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

T Luonnollisten kielten tilastollinen käsittely

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lineaarialgebra ja matriisilaskenta II Syksy 2009 Laskuharjoitus 1 ( ) Ratkaisuehdotuksia Vesa Ala-Mattila

CIRI Ontologiaperustainen tiedonhakuliittymä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Päivitetty Text Mining -käyttöopas

pitkittäisaineistoissa

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto, tktl, k2014. H.Laine 1

Mallipohjainen klusterointi

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

Lineaarialgebra ja matriisilaskenta I

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim.

3.2.2 Tikhonovin regularisaatio

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

1 Lineaariavaruus eli Vektoriavaruus

Ovid Medline käyttöohjeita (10/2010)

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman

802320A LINEAARIALGEBRA OSA I

Sovellettu todennäköisyyslaskenta B

Laskennallinen data-analyysi II

Ratkaisuehdotukset LH 8 / vko 47

Määritelmä Olkoon T i L (V i, W i ), 1 i m. Yksikäsitteisen lineaarikuvauksen h L (V 1 V 2 V m, W 1 W 2 W m )

Kertausta: avaruuden R n vektoreiden pistetulo

pitkittäisaineistoissa

MS-A0004/A0006 Matriisilaskenta

Ratkaisuehdotukset LH 3 / alkuvko 45

Ohjelmoinnin perusteet Y Python

Inversio-ongelmien laskennallinen peruskurssi Luento 3

6 Vektoriavaruus R n. 6.1 Lineaarikombinaatio

MS-C1340 Lineaarialgebra ja

8 Tiedonhaun apuvälineet

Algoritmit 1. Luento 1 Ti Timo Männikkö

Latinalaiset neliöt ja taikaneliöt

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

Johdatus matematiikkaan

6 MATRIISIN DIAGONALISOINTI

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Derivaatta: funktion approksimaatio lineaarikuvauksella.

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Laskennallinen data-analyysi II

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

=p(x) + p(y), joten ehto (N1) on voimassa. Jos lisäksi λ on skalaari, niin

Harjoitus 6 ( )

1 Sisätulo- ja normiavaruudet

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Inversio-ongelmien laskennallinen peruskurssi Luento 7

TIEDONHAKU INTERNETISTÄ

Mat Optimointiopin seminaari

Kanta ja Kannan-vaihto

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

9. Tila-avaruusmallit

802320A LINEAARIALGEBRA OSA II

Kanta ja dimensio 1 / 23

Dynaamisten systeemien teoriaa. Systeemianalyysilaboratorio II

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Vektoreiden virittämä aliavaruus

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Oppimistavoitematriisi

Lineaarialgebra ja matriisilaskenta I. LM1, Kesä /218

Web of ScienceTM Core Collection (1987-present)

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Transkriptio:

4. Tekstikokoelmien analysointi ja tiedonhaku Tiedonhaussa tehtävänä on hakea käyttäjän tiedontarvetta vastaavaa tietoa suurista dokumenttikokoelmista. Ongelmaa tutkittu vuosikymmenet erillään NLP-tutkimuksesta, johtuen erilaisista käytetyistä menetelmistä. Nykyisin lähentymistä, koska myös NLP:ssä tilastolliset menetelmät valtaavat alaa. Ad hoc retrieval - käyttäjä kirjoittaa hakulausekkeen ja systeemi vastaa palauttamalla joukon dokumentteja, joiden on tarkoitus vastata tiedontarpeeseen.

Exact match retrieval täsmälliset osumat Hakukriteerit määrittelevät täsmällisiä haettavia ominaisuuksia, ja vastauksena annetaan dokumentit jotka täyttävät nämä kriteerit täsmälleen. Tämä hakutyyppi on käytössä monissa vanhemmissa tietokannoissa [esim. kirjastojen cdrom-tietokannat] Tunnetuin alalaji: Boolen haut, joissa haettavan dokumentin kriteerit yhdistetään Boolen logiikan avulla. Lähestymistapa toimii kohtuullisesti pienillä ja homogeenisilla kokoelmilla, kokeneen hakijan käytössä. Ongelmia etenkin suurilla ja heterogeenisilla kokoelmilla: Tuloksena voi olla tyhjä joukko tai valtava määrä osumia ei voi tietää ennalta. 1 Käyttäjän on hyvin vaikea rajata haku siten että saisi juuri haluamansa dokumentit, mutta mahdollisimman vähän roskaa.

Saman sisällön voi ilmaista monella eri tavalla täsmällisen haun systeemeissä pitäisi nämä kaikki tavat ilmaista täsmällisesti, ja toisilleen vaihtoehtoina. Haun tulokset eivät ilmesty paremmuusjärjestyksessä (koska kaikki ovat yhtä hyviä). Ei tiedetä paljonko ja minkälaisia lähes yhtä hyviä dokumentteja oli. Ranking Järjestetyt osumat Täsmällisen osumajoukon palauttamisen sijaan järjestetään kaikki dokumentit paremmuusjärjestykseen sen mukaan, miten hyvin ne vastaavat hakulauseketta tai muulla perusteella (vrt. esim. Google / PageRank). Lähestymistapoja esim. probabilistinen haku ja johonkin samankaltaisuusmittaan perustuva haku. Nykyään täsmähakua yleisempi hakujärjestelmätyyppi. 2

Sanojen selityksiä haku (query): hakusana, hakulause, hakulauseke. Se millä haetaan. termi, indeksointitermi: Sanastoon kuuluva sana, siis osa dokumenttien representaatiota. Kaikki sanat eivät ole termejä. Termien ei edes tarvitse välttämättä olla sanoja: ne olla myös sanojen alkuosia (esim. 5 ensimmäistä kirjainta) tai sanojen perusmuotoistettuja muotoja. Termeihin voi kuulua myös geneerisiä koodeja. Relevanssi (relevance): vastaavuus hakulauseen (tai sen tarkoituksen) kanssa. Relevanssipalaute (Relevance feedback): tapa jolla käyttäjä voi interaktiivisesti tarkentaa ja uudelleenkohdentaa hakuaan, antamalla palautetta siitä kuinka hyviä systeemin antamat dokumentit olivat. Ad-hoc-hauissa eräs tutkimuskohde. suodatus (filtering), reititys (routing): tekstinkategorisoinnin erikoistapaus; kategorisoidaan dokumentit relevantteihin ja ei-relevantteihin. 3

4.1 Tiedonhakujärjestelmien perusosia Käänteisindeksi (inverted index) Osoittimet sanoista dokumentteihin, sekä frekvenssit dokumenteissa. Joskus myös osoittimet tekstipositioihin dokumentissa. Sulkusanalista (stop word list) Lista sanoista joiden indeksointi estetään, yleensä aineistoriippumaton. Listaan valitaan sanoja joita pidetään hakujen kannalta hyödyttöminä tai häiritsevinä. Esim. kieliopilliset tai funktiosanat, mm. suljettujen sanaluokkien sanat kuten pronominit. Voi sisältää myös muita yleisiä, indeksoinnin kannalta melko tyhjiä sanoja (esim. apuverbit ja muut yleisimmät verbit kuten mennä, tulla ) Osuu jossain määrin päällekkäin yleisimpien sanojen listan kanssa. 4

Sulkusanalista vähentää merkittävästi indeksin kokoa, koska monet estettävistä sanoista yleisiä. Huono puoli on että sulkusanalistalla olevat sanoilla ei voi hakea, esim. milloin ja missä sisältää pelkästään sulkusanalistasanoja. Vrt. myös it magazine. Stemming (juureksi palautus) tai perusmuotoistaminen Stemming on approksimaatio morfologiselle analyysille. Siinä poistetaan sanoista päätteiksi katsotut pätkät, tarkoituksena saada pelkkä sananvartalo. Vartaloita käytetään indeksointitermeinä. Esimerkkejä mahdollisista vartaloista ja sananmuodoista: 5

Vartalo laughgalletsiyööiaikaajajat- Vartalon sananmuotoja laughing, laugh, laughs, laughed gallery, galleries (ongelma: gall) etsiskellä, etsittiin, etsin yöllinen, yötön, yöllä öisin, öinen aikana, aikaan, aikaa ajallaan, ajaton, ajat, ajoissa ajatella, ajatus (ongelma: vrt. ed.) Kuten esimerkeistä näkyy, stemming on rankasti yksinkertaistava ratkaisu, ja sopii huonosti esim. suomen kielelle. Yhdellä perusmuodolla voi olla useita eri hakuvartaloita. Vartalon katkaisukohdan valinta on jossain määrin mielivaltainen kompromissi spesifiyden ja kattavuuden välillä. Suomen sanojen perusmuotoistus on mahdollista tehdä esimerkiksi TWOLilla (Koskenniemen 2-tasomalli). 6

4.2 Hakumenetelmien evaluointimittoja N = dokumenttimäärä, joka hakujärjestelmää pyydettiin palauttamaan REL = tälle haulle relevanttien kokonaismäärä dokumenttikokoelmassa rel = tälle haulle relevanttien lukumäärä palautetussa dokumenttijoukossa Tarkkuus ja saanti Perusmitat hakujärjestelmien evaluoinnissa. Tarkkuus l. precision P: Relevanttien osuus vastaukseksi saaduista dokumenteista, P = rel/n Saanti l. recall R: Vastaukseksi saatujen relevanttien osuus kaikista relevanteista, R = rel/rel. Kun palautettavien lukumäärä nousee, tarkkuus tyypillisesti laskee ja saanti kasvaa. 7

Tarkkuus-saanti -käyrä: 8

Esimerkki soveltamisesta menetelmien vertailuun (%= relevantti, x=epärelevantti dokumentti): Mitta Menetelmä 1 Menetelmä 2 Menetelmä 3 d1: % d10: x d6: x d2: % d9: x d1: % d3: % d8: x d2: % d4: % d7: x d10: x d5: % d6: x d9: x d6: x d5: % d3: % d7: x d4: % d5: % d8: x d3: % d4: % d9: x d2: % d7: x d10: x d1: % d8: x Tarkkuus kun n=5 1.0 0.0 0.4 Tarkkuus kun n=10 0.5 0.5 0.5 Interpoloimaton tarkk. 1.0 0.3544 0.5726 Interpoloitu (11-pist.) 1.0 0.5 0.6440 9

Jos ajattelee lukevansa hakukoneen palauttamaa listaa ylhäältä alkaen, menetelmä 1 on näistä selvästi paras. Kuitenkin tarkkuus 10 dokumentin kohdalla on niille sama. Huonoa: tarkkuus ja saanti eivät huomioi tulevatko oikeat osumat alku- vai loppupäässä. Siksi on olemassa myös muita mittoja. F-mitta Toinen tapa mitata tarkkuutta ja saantia yhtäaikaa, yhdellä mitalla: 1 F = α 1 + (1 α) 1 P R jossa R on recall (saanti) ja P precision(tarkkuus). (1) Voidaan käyttää evaluoimaan menetelmiä kun palautettavien dokumenttien lukumäärä on kiinnitetty ja halutaan huomioida sekä tarkkuus että saanti. 10

Menetelmien vertailu Yleensä luvut keskiarvoistetaan useiden hakujen (esim. 50) yli, ja verrataan menetelmien saamia keskiarvoja. Lisäksi pitäisi tehdä tilastollinen testi (esim. t-testi) jolla varmistetaan havaittujen erojen tilastollinen merkitsevyys. TREC: Text retrieval competition TREC on kansainvälinen vuosittainen tiedonhaun kilpailu jossa eri sarjoja (esim. monikielinen tiedonhaku). Aluksi jaetaan aineisto, jolla menetelmänsä hyvyyttä voi tutkia ja optimoida menetelmää. Testiaineisto annetaan sokkona eli kilpailijat eivät saa tietää oikeita vastauksia (ts. mitkä dokumentit ovat relevantteja millekin haulle). Lopuksi julkaistaan relevanssitiedot kullekin dokumentille sekä lasketaan kun- 11

kin menetelmän hyvyydet keskitetysti samoilla mittareilla. 12

Ongelmanasettelun ja evaluoinnin ongelmallisuudesta Edellä esitetyn evaluoinnin taustalla on periaate: Probability ranking principle (PRP): On optimaalista järjestää dokumentit niiden relevanssin todennäköisyyden mukaan, ts. relevanteimmiksi estimoidut ensin. Poikkeuksia/ongelmia: PRP olettaa että dokumentit ovat riippumattomia, mutta todellisuudessa näin ei ole. Esim. duplikaatit, tai dokumentit jotka muuten toistavat päällekkäistä informaatiota jonkin edellisen kanssa: Käyttäjä ei ehkä halua lukea samaa asiaa monesta lähteestä, vaan pikemminkin saada kattavan kuvan hyvistä hakua vastaavista dokumenteista. PRP olettaa että peräkkäisten hakujen sarjassa haut ovat toisistaan riippumattomia, ts. että kyse on yksittäisistä toisiinsa liittymättömistä kysymys- 13

vastaus-pareista. Kuitenkin parhaimmillaan kyse on pikemminkin dialogista, jonka aikana kyselijän tiedon tarve tarkentuu, laajentuu tai uudelleenkohdistuu ymmärryksen kasvaessa. Peräkkäiset haut ovat siis toisistaan riippuvia. 14

4.3 Vektoriavaruusmalli Vector space model, VSM (G. Salton et al, 1975) Yleisesti käytetty standardimenetelmä. Dokumentti esitetään vektorina, jonka dimensioita ovat sanaston sanat (indeksointitermit), ja dimension arvona jokin funktio termin frekvenssistä dokumentissa ja sen painosta, joka ei riipu tästä dokumentista Dokumentit ja hakulause esitetään samassa vektoriavaruudessa. Hakua lähimpänä olevat dokumentit palautetaan. Etäisyydet lasketaan tyypillisesti nk. kosinietäisyyksinä, joskus myös Euklidisena etäisyytenä. 15

Yleisesti käytetty termien painotusmenetelmä: tf.idf tf: term frequency idf: inverse document frequency IDF yhdistää termin lokaalin merkittävyyden eli esiintymistiheyden tietyssä dokumentissa sekä termin globaalin merkittävyyden eli esiintymistiheyden koko aineistossa tai dokumenteissa. Notaatio: tf t,d = termin w t lukumäärä dokumentissa d df t = niiden dokumenttien lukumäärä joissa termi w t esiintyy cf t = termin frekvenssi koko kokoelmassa Näiden huomioiminen voidaan tehdä monella eri tavalla. Eräs vaihtoehto: w(i, j) = (1 + log(tf t,d )) log N df t (2) 16

jossa N on dokumenttien lukumäärä kokoelmassa. Eri tf.idf-komponentteja taulukossa: termifrekvenssi dokumenttifrekvenssi normalisointi n (natural) tf t,d n (natural) df t n (none) l (logarithm) 1 + log tf t,d t log N df t c (cosine) a (augmented) 0.5 + 0.5tft,d max t(tf t,d ) 17

4.4 Latenttien muuttujien menetelmät Aiemmin hyödynnetty dokumentin representoinnissa vain tietoja yksittäisten sanojen esiintymistä Ongelma: Ei käytä minkäänlaista tietoa sanojen semanttisesta samankaltaisuudesta (kahden sanan keskinäinen etäisyys oletetaan samaksi, sanoista riippumatta) Ratkaisu: Jos voidaan projisoida sanat ja dokumentit jonkinlaiseen latenttien semanttisten piirteiden avaruuteen ja suorittaa etäisyyslaskenta siellä. Hyödynnetään semanttisen avaruuden muodostamisessa sanojen yhteisesiintymätietoja. Esim. jos sanat HCI, vuorovaikutus, käyttäjä ja käyttöliittymä esiintyvät poikkeuksellisen usein yhdessä (tässä: samoissa dokumenteissa), voidaan olettaa että ne liittyvät semanttisesti toisiinsa. 18

Latent Semantic Indexing-menetelmä (LSI) Perusajatus: tehdään sana-dokumenttimatriisille singulaariarvohajotelma eli SVD (Singular Value Decomposition), ja otetaan lopputulokseen mukaan vain avaruuden R merkitsevintä dimensiota. Lähtökohta: W eli dokumentti-sana-yhteisesiintymämatriisi, jonka alkiot ovat jokin funktio sanan lukumäärästä dokumentissa. Esim. w i,j = (1 ɛ i c i,j n j ), jossa c i,j on sanan i määrä dokumentissa j, n j on dokumentin j sanojen kokonaismäärä, ja epsilon i on sanan i normalisoitu entropia koko korpuksessa. Myös tf.idf-painotuksia voidaan käyttää. Lasketaan R:n asteen SVD(W ): (Ŵ ) = USV T, jossa S on diagonaalimatriisi jonka diagonaalissa singulaariarvot ja U ja V tarvitaan sanojen ja dokumenttien projisointiin latenttiin avaruuteen. (T tarkoittaa matriisin transpoosia). SVD laskee optimaalisen R-ulotteisen approksimaation W:lle. 19

R:n arvoksi suositellaan 100-200. 20

Tulkinta LSI esittää dokumentin sisällön semanttisten piilomuuttujien ( abstraktien käsitteiden ) lineaarikombinaationa (summana). Piilomuuttujia on R kappaletta. Samankaltaisissa dokumenttiympäristöissä esiintyneet sanat saavat samankaltaisen latentin representaation. Projektioita latenttiin, semanttiseen avaruuteen voidaan soveltaa mm. tiedonhakuun, dokumenttien klusterointiin ja sanojen klusterointiin. 21

Riippumattomien komponenttien analyysi Vastaavalla tavalla kuin LSA voidaan sana-dokumenttimatriisille laskea toinen muunnos, nimittäin ICA, Independent component analysis eli riippumattomien komponenttien analyysi. Erona edelliseen on, että nyt etsitään latentit muuttujat (projektiosuunnat) jotka ovat mahdollisimman riippumattomia toisistaan jonkin tietyn jakaumien riippumattomuutta mittaavan mitan mielessä (esim. kurtoosi). ICA:n teoriaa ja mm. kieliteknologisia sovelluksia tutkitaan intensiivisesti Adaptiivisen informatiikan tutkimusyksikössä. 22

4.5 Dimension pienennys Vektoriavaruusmallissa vektorien dimensio on sanaston koko eli valtava. Vielä satojen tuhansien dokumenttien aineistossa sanasto voi olla yhtä suuri kuin dokumenttien määräkin uudet dokumentit tuovat yhä uutta sanastoa. Sanaston määrää kuitenkin pienentävät seuraavat esikäsittelyn toimet: sulkusanalistan käyttö (pieni vaikutus) harvinaisten sanojen karsiminen (huomattava vaikutus, koska suuri osa sanaston sanoista on harvinaisia, ks. Zipf in laki) sanojen perusmuotoistaminen (mutta suuri osa kohdatuista sanoista on lingvististä tietoa käyttävälle perusmuotoistavalle mallille aina tuntemattomia, joten tämä auttaa vain osaksi), tai sanojen katkaisu juurimuotoihin 23

Edellämainittujen jälkeenkin sanasto voi kuitenkin helposti sisältää kymmeniä tuhansia sanoja (indeksointitermejä). Mikäli vektoreita halutaan lisäksi ryhmitellä tai luokitella, monet oppivat menetelmät joiden kompleksisuus on vahvasti sidoksissa datan dimensioon, ovat vaikeuksissa. Seuraavilla menetelmillä voi dimensiota pienentää edelleen: LSI (on käytetty dokumenttien dimension pienennykseen) SOM (sanakartta, varhainen versio WEBSOM-menetelmästä) ICA (dimension pienennys on sivuvaikutus, mutta siis ainakin periaatteessa sovellettavissa) Satunnaisprojektio (on käytetty dokumenttien dimension pienennykseen) Näin ollen esim. LSI:n käyttöä voi perustella pelkästään dimension pienennysnäkökulmasta, välittämättä siitä parantuuko dokumenttien semanttinen 24

kuvaus vai ei. 25

Satunnaisprojektio Satunnaisprojektiossa otetaan tietyllä tavalla muodostettu satunnaismatriisi jota käytetään datavektorien projisointiin pienempiulotteiseen avaruuteen. n i - alkuperäinen dokumenttivektori dokumentille i R - satunnaismatriisi jonka kolumnit ovat normaalijakautuneita yksikkövektore Dimensionaalisuus on rdim ddim, ddim on alkuperäinen dimensio ja rdim uusi, rdim << ddim x i - uusi, satunnaisprojisoitu dokumenttivektori dokumentille i, vektorin dimensio rdim. Tällöin projisoidut dokumenttivektorit saadaan seuraavasti: x i = Rn i. (3) Dimension pienennyksessä on oleellista että projektion yksikkövektorit ovat mahdollisimman ortogonaalisia (ts. korrelaatiot vektorien välillä ovat mahdollisimman pieniä). R:n kohdalla vektorit eivät ole täysin ortogonaalisia, mutta mikäli rdim on riittävän suuri, ja vektorit on poimittu satunnaisesti 26

hyper-yksikköympyrän tasajakaumasta, keskimääräiset korrelaatiot ovat hyvin pieniä. rdim:lle tyypillisesti käytetyt arvot ovat luokkaa 100-1000. 27

4.6 Dokumenttikartat Dokumenttikarttoja tuotetaan Kohosen itseorganisoiva kartta (Self-Organizing Map, SOM) -menetelmää käyttäen. Kustakin dokumenttikokoelmaan kuuluvasta dokumentista muodostetaan vektoriesitys (ks. vektoriavaruusmalli) ja usein vektorien dimensiota jollakin em. menetelmistä pienentäen. TKK:lla dokumenttikarttojen tuottamisen menetelmiä on tutkittu WEBSOMtutkimuksen puitteissa erityisen aktiivisesti 1995-99. Nykyisin menetelmästä on runsaasti erilaisia variantteja ja sovelluksia eri aloilla. Käyttötapoja ovat mm. samoilu, assosiatiivinen haku, avainsanahaku ja suodatus (demonstraatio). 28