Avainsanojen poimiminen Eeva Ahonen

Avainsanojen poimiminen 5.10.2004 Eeva Ahonen

Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset

Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle Vain harvoissa dokumenteissa valmiina Automaattinen avainsanojen eristäminen auttaisi tiedonhakijaa

Menetelmät Ohjattu oppiminen Lausekkeiden luokittelu luokka 1: avainsana luokka 2: ei-avainsana Sanojen (lausekkeiden) piirteisiin pohjautuva malli Malli ennustaa uuden kandidaatin luokan

Menetelmät / C4.5 Dokumentin lausekkeet piirrevektoreina Harjoitusmateriaalissa jokaiselle vektorille määritetty luokka Materiaalista päätöspuu, joka yhdistää piirteet ja luokat freq_phrase > 10? Esim. no yes class 2 (non-keyphrase) class 1 (keyphrase)

Menetelmät / C4.5 Soft-threshold luokalle todennäköisyys Bagging useita puita, jotka äänestävät luokasta Bagging + soft-threshold äänestämisen sijaan todennäköisyyksien keskiarvo

Menetelmät / GenEx Extractor avainsanojen eristämis algoritmi Turney Toimintaan vaikutetaan 12 parametrillä Parametrien arvot Genitorilla Geneettinen algoritmi Populaatio koostuu parametrien arvokombinaatioista

Menetelmät / GenEx Yksilön laadun mittarina Extractorin palauttamien avainsanojen tarkkuus Mutaatiot Risteytykset Korkeammin pisteytetyille yksilöille enemmän jälkeläisiä Uusi yksilö korvaa heikoimman Lopputuloksena paras yksilö

Menetelmät / Bayes tilastollinen malli todennäköisyydet avainsanassa esiintyville piirteille piirteinä lausekkeen TF IDF paino ja etäisyys dokumentin alusta

Testaus Kuinka hyviä tuloksia saadaan tarkkuus verrattuna valmiisiin (kirjoittajan antamiin) avainsanoihin Opetteluun kuluva aika Kontekstisidonnaisuus

Testaus / C4.5 perusasetukset: bagging 50 puuta näytekoko 1 % luokat näytteessä 50 / 50 avainsanoja 5, 7, 9, 11, 13, 15 tuloksena keskiarvo tarkkuudesta / korpus

Testaus / C4.5 Baggingin vaikutus Puiden määrä 1, 25, 50 50 puuta parempi kuin 1 Hypoteesi oikea

Testaus / C4.5 Luokkien jakauma näytteessä Alun perin vinon jakauman tasoittaminen Positiivisia esimerkkejä 1, 25, 50 % näytteestä Tarkkuus laskee, kun positiivisten esimerkkien osuus kasvaa Hypoteesi väärä

Testaus / C4.5 Näytteen laajuuden vaikutus 1, 25, 50 % näyte Pienempi näyte, parempi tulos Hypoteesi oikea Bagging toimii parhaiten, kun yhdistettävät puut heterogeenisiä, laajempi näyte tasoittaa eroja

Testaus / C4.5 Parhaat tulokset 3. testissä epätasaisella luokkajakaumalla Parhaimmillaan lähes 30 % tarkkuus (tietylle korpukselle) Opetusvaiheen kesto n. 4 min

Testaus / GenEx Genitorin perusasetukset: populaation koko 50 koeajoja 1050 Testit vertaillen C4.5 Tulokset merkittävästi parempia Parhaat tulokset myös 30 % luokkaa Keskiarvo parempi Opetusaika 48 ja puoli tuntia

Testaus / Kea GenEx testien toisto samat materiaalit sama tuloksen laskenta (tarkkuus) > vertailukelpoisuus Tuloksissa ei tilastollisesti merkittäviä eroja Opetusaika 8 min O (n log(n)) / lausekkeiden lkm

Testaus / Kea Harjoitusmateriaalin laajuuden vaikutus 0-20 dokumenttia -> paljon merkitystä 20-50 dokumenttia -> vain vähän parannusta 50- dokumenttia -> tulos ei enää parane 50 dokumentilla saavutetaan maximisuoritustaso

Testaus / Kea 3. piirre mukaan malliin tietyn lausekkeen todennäköisyys olla avainsana Domain-kohtainen tieto Tulos paranee huomattavasti Materiaalin määrä vaikuttaa 100-1000 dokumenttia -> selvä vaikutus

Tuloksista Domain-kohtaisesti saavutettavissa parempia tuloksia > oppimisajan merkitys Harjoitusmateriaalin määrä rajallinen Tarkkuuden laskeminen > onko riittävä mitta?

Tuloksia Ovatko kirjoittaman avainsanat aina parhaat? GenExissä luetettiin tekstejä ihmisillä > 80 % avainsanoista hyväksyttäviä Tulokset ehkä parempia kuin laskennallinen prosenttiluku antaa ymmärtää