Avainsanojen poimiminen 5.10.2004 Eeva Ahonen
Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset
Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle Vain harvoissa dokumenteissa valmiina Automaattinen avainsanojen eristäminen auttaisi tiedonhakijaa
Menetelmät Ohjattu oppiminen Lausekkeiden luokittelu luokka 1: avainsana luokka 2: ei-avainsana Sanojen (lausekkeiden) piirteisiin pohjautuva malli Malli ennustaa uuden kandidaatin luokan
Menetelmät / C4.5 Dokumentin lausekkeet piirrevektoreina Harjoitusmateriaalissa jokaiselle vektorille määritetty luokka Materiaalista päätöspuu, joka yhdistää piirteet ja luokat freq_phrase > 10? Esim. no yes class 2 (non-keyphrase) class 1 (keyphrase)
Menetelmät / C4.5 Soft-threshold luokalle todennäköisyys Bagging useita puita, jotka äänestävät luokasta Bagging + soft-threshold äänestämisen sijaan todennäköisyyksien keskiarvo
Menetelmät / GenEx Extractor avainsanojen eristämis algoritmi Turney Toimintaan vaikutetaan 12 parametrillä Parametrien arvot Genitorilla Geneettinen algoritmi Populaatio koostuu parametrien arvokombinaatioista
Menetelmät / GenEx Yksilön laadun mittarina Extractorin palauttamien avainsanojen tarkkuus Mutaatiot Risteytykset Korkeammin pisteytetyille yksilöille enemmän jälkeläisiä Uusi yksilö korvaa heikoimman Lopputuloksena paras yksilö
Menetelmät / Bayes tilastollinen malli todennäköisyydet avainsanassa esiintyville piirteille piirteinä lausekkeen TF IDF paino ja etäisyys dokumentin alusta
Testaus Kuinka hyviä tuloksia saadaan tarkkuus verrattuna valmiisiin (kirjoittajan antamiin) avainsanoihin Opetteluun kuluva aika Kontekstisidonnaisuus
Testaus / C4.5 perusasetukset: bagging 50 puuta näytekoko 1 % luokat näytteessä 50 / 50 avainsanoja 5, 7, 9, 11, 13, 15 tuloksena keskiarvo tarkkuudesta / korpus
Testaus / C4.5 Baggingin vaikutus Puiden määrä 1, 25, 50 50 puuta parempi kuin 1 Hypoteesi oikea
Testaus / C4.5 Luokkien jakauma näytteessä Alun perin vinon jakauman tasoittaminen Positiivisia esimerkkejä 1, 25, 50 % näytteestä Tarkkuus laskee, kun positiivisten esimerkkien osuus kasvaa Hypoteesi väärä
Testaus / C4.5 Näytteen laajuuden vaikutus 1, 25, 50 % näyte Pienempi näyte, parempi tulos Hypoteesi oikea Bagging toimii parhaiten, kun yhdistettävät puut heterogeenisiä, laajempi näyte tasoittaa eroja
Testaus / C4.5 Parhaat tulokset 3. testissä epätasaisella luokkajakaumalla Parhaimmillaan lähes 30 % tarkkuus (tietylle korpukselle) Opetusvaiheen kesto n. 4 min
Testaus / GenEx Genitorin perusasetukset: populaation koko 50 koeajoja 1050 Testit vertaillen C4.5 Tulokset merkittävästi parempia Parhaat tulokset myös 30 % luokkaa Keskiarvo parempi Opetusaika 48 ja puoli tuntia
Testaus / Kea GenEx testien toisto samat materiaalit sama tuloksen laskenta (tarkkuus) > vertailukelpoisuus Tuloksissa ei tilastollisesti merkittäviä eroja Opetusaika 8 min O (n log(n)) / lausekkeiden lkm
Testaus / Kea Harjoitusmateriaalin laajuuden vaikutus 0-20 dokumenttia -> paljon merkitystä 20-50 dokumenttia -> vain vähän parannusta 50- dokumenttia -> tulos ei enää parane 50 dokumentilla saavutetaan maximisuoritustaso
Testaus / Kea 3. piirre mukaan malliin tietyn lausekkeen todennäköisyys olla avainsana Domain-kohtainen tieto Tulos paranee huomattavasti Materiaalin määrä vaikuttaa 100-1000 dokumenttia -> selvä vaikutus
Tuloksista Domain-kohtaisesti saavutettavissa parempia tuloksia > oppimisajan merkitys Harjoitusmateriaalin määrä rajallinen Tarkkuuden laskeminen > onko riittävä mitta?
Tuloksia Ovatko kirjoittaman avainsanat aina parhaat? GenExissä luetettiin tekstejä ihmisillä > 80 % avainsanoista hyväksyttäviä Tulokset ehkä parempia kuin laskennallinen prosenttiluku antaa ymmärtää